Cómo averiguar a donde repercute la investigación científica:

Para qué sirve la minería de textos

Jesús Antonio del Río Portilla

http://www.cie.unam.mx/~arp/


En estos momentos vivimos la era de la información. Un fragmento privilegiado de la población, a través de la Internet, posee acceso a más información de la que puede procesar. Cuando hacemos una consulta en Internet, como respuesta de los buscadores, recibimos una gran cantidad información (miles cuando no millones de posibilidades) y quizás deseamos solamente quedarnos con los aspectos que nos son relevantes de dicha información. Los cursos de lectura rápida pudieron ser una alternativa hace unos veinte años, cuando teníamos que leer una decena de textos para obtener información. En la actualidad se requiere obtener la información importante de miles o millones de textos y por más rápida que sea nuestra lectura el obtener la esencia que nos interesa de estos textos llevaría más tiempo del que disponemos. En este sentido, se requiere una habilidad similar al minero que extrae las piedras preciosas de entre las comunes, para extraer las frases relevantes de los textos. Por esta razón, se ha buscado desarrollar herramientas computacionales que permitan identificar los aspectos que nos son importantes de los textos y con ellos obtener la información deseada.

mineria de textos

Con estos objetivos los lingüistas han adoptado perspectivas de análisis basadas en sus conocimientos de la estructura del idioma, por ejemplo usando análisis léxico de los textos y, con ello, determinar los aspectos relevantes del mismo. Otra perspectiva es la extracción de palabras o frases claves, que en su parte más simple son proporcionadas por los interesados para luego ser comparadas con los textos. Estas dos formas de abordar el problema generan códigos computacionales complejos, o que requieren la intervención de expertos en cada campo para extraer la información. Existen otras formas de obtener la información deseada sin poseer información previa y con algoritmos computacionales sencillos. Por ejemplo, al aplicar herramientas de la física estadística en la solución de este tipo de problemas, se pueden simplificar notoriamente el trabajo humano y computacional.

¿Qué tiene que ver la física en este asunto? Sucede que la física estadística ha abordado desde hace más de un siglo el estudio de sistemas, que ahora llamamos, sistemas complejos, donde no interesa conocer el detalle de los sistemas, sino una combinación de parámetros convenientemente escogidos para que nos describan los fenómenos que ocurren en estos sistemas complejos. Por ejemplo, sabemos que el aire está compuesto de átomos y que ellos se mueven todo el tiempo; es mas, el agua también está compuesta de moléculas que están en constante movimiento y la física estadística utiliza las mismas herramientas para describir los fenómenos que ocurren en estos dos sistemas. El fundamento de la física estadística radica en el hecho de que para describir algunos fenómenos no se requiere explicar el comportamiento de cada uno de sus elementos, sino que existen parámetros que pueden englobar el comportamiento de un gran número de componentes. Por ejemplo, el cambio de fase de líquido a vapor no es fácilmente descrito a través del conocimiento explícito de la forma en que se mueven cada una de las moléculas del agua; en cambio, sí podemos describir esta ebullición usando a la temperatura y presión del agua, que son los parámetros adecuados para describir esta transición de fase. Ya que basta conocer explícitamente la temperatura a la que hierve el agua a una presión dada. Claramente, aunque las moléculas tengan diferentes formas de movimiento individual, la presión y temperatura tienen valores definidos. En particular sabemos que a la presión de la costa el agua hierbe a 100 grados centígrados, en cambio en Cuernavaca (presión atmosférica menor a la del nivel del mar) lo hace a los 97 grados centígrados. A lo largo de una centuria, la física estadística ha mostrado que es una herramienta conceptual que permite seleccionar variables adecuadas en sistemas complejos.

Esta habilidad de la física estadística puede ser aplicada al análisis de la información y extraer los parámetros relevantes de los textos, es decir hacer minería de textos. Uno de los conceptos fundamentales de la física estadística es la entropía, concepto que está relacionado con las diferentes formas de poder encontrar un sistema si uno atiende a las variables microscópicas (conocimiento del movimiento de cada molécula), pero que desde el punto de vista macroscópico son indistinguibles (conocimiento de la presión y temperatura en el ejemplo anterior). Esta forma de visualizar los textos nos ha permitido encontrar las palabras o frases relevantes de textos y también encontrar textos similares, y por lo tanto, seleccionar la información que deseamos de entre el millar de posibilidades.

Las aplicaciones de la minería de textos no están ya tan lejanas. Por ejemplo, algunas empresas utilizan ya sistemas de minería de textos para identificar el contenido de los correos electrónicos que les envían sus clientes, y redirigirlos a los departamentos apropiados para su pronta atención en lugar de procesarlos manualmente. En otros casos, si el sistema es capaz de identificar el contenido de una consulta frecuente en un correo electrónico, envía una respuesta estándar, sin necesidad de intervención humana. Además, existe la posibilidad de usar esta técnica en la investigación de mercados en la Internet.

Como un ejemplo de esta metodología, aunque parezca imposible, podemos analizar ¿dónde impacta la ciencia que se desarrolla en Morelos? Para responder esta pregunta se pueden analizar los artículos que publican los investigadores morelenses, y para ello, se utiliza la minería de textos y así obtener los temas donde la ciencia desarrollada en el Estado tiene fortalezas. Este conocimiento puede ser utilizado para promover el desarrollo industrial basado en el conocimiento, ya que se conocerían los campos, áreas y tópicos de fortaleza en el estado. Como muestra veamos los resultados de esta aplicación de la física estadística a la minería de textos. En el año 1996 fueron publicados en revistas de circulación internacional 302 artículos, de cuyos autores al menos uno laboraba en Morelos. Sobre las fichas bibliográficas y los resúmenes de estos artículos se aplicaron estas ideas, con un software desarrollado en el CIE-UNAM. Es importante mencionar que sin leer los trabajos se obtuvieron los tópicos relevantes de esas investigaciones, para citar algunos ejemplos frecuentes podemos mencionar: etli (frijol), CdS thin films (películas delgadas semiconductoras), Darcy's law (Ley de Darcy, transporte de fluidos en medios porosos), female commercial sex workers (sexoservidoras), centruroides, (alacrán). En el año 2003 se publicaron 576 artículos y en ellos los tópicos relevantes fueron: mean blood lead levels (niveles medios de plomo en la sangre), asthma (asma), CdTe thin films (películas delgadas semiconductoras), global entropy generation rate (producción de entropía global), Con estas frases observamos que el espectro de las investigaciones en el Estado de Morelos es amplio y puede tocar puntos sensibles de la vida económica, social y tecnológica de la entidad. De estas palabras o frases se puede inferir que los investigadores en Morelos abordan problemas sobre el campo como el frijol; sobre los mantos acuíferos; sobre películas delgadas semiconductoras para dispositivos fotovoltaicos; antídotos para piquetes de alacranes; problemas sociales íntimamente ligados con la salud; sobre la contaminación de plomo en los humanos; la forma de optimizar los procesos a través de cálculos termodinámicos entre otros muchos tópicos de relevancia social y económica que interesan no solamente al estado sino al país.

La información anterior es un ejemplo de lo que se puede obtener con la minería de textos sin necesidad de leer los más de 800 trabajos publicados en esos dos años. Basta mencionar que los resultados anteriores fueron obtenidos en menos de un minuto aplicando las técnicas de la física estadística. En resumen, todo lo aprendido en física estadística y aplicado a la minería de textos indica que la ciencia básica tiene repercusiones más allá de donde imaginamos.


mineria de textos fisica

Documento creado el 28 de Febrero de 2005. Documento actualizado el 29 de agosto de 2006.

Una versión previa de este documento fue publicada en Hypatia No. 14, Año 5, enero-marzo, 2005 versión electrónica en http://hypatia.morelos.gob.mx/no14/docum_ento/documento.html.

Datos actualizados del Estado de Morelos pueden verse en: mi bitácora

La clasificación de Google de esta página es Check Page Rank

http://www.cie.unam.mx/~arp/