Hoy en día vivimos en un mundo de constantes cambios, con un crecimiento exponencial en el desarrollo tecnológico, en una sociedad a la cual se le adjudican diversos calificativos, uno de ellos es el de la sociedad de la información y el conocimiento. Dichos calificativos de cierto modo son el producto del vertiginoso avance tecnológico mismo que ha influido en un crecimiento constante de datos, información y conocimiento.
De tal modo la enorme cantidad de información existente en las instituciones y en las empresas ha encontrado un caldo de cultivo adecuado para que numerosas compañías e instituciones entiendan que hay un hueco importante de necesidad y de negocio, en el desarrollo de herramientas que estandaricen y faciliten la creación, clasificación, publicación, gestión y control de la información para que que ésta pueda estar disponible de una forma ágil, sencilla y eficiente desde y para todos los usos, nuevos y viejos, necesarios todos ellos en el momento actual, lo cual se presenta como una parte trascendental en el desarrollo del profesional de la información el cual debe estar consciente de los retos actuales y futuros, así como del conocimiento en el manejo de la información.
Desde la óptica de la documentación podemos decir que el conocimiento se encuentra y estructura en documentos. Cuando ello ocurre procede una especie de re conversión del conocimiento en información y de esta en datos entendamos que existe una secuencia lógica de la relación para la generación del conocimiento como punto final generándose en el siguiente orden: dato – información – conocimiento.(1)
En este entorno los datos se vuelven parte primordial para la creación de información y posteriormente de conocimiento. En este ecosistema, y dicho sea grosso modo, los datos que pueden estar contenidos en bases de datos y/o en textos se vuelven elementos principales para el análisis, de aquí que se derive la minería de datos y la minería de textos (Data Mining & Text Mining).
Es de mencionar que en un estudio publicado en Science en el año 2011 se pretendía cuantificar la cantidad de información generada y almacenada en el mundo. Ese año el CEO de Google, Eric Schmidt, afirmó que la Humanidad había creado hasta 2003 una cantidad equivalente a 5 Exabytes, añadiendo que ahora esta cifra se generaba en 2 días.
En 2012 la empresa DOMO presento una infografía la cual nos menciona que cada minuto que pasa, los 2.700 millones de personas con acceso a Internet que se calcula que había en el mundo enviaban más de 200 millones de correos electrónicos, realizaba 2 millones de consultas a Google, subía 48 horas de vídeo a YouTube, escribía más de 100.000 Twitts, publicaba casi 30.000 nuevos artículos en sitios como Tumblr o WordPress y subía más de 6.000 fotografías a Instagram y Flickr.
Sin lugar a dudas cantidades apabullantes, difíciles de dimensionar y que seguramente elevan su crecimiento día a día, lo cual nos da indicios de que tanto la información como el conocimiento se generan cada vez a mayor velocidad y en ocasiones, se acumulan en enormes volúmenes en espera de un procesamiento adecuado. Es en este entorno en el que se hace uso de la minería de datos y la minería de textos.
Particularmente para este post me enfocaré más en la minería de textos, sin embargo cabe citar el texto “La minería de datos” de Juana Chunga Rodriguez , en el cual nos menciona que según Puente (2010) La “Minería de datos” o “Data Mining” es un conjunto de técnicas que consiste en la extracción de información relevante de un conjunto enorme de datos. Cabe destacar que dicha información es desconocida (y permite la generación de nuevo conocimiento) y al ser extraída resulta de suma importancia para un proceso (es la etapa de análisis de «Knowledge Discovery in Databases» o KDD).
Data Mining es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis en bruto, que involucra aspectos de bases de datos y gestión de datos, procesamiento de datos, el modelo y las consideraciones de inferencia, métricas de intereses, consideraciones de la Teoría de la complejidad computacional, post-procesamiento de las estructuras descubiertas, la visualización y actualización en línea.
Partiendo de esta definición del Data Mining, podemos extrapolar la misma idea a la Minería de Textos o Text Mining. Los datos a tratar con esta técnica serán, en lugar de los datos de las bases de datos, los documentos y textos de las organizaciones, administraciones, compañías, etc.
Debido a que el 80 por ciento de la información de una organización está almacenada en forma de documentos, las técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático, entre otras, apoyan a la minería de texto. En ocasiones se confunde el Text Mining con la recuperación de la información (Information Retrieval o IR) (Hearst, 1999). Esta última consiste en la recuperación automática de documentos relevantes mediante indizaciones de textos, clasificación, categorización, etcétera. Generalmente, se utilizan palabras clave para encontrar una página relevante. En cambio, la minería de texto se refiere al examen de una colección de documentos y el descubrimiento de información no contenida en ningún documento individual de la colección; en otras palabras, trata de obtener información sin haber partido de algo. (Nasukawa y otros, 2001) tratando de encontrar patrones ocultos.(2)
Por tanto, podemos decir que la Minería de Textos comprende tres actividades fundamentales:
- Recuperación de información, es decir, seleccionar los textos pertinentes.
- Extracción de la información incluida en esos textos: hechos, acontecimientos, datos clave, relaciones entre ellos, etc.
- Por último se realizaría lo que antes definíamos como minería de datos para encontrar asociaciones entre esos datos claves previamente extraídos de entre los textos.
En la literatura sobre el tema, se refiere que las aplicaciones de la minería de textos se utilizan principalmente para (3):
- Extraer información relevante de un documento.
- Agregar y comparar información automáticamente.
- Clasificar y organizar documentos según su contenido.
- Organizar depósitos para búsqueda y recuperación.
- Clasificar textos e indizarlos en el Web.
Adicionalmente la minería de textos se apoya en otras técnicas como (4):
- Categorización de texto
- Procesamiento de lenguaje natural
- Extracción y recuperación de la información
- Aprendizaje automático
Por otra parte, se considera que han quedado abiertos los horizontes hacia otras profesiones que están llamadas a cooperar con los profesionales de la información: diseñadores de sistemas, proveedores de datos, editores, vendedores, ingenieros y especialistas en codificación de texto electrónico, cuyas opiniones y experiencias permitan desarrollar las interfaces correspondientes que faciliten la localización, manipulación, recuperación y uso de la información digital. (5)
Analizar el lugar de la información y el conocimiento en las actuales condiciones del desarrollo de las TIC y caracterizar la minería de textos como herramienta para la gestión del conocimiento puede ser de elevada utilidad para los profesionales de la información, considerando los nuevos modelos de negocio, la gestión de la información, la documentación y el conocimiento.
La minería de datos y textos se perfila como un componente estratégico de primera magnitud, ya que ambas fungen como base para Bussines Inteligence (BI) y Big Data.
La orientación tradicional del carácter táctico de los proyectos de gestión de la información o de la documentación cambia cuando se considera un verdadero componente de la estrategia empresarial.(6)
La minería de textos puede ser un proceso que se lleve a cabo apoyado de software el cual permite el procesamiento. Entre las herramientas desarrolladas para extraer información, y que intentan inferir relaciones que no aparecen de forma implícita en esa información, pueden citarse: TextAnalyst, twURL, T-LAB, LexiQuest Mine, Text Miner y Weka.(2)
Finalmente el uso de la minería de datos y de textos, se puede dar principalmente a nivel empresarial, ejemplo de ellos son empresas de mercadotecnia, bancos, agencias gubernamentales y para el caso de las bibliotecas se presenta su aplicación en la “Bibliominería”. La minería de datos es una área de estudio que se está desarrollando cada vez con mayores capacidades gracias al avance en tecnología y a la cada vez más alta capacidad de los sistemas de cómputo. Constituye un campo amplio de investigación en el que cada vez se investiga y trabaja más.
Sitios consultados y recomendaciones.
1. Gutiérrez Cuevas, C. Diferencia entre gestión documental y gestión de contenidos. Foro de debate. Fundación Iberoamericana de conocimiento. Archivo de los mensajes publicados desde septiembre de 2001.
2. Citado en : Botta-Ferret, Eleazar y Cabrera-Gato, Jania E. Minería de textos: una herramienta útil para mejorar la gestión del bibliotecario en el entorno digital. ACIMED [En líne]. 2007, vol.16, n.4 [citado 2014-01-14], pp. 0-0 . ISSN 1024-9435.
3. Bordón L, D’Avanzo E. Perspectivas para la integración de la minería de textos y la gestión del conocimiento. The IPTS Report. No.85. 2004.
4. Minería de Textos o Text Mining
5. Torres Pombert, A. ¿Catalogación en el entorno digital?: una breve aproximación a los metadatos. Acimed. 2006;14(5).
6. Bustelo Ruesta, C. y García-Morales Huidobro E. Tendencias en la gestión de la información, la documentación y el conocimiento en las organizaciones. El Profesional de la Información. 2001;10(12):4-7.