Número 13 (julio de 2012)

A la búsqueda del concepto clave

Mercè Vàzquez Garcia

Actualmente en la mayoría de ámbitos profesionales se genera de manera constante nueva información, que conviene tener recogida y clasificada para poder ser recuperada y reaprovechada. Para las organizaciones representa una importante inversión de tiempo y dinero organizar y hacer accesibles todos estos contenidos. Una posible salida al escollo de la gestión de la información en las organizaciones es la identificación de los conceptos clave que residen en los documentos con el objetivo de facilitar la clasificación temática y la futura recuperación.

La clasificación de contenidos por medio de la identificación de las palabras clave que contienen, permite tenerlos identificados a partir del tema central que tratan, una solución que se puede poner en práctica en paralelo a una clasificación documental basada en el área o el departamento donde se ha generado la información, si se trata de una empresa; o bien por ámbitos temáticos vinculados a unos determinados estudios o facultad, si se trata de una universidad.

 

En los últimos años se han desarrollado varios tipos de herramientas que tienen por objetivo identificar de manera automática conceptos relevantes de un determinado ámbito de especialización y que hacen posible ahorrar esfuerzo y recursos en el proceso de detección manual de las palabras o expresiones más significativas de un documento. La mayoría de herramientas que hay disponibles en la red y que son de acceso abierto realizan la selección de conceptos clave a partir del análisis lingüístico del texto, el contraste entre el corpus de especialidad que se desea analizar y un corpus de lengua general o bien haciendo uso de medidas estadísticas.

 

A continuación presentamos una compilación de herramientas de extracción terminológica que se encuentra disponible en la red.

 

Fastr (Christian Jacquemin, 1999) es una herramienta multilingüe que sirve para realizar indexación automática de contenidos. En la versión de acceso abierto ofrece el servicio de herramienta de extracción de terminología y extrae términos y sus variantes de un corpus. Esta herramienta está disponible para textos en francés e inglés, y tiene extensiones en alemán, japonés, catalán y español.

 

Yate (Jordi Vivaldi, 2001) es un extractor de terminología en línea que combina diferentes estrategias y el uso intensivo de información semántica. La particularidad que tiene este extractor es que sirve para documentos en catalán y español de tres ámbitos de especialidad: medicina, economía y genoma.

 

Acabit (Béatrice Daille, 2003) es una herramienta de extracción de terminología a partir del análisis de la categoría gramatical de las palabras que contiene el texto. El resultado de extracción se basa en patrones sintácticos y filtrado estadístico de los resultados. Esta herramienta está disponible para el francés y el inglés.

 

TermoStatWeb (Patrick Drouen, 2003) es un extractor de terminología en línea que tiene como funcionalidad básica comparar la distribución de palabras entre un documento o conjunto de documentos especializados (el corpus que se quiere analizar) y un corpus de lengua general usando diferentes medidas estadísticas, con el objetivo de identificar los conceptos clave del texto. Esta herramienta está disponible para textos en francés, inglés, español e italiano.

 

Yatea (Thierry Hamon y Sophie Aubin, 2006) recupera todos los sustantivos de un texto que se asemejan a  términos. La extracción de los sustantivos se hace a partir de patrones sintácticos y desambiguación léxica tomando como referencia el contexto del que se hace el vaciado. Esta herramienta está disponible para textos en francés e inglés.

 

TermExtractor (Francesco Sclano y Paola Velardi, 2007) es una herramienta de extracción de terminología en línea diseñada para la construcción de ontologías. Se basa en dos medidas estadísticas: domain consensus y domain rellevance. La primera se utiliza para seleccionar únicamente los términos que de manera consensuada hacen referencia al conjunto de documentos que queremos analizar. Y la segunda se usa para recuperar únicamente los términos que son relevantes en el ámbito de especialidad que analizamos. Esta herramienta está disponible para textos en inglés.

 

Terminus (IULA, 2009) es una herramienta de gestión terminológica que permite hacer el vaciado de conceptos clave a partir de documentos que tengamos disponibles para analizar o bien a partir de textos publicados en la red. La identificación de los conceptos se establece según la relación que éstos tienen y el contexto en el que aparecen. Esta herramienta está disponible para textos en catalán, francés, inglés, español e italiano.

 

TerMine (Nactem, 2009) es un servicio de vaciado de terminología en línea que ofrece el National Centre for Text Mining de la Universidad de Manchester. Realiza un análisis lingüístico con el fin de identificar los conceptos relevantes de un texto. Esta herramienta identifica sólo expresiones multipalabra y está disponible para textos en inglés.

 

Servicio de vaciado terminológico (Servicio Lingüístico y Tecnología Educativa de la UOC, 2011), aporta un conjunto de herramientas que permiten identificar los conceptos clave de un conjunto de documentos monolingües o multilingües y ver el contexto de uso. La identificación de los conceptos se hace a partir de la categoría gramatical de las palabras que hay en el documento, para asegurar la elección de conceptos. Y también a partir de la comparación del corpus documental que se quiere analizar con un corpus de lengua general, para asegurar la pertenencia del concepto al ámbito de especialidad. Esta herramienta está disponible para textos monolingües en catalán y textos bilingües en catalán, español e inglés.

 

Terminology Extraction Suite (Antoni Oliver, 2012) es una herramienta de extracción automática de terminología que identifica los conceptos más representativos de un corpus de especialidad a partir de la coocurrencia con que aparecen en el contexto que se desea analizar. Asimismo, esta herramienta permite la búsqueda de los equivalentes de traducción de dichos conceptos, en caso de que se deseen analizar corpus paralelos o comparados bilingües. Esta herramienta está disponible para textos escritos en cualquier lengua.

 

En definitiva, esta gran diversidad de herramientas y algoritmos dedicados a la recuperación automática de conceptos clave de contenidos especializados representan una alternativa clara al proceso de selección manual de este tipo de unidades y a la vez una nueva manera de trabajar entre los tecnólogos y los especialistas de cada ámbito de conocimiento. Así mismo, conviene tener presente que hace falta una mejora constante y continúa de este tipo de herramientas para adaptarse a nuevas necesidades, nuevos tipos de contenido y nuevas maneras de transmitir el mensaje.

 


Para saber más:

 

Frantzi, K.; Ananiadou, S; Mima, H. (2000). “Automatic recognition of multi-word terms”. International Journal of Digital Libraries 3(2), pp.117-132.


 

Aubin, S.; Hamon, Thierry (2006). “Improving Term Extraction with Terminological Resources”. Advances in Natural Language Processing 5th International Conference on NLP, pp. 380-387.

 

Daille, B. (2003). "Conceptual structuring through term variations". En: F. Bond, A. Korhonen, D. MacCarthy, A. Villacicencio (editors), Proceedings ACL 2003 Workshop on Multiword Expressions: Analysis, Acquisition and Treatment, pp. 9-16.

 

Jacquemin, C. (1999). “Syntagmatic and paradigmatic representations of term variation”. Proceedings of ACL99, pp. 341-348.

 

Sclano, F.; Velardi, P. (2007). “TermExtractor: a web application to learn the shared terminology of emergent web communities”. En: Enterprise Interoperability II: New Challenges and Approaches, pp. 287-290.

 

Vivaldi, J. (2003). Sistema de extracción de Candidatos a Término YATE. Manual de utilización. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra.

 

Cita recomendada

VAZQUEZ GARCIA, Mercè. A la búsqueda del concepto clave. COMeIN [en línea], julio 2012, núm. 13. ISSN: 1696-3296. DOI: https://doi.org/10.7238/c.n13.1251

documentación;  gestión de la información;  gestión del conocimiento;  terminología; 
Comparte