Número 18 (enero de 2013)

Estrategias aplicadas a la selección de conceptos

Mercè Vàzquez Garcia

En las últimas dos décadas se han explorado distintas estrategias con el objeto de identificar de forma automatizada los conceptos que se encuentran en contenidos de carácter especializado o de reciente aparición y que son susceptibles de marcar tendencia en tecnología, consumo, política, comunicación o información en general. La novedad siempre genera interés, y la identificación de una palabra nueva no siempre es una tarea fácil de llevar a cabo.  

Constantemente estamos en contacto con palabras que adquieren un nuevo significado en el proceso de adaptación a la realidad del momento. Y como lectores, también nos vamos adaptando a estos nuevos usos casi sin darnos cuenta. Veamos sólo algunos ejemplos:

 

Etiqueta. Etiqueta de Twitter para clasificar las publicaciones o mensajes (tuits) por temas específicos. Se representa mediante una almohadilla (#) delante de la palabra o palabras clave del tema dentro del cual se etiqueta el mensaje, con la finalidad de seguir, buscar y encontrar más fácilmente los temas interesantes para el usuario.

 

Evento. Acontecimiento creado como una publicación o mensaje que se anuncia a otros usuarios de la red social para que participen del mismo.

 

Muro. Espacio del usuario de una red social que comparte con el resto de sus contactos, donde estos pueden publicar sus comentarios u opiniones.

 

Perfil. Datos personales y rasgos propios que caracterizan a un usuario dentro de una red social, como su nombre, fotografía, lugar de residencia o preferencias. El perfil representa su identidad virtual.

 

Seguidor. Usuario de Twitter que se suscribe a los mensajes o publicaciones (tuits) de otros usuarios, bien por admiración, como en el caso de los seguidores de deportistas o cantantes; por simpatizar con sus ideas; por mantenerse informado de sus actividades en Twitter; o, simplemente, por amistad. Este seguimiento o suscripción no es necesariamente recíproco.

 

Tuit. Mensaje o publicación de 140 caracteres que se escribe y envía a los usuarios seguidores mediante la red social de microblogging Twitter.

 

La tarea de identificar estos nuevos usos terminológicos se puede llevar a cabo manualmente o usando herramientas que la automaticen. Las herramientas que se encuentran actualmente disponibles han implementado distintas estrategias. Las diferentes estrategias que han sido exploradas para identificar conceptos, ya sea para observar cuáles son las últimas tendencias terminológicas en un determinado sector o para realizar el vaciado de un corpus temático, son esencialmente de tres tipos: lingüísticas, estadísticas e híbridas.

 

En un primer momento, se usaron estrategias de carácter puramente lingüístico, las cuales llevan a cabo un análisis lingüístico del texto para determinar el lema –representación formal del conjunto de formas flexionadas de una palabra– y la categoría gramatical de cada palabra. Las categorías gramaticales identificadas son después comparadas con un subconjunto de categorías gramaticales que son propias de las unidades terminológicas, con objeto de identificar automáticamente qué palabras del texto analizado son conceptos relevantes. Ejemplos de este tipo de estrategia son las herramientas Fastr y Yatea.

 

Con el paso del tiempo los investigadores observaron que las estrategias lingüísticas ofrecían buenos resultados, pero que en contrapartida representaban un coste muy elevado de tiempo para poderlas adaptar a diferentes ámbitos de especialidad y a otras lenguas. Por este motivo, se empezaron a introducir las estrategias estadísticas, las cuales incorporan cálculos probabilísticos en la detección de unidades relevantes de un texto, no necesitan información lingüística y se pueden aplicar a cualquier lengua. El inconveniente que suelen tener este tipo de estrategias es que ofrecen una lista de resultados poco exhaustiva que requiere un proceso lento de revisión. Ejemplos de estas estrategias son TermExtractor y Terminology Extraction Suite.

 

Para resolver el escollo en la lista de resultados que presentan las estrategias estadísticas, los investigadores empezaron a combinar estrategias lingüísticas y estadísticas con objeto de poder aprovechar la rentabilidad de los filtros lingüísticos y la gran capacidad de procesamiento que ofrece el tratamiento estadístico. La mejora observada en los resultados obtenidos fue significativa, motivo por el cual las estrategias híbridas se han implementado en varias herramientas de procesamiento automático de contenidos. Ejemplos de estas estrategias son Yate, Acabit, TermoStatWeb, Terminus, Termine y Servicio de vaciado terminológico.

 

En la actualidad, la investigación centrada en el desarrollo de herramientas de extracción de conceptos de especialidad implementa mayoritariamente estrategias híbridas, por la rentabilidad y capacidad de adaptación que aportan este tipo de estrategias a distintos objetivos de trabajo.

 

Así pues, las herramientas de procesamiento lingüístico utilizando alguna de las estrategias descritas adquieren mayor rentabilidad en la detección de palabras nuevas o de carácter especializado, por lo que pueden ser aplicadas en campos tan diversos como el análisis de contenido, la gestión del conocimiento, la indexación automática, la recuperación de información, la extracción de información, la búsqueda de respuestas, la generación de resúmenes o la extracción de terminología, entre otros.

 

A partir de lo expuesto anteriormente podemos concluir que la investigación centrada en el desarrollo de herramientas de procesamiento del lenguaje natural ofrece una ventaja competitiva y valor añadido a distintas áreas de conocimiento, por lo que conviene que desde diversos perfiles profesionales se haga una aproximación a este tipo de herramientas para conocer qué tipo de resultados pueden ofrecer. 

 

Cita recomendada

VÀZQUEZ GARCIA, Mercè. Estrategias aplicadas a la selección de conceptos. COMeIN [en línea], enero 2013, núm. 18. ISSN: 1696-3296. DOI: https://doi.org/10.7238/c.n18.1305

documentación;  gestión de la información;  gestión del conocimiento; 
Comparte