El futuro de las herramientas de procesamiento del lenguaje

La diversidad de recursos tecnológicos que han emergido en los últimos años para dar respuesta a la gestión de datos e información en el seno de una organización se encuentran plenamente incorporados a los procesos de trabajo. Sin embargo, ya no es tan claro que vayamos introduciendo en nuestras tareas diarias herramientas que han sido diseñadas para el procesamiento del lenguaje natural y que también son de utilidad para el tratamiento de la información.

El procesamiento del lenguaje natural (PLN), que es una subárea de la inteligencia artificial, tiene como objetivo el procesamiento automático del lenguaje. En este sentido, es una disciplina aplicada a diversidad de tareas, como extracción de información, recuperación de información, resumen automático de documentos, segmentación, clasificación de documentos, indexación de documentos, creación de plantillas, manipulación de vocabularios controlados o diccionarios, construcción de ontologías, reconocimiento de entidades con nombre (name entity) y reconocimiento automático de terminología.

Para la tarea de recuperación de información es fundamental la identificación de los términos relevantes de una colección de documentos para poder indexar los contenidos con el objetivo de guiar al usuario en su búsqueda de información y también para mejorar la búsqueda y recuperación de contenidos de la red; por este motivo, la investigación en este campo se centra en la indexación automática y la extracción automática de palabras clave.

El resumen automático permite generar automáticamente breves resúmenes de documentos. Esta tarea es muy importante con el creciente número de documentos que hay en la red y la necesidad de recuperar el contenido. Tradicionalmente es una tarea que se ha llevado a cabo en documentos muy estructurados, por ser más coherentes y contener frases y párrafos clave para describir las ideas principales de un texto. Actualmente también se aplica a textos cortos, no formales y no demasiado estructurados.

El ámbito de la clasificación de documentos tiene como objetivo agrupar automáticamente documentos en unas categorías predefinidas. La mayoría de técnicas de clasificación seleccionan palabras para representar características de los documentos y clasificarlos por similitud.

En la tarea de indexación de documentos textuales, es posible asignar automáticamente términos de indexación a un texto para facilitar su posterior recuperación. Las unidades léxicas extraídas representan los conceptos propios de un documento y son propuestas como candidatos descriptores para los documentos a indexar.

En la tarea de creación de tesauros, las unidades léxicas representan los conceptos del ámbito al que pertenecen los textos. Los tesauros se emplean como complemento a los procesos de búsqueda de información o para la consulta de bases de datos. La constitución automática de tesauros tiene una larga tradición y los estudios realizados en este ámbito se centran en la identificación de nuevos términos o el establecimiento de relaciones semánticas.

La tarea de reconocimiento de entidades con nombre permite identificar las entidades de nombres de personas, lugares y organizaciones de forma automática a partir de corpus y ordenarlos según la categoría que les corresponde.

Como podemos observar, detrás de esta variedad de tareas hay un gran desarrollo tecnológico que a menudo resulta ser desconocido por los profesionales responsables de la gestión de información de las instituciones, así como por los usuarios que buscan información. Pues bien, parece que ahora es el momento de empezar a conocer cuál es la tecnología de base del procesamiento del lenguaje natural, si tenemos en cuenta el informe Natural Language Processing Market – Worldwide Market Forecast and Analysis (2013 - 2018), que acaba de ser publicado. De este informe se desprende que el mercado del PLN crece con fuerza en lo relativo a la mejora de la experiencia del usuario, la adaptación a los teléfonos inteligentes, el aprovechamiento de los grandes datos y el aumento de presencia en las tecnologías de máquina a máquina (M2M). Así mismo, recoge que la tecnología PLN puede aprovechar los datos no estructurados para analizar las necesidades y las expectativas de los clientes y mejorar la experiencia de usuario optimizando la respuesta efectiva del sistema en procesos organizativos. En este informe se prevé que el mercado del PLN pase de los 3.787,3 millones de dólares en 2013 a unos beneficios de 9.858,4 millones de dólares en 2018.

En definitiva, conviene estar atentos al desarrollo tecnológico que se lleva a cabo respecto a las tecnologías de reconocimiento [sistemas de respuesta de voz interactivos (IVR), reconocimiento óptico de caracteres (OCR) y de patrones e imágenes], las tecnologías de carácter operativo (clasificación y categorización) y las tecnologías de análisis (análisis de texto y voz). Además, esta gran variedad de tecnologías va dirigida a públicos muy diversos, desde el de la automoción pasando por las tecnologías de la información y la comunicación, las oficinas jurídicas, los medios, las universidades o el ámbito del comercio electrónico. La gran diversidad de aplicaciones del área del PLN nos ofrece una gran oportunidad de avanzar en una mejor gestión del conocimiento.

Para saber más:

Recuperación y acceso a la información: extracción de información

Cita recomendada

VÀZQUEZ GARCIA, Mercè. El futuro de las herramientas de procesamiento del lenguaje. COMeIN [en línea], enero 2014, núm. 29. ISSN: 1696-3296. DOI: https://doi.org/10.7238/c.n29.1405

documentación; gestión de la información; gestión del conocimiento;

Mercè Vàzquez Garcia

Profesora de Información y Documentación en la UOC

@mvazquezga

Comparte