A la recerca del concepte clau

Actualment en la majoria d’àmbits professionals es genera de manera constant nova informació, que convé tenir recollida i classificada per a poder ser recuperada i reaprofitada. Per a les organitzacions representa una important inversió de temps i diners el fet d’organitzar i fer accessibles tots aquests continguts. Una possible sortida a l’escull de la gestió de la informació en les organitzacions és la identificació dels conceptes clau que resideixen en els documents amb l’objectiu de facilitar-ne la classificació temàtica i la futura recuperació.

La classificació de continguts per mitjà de la identificació de les paraules clau que contenen, permet tenir-los identificats a partir del tema central que tracten, una solució que es pot posar en pràctica paral·lelament a una classificació documental basada en l'àrea o el departament on s'ha generat la informació, si es tracta d'una empresa; o bé per àmbits temàtics vinculats a uns determinats estudis o facultat, si es tracta d’una universitat.

En els darrers anys s'han desenvolupat diversos tipus d'eines que tenen per objectiu identificar de manera automàtica conceptes rellevants d'un determinat àmbit d'especialització i que fan possible estalviar esforç i recursos en el procés de detecció manual de les paraules o expressions més significatives d'un document. La majoria d'eines que hi ha disponibles a la xarxa i que són d'accés obert fan la selecció de conceptes clau a partir de l'anàlisi lingüística del text, el contrast entre el corpus d'especialitat que es vol analitzar i un corpus de llengua general o bé fent ús de mesures estadístiques.

Seguidament, fem un recull d'eines d'extracció terminològica que hi ha disponibles a la xarxa.

Fastr (Christian Jacquemin, 1999) és una eina multilingüe que serveix per a fer indexació automàtica de continguts. En la versió d'accés obert fa el servei d'eina d'extracció de terminologia i extreu termes i les seves variants d'un corpus. Aquesta eina està disponible per a textos en francès i anglès, i té extensions en alemany, japonès, català i espanyol.

Yate (Jordi Vivaldi, 2001) és un extractor de terminologia en línia que combina diferents estratègies i l'ús intensiu d'informació semàntica. La particularitat que té aquest extractor és que serveix per a documents en català i espanyol de tres àmbits d'especialitat: medicina, economia i genoma.

Acabit (Béatrice Daille, 2003) és una eina d'extracció de terminologia a partir de l'anàlisi de la categoria gramatical de les paraules que conté el text. El resultat d'extracció es basa en patrons sintàctics i filtratge estadístic dels resultats. Aquesta eina està disponible per al francès i l'anglès.

TermoStatWeb (Patrick Drouen, 2003) és un extractor de terminologia en línia que té com a funcionalitat bàsica comparar la distribució de paraules entre un document o conjunt de documents especialitzats (el corpus que es vol analitzar) i un corpus de llengua general fent servir diferents mesures estadístiques, amb l'objectiu d'identificar els conceptes clau del text. Aquesta eina està disponible per a textos en francès, anglès, espanyol i italià.

Yatea (Thierry Hamon i Sophie Aubin, 2006) recupera tots els substantius d'un text que s'assemblen a termes. L'extracció dels substantius es fa a partir de patrons sintàctics i desambiguació lèxica prenent com a referència el context del qual es fa el buidatge. Aquesta eina està disponible per a textos en francès i anglès.

TermExtractor (Francesco Sclano i Paola Velardi, 2007) és una eina d'extracció de terminologia en línia dissenyada per a la construcció d'ontologies. Es basa en dues mesures estadístiques: domain consensus i domain rellevance. La primera s'utilitza per a seleccionar únicament els termes que de manera consensuada fan referència al conjunt de documents que volem analitzar. I la segona es fa servir per a recuperar únicament els termes que són rellevants en l'àmbit d'especialitat que analitzem. Aquesta eina està disponible per a textos en anglès.

Terminus (IULA, 2009) és una eina de gestió terminològica que permet fer el buidatge de conceptes clau a partir de documents que tinguem disponibles per a analitzar o bé a partir de textos publicats a la xarxa. La identificació dels conceptes s'estableix segons la relació que tenen i el context en què apareixen. Aquesta eina està disponible per a textos en català, francès, anglès, espanyol i italià.

TerMine (Nactem, 2009) és un servei d’extracció de terminologia en línia ofert pel National Centre for Text Mining de la Universitat de Manchester. Fa servir l’anàlisi lingüística per a la identificació dels conceptes rellevants d’un text. Aquesta eina identifica solament expressions multiparaula i està disponible per a textos en anglès.

Servei de buidatge terminològic (Servei Lingüístic i Tecnologia Educativa de la UOC, 2011) aporta un conjunt d'eines que permeten identificar els conceptes clau d'un conjunt de documents monolingües o multilingües i veure'n el context d'ús. La identificació dels conceptes es fa a partir de la categoria gramatical de les paraules que hi ha en el document, per a assegurar la tria de conceptes. I també a partir de la comparació del corpus documental que es vol analitzar amb un corpus de llengua general, per a assegurar la pertinença del concepte a l'àmbit d'especialitat. Aquesta eina està disponible per a textos monolingües en català, i textos bilingües en català, espanyol i anglès.

Terminology Extraction Suite (Antoni Oliver, 2012) és una eina d’extracció automàtica de terminologia que identifica els conceptes més representatius d’un corpus d’especialitat tenint en compte la coocurrència amb què apareixen en el context que es vol analitzar. Així mateix, aquesta eina fa possible la cerca dels equivalents de traducció d’aquests conceptes, en cas que es vulguin analitzar corpus paral•lels o comparats bilingües. Aquesta eina està disponible per a textos escrits en qualsevol llengua.

En definitiva, aquesta gran diversitat d'eines i algoritmes dedicats a la recuperació automàtica de conceptes clau de continguts especialitzats representen una alternativa clara al procés de selecció manual d'aquest tipus d'unitats i alhora una nova manera de treballar entre els tecnòlegs i els especialistes de cada àmbit de coneixement. Així mateix, convé tenir present que cal una millora constant i continua d'aquest tipus d'eines per a adaptar-se a noves necessitats, nous tipus de contingut i noves maneres de transmetre el missatge.

Per saber-ne més:

Frantzi, K.; Ananiadou, S; Mima, H. (2000). “Automatic recognition of multi-word terms”. International Journal of Digital Libraries 3(2), pp.117-132.

Aubin, S.; Hamon, Thierry (2006). “Improving Term Extraction with Terminological Resources”. Advances in Natural Language Processing 5th International Conference on NLP, pàg. 380-387.

Daille, B. (2003). "Conceptual structuring through term variations". A: F. Bond, A. Korhonen, D. MacCarthy, A. Villacicencio (editors), Proceedings ACL 2003 Workshop on Multiword Expressions: Analysis, Acquisition and Treatment, pàg. 9-16.

Jacquemin, C. (1999). “Syntagmatic and paradigmatic representations of term variation”. Proceedings of ACL99, pàg. 341-348.

Sclano, F.; Velardi, P. (2007). “TermExtractor: a web application to learn the shared terminology of emergent web communities”. A: Enterprise Interoperability II: New Challenges and Approaches, pàg. 287-290.

Vivaldi, J. (2003). Sistema de extracción de Candidatos a Término YATE. Manual de utilización. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra.

Citació recomanada

VAZQUEZ GARCIA, Mercè. A la recerca del concepte clau. COMeIN [en línia], juliol 2012, núm. 13. ISSN: 1696-3296. DOI: https://doi.org/10.7238/c.n13.1251

documentació; gestió de la informació; gestió del coneixement; terminologia;