Número 18 (gener de 2013)

Estratègies aplicades a la selecció de conceptes

Mercè Vàzquez Garcia

En les darreres dues dècades s’han explorat diferents tipus d’estratègies amb l’objectiu d’identificar de manera automatitzada els conceptes que són presents en continguts de caràcter especialitzat o bé de recent aparició i que són susceptibles de marcar tendència en tecnologia, consum, política, comunicació o informació en general. La novetat sempre genera interès, i la identificació de la paraula nova no sempre és una tasca senzilla de dur a terme.  

Constantment estem envoltats de paraules que prenen nous sentits adaptant-se a la realitat del moment. Com a lectors, també ens anem adaptant a aquests nous usos sense gairebé adonar-nos-en. Per a posar-ne alguns exemples:

 

Amfitrió: usuari del Facebook que crea un esdeveniment.


Amic -iga: usuari del Facebook que forma part de la llista de contactes d'un altre usuari per acord mutu, amb la finalitat de compartir informació i mantenir una relació.


Etiqueta:


a. Conjunt de caràcters precedits d'un símbol de coixinet (#), sobre el qual es pot fer clic, que serveix per a accedir a un contingut indexat per categories o temes.


b. Opció d'algunes xarxes socials que permet vincular una imatge, un vídeo o un enllaç amb un concepte, usuari, lloc o categoria.


c. Conjunt de regles de convivència i de normes de conducta que han de seguir els usuaris d'Internet.


Intel·ligent:


a. Telèfon mòbil que permet la descàrrega d'aplicacions i la utilització de diverses funcions d'un ordinador de butxaca, especialment agenda electrònica, correu electrònic i accés a Internet.


b. Targeta amb un xip que permet emmagatzemar dades en suport digital.


c. Edifici amb mecanismes que permeten optimitzar consums i altres aspectes.


d. Tipus d’etiqueta que en determinats programes permet automatitzar certes accions.


e. Ciutat que disposa de diverses solucions més o menys automatitzables per a fer-la més agradable. 


f. Edifici amb un cablatge únic que proporciona simultàniament alimentació elèctrica, connexió telefònica i connexió informàtica, de manera que permet de centralitzar els automatismes i la gestió dels sistemes.


g. Roba  que, a partir de sensors i altres tecnologies, podria adaptar-se més bé a les necessitats d’abric de cada persona en cada moment.


h. Aparcament, generalment situat en una zona urbana, equipat amb un ordinador connectat a un sistema mecànic de col·locació i de recuperació de vehicles que permet d'optimitzar al màxim l'espai.


i. Vehicle equipat amb un sistema de posicionament global i un dispositiu que permet de fixar la ruta adequada per tal d'arribar a la destinació escollida.


Menció: piulada que inclou el nom d'un usuari.


Piulada: missatge curt, amb un nombre de caràcters limitat, publicat instantàniament en un microbloc.


Simpatitzant: usuari d'una pàgina de Facebook que en rep les actualitzacions al seu canal de notícies després d'haver-s'hi subscrit fent clic al botó "M'agrada" d'aquesta pàgina.

 
Tauleta: aparell dotat d'una pantalla tàctil que n'ocupa pràcticament tota la superfície, amb funcions similars a les d'un ordinador, especialment concebut perquè sigui fàcil de transportar i de consultar en qualsevol lloc.


La tasca d'identificar aquests nous usos terminològics es pot dur a terme manualment o fent servir eines que l’automatitzen. Les eines que hi ha actualment disponibles han implementat diferents tipus d'estratègies. Les diferents estratègies que han estat explorades per a identificar conceptes, ja sigui per a observar les darreres tendències terminològiques en un determinat sector o per a fer el buidatge d’un corpus temàtic, són essencialment de tres tipus: lingüístiques, estadístiques i híbrides.

 

En un primer moment, es van fer servir estratègies de caràcter purament lingüístic, les quals fan una anàlisi lingüística del text per a determinar el lema –representació formal del conjunt de formes flexionades d'un mot– i la categoria gramatical de cada paraula. Les categories gramaticals identificades són comparades després amb un subconjunt de categories gramaticals que són pròpies de les unitats terminològiques, a fi d'identificar automàticament quines paraules del text analitzat són conceptes rellevants. Exemples d'aquest tipus d'estratègia són les eines Fastr i Yatea.

 

Amb el pas del temps els investigadors van observar que les estratègies lingüístiques oferien bons resultats, però que en contrapartida representaven un cost molt elevat de temps per a poder-les adaptar a diferents àmbits d’especialitat i a altres llengües. Per aquest motiu, es van començar a introduir les estratègies estadístiques, les quals incorporen càlculs probabilístics en la detecció d'unitats rellevants d'un text, no necessiten informació lingüística i es poden aplicar a qualsevol llengua. L'inconvenient que solen tenir aquest tipus d'estratègies és que ofereixen una llista de resultats poc exhaustiva que requereix un procés lent de revisió. Exemples d'aquestes estratègies són TermExtractor i Terminology Extraction Suite.

 

Per tal de resoldre l'escull en la llista de resultats que presenten les estratègies estadístiques, els investigadors van començar a combinar estratègies lingüístiques i estadístiques a fi de poder aprofitar la rendibilitat dels filtres lingüístics i la gran capacitat de processament que ofereix el tractament estadístic. La millora observada en els resultats obtinguts fou significativa, motiu pel qual les estratègies híbrides s'han implementat en diverses eines de processament automàtic de continguts. Exemples d'aquestes estratègies són Yate, Acabit, TermoStatWeb, Terminus, Termine i Servei de buidatge terminològic.

 

En l'actualitat, la recerca centrada en el desenvolupament d'eines d'extracció de conceptes d'especialitat implementa majoritàriament estratègies híbrides, per la rendibilitat i capacitat d'adaptació que aporten aquest tipus d'estratègies a diferents objectius de treball.

 

En aquest sentit, les eines de processament lingüístic adquireixen una major rendibilitat fent ús de les estratègies descrites, per la qual cosa poden ser aplicades en camps tan diversos com l'anàlisi de contingut, la gestió del coneixement, la indexació automàtica, la recuperació d'informació, l'extracció d'informació, la cerca de respostes, la generació de resums o l'extracció de terminologia, entre altres.

 

A partir del que hem exposat, podem concloure que la recerca centrada en el desenvolupament d'eines de processament del llenguatge natural ofereix un avantatge competitiu i valor afegit a diferents àrees de coneixement, motiu pel qual convé que des de diferents perfils professionals es faci una aproximació a aquest tipus d'eines per a conèixer quins resultats poden oferir. 

 

Citació recomanada

VÀZQUEZ GARCIA, Mercè. Estratègies aplicades a la selecció de conceptes. COMeIN [en línia], gener 2013, núm. 18. ISSN: 1696-3296. DOI: https://doi.org/10.7238/c.n18.1305

documentació;  gestió de la informació;  gestió del coneixement;