Número 29 (gener de 2014)

El futur de les eines de processament del llenguatge

Mercè Vàzquez Garcia

Els diversos recursos tecnològics que han emergit en els darrers anys per a donar resposta a la gestió de les dades i la informació presents en una organització els tenim plenament incorporats en els processos de treball. Ara bé, no és tan clar de quina manera anem introduint en les nostres tasques diàries eines que han estat dissenyades per a processar el llenguatge natural i que també són d’utilitat per al tractament de la informació.

El processament del llenguatge natural (PLN), que és una subàrea de la intel·ligència artificial, té com a objectiu el processament automàtic del llenguatge. En aquest sentit, és una disciplina que s'aplica en diversitat de tasques, entre les quals hi ha l'extracció d'informació, la recuperació d'informació, el resum automàtic de documents, la segmentació, la classificació de documents, la indexació de documents, la creació de plantilles, la manipulació de vocabularis controlats o diccionaris, la construcció d'ontologies, el reconeixement d'entitats amb nom (name entity) i el reconeixement automàtic de terminologia.

 

Per a la tasca de recuperació d'informació és fonamental la identificació dels termes rellevants d'una col·lecció de documents per a poder-ne indexar els continguts amb l'objectiu de guiar l'usuari en la seva cerca d'informació i també per a millorar la cerca i recuperació de continguts de la xarxa; per aquest motiu, la recerca en aquest camp se centra en la indexació automàtica i l'extracció automàtica de paraules clau.

 

El resum automàtic permet generar automàticament breus resums de documents. Aquesta tasca és molt important amb el creixent nombre de documents que hi ha a la xarxa i la necessitat de recuperar-ne el contingut. Tradicionalment és una tasca que s'ha dut a terme en documents ben estructurats, per ser més coherents i contenir frases i paràgrafs clau per a descriure les idees principals d'un text. Actualment també s'aplica a textos curts, no formals i no gaire ben estructurats.

 

L'àmbit de la classificació de documents té com a objectiu agrupar automàticament documents en unes categories predefinides. La majoria de tècniques de classificació seleccionen paraules per a representar característiques dels documents i classificar-los per similitud.

 

En la tasca d'indexació de documents textuals, és possible assignar automàticament termes d'indexació a un text per a facilitar-ne la recuperació posterior. Les unitats lèxiques extretes representen els conceptes propis d'un document i són proposades com a candidats descriptors per als documents que s'han d'indexar.

 

En la tasca de creació de tesaurus, les unitats lèxiques representen els conceptes d'un àmbit al qual pertanyen els textos. Els tesaurus s'empren per a donar suport als processos de cerca d'informació o per a la consulta de bases de dades. La constitució automàtica de tesaurus té una llarga tradició i els estudis fets en aquest àmbit fan referència a la descoberta de nous termes o a l'establiment de relacions semàntiques.

 

La tasca de reconeixement d'entitats amb nom permet identificar les entitats de noms de persones, llocs i organitzacions de manera automàtica a partir de corpus i endreçar-los en la categoria corresponent.

 

Com podem observar, darrere d’aquest ventall divers de tasques hi ha un important desenvolupament tecnològic que sovint resulta desconegut per professionals responsables de la gestió d’informació de les institucions i també pels usuaris que cerquen informació. Doncs bé, sembla que és el moment de començar a conèixer quina és la tecnologia de base del processament del llenguatge natural, si tenim en compte l’informe Natural Language Processing Market – Worldwide Market Forecast and Analysis (2013 - 2018), que acaba de sortir publicat. D’aquest informe es desprèn que el mercat del PLN creix amb força amb relació a la millora de l’experiència de l’usuari, l’adaptació als telèfons intel·ligents, l’aprofitament de les grans dades i l’augment de presència en les tecnologies de màquina a màquina (M2M). Així mateix, recull que la tecnologia PLN pot aprofitar les dades no estructurades per a analitzar les necessitats i les expectatives dels clients i millorar l’experiència d’usuari optimitzant la resposta efectiva del sistema en processos organitzatius. En aquest informe es preveu que el mercat del PLN passi dels 3.787,3 milions de dòlars el 2013 a uns beneficis de 9.858,4 milions de dòlars l’any 2018.

 

En definitiva, convé estar atents al desenvolupament tecnològic que es duu a terme respecte a les tecnologies de reconeixement [sistemes de resposta de veu interactius (IVR), reconeixement òptic de caràcters (OCR) i de patrons i imatges], les tecnologies de caràcter operatiu (classificació i categorització) i les tecnologies d’anàlisi (anàlisi de text i veu). A més, aquesta gran varietat de tecnologies va adreçada a públics ben diversos, des de l’automoció passant per les tecnologies de la informació i la comunicació, les oficines jurídiques, els mitjans de comunicació, les universitats o l’àmbit del comerç electrònic. La gran diversitat d’aplicacions de l’àrea del PLN ens ofereix una gran oportunitat d’avançar en una millor gestió del coneixement.

 

Per a saber-ne més:

 

Recuperación y acceso a la información: extracción de información 

 

Citació recomanada

VÀZQUEZ GARCIA, Mercè. El futur de les eines de processament del llenguatge. COMeIN [en línia], gener 2014, núm. 29. ISSN: 1696-3296. DOI: https://doi.org/10.7238/c.n29.1405

documentació;  gestió de la informació;  gestió del coneixement;