L'avaluador absent: IAGen, arbitrarietat oculta i erosió del judici acadèmic

La revisió per parells no es degrada només quan es corromp; també s’erosiona quan s’automatitza sense dir-ho. Aquest és un dels problemes més seriosos que avui enfronten moltes revistes acadèmiques.

La qüestió no és si la intel·ligència artificial generativa existeix o si ha arribat per a quedar-se. La qüestió és què ocorre quan l’informe de revisió deixa de procedir d’una lectura experta, situada i responsable, i passa a dependre d’una interacció opaca entre un manuscrit, un prompt i una plataforma comercial. Aquest desplaçament no és menor: modifica la naturalesa del judici acadèmic i, amb això, la legitimitat del sistema editorial. Una enquesta recent difosa per Nature va assenyalar que més de la meitat dels 1.600 acadèmics enquestats havia utilitzat eines d’intel·ligència artificial generativa (IAGen) en revisar manuscrits, sovint en contra de les orientacions editorials vigents (Naddaf, 2025).

El problema comença quan es normalitza una ficció: la idea que un text ben redactat equival a una avaluació ben pensada. No equival. Un bon informe de revisió no és una prosa amable amb dues fortaleses, tres febleses i una recomanació final. És el resultat d’un treball intel·lectual que exigeix llegir, comprendre, contrastar, contextualitzar i assumir la responsabilitat del que es diu. Precisament per això, grans editorials i organismes han endurit les seves polítiques: Elsevier prohibeix a revisors i editors pujar manuscrits o informes a eines generatives externes; Springer Nature manté directrius similars; i COPE insisteix que la responsabilitat acadèmica no pot recaure en una eina que no respon èticament ni jurídicament per les seves respostes (Elsevier, 2025; Springer Nature, s. f.; COPE Council, 2023).

Ús de la IA en l’informe de revisió

Convé dir-ho amb claredat: si un revisor usa IA per redactar substantivament el seu informe, deixa d’avaluar només el manuscrit i comença a avaluar, en part, el rendiment d’una màquina. I aquest rendiment no és estable, ni neutral ni homogeni. La literatura recent mostra que petites variacions en la formulació del prompt poden alterar substancialment les respostes dels models, fins i tot en tasques complexes i subjectives (Zhuo et al., 2024; Razavi et al., 2025). Això introdueix una nova forma d’arbitrarietat: la qualitat del feedback deixa de dependre únicament del criteri científic del revisor i passa a dependre també de la seva destresa com a «enginyer de prompts».

Dos revisors amb la mateixa competència disciplinària, però amb diferent domini de la plataforma, poden produir avaluacions molt diferents no pas per diferències de judici acadèmic, sinó per diferències d’alfabetització tècnica. Això ja no és revisió per parells en sentit estricte; és revisió mediada per una perícia desigual en l’ús d’una eina comercial. La desigualtat s’amplifica perquè no totes les plataformes, models o versions responen de la mateixa manera. Les interfícies de xat, les API, les versions gratuïtes o de pagament i les configuracions amb diferents nivells d’aleatorietat poden produir comportaments divergents. El problema, per tant, no és anecdòtic: és estructural (Thelwall i Yaghi, 2025).

Vist així, el principi d’igualtat entre manuscrits queda danyat d’una manera difícil de detectar. L’article ja no s’enfronta únicament al judici d’un expert, sinó també a la contingència d’un ecosistema tècnic: quina plataforma va usar el revisor, quina versió tenia disponible, quin prompt va formular, quantes consultes va fer i amb quin nivell de control sobre la resposta. Fins i tot amb aquest prompt, algunes interfícies poden retornar respostes diferents en execucions successives (Lee i Shin, 2024). Quant a l’avaluació d’experts, això significa que un informe pot no ser reproduïble ni tan sols per qui el va generar. L’acadèmia, que exigeix consistència als autors, comença així a tolerar la inconsistència en els qui els jutgen.

Des de la perspectiva dels autors, el resultat pot ser exasperant. Un informe generat o fortament mediat per IA sol presentar-se com a clar, ordenat i objectiu, però amb freqüència resulta genèric, ambigu o internament inestable. En una segona ronda, la situació pot tornar-se absurda: es demana eliminar X i afegir Y; els autors obeeixen; el manuscrit torna a revisió; i el nou informe, condicionat per un altre prompt o per una altra eina, exigeix recuperar X i eliminar Y. Si les sortides dels models depenen del prompt, del model, de la plataforma i de l’estocasticitat del sistema, aquestes contradiccions no són anomalies: són possibilitats previsibles (Zhuo et al., 2024; Lee i Shin, 2024; Thelwall i Yaghi, 2025).

El greu és que l’autor no té manera de saber si està davant un desacord acadèmic genuí o davant la volatilitat d’una eina. I aquesta diferència importa. Un desacord entre revisors forma part del funcionament normal de la ciència. Una contradicció nascuda de prompts, plataformes o execucions diferents pertany, en canvi, al terreny de la contingència tècnica. En el primer cas, l’autor pot dialogar intel·lectualment amb la crítica. En el segon, queda atrapat en una tasca gairebé impossible: respondre a observacions que semblen raonables a simple vista, però que no sempre se sostenen entre si ni guarden continuïtat entre rondes.

Ús de la IA, confidencialitat i externalització

A això se suma una qüestió central: la confidencialitat. Un manuscrit sotmès a revisió no és material de lliure circulació. Pujar-lo a una plataforma generativa externa pot vulnerar la reserva editorial, els drets de l’autor i, en alguns casos, la protecció de dades. No és casualitat que editorials i organismes hagin imposat restriccions o advertiments explícits sobre l’ús d’IAGen en l’avaluació per parells (Elsevier, 2025; Springer Nature, s/d.; Cheng et al., 2024). El problema no és només que l’eina pugui equivocar-se; és que el seu ús pot comprometre la confiança bàsica sobre la qual descansa el procés editorial.

Per això, el debat no pot reduir-se a si la IA «ajuda» o «no ajuda». La pregunta rellevant és quina part del judici acadèmic estem permetent externalitzar, sota quines condicions i amb quins mecanismes de rendició de comptes. Avui la resposta és inquietant: s’està externalitzant més del que s’admet, amb menys transparència de la necessària i amb una asimetria evident entre els qui usen millor la tecnologia i els qui reben els seus efectes sense saber-ho.

Si les revistes volen prendre’s seriosament la integritat editorial, haurien d’adoptar mesures clares: declaració obligatòria de l’ús d’IA per part de revisors i editors; limitació d’eines externes no segures; ús d’entorns interns controlats, amb confidencialitat i traçabilitat; i una via formal de reclamació per a autors quan existeixin indicis raonables d’una avaluació automatitzada, genèrica, contradictòria o tècnicament inestable, en sintonia amb les polítiques editorials actuals (Elsevier, 2025; COPE Council, 2023; Springer Nature, s/d).

La revisió per parells mai ha estat perfecta. Però la seva imperfecció era, almenys, humana. El que avui emergeix és una altra cosa: una imperfecció maquinal encoberta, travessada per prompts, versions, plataformes i nivells desiguals de competència tècnica. I aquesta imperfecció no sols produeix errors; també produeix una nova forma d’irresponsabilitat. Si la revisió per parells deixa de ser un exercici de lectura experta i es converteix en una negociació silenciosa amb models generatius, no estarem millorant el sistema editorial: estarem buidant-lo del seu principi més bàsic, que no és ni la velocitat ni la productivitat, sinó el judici raonat i responsable.

Per saber-ne més:

CHENG, Kunming; SUN, Zaijie; LIU, Xiaojun; WU, Haiyang; LI, Ceng (2024). «Generative artificial intelligence is infiltrating peer review process». Critical Care, vol. 28, núm. 149. DOI: https://doi.org/10.1186/s13054-024-04933-z

COPE COUNCIL (2023). COPE position: Authorship and AI tools. Committee on Publication Ethics. DOI: https://doi.org/10.24318/cCVRZBms

ELSEVIER (2025). «Generative AI policies for journals». Elsevier [en línia]. Disponible a: https://www.elsevier.com/about/policies-and-standards/generative-ai-policies-for-journals

LEE, Jeong Hyun; SHIN, Jaeseung (2024). «How to optimize prompting for large language models in clinical research». Korean Journal of Radiology, vol. 25, núm. 10, pàg. 869-873. DOI: https://doi.org/10.3348/kjr.2024.0695

NADDAF, Miryam (2025, 15 de diciembre). «More than half of researchers now use AI for peer review—often against guidance». Nature, vol. 649, pàg. 273-274. DOI: https://doi.org/10.1038/d41586-025-04066-5

RAZAVI, Amirhossein; SOLTANGHEIS, Mina; ARABZADEH, Negar; SALAMAT, Sara; ZIHAYAT, Morteza; BAGHERI, Ebrahim (2025). «Benchmarking prompt sensitivity in large language models». Advances in Information Retrieval (ECIR 2025), pàg. 303-313. Springer. DOI: https://doi.org/10.1007/978-3-031-88714-7_29

SPRINGER NATURE (s. f.). «Editorial policies». Springer Nature [en línia]. Disponible a: https://www.springernature.com/gp/policies/editorial-policies

THELWALL, Mike; YAGHI, Abdallah (2025). «Evaluating the predictive capacity of ChatGPT for academic peer review outcomes across multiple platforms». Scientometrics, vol. 130, pàg. 5285-5307. DOI: https://doi.org/10.1007/s11192-025-05287-1

ZHUO, Jingming; ZHANG, Songyang; FANG, Xinyu; DUAN, Haodong; LIN, Dahua; CHEN, Kai (2024). «ProSA: Assessing and understanding the prompt sensitivity of LLMs». Findings of the Association for Computational Linguistics: EMNLP 2024, pàg. 1950-1976. Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2024.findings-emnlp.108

Imatge de Portada:

Representació simbòlica d’una eina d’IA realitzant tasques de revisió creada per ChatGPT a partir del prompt «Crea una imatge que simbolitzi la tasca de peer review d’un article científic exercida per IA.» Font: OpenAI (31 de maig de 2026).

Citació recomanada

MOHAMMADI, Leila. «L’avaluador absent: IAGen, arbitrarietat oculta i erosió del judici acadèmic». COMeIN [en línia], juny 2026, no. 166. ISSN: 1696-3296. DOI: https://doi.org/10.7238/c.n166.2640

intel·ligència artificial; recerca; comunicació científica; ètica de la comunicació;