El evaluador ausente: IAGen, arbitrariedad oculta y erosión del juicio académico

La revisión por pares no se degrada solo cuando se corrompe; también se erosiona cuando se automatiza sin decirlo. Ese es uno de los problemas más serios que hoy enfrentan muchas revistas académicas.

La cuestión no es si la inteligencia artificial generativa existe o si ha llegado para quedarse. La cuestión es qué ocurre cuando el informe de revisión deja de proceder de una lectura experta, situada y responsable, y pasa a depender de una interacción opaca entre un manuscrito, un prompt y una plataforma comercial. Ese desplazamiento no es menor: modifica la naturaleza del juicio académico y, con ello, la legitimidad del sistema editorial. Una encuesta reciente difundida por Nature señaló que más de la mitad de los 1.600 académicos encuestados había utilizado herramientas de inteligencia artificial generativa (IAGen) al revisar manuscritos, a menudo en contra de las orientaciones editoriales vigentes (Naddaf, 2025).

El problema comienza cuando se normaliza una ficción: la idea de que un texto bien redactado equivale a una evaluación bien pensada. No equivale. Un buen informe de revisión no es una prosa cortés con dos fortalezas, tres debilidades y una recomendación final. Es el resultado de un trabajo intelectual que exige leer, comprender, contrastar, contextualizar y asumir la responsabilidad de lo que se dice. Precisamente por eso, grandes editoriales y organismos han endurecido sus políticas: Elsevier prohíbe a revisores y editores subir manuscritos o informes a herramientas generativas externas; Springer Nature mantiene directrices similares; y COPE insiste en que la responsabilidad académica no puede recaer en una herramienta que no responde éticamente ni jurídicamente por sus respuestas (Elsevier, 2025; Springer Nature, s. f.; COPE Council, 2023).

Uso de la IA en el informe de revisión

Conviene decirlo con claridad: si un revisor usa IA para redactar sustantivamente su informe, deja de evaluar solo el manuscrito y empieza a evaluar, en parte, el rendimiento de una máquina. Y ese rendimiento no es estable, ni neutral ni homogéneo. La literatura reciente muestra que pequeñas variaciones en la formulación del prompt pueden alterar sustancialmente las respuestas de los modelos, incluso en tareas complejas y subjetivas (Zhuo et al., 2024; Razavi et al., 2025). Esto introduce una nueva forma de arbitrariedad: la calidad del feedback deja de depender únicamente del criterio científico del revisor y pasa a depender también de su destreza como «ingeniero de prompts».

Dos revisores con la misma competencia disciplinar, pero con distinto dominio de la plataforma, pueden producir evaluaciones muy diferentes no por diferencias de juicio académico, sino por diferencias de alfabetización técnica. Eso ya no es revisión por pares en sentido estricto; es revisión mediada por una pericia desigual en el uso de una herramienta comercial. La desigualdad se amplifica porque no todas las plataformas, modelos o versiones responden de la misma manera. Las interfaces de chat, las API, las versiones gratuitas o de pago y las configuraciones con distintos niveles de aleatoriedad pueden producir comportamientos divergentes. El problema, por tanto, no es anecdótico: es estructural (Thelwall y Yaghi, 2025).

Visto así, el principio de igualdad entre manuscritos queda dañado de una manera difícil de detectar. El artículo ya no se enfrenta únicamente al juicio de un experto, sino también a la contingencia de un ecosistema técnico: qué plataforma usó el revisor, qué versión tenía disponible, qué prompt formuló, cuántas consultas hizo y con qué nivel de control sobre la respuesta. Incluso con el mismo prompt, algunas interfaces pueden devolver respuestas distintas en ejecuciones sucesivas (Lee y Shin, 2024). Llevado al peer review, esto significa que un informe puede no ser reproducible ni siquiera por quien lo generó. La academia, que exige consistencia a los autores, empieza así a tolerar la inconsistencia en quienes los juzgan.

Desde la perspectiva de los autores, el resultado puede ser exasperante. Un informe generado o fuertemente mediado por IA suele presentarse como claro, ordenado y objetivo, pero con frecuencia resulta genérico, ambiguo o internamente inestable. En una segunda ronda, la situación puede volverse absurda: se pide eliminar X y añadir Y; los autores obedecen; el manuscrito vuelve a revisión; y el nuevo informe, condicionado por otro prompt o por otra herramienta, exige recuperar X y eliminar Y. Si las salidas de los modelos dependen del prompt, del modelo, de la plataforma y de la estocasticidad del sistema, esas contradicciones no son anomalías: son posibilidades previsibles (Zhuo et al., 2024; Lee y Shin, 2024; Thelwall y Yaghi, 2025).

Lo grave es que el autor no tiene manera de saber si está ante un desacuerdo académico genuino o ante la volatilidad de una herramienta. Y esa diferencia importa. Un desacuerdo entre revisores forma parte del funcionamiento normal de la ciencia. Una contradicción nacida de prompts, plataformas o ejecuciones distintas pertenece, en cambio, al terreno de la contingencia técnica. En el primer caso, el autor puede dialogar intelectualmente con la crítica. En el segundo, queda atrapado en una tarea casi imposible: responder a observaciones que parecen razonables a simple vista, pero que no siempre se sostienen entre sí ni guardan continuidad entre rondas.

Uso de la IA, confidencialidad y externalización

A esto se suma una cuestión central: la confidencialidad. Un manuscrito sometido a revisión no es material de libre circulación. Subirlo a una plataforma generativa externa puede vulnerar la reserva editorial, los derechos del autor y, en algunos casos, la protección de datos. No es casualidad que editoriales y organismos hayan impuesto restricciones o advertencias explícitas sobre el uso de IAGen en la evaluación por pares (Elsevier, 2025; Springer Nature, s. f.; Cheng et al., 2024). El problema no es solo que la herramienta pueda equivocarse; es que su uso puede comprometer la confianza básica sobre la que descansa el proceso editorial.

Por eso, el debate no puede reducirse a si la IA «ayuda» o «no ayuda». La pregunta relevante es qué parte del juicio académico estamos permitiendo externalizar, bajo qué condiciones y con qué mecanismos de rendición de cuentas. Hoy la respuesta es inquietante: se está externalizando más de lo que se admite, con menos transparencia de la necesaria y con una asimetría evidente entre quienes usan mejor la tecnología y quienes reciben sus efectos sin saberlo.

Si las revistas quieren tomarse en serio la integridad editorial, deberían adoptar medidas claras: declaración obligatoria del uso de IA por parte de revisores y editores; limitación de herramientas externas no seguras; uso de entornos internos controlados, con confidencialidad y trazabilidad; y una vía formal de reclamación para autores cuando existan indicios razonables de una evaluación automatizada, genérica, contradictoria o técnicamente inestable, en sintonía con las políticas editoriales actuales (Elsevier, 2025; COPE Council, 2023; Springer Nature, s. f.).

La revisión por pares nunca fue perfecta. Pero su imperfección era, al menos, humana. Lo que hoy emerge es otra cosa: una imperfección maquinal encubierta, atravesada por prompts, versiones, plataformas y niveles desiguales de competencia técnica. Y esa imperfección no solo produce errores, sino también una nueva forma de irresponsabilidad. Si la revisión por pares deja de ser un ejercicio de lectura experta y se convierte en una negociación silenciosa con modelos generativos, no estaremos mejorando el sistema editorial: estaremos vaciándolo de su principio más básico, que no es ni la velocidad ni la productividad, sino el juicio razonado y responsable.

Para saber más:

CHENG, Kunming; SUN, Zaijie; LIU, Xiaojun; WU, Haiyang; LI, Ceng (2024). «Generative artificial intelligence is infiltrating peer review process». Critical Care, vol. 28, n.º 149. DOI: https://doi.org/10.1186/s13054-024-04933-z

COPE COUNCIL (2023). COPE position: Authorship and AI tools. Committee on Publication Ethics. DOI: https://doi.org/10.24318/cCVRZBms

ELSEVIER (2025). «Generative AI policies for journals». Elsevier [en línea]. Disponible en: https://www.elsevier.com/about/policies-and-standards/generative-ai-policies-for-journals

LEE, Jeong Hyun; SHIN, Jaeseung (2024). «How to optimize prompting for large language models in clinical research». Korean Journal of Radiology, vol. 25, n.º 10, págs. 869-873. DOI: https://doi.org/10.3348/kjr.2024.0695

NADDAF, Miryam (2025, 15 de diciembre). «More than half of researchers now use AI for peer review—often against guidance». Nature, vol. 649, págs. 273-274. DOI: https://doi.org/10.1038/d41586-025-04066-5

RAZAVI, Amirhossein; SOLTANGHEIS, Mina; ARABZADEH, Negar; SALAMAT, Sara; ZIHAYAT, Morteza; BAGHERI, Ebrahim (2025). «Benchmarking prompt sensitivity in large language models». Advances in Information Retrieval (ECIR 2025), págs. 303-313. Springer. DOI: https://doi.org/10.1007/978-3-031-88714-7_29

SPRINGER NATURE (s. f.). «Editorial policies». Springer Nature [en línea]. Disponible en: https://www.springernature.com/gp/policies/editorial-policies

THELWALL, Mike; YAGHI, Abdallah (2025). «Evaluating the predictive capacity of ChatGPT for academic peer review outcomes across multiple platforms». Scientometrics, vol. 130, págs. 5285-5307. DOI: https://doi.org/10.1007/s11192-025-05287-1

ZHUO, Jingming; ZHANG, Songyang; FANG, Xinyu; DUAN, Haodong; LIN, Dahua; CHEN, Kai (2024). «ProSA: Assessing and understanding the prompt sensitivity of LLMs». Findings of the Association for Computational Linguistics: EMNLP 2024, págs. 1950-1976. Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2024.findings-emnlp.108

Imagen de portada:

Representación simbólica de una herramienta de IA realizando labores de revisión creada por ChatGPT a partir del prompt «Crea una imagen que simbolice la labor de peer review de un artículo científico ejercida por IA.» Fuente: OpenAI (31 de mayo de 2026).

Citación recomendada

MOHAMMADI, Leila. «El evaluador ausente: IAGen, arbitrariedad oculta y erosión del juicio académico». COMeIN [en línea], junio 2026, no. 166. ISSN: 1696-3296. DOI: https://doi.org/10.7238/c.n166.2640

inteligencia artificial; investigación; comunicación científica; ética de la comunicación;