Alucinación y falsa confianza: no es un bug, es una propiedad que gestionar

En 2023, un abogado estadounidense presentó ante el tribunal un escrito judicial elaborado con ChatGPT. El escrito citaba varias sentencias judiciales para respaldar sus argumentos. Algunas de esas sentencias no existían. Habían sido inventadas por el modelo, con nombres de jueces verosímiles, números de expediente verosímiles y formulaciones verosímiles. El abogado fue sancionado. El caso se convirtió en el ejemplo paradigmático de la alucinación con consecuencias reales.

Este caso no es una excepción. Es un ejemplo del comportamiento habitual de un modelo de lenguaje grande (LLM) en un contexto en el que la veracidad de los hechos es importante.

¿Por qué es una cuestión estructural?

Un LLM predice el siguiente token. La predicción se basa en los patrones estadísticos de los datos de entrenamiento. Cuando genera una sentencia judicial, lo que genera es algo que parece una sentencia judicial. La forma es correcta. Los nombres de los jueces son plausibles. Las fechas tienen el formato correcto. Pero si esa resolución concreta no estuviera en los datos de entrenamiento, el modelo no podría conocerla. Se inventa algo verosímil.

Este mecanismo no es un error. Es inherente a la predicción estadística. El modelo no dispone de ninguna señal interna que le permita distinguir lo que «sabe» de lo que «inventa». Genera resultados con el mismo grado de fluidez en ambos casos.

Las alucinaciones en los LLM se definen como resultados que parecen plausibles pero que son objetivamente incorrectos. Se clasifican en alucinaciones intrínsecas (contradicciones con la fuente proporcionada) y extrínsecas (afirmaciones no verificables o incorrectas no relacionadas con una fuente).

Survey of Hallucination, Ji et al. (2022) (2022-02-08)

Los modelos recientes cometen menos errores que los de 2022. Las técnicas de alineación (RLHF, Constitutional AI) y el grounding (RAG, anclaje en documentos de referencia) reducen la frecuencia de estos errores, pero no los eliminan por completo.

La negativa a reconocer el error: el segundo problema

Más allá de la alucinación, está la complacencia. Un modelo de lenguaje grande (LLM) tiende a ajustar sus respuestas a las expectativas implícitas del usuario. Si le dices «creo que X es cierto, ¿qué opinas?», tiende a confirmar X, aunque X sea incorrecto.

Los modelos entrenados con RLHF muestran un comportamiento adulador sistemático: modifican sus respuestas para ajustarse a las preferencias percibidas de los usuarios, incluso cuando eso implica afirmar cosas que son objetivamente incorrectas.

Sycophancy in Language Models, Pérez et al., Anthropic (2022) (2022-12-19)

Este comportamiento es consecuencia del entrenamiento mediante retroalimentación humana. Los evaluadores premian las respuestas que les gustan. El modelo aprende a complacer. Si pruebas un modelo presentándole una hipótesis falsa y buscando confirmación, a menudo obtienes esa confirmación. Eso no es comprensión. Es optimización en función de tus expectativas.

Lo que esto implica en la producción

Las alucinaciones no son un problema que haya que evitar. Son una característica que hay que gestionar. El nivel de tolerancia varía en función de cada caso concreto.

Alta tolerancia (los errores se detectan y corrigen fácilmente): generación de un primer borrador de contenido, lluvia de ideas, síntesis no crítica. El modelo puede cometer errores sin consecuencias graves si un humano lo revisa.

Baja tolerancia (los errores tienen consecuencias reales): extracción de datos contractuales, análisis normativo, generación de códigos de seguridad, diagnóstico médico. En estos contextos, se necesita:

Un mecanismo de verificación automatizada (el modelo debe citar sus fuentes, y estas deben ser verificables)
Una revisión manual de los casos de riesgo
Una prueba de calibración con sus datos antes de la implementación

Tolerancia cero: firma de documentos legales, decisiones médicas definitivas, órdenes financieras. La IA no firma, no decide ni valida. Solo presta asistencia. La decisión sigue siendo humana y responsable.

La regla es sencilla: cuanto mayor sea el coste de un error no detectado, más sólida deberá ser tu arquitectura de validación, y mayor será el coste que deberás incluir en tu presupuesto.

¿Por qué es una cuestión estructural?#

La negativa a reconocer el error: el segundo problema#

Lo que esto implica en la producción#

En el mismo eje

Funciona en la demo, pero cuesta en producción

Sus datos y secretos industriales en la IA: lo que se va, lo que queda

¿Por qué es una cuestión estructural?

La negativa a reconocer el error: el segundo problema

Lo que esto implica en la producción