Quizá ya te hayan hablado de la metáfora del loro estocástico. O del motor de predicción. Son buenas metáforas, pero siguen siendo abstractas. Así es como funciona realmente, con la precisión suficiente para tomar decisiones útiles, sin una sola ecuación.
El token: la unidad básica
Un LLM no lee palabras. Lee tokens. Un token es un fragmento de texto: a veces una palabra completa, a veces parte de una palabra y, a veces, solo un espacio o un signo de puntuación. En inglés, un token equivale, de media, a tres cuartas partes de una palabra. En francés, un poco menos, ya que las palabras son, de media, más largas.
¿Por qué es importante? Porque la longitud de los textos que envías a un modelo se mide en tokens, no en palabras. Y los precios de las API se facturan por token. 1 000 tokens equivalen aproximadamente a 750 palabras en inglés, o 650 en francés.
Cuando envías «Buenos días, ¿puedes analizar este contrato?», el modelo no recibe una frase. Recibe una secuencia de tokens: [«Bon», «jour», «,», «pou», «vez», «-vous», «anal», «yser», «ce», «contra», «t», «?»] (aproximadamente; la división exacta depende del tokenizador del modelo).
El contexto: la memoria a corto plazo
Un LLM no tiene memoria persistente. Lo que «sabe» de tu conversación es lo que hay en la ventana de contexto, es decir, la secuencia de tokens que recibe en cada llamada.
La ventana de contexto tiene un tamaño máximo. GPT-4 Turbo puede procesar hasta 128 000 tokens. Claude 3.5 Sonnet, 200 000. Es mucho. Eso no significa que el modelo utilice todo con la misma eficacia. Las investigaciones muestran que los modelos tienden a recordar mejor lo que hay al principio y al final de la ventana que lo que hay en el medio. No es una regla absoluta, pero es un sesgo documentado.
La temperatura: el equilibrio entre creatividad y fiabilidad
Cuando el modelo predice el siguiente token, no siempre elige el más probable. Hay un parámetro llamado «temperatura» que regula el grado de aleatoriedad en la elección.
Temperatura baja (cerca de 0): el modelo casi siempre elige el token más probable. Salida determinista, repetitiva y fiable para tareas basadas en datos concretos.
Temperatura alta (cerca de 1 o superior): el modelo amplía sus opciones y explora tokens menos probables. El resultado es más creativo y variado, pero también más propenso a tomar direcciones inesperadas.
Para un uso práctico (extracción de información, verificación de formato, clasificación): temperatura baja. Para la redacción creativa: temperatura más alta. La mayoría de los usuarios no lo modifican; las interfaces predeterminadas utilizan una temperatura intermedia.
¿Por qué es tan alucinante, desde el punto de vista mecánico?
Ahora ya conoces los elementos: la predicción del token, el contexto y la temperatura. Si los juntas, la alucinación es inevitable.
El modelo predice el siguiente token más probable. Cuando se refiere a algo sobre lo que ha sido poco entrenado (un acontecimiento reciente, una persona poco conocida, una normativa específica), no tiene una señal clara. Aun así, hace una predicción, porque no puede evitar hacerlo. Y el token que predice puede ser plausible formalmente (es una cifra plausible para una fecha, es un nombre plausible para una persona), pero falso en cuanto a los hechos.
El modelo no sabe que no sabe. No tiene metacognición sobre sus lagunas. Genera con la misma fluidez tanto la verdad como la invención.
Los modelos entrenados con RLHF (aprendizaje por refuerzo a partir de la retroalimentación humana) pueden ser más propensos a generar respuestas fluidas y seguras, incluso sobre temas inciertos, porque los anotadores humanos tienden a preferir las respuestas seguras a las vacilantes.
Este punto es crucial. El ajuste fino mediante retroalimentación humana (RLHF), que hace que los modelos sean más agradables de usar, puede agravar las alucinaciones en cuanto a la confianza mostrada. Los evaluadores humanos premian las respuestas que parecen seguras. El modelo aprende a parecer seguro, incluso cuando no lo está.
El RAG: una ayuda útil, pero no una solución
RAG son las siglas de «Retrieval-Augmented Generation». La idea es la siguiente: en lugar de incluirlo todo en el contexto o pedirle al modelo que «memorice» todo durante el entrenamiento, se recuperan documentos relevantes sobre la marcha y se incorporan al contexto antes de formular la pregunta.
Ejemplo: tienes una base de datos con 10 000 contratos. Para cada pregunta, se buscan los 5 contratos más cercanos semánticamente a la pregunta, se colocan en el contexto y el modelo responde basándose en esos documentos.
El RAG reduce las alucinaciones en el ámbito cubierto. Si la respuesta se encuentra en los documentos, el modelo la encontrará. Si no está ahí, es posible que siga alucinando. Y si los propios documentos contienen errores, el modelo los reproducirá.
Qué conclusiones puede sacar para sus casos de uso
Estos mecanismos tienen consecuencias directas:
Tareas adecuadas para un LLM: conversión de formatos, resumen, clasificación en categorías bien definidas, generación de código a partir de patrones comunes, redacción de un primer borrador.
Tareas de riesgo sin precauciones: extracción de información factual precisa (fechas, cifras, nombres propios), verificación jurídica o médica, todo aquello que dependa de conocimientos recientes no incluidos en los datos de entrenamiento.
Tareas inadecuadas sin una arquitectura específica: todo aquello que requiera memoria a largo plazo, todo aquello que requiera un razonamiento formal garantizado, todo aquello que no tolere errores no detectados.
La regla general es: cuanto mayor sea el coste de un error en tu contexto, más necesario será contar con un mecanismo de validación, ya sea manual o automatizado, de los resultados del modelo. Este mecanismo tiene un coste. Dicho coste forma parte del coste total de tu proyecto de IA.