La escena es familiar. Una sala de reuniones, un proveedor de software, una demo cuidada. La herramienta responde preguntas sobre su sector, reformula un contrato, resume un informe de veinte páginas en treinta segundos. Y el proveedor dice, con la soltura de quien lo ha dicho cien veces: “Nuestra IA entiende su negocio.”
A esa frase le sigue una pregunta. Rara vez se formula en voz alta: ¿entiende, o completa?
No es una distinción técnica reservada a ingenieros. Es la línea divisoria entre una decisión informada y una compra basada en una promesa no examinada. Todo lo que hay en este artículo depende de la respuesta.
La palabra que hace todo el trabajo de venta
“Inteligencia artificial” es una etiqueta elegida en 1956 por John McCarthy para nombrar un programa de investigación. Sonaba bien, cubría un campo amplio y sobrevivió a varias décadas en las que la realidad no siguió el paso. Hoy, esta etiqueta hace algo preciso en la mente de quien la lee: instala una equivalencia implícita entre lo que hacen estos sistemas y lo que hace una mente humana.
Fíjese en la segunda palabra: artificial. No en el sentido de “falso” frente a “real”. En el sentido etimológico: fabricado, construido, producido por la habilidad humana. Lo que es artificial no nace, no es consciente, no piensa. Un artefacto, en el sentido de Aristóteles, es lo que no existe en la naturaleza sino que viene de la mano del hombre. Un gran modelo de lenguaje es un artefacto. Una prótesis estadísticamente sofisticada, no una mente.
La palabra “inteligencia” hace el trabajo de venta. La palabra “artificial” contiene la descripción exacta. Nos hemos acostumbrado a leer el sustantivo y olvidar el adjetivo.
Lo que hace realmente un modelo
Cuando envía texto a un LLM, esto es lo que ocurre de verdad.
El texto se divide en tokens, fragmentos de palabras de aproximadamente tres cuartos de una palabra inglesa cada uno. El modelo calcula, para cada token que podría seguir al contexto actual, una probabilidad. Selecciona el token más probable, con una pequeña variación aleatoria para evitar la repetición mecánica. Avanza un token. Lo hace de nuevo. Hasta que termina la respuesta.
No hay comprensión en este proceso. No hay modelo del mundo. No hay intención. No hay verificación frente a la realidad externa. El modelo no “aprendió” sus contratos como lo haría un abogado, interiorizando la lógica jurídica. Aprendió las regularidades estadísticas de miles de millones de textos, los patrones de co-ocurrencia entre secuencias de tokens. Sabe qué sigue a qué, con una precisión estadística que impresiona.
Una analogía que funciona sin jerga: imagine un sistema que ha absorbido veinte años de prensa médica completa. Ante cualquier frase médica a medio escribir, puede predecir la continuación con una precisión que impresionaría a un médico residente. ¿Sabe ese sistema qué es una enfermedad? No. Sabe qué sigue estadísticamente a “el paciente presenta tos persistente acompañada de fiebre desde hace”. Eso es radicalmente distinto. Y esa diferencia no es un detalle, es el núcleo del problema.
La arquitectura Transformer, que sustenta todos los grandes modelos de lenguaje modernos, es un mecanismo de atención entre tokens. Produce representaciones contextuales notablemente eficaces para la predicción de secuencias.
El artículo fundacional de 2017 que desencadenó la ola actual no se titula “Hacia una inteligencia artificial general”. Se llama “Attention Is All You Need”. La atención de la que habla es un mecanismo matemático de ponderación entre tokens. Brillante, decisivo, la base de todo lo que vino después. Pero no es inteligencia.
El razonamiento puesto en escena
Desde 2024, una nueva generación de modelos se comercializa por su capacidad de “razonar”. El modelo “piensa” antes de responder. “Muestra su trabajo”. Genera lo que se llama una cadena de pensamiento.
Lo que ocurre: el modelo genera una secuencia de tokens intermedios antes de la respuesta final. Esta cadena parece razonamiento porque adopta la forma del razonamiento: pasos, verificaciones, correcciones aparentes. Y mejora el resultado final en tareas estructuradas, sobre todo en matemáticas, lógica formal y código. Esta mejora es real, documentada, significativa.
Lo que no es real: que el modelo piense mientras genera esa cadena. Predice los tokens de la cadena de “razonamiento” exactamente igual que predice los tokens de la respuesta: buscando la continuación más probable en el contexto. Los pasos intermedios mejoran la respuesta final porque condicionan mejor el contexto de inferencia, no porque correspondan a una deliberación interna.
Llamar a esto “pensamiento”, “reflexión” o “cognición” es una elección de marketing, no una descripción del mecanismo. El salto de rendimiento está documentado. La interpretación cognitiva que se le añade es una narrativa. Distinguir ambas cosas ya es una base más sólida para las decisiones.
La prueba por el absurdo
Si el modelo realmente entendiera, las alucinaciones serían imposibles.
Un sistema que sabe que algo es falso no lo afirma. Un sistema que “entiende” su dominio no inventa jurisprudencia inexistente, referencias bibliográficas fabricadas ni estadísticas de la nada. Y, sin embargo, ocurre. No rara vez. Regularmente, con confianza, en un estilo impecable.
La alucinación no es un error accidental que se corregirá en la próxima actualización. Es la consecuencia directa y predecible del funcionamiento basado en la predicción. El modelo genera lo que es estadísticamente probable en su espacio de tokens, no lo que es verdad en el mundo. Cuando la respuesta probable se parece a la verdadera sin serlo, el modelo la escribe igualmente. El mismo mecanismo que produce respuestas correctas produce las incorrectas, exactamente de la misma forma.
Los grandes modelos de lenguaje generan texto estadísticamente plausible sin referencia al significado ni a la verdad. La fluidez del resultado crea la ilusión de una comprensión que no existe.
Los modelos alucinan menos que hace tres años. La mejora es real. Pero una reducción no es una eliminación. En el estadio de las arquitecturas actualmente conocidas, la alucinación es una propiedad estructural, no un mal funcionamiento marginal en vías de desaparecer.
Confianza sin fiabilidad
Hay un comportamiento de los modelos que merece atención especial: afirman con igual confianza una verdad verificable y un error fabricado.
El modelo no dice “no estoy seguro” cuando no lo está. No marca sus salidas con un indicador de confianza que usted pueda leer. La certeza superficial es una propiedad de la predicción: si el token más probable es una afirmación segura, eso es lo que el modelo produce. La forma de la certeza no es una señal de fiabilidad.
Un factor agravante: el modelo tiende a darle la razón. Si su pregunta contiene una premisa falsa, una fracción significativa de las respuestas validará esa premisa en lugar de corregirla. Esto no es servilismo, es completado. En los datos de entrenamiento, los textos humanos confirman con mucha más frecuencia de la que contradicen. Ese patrón se aprende y se reproduce.
Para un directivo que quiere contrastar su juicio sobre un tema de IA, esto crea una trampa precisa. La pregunta “¿es sólido mi análisis?” tiene estadísticamente buenas probabilidades de obtener una respuesta positiva. Eso no es validación, es un espejo. La distinción es esencial en un entorno de toma de decisiones.
Lo que cuesta el malentendido
Tres decisiones que el malentendido distorsiona con regularidad.
Sobredelegación sin validación. Si la herramienta entiende, se le puede delegar el juicio. Si la herramienta predice, hay que validar. Esta distinción cambia la arquitectura organizativa en torno a la herramienta: el volumen de revisión humana, la responsabilidad por los errores, los procedimientos de control. Muchas organizaciones desplegaron sobre la primera hipótesis y descubrieron la realidad de la segunda en producción, a veces con costes significativos.
Comprar basándose en la demo. Una demo de LLM está, por diseño, optimizada para los casos en que el modelo funciona bien. Los casos de uso mostrados están seleccionados. La distribución completa del rendimiento, incluidas las colas de error, no es visible en la demo. “Funciona en la demo” es una observación verdadera e insuficiente. La pregunta no es si funciona: es cuál es la tasa de error en su caso de uso específico, en sus datos reales, bajo sus condiciones operativas.
Desplegar en producción como si fuera un entorno de pruebas. En un entorno de pruebas, un error no cuesta nada. En producción, un error en un presupuesto a un cliente, un resumen contractual o una respuesta a un paciente tiene un valor. Los errores no desaparecen cuando se pasa del entorno de pruebas a la producción. Ganan peso.
Lo que estas herramientas hacen realmente bien
Sería inexacto y contraproducente negar el rendimiento real.
Estos sistemas realizan tareas que nadie sabía automatizar hace diez años: traducción de alta calidad en idiomas bien representados en los datos de entrenamiento, resumen de documentos largos, generación de código correcto para patrones comunes, clasificación de textos a gran escala, búsqueda semántica que recupera un documento por su significado en lugar de por las palabras exactas.
Los grandes modelos de lenguaje muestran capacidades emergentes en tareas para las que no fueron explícitamente entrenados, y estas capacidades aumentan con el tamaño del modelo.
Estos rendimientos son medibles, comparables a los de expertos humanos en tareas específicas, y en su dominio de competencia establecido, estos sistemas cumplen. La cuestión no es negar lo que hacen las herramientas. Es no extrapolar de sus puntos fuertes una capacidad universal que no tienen.
El límite estructural sigue siendo el mismo: estos rendimientos están condicionados por la calidad de los datos de entrenamiento y la proximidad de la tarea a lo que el modelo ha aprendido. En un tema poco representado en los corpus, en un razonamiento que se aparta de los patrones aprendidos, el rendimiento cae. Y el modelo no señala la caída.
Una máquina de predicción, no una inteligencia que comprar
Linus Torvalds, el autor del kernel Linux, lo dijo en diez palabras en octubre de 2024: “90% marketing, 10% reality.” Un veredicto general sobre el discurso sobre IA, no sobre las herramientas en sí. Pero nombra algo preciso: en este sector, la brecha entre lo que se vende y lo que se entrega es estructuralmente amplia, porque el propio nombre de la tecnología lleva una promesa que la tecnología no puede cumplir.
Alquila una máquina de predicción. Predice notablemente bien, dentro de su dominio de competencia, en tareas donde el rendimiento es medible y está establecido. No entiende, no sabe, no verifica. Mantener esa imagen en la cabeza no le impide usarla, y no disminuye lo que hace. Cambia lo que delega, cómo la encuadra y lo que valida.
Eso no es un handicap de percepción. Es una ventaja de decisión.