Funciona en la demo, pero cuesta en producción

El prototipo funciona. Todos están impresionados. El director técnico dice que es asombroso. El proveedor muestra una demo cuidadosamente preparada con datos limpios y preguntas seleccionadas de antemano.

Nadie menciona los token. Nadie muestra qué ocurre seis meses después del despliegue.

Lo que la demo no muestra

Una demo de IA es, por diseño, una puesta en escena favorable. Los datos están seleccionados, las preguntas preparadas, los casos límite ausentes. Es un paso de evaluación legítimo, siempre que se sepa qué se está observando: no un producto, sino una prueba de concepto en condiciones favorables.

El problema comienza cuando la decisión de invertir se apoya en esa puesta en escena como si fuera la realidad de producción.

Tres brechas separan la demo de la producción.

El volumen. La demo procesa diez documentos, cien consultas. La producción procesa diez mil al día. Los LLM cobran por token: cada palabra que entra y cada palabra que sale tiene un precio. Los precios cambian trimestralmente y varían en un factor de cien según el modelo; la escala de magnitud a retener en 2026: el output cuesta varias veces el input, y los modelos capaces oscilan entre unos pocos y varias decenas de dólares por millón de token. Ese cálculo, realizado sobre el volumen real, genera una factura mensual que el proveedor no menciona en el pitch.

La calidad real. En la demo, el modelo responde correctamente a los ejemplos mostrados. En producción, se enfrenta a casos que nadie anticipó: documentos mal formateados, preguntas fuera del ámbito, usuarios que escriben algo diferente a lo esperado. La tasa de error real nunca es la de la demo.

La supervisión. En la demo, un experto supervisa cada salida. En producción, nadie puede revisar 10.000 respuestas al día. Los errores pasan. Algunos tienen consecuencias.

Klarna: el caso de estudio que ya no se puede ignorar

Durante dos años, el ejemplo de Klarna apareció en todas las presentaciones de agencias de IA: en febrero de 2024, la fintech sueca anunció que su asistente de IA gestionaba el 75 % de las conversaciones de atención al cliente (el equivalente a 700 agentes en 23 países). El CEO Sebastian Siemiatkowski lo calificó como uno de los mayores aumentos de productividad en la historia de la empresa. El anuncio se extendió por todos los pitches de proveedores.

Lo que esas presentaciones no mostraban: lo que vino después.

En mayo de 2025, Siemiatkowski reconoció públicamente que el giro había ido demasiado lejos. La IA gestionaba el volumen, pero la calidad se había deteriorado. Los clientes se quejaban. Las respuestas eran genéricas, repetitivas, insuficientes ante los casos complejos.

Entrepreneur, 9 de mayo de 2025 (2025-05-09)

Klarna empezó a recontrar agentes humanos. El modelo al que llegaron: IA para el volumen rutinario de alto tráfico, humanos para las escaladas y las situaciones que requieren criterio. Un híbrido. No el reemplazo que se había anunciado.

Este giro es la tesis de este artículo hecha concreta. Las métricas de demo brillaban: volumen, tasa de gestión, equivalentes de agentes. Las métricas de calidad (satisfacción del cliente, tasa de re-escalado, complejidad de los casos restantes) impusieron la corrección. El anuncio de lanzamiento era una instantánea de marketing. La trayectoria completa es otra cosa.

El token es una unidad de coste invisible

Nadie piensa en token de forma natural. Pensamos en palabras, páginas, documentos. Pero el modelo cuenta token, y la plataforma factura en token.

Un token equivale aproximadamente a tres cuartas partes de una palabra inglesa. Un documento de dos páginas: alrededor de 500 token de input. La respuesta generada: 200 token de output. El output cuesta varias veces el input en todos los modelos capaces del mercado.

Los precios se mueven rápido. Los modelos de referencia se han abaratado un factor 10 en dos años; los modelos de reasoning avanzado siguen costando varias decenas de dólares por millón de token de output. Nombrar un modelo específico en un artículo evergreen significa citar precios obsoletos en seis meses. Lo que se mantiene estable: multiplicar el volumen de producción real por el ratio token/documento, aplicar el precio del día del modelo elegido y comparar con el presupuesto. Ese cálculo, hecho en condiciones reales y no por extrapolación de demo, revela la brecha.

Cuando las alucinaciones llegan ante un juez

La demo no muestra las alucinaciones. En producción, llegan a usuarios reales.

Este caso se presentó como un accidente aislado. Solo fue el principio.

En 2025, los tribunales estadounidenses sancionaron a abogados en decenas de casos similares: Dubinin v. Papazian (S.D. Florida, noviembre de 2025, citas ficticias, desestimación del caso), In re Loletha Hale (N.D. Georgia, octubre de 2025, «la gran mayoría de los casos citados no existían, no respaldaban la proposición o citaban mal la autoridad»), Idehen v. Stoute-Phillip (Civil Court Nueva York, julio de 2025, siete casos ficticios en un apéndice de 88 páginas). A mediados de 2026, la base de datos mantenida por el jurista Damien Charlotin ha catalogado más de 1.500 casos documentados (aproximadamente 1.600 a 1 de junio de 2026) en todo el mundo en los que una IA produjo contenido alucinado presentado ante tribunales. El ritmo: cinco o seis nuevos casos al día.

En producción judicial, médica o regulatoria, una alucinación no es un bug que se corrige en la próxima versión. Es una falta profesional con consecuencias inmediatas.

La supervisión en producción

Un argumento frecuente a favor de la IA en producción: reduce la carga de trabajo. A veces es cierto. Pero el cálculo presupone que los errores de la IA son despreciables o fácilmente detectables. Ninguna de las dos cosas está garantizada.

En la demo, un experto supervisa cada salida. En producción, la supervisión se desplaza hacia los casos escalados: excepciones, reclamaciones, litigios. Menos volumen, pero un coste por caso significativamente mayor, porque son precisamente las situaciones que la IA no pudo gestionar.

En los ámbitos de alto riesgo (legal, médico, financiero, cumplimiento normativo), los requisitos de precisión imponen una revisión humana en los casos que superan un umbral de confianza. En producción crítica, la IA filtra, los humanos validan los casos de riesgo. La economía real se parece al modelo híbrido al que Klarna finalmente llegó, no al anuncio de lanzamiento.

Antes de validar un prototipo

El prototipo convence. El reflejo es pasar a producción rápidamente. Tres puntos suelen faltar en esa decisión.

El coste real por unidad procesada. No el coste de la demo: el coste de producción, con volumen real, contextos reales, token reales. Un cálculo, no una extrapolación vaga.

La tasa de error aceptable. Un LLM comete errores. Definir el umbral a partir del cual las consecuencias operativas o jurídicas se vuelven inaceptables. Ese umbral debe fijarse antes del despliegue y probarse con datos reales, no con los ejemplos del proveedor.

El plan de supervisión. Listar los casos que requieren revisión humana, estimar su frecuencia, calcular el coste de esa supervisión. Si ese cálculo no se ha hecho, el proyecto no está listo.

Lo que el proveedor no dice espontáneamente

No miente. Muestra lo que es favorable. Eso es racional por su parte.

Lo que habitualmente no menciona sin que se le pregunte: el coste mensual de la API al volumen de producción previsto, el comportamiento del modelo en los casos límite específicos del sector, el plan de supervisión si la tasa de error supera el umbral aceptable, la política de retención de datos en su plataforma.

Sobre este último punto: las llamadas a la API de un LLM alojado externamente externalizan los datos de la solicitud, sean o no sensibles.

Desplegar con los ojos abiertos

La IA en producción funciona. Funciona en decenas de casos de uso documentados. La trayectoria de Klarna (lanzamiento de alto perfil, corrección silenciosa, híbrido asumido) no es un fracaso. Es el recorrido normal de un despliegue honesto.

Lo que genera problemas: decidir sobre la base de métricas de demo, citar anuncios de lanzamiento sin su continuación, y no calcular los costes reales antes de firmar. Estos tres atajos explican la mayoría de los proyectos de IA que vuelven al punto de partida a los seis meses.

Probar con los datos del proveedor, extrapolar el coste, asumir que la supervisión desaparece: el camino corto hacia la decepción costosa.

Lo que la demo no muestra#

Klarna: el caso de estudio que ya no se puede ignorar#

El token es una unidad de coste invisible#

Cuando las alucinaciones llegan ante un juez#

La supervisión en producción#

Antes de validar un prototipo#

Lo que el proveedor no dice espontáneamente#

Desplegar con los ojos abiertos#

En el mismo eje

Sus datos y secretos industriales en la IA: lo que se va, lo que queda

Alucinación y falsa confianza: no es un bug, es una propiedad que gestionar