A lo largo del año has recibido veinte propuestas de IA. Quizá más. Todas prometían más o menos lo mismo: un 40% menos de costes, un 30% menos de tiempo de procesamiento, más autonomía para los equipos. Algunos decían la verdad. La mayoría reempaquetaba una API pública con una capa de aviso del sistema y un logotipo azul en la esquina superior derecha. He aquí las frases que deberían ponerle en alerta, y la pregunta precisa que hay que formular detrás de cada una.
La demo que funciona a la primera
Un vendedor le muestra una demostración. El modelo da un resultado impecable. “Mira, es perfecto. Estás impresionado.
Lo que no se ve: las diez iteraciones de ingeniería rápida que precedieron a esta demostración. Los casos de prueba cuidadosamente elegidos para garantizar el rendimiento del modelo. La ausencia de sus datos reales en la demostración. El hecho de que en sus propios datos, la tasa de “acierto a la primera” será diferente, y usted no tiene forma de saberlo antes de pagar.
Pide que hagan la demostración con tus datos. No sobre datos genéricos, no sobre casos ideales. Sobre sus documentos, sus convenciones, sus formatos. Si el vendedor se niega o es incapaz de hacerlo, probablemente el producto no pueda industrializarse en su contexto.
El modelo que conoce su sector
Expresiones habituales: “conoce su sector”, “entiende la normativa”, “domina su jerga comercial”.
Lo que un LLM “sabe” es lo que había en sus datos de entrenamiento. Los datos públicos actuales hasta una fecha determinada. No conoce tu normativa interna. No conoce sus contratos estándar. No conoce la jurisprudencia reciente que no se ha documentado públicamente. Cuando responde sobre estos temas, extrapola. Y la extrapolación puede equivocarse con mucha seguridad.
Solicite casos de prueba sobre puntos específicos de su sector, con verificación por parte de un experto interno. Documente los fallos, no solo los éxitos.
La herramienta que resuelve sus tres principales problemas
La versión más grandiosa del discurso de la IA. Su problema de productividad: la IA lo resuelve. Su problema de calidad: la IA lo resuelve. Su problema de contratación: AI lo resuelve.
Una herramienta que promete resolverlo todo en un campo determinado promete no resolver realmente nada. La IA funciona bien en tareas bien definidas, con entradas bien estructuradas, en los dominios cubiertos por sus datos. Es mediocre en tareas ambiguas, con entradas ruidosas y dominios infrarrepresentados.
Pregunte cuál es la tarea específica que resuelve el modelo, cuál es la medida del rendimiento en esta tarea y cuál es el procedimiento cuando el modelo se equivoca.
Pruébalo, ya veremos
En un contexto de desarrollo o creación de prototipos: frase legítima. La experimentación es la forma correcta de evaluar un LLM.
En un contexto de despliegue en procesos reales con apuestas reales: una frase peligrosa. “Ya veremos” es aceptable cuando el error cuesta un aviso fallido. No lo es cuando el error cuesta una decisión jurídica incorrecta. Un diagnóstico médico fallido. Una transferencia fraudulenta que pasa desapercibida.
La tolerancia al error no detectado depende del contexto. En contextos en los que es alta, lo adecuado es “probar y ver”. En contextos en los que es baja, es obligatorio un plan de validación y revisión antes de cualquier despliegue.
Lo que debe exigir contractualmente
Hay cuatro cosas que debe exigir contractualmente al proveedor. En primer lugar, el modelo subyacente: qué LLM se ejecuta bajo el capó y qué ocurre cuando cambia de versión. A continuación, la tasa de error medida en casos de prueba representativos de su contexto, no en casos de demostración. El destino de los datos enviados (UE, no UE, uso para formación). Y el SLA si el rendimiento baja tras una actualización del modelo subyacente. El resto (política de retención, perímetro de la Ley de IA, etc.) se trata en los apéndices. Pero estos cuatro puntos son la condición de entrada.
Si un proveedor no puede responder a estas cuatro preguntas, no se trata de una solución industrial. Se trata de una demostración disfrazada de producto.