Funziona nella demo, costa in produzione

Il prototipo funziona. Tutti sono impressionati. Il direttore tecnico dice che è sorprendente. Il fornitore mostra una demo curata su dati puliti, con domande selezionate in anticipo.

Nessuno parla di token. Nessuno mostra cosa succede sei mesi dopo il deployment.

Ciò che la demo non mostra

Una demo di IA è, per costruzione, una messa in scena favorevole. I dati sono selezionati, le domande preparate, i casi limite assenti. È un passo di valutazione legittimo, a condizione di sapere cosa si sta osservando: non un prodotto, ma una prova di fattibilità in condizioni favorevoli.

Il problema comincia quando la decisione di investire si fonda su questa messa in scena come se fosse la realtà di produzione.

Tre divari separano la demo dalla produzione.

Il volume. La demo elabora dieci documenti, cento richieste. La produzione ne elabora diecimila al giorno. Gli LLM fatturano per token: ogni parola in entrata e ogni parola in uscita ha un prezzo. I prezzi cambiano trimestralmente e variano di un fattore cento a seconda del modello; l’ordine di grandezza da tenere a mente nel 2026: l’output costa molte volte l’input, e i modelli capaci spaziano da pochi a svariate decine di dollari per milione di token. Quel calcolo, fatto sul volume reale, produce una fattura mensile che il fornitore non menziona nel pitch.

La qualità reale. Nella demo, il modello risponde correttamente agli esempi mostrati. In produzione, incontra casi che nessuno aveva anticipato: documenti mal formattati, domande fuori ambito, utenti che scrivono qualcosa di diverso da ciò che ci si aspettava. Il tasso di errore reale non corrisponde mai a quello della demo.

La supervisione. Nella demo, un esperto controlla ogni output. In produzione, nessuno può rileggere 10.000 risposte al giorno. Gli errori passano. Alcuni hanno conseguenze.

Klarna: il caso di studio che non si può più ignorare

Per due anni, l’esempio di Klarna è apparso in ogni presentazione di agenzie di IA: nel febbraio 2024, la fintech svedese annuncia che il suo assistente IA gestisce il 75% delle conversazioni di assistenza clienti (l’equivalente di 700 agenti in 23 paesi). Il CEO Sebastian Siemiatkowski lo definisce uno dei maggiori guadagni di produttività nella storia dell’azienda. L’annuncio si è diffuso in ogni pitch di fornitori.

Ciò che queste presentazioni non mostravano: cosa è successo dopo.

Nel maggio 2025, Siemiatkowski ha ammesso pubblicamente che la svolta era andata troppo oltre. L’IA gestiva il volume, ma la qualità si era deteriorata. I clienti si lamentavano. Le risposte erano generiche, ripetitive, insufficienti per i casi complessi.

Entrepreneur, 9 maggio 2025 (2025-05-09)

Klarna ha iniziato a riassumere agenti umani. Il modello su cui si è assestata: IA per il volume routinario ad alto traffico, umani per le escalation e le situazioni che richiedono giudizio. Un ibrido. Non il replacement annunciato.

Questa inversione di rotta è la tesi di questo articolo resa concreta. Le metriche di demo brillavano: volume, tasso di gestione, equivalenti di agenti. Le metriche di qualità (soddisfazione del cliente, tasso di re-escalation, complessità dei casi rimanenti) hanno imposto la correzione. L’annuncio di lancio era uno scatto di marketing. La traiettoria completa è un’altra cosa.

Il token è un’unità di costo invisibile

Nessuno pensa naturalmente in token. Pensiamo in parole, pagine, documenti. Ma il modello conta token, e la piattaforma fattura in token.

Un token equivale approssimativamente a tre quarti di una parola inglese. Un documento di due pagine: circa 500 token di input. La risposta generata: 200 token di output. L’output costa molte volte l’input su tutti i modelli capaci del mercato.

I prezzi si muovono velocemente. I modelli di riferimento sono calati di un fattore 10 in due anni; i modelli di reasoning avanzato costano ancora svariate decine di dollari per milione di token di output. Nominare un modello specifico in un articolo evergreen significa citare prezzi obsoleti in sei mesi. Ciò che rimane stabile: moltiplicare il volume di produzione reale per il rapporto token/documento, applicare il prezzo del giorno del modello scelto e confrontare con il budget. Quel calcolo, fatto in condizioni reali e non per estrapolazione della demo, rivela il divario.

Quando le allucinazioni arrivano davanti a un giudice

La demo non mostra le allucinazioni. In produzione, raggiungono utenti reali.

Quel caso fu presentato come un incidente isolato. Era solo l’inizio.

Nel 2025, i tribunali statunitensi hanno sanzionato avvocati in decine di casi analoghi: Dubinin v. Papazian (S.D. Florida, novembre 2025, citazioni fittizie, causa rigettata), In re Loletha Hale (N.D. Georgia, ottobre 2025, «la grande maggioranza dei casi citati non esisteva, non supportava la proposizione, o travisava le fonti»), Idehen v. Stoute-Phillip (Civil Court New York, luglio 2025, sette casi fittizi in un’appendice di 88 pagine). A metà 2026, il database mantenuto dal giurista Damien Charlotin ha catalogato oltre 1.500 casi documentati (circa 1.600 al 1° giugno 2026) nel mondo in cui un’IA ha prodotto contenuto allucinato presentato a tribunali. Il ritmo: cinque o sei nuovi casi al giorno.

In produzione giudiziaria, medica o regolamentare, un’allucinazione non è un bug risolto nella prossima versione. È una colpa professionale con conseguenze immediate.

La supervisione in produzione

Un argomento frequente a favore dell’IA in produzione: riduce il personale. A volte è vero. Ma il calcolo presuppone che gli errori dell’IA siano trascurabili o facilmente rilevabili. Nessuna delle due cose è garantita.

Nella demo, un esperto controlla ogni output. In produzione, la supervisione si sposta verso i casi escalati: eccezioni, reclami, controversie. Meno volume, ma costo per caso significativamente più alto, perché sono precisamente le situazioni che l’IA non è riuscita a gestire.

Per i settori ad alto rischio (legale, medico, finanziario, compliance), i requisiti di precisione impongono una revisione umana sui casi che superano una soglia di confidenza. In produzione critica, l’IA filtra, gli umani validano i casi a rischio. L’economia reale assomiglia al modello ibrido a cui Klarna è infine arrivata, non all’annuncio di lancio.

Prima di validare un prototipo

Il prototipo convince. Il riflesso è andare in produzione rapidamente. Tre punti mancano tipicamente in quella decisione.

Il costo reale per unità elaborata. Non il costo della demo: il costo di produzione, con volume reale, contesti reali, token reali. Un calcolo, non un’estrapolazione vaga.

Il tasso di errore accettabile. Un LLM fa errori. Definire la soglia al di sopra della quale le conseguenze operative o legali diventano inaccettabili. Quella soglia deve essere stabilita prima del deployment e testata su dati reali, non sugli esempi del fornitore.

Il piano di supervisione. Elencare i casi che richiedono revisione umana, stimarne la frequenza, calcolare il costo di quella supervisione. Se questo calcolo non è stato fatto, il progetto non è pronto per la produzione.

Ciò che il fornitore non dice spontaneamente

Non mente. Mostra ciò che è favorevole. È razionale da parte sua.

Ciò che tipicamente non menziona senza che glielo si chieda: il costo mensile dell’API al volume di produzione target, il comportamento del modello sui casi limite specifici del settore, il piano di supervisione se il tasso di errore supera la soglia accettabile, la politica di conservazione dei dati sulla sua piattaforma.

Su quest’ultimo punto: le chiamate API a un LLM ospitato esternamente esternalizzano i dati della richiesta, sensibili o no.

Deployer con gli occhi aperti

L’IA in produzione funziona. Funziona in decine di casi d’uso documentati. La traiettoria di Klarna (lancio ad alto profilo, correzione silenziosa, ibrido assunto) non è un fallimento. È il percorso normale di un deployment onesto.

Ciò che genera problemi: decidere sulla base di metriche di demo, citare annunci di lancio senza la loro continuazione, e non calcolare i costi reali prima di firmare. Queste tre scorciatoie spiegano la maggior parte dei progetti di IA che tornano al punto di partenza dopo sei mesi.

Testare sui dati del fornitore, estrapolare il costo, supporre che la supervisione sparisca: il percorso breve verso la delusione costosa.

Ciò che la demo non mostra#

Klarna: il caso di studio che non si può più ignorare#

Il token è un’unità di costo invisibile#

Quando le allucinazioni arrivano davanti a un giudice#

La supervisione in produzione#

Prima di validare un prototipo#

Ciò che il fornitore non dice spontaneamente#

Deployer con gli occhi aperti#

Sullo stesso tema

I vostri dati e segreti industriali nell'IA: cosa parte, cosa resta

Allucinazione e falsa fiducia: non un bug, una proprietà da gestire