80.000 sul preventivo. 240.000 diciotto mesi dopo. La discrepanza non è una frode. L’integratore ha indicato ciò che gli è stato chiesto di indicare: sviluppo, integrazione, avvio della produzione. Nessuno gli ha chiesto di indicare il resto. E il resto è proprio ciò che consuma il budget di produzione. Ecco cosa manca nel preventivo, in ordine di sorpresa per il CFO che scopre la fattura sei mesi dopo.

Il costo dei gettoni in produzione

Un LLM viene fatturato per token. Durante la fase di sviluppo, il volume di token è basso: si testa e si itera. In produzione, il volume esplode con l’uso.

Un esempio realistico: un’applicazione di assistenza documentale per 100 utenti, ciascuno dei quali effettua 20 richieste al giorno, con un contesto medio di 2.000 token per richiesta (documento + domanda + risposta). Si tratta di 4 milioni di token al giorno. A 0,015 euro per 1.000 token (tariffa GPT-4 Turbo al momento in cui scriviamo), sono 60 euro al giorno, o 22.000 euro all’anno, solo per l’API.

Se l’utilizzo è dieci volte superiore, si parla di 220.000 euro di PLC all’anno. Questo costo non era incluso nel preventivo iniziale.

Il costo della preparazione dei dati

Affinché il vostro LLM risponda correttamente al vostro dominio, i vostri dati devono essere accessibili. In pratica: ripulire i documenti, convertirli in formati utilizzabili (PDF → testo pulito, non banale), costruire e mantenere un database vettoriale, gestire gli aggiornamenti.

Questo lavoro è sistematicamente sottovalutato. I dati reali di un’azienda sono contenuti in PDF mal strutturati, documenti Word con tabelle, esportazioni Excel ed e-mail. L’estrazione di testo pulito da queste fonti è un progetto a sé stante.

Un progetto RAG serio spesso stanzia dal 30 al 40% del budget totale per la preparazione e la manutenzione dei dati. Questo budget è raramente incluso nella stima iniziale.

Il costo della manutenzione immediata

Un LLM risponde a istruzioni (prompt). Queste istruzioni devono essere modificate e mantenute quando il modello cambia versione, quando i casi di test rivelano un comportamento inaspettato, quando i casi d’uso si evolvono.

L’ingegneria tempestiva non è un compito da svolgere una tantum. È un processo continuo. I modelli cambiano versione (GPT-4 → GPT-4o → GPT-4.5 → GPT-5…) e il loro comportamento si evolve. Un prompt che funzionava bene può degradarsi dopo un aggiornamento del modello sottostante.

Questo costo di manutenzione è praticamente assente dai preventivi. Spesso rappresenta il 15-25% del costo totale in 3 anni.

Il costo della correzione umana

Un LLM commette errori. Questi errori devono essere individuati. Nei casi più gravi, la correzione umana è integrata nel flusso di lavoro.

Questa correzione ha un costo. Se il modello elabora 1.000 documenti a settimana e un operatore deve correggere il 10% dell’output (i casi incerti), si tratta di 100 documenti da correggere a settimana. Se ci vogliono 5 minuti per documento, si tratta di 500 minuti di tempo umano per operatore a settimana, da mettere a bilancio come voce ricorrente.

Questo costo viene sistematicamente omesso dai calcoli del ROI presentati nelle demo. La demo mostra il tempo risparmiato. Non sottrae il costo della verifica.

Costi dell’infrastruttura

Oltre ai costi delle API, se si distribuisce un modello in locale (on-premise) per motivi di riservatezza o latenza: GPU, server, storage, rete, manutenzione del sistema. L’acquisto di un server H100 costa tra i 25.000 e i 35.000 euro. Aggiungete l’elettricità, il raffreddamento e la manutenzione. Un cluster di 4 GPU dedicato all’inferenza rappresenta un capex di 100.000-150.000 euro e un opex annuale di 15.000-30.000 euro.

Se si utilizza il cloud delle GPU (AWS, GCP, Azure), i costi sono in opex ma possono essere elevati per i carichi di lavoro continui.

Come costruire un TCO realistico

Prima di firmare, chiedete al fornitore sei cifre: il volume stimato di token in produzione con un margine di sicurezza del 50%, il budget per la preparazione e la manutenzione dei dati in tre anni, il costo della rilettura umana incluso come voce ricorrente, l’infrastruttura cloud o on-prem con il relativo TCO di 36 mesi. Se il vostro fornitore non è in grado di produrli, non è una questione di trasparenza. È perché non li ha mai calcolati.