80 000 euros sur le devis. 240 000 dix-huit mois plus tard. L’écart n’est pas une fraude. L’intégrateur a chiffré ce qu’on lui a demandé de chiffrer : le développement, l’intégration, la mise en production. Personne ne lui a demandé de chiffrer le reste. Et le reste est précisément ce qui consomme le budget en production. Six postes manquent systématiquement dans ces devis, par ordre de surprise pour le DAF qui découvre la facture.
Le coût des tokens en production
Un LLM se facture par token. Pendant la phase de développement, le volume de tokens est faible : vous testez, vous itérez. En production, le volume explose avec l’usage.
Exemple réaliste : une application d’assistance documentaire pour 100 utilisateurs qui font chacun 20 requêtes par jour, avec un contexte moyen de 2 000 tokens par requête (document + question + réponse). C’est 4 millions de tokens par jour. Au tarif du jour d’un modèle capable (à vérifier sur la page de pricing du fournisseur au moment de l’évaluation, les prix changent chaque trimestre), ce volume peut coûter de quelques dizaines à plusieurs centaines d’euros par jour selon le modèle choisi. La méthode de calcul ne change pas ; le tarif, lui, peut avoir été divisé par deux depuis la dernière fois que vous l’avez regardé.
Si votre usage est dix fois plus important, le poste API dépasse facilement 100 000 à 200 000 euros par an. Ce coût n’était pas dans le devis initial.
Le coût de la préparation des données
Pour que votre LLM réponde correctement sur votre domaine, vos données doivent être accessibles. En pratique : nettoyer des documents, les convertir en formats exploitables (PDF → texte propre, pas trivial), construire et maintenir une base vectorielle, gérer les mises à jour.
Ce travail est systématiquement sous-estimé. Les données réelles d’une entreprise sont dans des PDF mal structurés, des Word avec des tableaux, des exports Excel, des emails. Extraire du texte propre à partir de ces sources est un projet en soi.
Un projet RAG sérieux alloue souvent 30 à 40% du budget total à la préparation et la maintenance des données. Ce budget est rarement dans le devis initial.
Le coût de la maintenance des prompts
Un LLM répond à des instructions (prompts). Ces instructions doivent être ajustées et maintenues quand le modèle change de version, quand les cas de test révèlent des comportements inattendus, quand les cas d’usage évoluent.
Le prompt engineering n’est pas une tâche one-shot. C’est un processus continu. Les modèles changent de version (GPT-4 → GPT-4o → GPT-4.5 → GPT-5…) et leur comportement évolue. Un prompt qui fonctionnait bien peut se dégrader après une mise à jour du modèle sous-jacent.
Ce coût de maintenance est quasi-absent des devis. Il représente souvent 15 à 25% du coût total sur 3 ans.
Le coût de la relecture humaine
Un LLM fait des erreurs. Ces erreurs doivent être détectées. Dans les cas d’usage sérieux, une relecture humaine est intégrée dans le flux de travail.
Cette relecture a un coût. Si le modèle traite 1 000 documents par semaine et qu’un opérateur doit relire 10% des sorties (les cas incertains), c’est 100 documents à relire par semaine. Si ça prend 5 minutes par document, c’est 500 minutes d’opérateur humain par semaine, à budgéter comme un poste récurrent.
Ce coût est systématiquement absent des calculs de ROI présentés dans les démos. La démo montre le gain de temps. Elle ne soustrait pas le coût de la vérification.
Le coût de l’infrastructure
Au-delà des coûts d’API, si vous déployez un modèle en local (on-premise) pour des raisons de confidentialité ou de latence : GPU, serveurs, stockage, réseau, maintenance système. Un serveur H100 coûte entre 25 000 et 35 000 euros en achat. Ajoutez électricité, refroidissement, maintenance. Un cluster de 4 GPU dédié à l’inférence représente un capex de 100 000 à 150 000 euros et un opex annuel de 15 000 à 30 000 euros.
Si vous passez par du cloud GPU (AWS, GCP, Azure), les coûts sont en opex mais peuvent être élevés pour des workloads continus.
Comment construire une TCO réaliste
Avant de signer, exigez du fournisseur six chiffres : le volume de tokens estimé en production avec une marge de sécurité à 50%, le budget de préparation et de maintenance des données sur trois ans, le coût de la relecture humaine intégré comme poste récurrent, l’infrastructure cloud ou on-prem avec son TCO 36 mois. Si votre fournisseur ne peut pas les produire, ce n’est pas une question de transparence. C’est qu’il ne les a jamais calculés.