Teste, tu verras : ce qui fonctionne en démo coûte cher en production

Le prototype fonctionne. Tout le monde est impressionné. Le directeur technique dit que c’est bluffant. Le prestataire montre une démo soignée sur des données propres, avec des questions sélectionnées à l’avance.

Personne ne parle des tokens. Personne ne montre ce qui se passe six mois après le déploiement.

Ce que la démo ne montre pas

Une démo IA est, par construction, une mise en scène favorable. Les données sont choisies, les questions préparées, les cas limites absents. C’est une étape d’évaluation légitime, à condition de savoir ce qu’on regarde : pas un produit, une preuve de concept sur un scénario favorable.

Le problème commence quand la décision d’investir s’appuie sur cette mise en scène comme si c’était la réalité de production.

Trois écarts séparent la démo de la production.

Le volume. En démo, on traite dix documents, cent requêtes. En production, dix mille par jour. Les LLM facturent au token : chaque mot entrant et chaque mot sortant a un prix. Les grilles changent tous les trimestres et varient du simple au centuiple selon le modèle ; l’ordre de grandeur à retenir en 2026 : l’output coûte plusieurs fois l’input, et les modèles capables s’échelonnent de quelques dollars à plusieurs dizaines de dollars par million de tokens. Ce calcul, fait sur le volume réel, produit une facture mensuelle que le prestataire ne mentionne pas dans le pitch.

La qualité réelle. En démo, le modèle répond juste sur les exemples montrés. En production, il rencontre les cas que personne n’avait anticipés : documents mal formatés, questions hors périmètre, utilisateurs qui écrivent autre chose que ce qu’on attendait. Le taux d’erreur réel n’est jamais celui de la démo.

La supervision. En démo, un expert surveille les sorties. En production, personne ne peut relire 10 000 réponses par jour. Les erreurs passent. Certaines ont des conséquences.

Klarna : le cas d’école qu’on ne peut plus ignorer

Pendant deux ans, l’exemple Klarna a tourné dans toutes les présentations : en février 2024, la fintech suédoise annonce que son assistant IA traite 75 % des conversations de support client, soit l’équivalent de 700 agents, dans 23 pays. Le CEO Sebastian Siemiatkowski parle d’un des gains de productivité les plus importants de l’histoire de la boîte. L’annonce sort dans chaque deck d’agence IA.

Ce que les decks ne montrent pas : la suite.

En mai 2025, le même Siemiatkowski reconnaît publiquement que la bascule avait été trop loin. L’IA traitait les volumes, mais la qualité s’était dégradée. Les clients se plaignaient. Les réponses étaient génériques, répétitives, insuffisantes sur les cas complexes.

Entrepreneur, 9 mai 2025 (2025-05-09)

Klarna a commencé à rembaucher des agents humains, ciblant étudiants et populations rurales, en mode freelance. Le modèle d’arrivée : l’IA sur le volume routinier, l’humain sur les escalades et les cas qui demandent du jugement. Un hybride. Pas le remplacement annoncé.

Ce retournement est la thèse de cet article incarnée sur un cas réel. Les métriques de démo brillaient : volume, taux de traitement, équivalent d’agents. Les métriques de qualité (satisfaction client, taux de réescalade, complexité des cas restants) ont imposé la correction. L’annonce de lancement était un instantané marketing. La trajectoire complète est autre chose.

Le token est une unité de coût invisible

Personne ne pense en tokens naturellement. On pense en mots, en pages, en documents. Mais le modèle compte les tokens, et la plateforme facture en tokens.

Un token, c’est approximativement trois quarts d’un mot anglais. Moins en français, à cause de la morphologie. Un document de deux pages : environ 500 tokens d’input. La réponse générée : 200 tokens d’output. L’output coûte plusieurs fois l’input sur tous les modèles capables du marché.

Les tarifs fluctuent vite. Les modèles de référence ont chuté d’un facteur 10 en deux ans ; les modèles de raisonnement avancé coûtent toujours plusieurs dizaines de dollars par million de tokens output. Nommer GPT-4o ou Claude-3 dans un article evergreen, c’est s’exposer à citer des prix périmés dans six mois. Ce qui reste stable : multiplier le volume réel de production par le ratio tokens/document, appliquer le tarif du jour du modèle visé, et comparer avec le budget. Ce calcul, fait en conditions réelles plutôt qu’en extrapolation de démo, révèle l’écart.

Quand les hallucinations arrivent devant un juge

La démo ne montre pas les hallucinations. En production, elles atteignent des utilisateurs réels.

Ce cas était présenté comme un accident isolé. Il n’était qu’un début.

En 2025, les tribunaux américains ont sanctionné des avocats dans des dizaines d’affaires similaires : Dubinin v. Papazian (S.D. Floride, novembre 2025, citations fictives et rejet de l’affaire), In re Loletha Hale (N.D. Géorgie, octobre 2025, « la grande majorité des affaires citées n’existaient pas, ne soutenaient pas la proposition, ou déformaient les autorités »), Idehen v. Stoute-Phillip (Civil Court New York, juillet 2025, sept affaires fictives dans un appendice de 88 pages). Mi-2026, la base de données tenue par le juriste Damien Charlotin recense plus de 1 500 affaires documentées dans le monde (environ 1 600 au 1er juin 2026) où une IA a produit du contenu halluciné soumis à un tribunal. Le rythme : cinq à six nouveaux cas par jour.

En production judiciaire, juridique, médicale ou réglementaire, une hallucination n’est pas un bug à corriger à la prochaine version. C’est une faute professionnelle avec des conséquences immédiates. L’article sur les hallucinations revient sur pourquoi cette propriété est structurelle et permanente.

La supervision en production

Un argument fréquent en faveur de l’IA en production : elle réduit la main-d’œuvre. Parfois vrai. Mais le calcul suppose que les erreurs de l’IA sont négligeables ou facilement détectables. Ni l’un ni l’autre n’est garanti.

En démo, un expert surveille chaque sortie. En production, la supervision se déplace vers les cas escaladés : exceptions, plaintes, litiges. Moins de volume, mais coût par cas nettement plus élevé, parce que ce sont précisément les situations que l’IA n’a pas su traiter.

Pour les domaines à fort enjeu (juridique, médical, financier, conformité), les exigences de précision imposent une relecture humaine sur les cas qui dépassent un seuil de confiance. En production critique, l’IA filtre, l’humain valide les cas à risque. L’économie réelle ressemble au modèle hybride que Klarna a fini par adopter, pas à l’annonce de lancement.

Avant de valider un prototype

Le prototype convainc. Le réflexe est d’aller en production rapidement. Trois points manquent généralement dans cette décision.

Le coût réel par unité traitée. Pas le coût de la démo : le coût de production, avec le volume réel, les contextes réels, les tokens réels. Un calcul, pas une extrapolation vague. Pour chiffrer un projet IA de bout en bout, voir Le vrai prix d’un projet IA.

Le taux d’erreur acceptable. Un LLM fait des erreurs. Définir au-dessus de quel taux les conséquences opérationnelles ou juridiques deviennent inacceptables. Ce seuil doit être fixé avant le déploiement, et testé sur des données réelles, pas sur les exemples du prestataire.

Le plan de supervision. Lister les cas qui nécessitent une relecture humaine, estimer leur fréquence, calculer le coût de cette supervision. Si ce calcul n’a pas été fait, le projet n’est pas prêt.

Ces trois points recoupent la méthode de Trois questions avant d’investir dans l’IA. Ils s’appliquent à chaque déploiement, sans exception de secteur.

Ce que le prestataire ne dit pas spontanément

Il ne ment pas. Il montre ce qui est favorable. C’est rationnel de sa part.

Ce qu’il ne mentionne généralement pas sans qu’on le demande : le coût mensuel de l’API au volume de production cible, le comportement du modèle sur les cas atypiques du secteur, le plan de supervision si le taux d’erreur dépasse le seuil acceptable, la politique de rétention des données sur sa plateforme.

Sur ce dernier point, voir Vos données dans l’IA : ce qui part, ce qui reste : les appels API à un LLM hébergé externalisent les données de la requête, qu’elles soient sensibles ou non.

Déployer, mais avec les yeux ouverts

L’IA en production fonctionne. Elle fonctionne dans des dizaines de cas d’usage documentés. La trajectoire Klarna (lancement sous les projecteurs, correction discrète, hybride assumé) n’est pas un échec. C’est le déroulé normal d’un déploiement honnête.

Ce qui pose problème, c’est de décider sur la base de métriques de démo, de citer des annonces de lancement sans leur suite, et de ne pas calculer les coûts réels avant de signer. Ces trois raccourcis expliquent la majorité des projets IA qui reviennent à la case départ après six mois.

Tester sur les données du prestataire, extrapoler le coût, supposer que la supervision disparaît : le chemin court vers la déception coûteuse.

Ce que ça change selon votre profil

Pour les dirigeants: En production, les coûts ont une nature différente : volume de tokens calculé sur données réelles, supervision résiduelle des cas escaladés, gestion des erreurs. La décision de déployer doit s'appuyer sur ces trois chiffres, pas sur la fluidité du prototype.
Pour les opérationnels: Avant de valider un déploiement : coût réel au volume cible (tarif du jour, pas d'il y a un an), taux d'erreur acceptable documenté, ressources de supervision affectées. Sans ces trois mesures, le projet n'est pas prêt.
Pour les curieux: Entre démo et production, la technique ne change pas. L'exposition, si : en production, les erreurs atteignent de vrais utilisateurs. La trajectoire Klarna 2024-2025 en est la démonstration la plus documentée disponible.

Ce que la démo ne montre pas#

Klarna : le cas d’école qu’on ne peut plus ignorer#

Le token est une unité de coût invisible#

Quand les hallucinations arrivent devant un juge#

La supervision en production#

Avant de valider un prototype#

Ce que le prestataire ne dit pas spontanément#

Déployer, mais avec les yeux ouverts#

Sur le même axe

Vos données et votre secret industriel dans l'IA : ce qui part, ce qui reste

Hallucination et fausse confiance : pas un bug, une propriété à gérer