La scène est banale. Une salle de conférence, un éditeur logiciel, une démo soignée. L’outil répond à des questions sur votre secteur, reformule un contrat, résume un rapport en trente secondes. Et l’éditeur dit, avec la désinvolture de celui qui l’a dit cent fois : “Notre IA comprend votre métier.”
Une question suit cette phrase. Silencieuse, rarement posée : comprend-elle, ou complète-t-elle ?
Ce n’est pas une distinction technique réservée aux ingénieurs. C’est la ligne de fracture entre un arbitrage éclairé et un achat sur promesse. Et toute la suite de cet article tient dans la réponse.
Le mot qui fait tout le travail de vente
“Intelligence artificielle” est une étiquette choisie en 1956 par John McCarthy pour désigner un programme de recherche. Elle sonnait bien, elle couvrait un champ vaste, elle a survécu à plusieurs décennies où la réalité ne suivait pas. Aujourd’hui, cette étiquette accomplit quelque chose de très précis dans la tête de celui qui l’entend : elle installe une équivalence implicite entre ce que font ces systèmes et ce que fait un esprit humain.
Regardez le deuxième mot : artificielle. Pas dans le sens de “faux” par opposition à “vrai”. Dans le sens étymologique : fabriqué, construit, produit par un art humain. Ce qui est artificiel n’est pas né, n’est pas conscient, ne pense pas. Un artefact, au sens d’Aristote, est ce qui n’existe pas dans la nature mais vient de la main de l’homme. Un grand modèle de langage est un artefact. Une prothèse statistique d’une sophistication remarquable, pas un esprit.
Le mot “intelligence” fait le travail de vente. Le mot “artificielle” contient la description exacte. On a pris l’habitude de lire le substantif et d’oublier l’adjectif.
Ce que fait vraiment un modèle
Quand vous soumettez un texte à un LLM, voici ce qui se passe réellement.
Le texte est découpé en tokens, des morceaux de mots d’environ trois-quarts de mot anglais chacun. Le modèle calcule, pour chaque token possible qui pourrait suivre le contexte actuel, une probabilité. Il sélectionne le token le plus probable, avec un peu de bruit aléatoire pour éviter les répétitions mécaniques. Il avance d’un token. Il recommence. Jusqu’à la fin de la réponse.
Il n’y a pas de compréhension dans ce processus. Pas de représentation du monde. Pas d’intention. Pas de vérification contre une réalité externe. Le modèle n’a pas “appris” vos contrats au sens où un juriste les apprendrait, en assimilant la logique du droit. Il a appris les régularités statistiques de milliards de textes, les patterns de co-occurrence entre des séquences de tokens. Il sait ce qui suit quoi, avec une finesse statistique impressionnante.
Une analogie qui tient sans recourir au jargon : imaginez un système qui a absorbé l’intégralité de la presse médicale sur vingt ans. Il peut, sur n’importe quelle phrase à moitié rédigée, prédire la suite avec une précision qui impressionnerait un interne. Ce système sait-il ce qu’est une maladie ? Non. Il sait ce qui suit statistiquement “le patient présente une toux persistante accompagnée de fièvre depuis”. C’est radicalement différent. Et cette différence n’est pas un détail, c’est le fond du problème.
L’architecture Transformer, sur laquelle reposent tous les grands modèles de langage modernes, est un mécanisme d’attention entre tokens. Elle produit des représentations contextuelles remarquablement efficaces pour la prédiction de séquences.
L’article fondateur de 2017, celui qui a déclenché la vague actuelle, ne s’intitule pas “Vers une intelligence artificielle générale”. Il s’appelle “Attention Is All You Need”. L’attention dont il est question est un mécanisme mathématique de pondération entre tokens. Brillant, décisif, à la base de tout ce qui suit. Mais pas de l’intelligence.
Le raisonnement mis en scène
Depuis 2024, une nouvelle génération de modèles est commercialisée sur sa capacité à “raisonner”. Le modèle “réfléchit” avant de répondre. Il “montre son travail”. Il génère ce qu’on appelle une chaîne de pensée.
Voici ce qui se passe : le modèle génère une séquence de tokens intermédiaires avant la réponse finale. Cette chaîne ressemble à un raisonnement parce qu’elle en prend la forme : étapes, vérifications, rectifications apparentes. Et elle améliore le résultat final sur des tâches structurées, notamment en mathématiques, en logique formelle et en code. Cette amélioration est réelle, documentée, non négligeable.
Ce qui n’est pas réel : que le modèle pense pendant qu’il génère cette chaîne. Il prédit les tokens de la chaîne de “raisonnement” exactement comme il prédit les tokens de la réponse : en cherchant le plus probable dans le contexte. Les étapes intermédiaires améliorent la réponse finale parce qu’elles conditionnent mieux le contexte d’inférence, pas parce qu’elles correspondent à une délibération interne.
Nommer cela “pensée”, “réflexion” ou “cognition” est un choix de marketing, pas une description du mécanisme. Le saut de performance est documenté. L’interprétation cognitive qu’on lui colle est une narration. Distinguer les deux, c’est déjà un arbitrage plus solide.
La preuve par l’absurde
Si le modèle comprenait vraiment, les hallucinations seraient impossibles.
Un système qui sait qu’une chose est fausse ne l’affirme pas. Un système qui “comprend” son domaine n’invente pas de jurisprudences inexistantes, de références bibliographiques fabriquées, de statistiques sorties de nulle part. Pourtant, c’est ce qui se produit. Pas rarement. Régulièrement, avec confiance, dans un style irréprochable.
L’hallucination n’est pas un bug accidentel à corriger dans la prochaine mise à jour. C’est la conséquence directe et prévisible du fonctionnement par prédiction. Le modèle génère ce qui est statistiquement probable dans son espace de tokens, pas ce qui est vrai dans le monde. Quand la réponse probable ressemble à du vrai sans l’être, il l’écrit quand même. Le mécanisme qui produit les bonnes réponses produit aussi les mauvaises, exactement de la même façon.
Les grands modèles de langage génèrent du texte statistiquement plausible, sans référence à un sens ni à une vérité. La fluidité du résultat crée l’illusion d’une compréhension qui n’est pas là.
Les modèles hallucinent moins qu’il y a trois ans. L’amélioration est réelle. Mais une réduction n’est pas une élimination. Au stade des architectures actuellement connues, l’hallucination est une propriété structurelle, pas un dysfonctionnement marginal en voie de disparition.
L’aplomb sans fiabilité
Il y a un comportement des modèles qui mérite une attention particulière : ils affirment avec le même aplomb une vérité vérifiable et une erreur fabriquée.
Le modèle ne dit pas “je ne suis pas sûr” quand il ne l’est pas. Il ne marque pas ses sorties d’un indicateur de confiance que vous pourriez lire. La certitude de surface est une propriété de la prédiction : si le token le plus probable est une affirmation assurée, c’est ce que le modèle produit. La forme de la certitude n’est pas un signal de fiabilité.
Un phénomène aggravant : le modèle tend à abonder dans votre sens. Si votre question contient une prémisse erronée, une fraction significative des réponses va valider cette prémisse plutôt que la corriger. Ce n’est pas de la servilité, c’est de la complétion. Dans les données d’entraînement, les textes humains confirment beaucoup plus souvent qu’ils ne contredisent. Ce pattern est appris, et reproduit.
Pour un dirigeant qui cherche à valider son jugement sur un sujet IA, cela crée un piège précis. La question “est-ce que mon analyse est solide ?” a statistiquement de bonnes chances d’obtenir une réponse positive. Ce n’est pas de la validation, c’est du miroir. La distinction est essentielle dans un environnement de décision.
Ce que ça coûte de ne pas voir la différence
Trois décisions que le malentendu fausse régulièrement.
Sur-délégation sans validation. Si l’outil comprend, on peut lui déléguer le jugement. Si l’outil prédit, on doit valider. Cette distinction change l’architecture organisationnelle autour de l’outil : le volume de relecture humaine, les responsabilités en cas d’erreur, les procédures de contrôle. Beaucoup d’organisations ont déployé sur la première hypothèse et découvert la réalité de la seconde en production, parfois à un coût élevé.
Achat sur la démo. La démo d’un LLM est, par construction, optimisée pour les cas où le modèle performe bien. Les cas d’usage montrés sont sélectionnés. La distribution complète des performances, y compris les queues d’erreur, n’est pas visible en démonstration. “Ça marche en démo” est une observation vraie et insuffisante. La question n’est pas si ça marche : c’est quel est le taux d’erreur sur votre cas d’usage précis, dans vos données réelles, dans vos conditions opérationnelles.
Déploiement en production comme si c’était un bac à sable. En bac à sable, une erreur ne coûte rien. En production, une erreur dans un devis client, un résumé contractuel ou une réponse à un patient a une valeur. Les erreurs ne disparaissent pas en passant du bac à sable à la production. Elles prennent du poids.
Ce que ces outils font vraiment bien
Il serait inexact et contre-productif de nier les performances réelles.
Ces systèmes accomplissent des tâches que personne ne savait automatiser il y a dix ans : traduction de haute qualité sur les langues bien représentées dans les données d’entraînement, résumé de documents longs, génération de code correct pour les patterns courants, classification de texte à grande échelle, recherche sémantique qui retrouve un document par le sens plutôt que par les mots exacts.
Les grands modèles de langage montrent des capacités émergentes sur des tâches pour lesquelles ils n’ont pas été explicitement entraînés, et ces capacités augmentent avec la taille du modèle.
Ces performances sont mesurables, comparables à celles d’experts humains sur des tâches ciblées, et dans leur domaine de compétence établi, ces systèmes délivrent. L’enjeu n’est pas de nier ce que font les outils. C’est de ne pas extrapoler de leurs points forts une capacité universelle qu’ils n’ont pas.
La limite structurelle reste la même : ces performances sont conditionnées par la qualité des données d’entraînement et la proximité de la tâche avec ce que le modèle a appris. Sur un sujet peu documenté dans les corpus, sur un raisonnement qui sort des patterns appris, la performance chute. Et le modèle ne signale pas la chute.
Une machine à prédire, pas une intelligence à acheter
Linus Torvalds, l’auteur du noyau Linux, a dit en dix mots en octobre 2024 ce que beaucoup pensent sans oser formuler : “90% marketing, 10% reality.” C’est un jugement général sur le discours IA, pas sur les outils eux-mêmes. Mais il nomme quelque chose de précis : dans ce secteur, l’écart entre ce qu’on vend et ce qu’on livre est structurellement large, parce que le nom même de la technologie porte une promesse que la technologie ne peut pas tenir.
Vous louez une machine à prédire. Elle prédit remarquablement bien, dans son domaine de compétence, sur des tâches où la performance se mesure et s’est établie. Elle ne comprend pas, ne sait pas, ne vérifie pas. Garder cette image en tête ne vous empêche pas de l’utiliser, et ça ne diminue pas ce qu’elle fait. Ça change ce que vous lui déléguez, comment vous l’encadrez, et ce que vous validez.
Ce n’est pas un handicap de perception. C’est un avantage de décision.