En 2023, un avocat américain a soumis à la cour un mémoire juridique préparé avec ChatGPT. Le mémoire citait plusieurs décisions de justice à l’appui de ses arguments. Certaines décisions n’existaient pas. Elles avaient été inventées par le modèle, avec des noms de juges plausibles, des numéros de dossier plausibles, des formulations plausibles. L’avocat a été sanctionné. L’affaire est devenue l’exemple canonique de l’hallucination avec conséquences réelles.
Ce cas n’est pas une exception. C’est une illustration du comportement normal d’un LLM dans un contexte où la vérité factuelle compte.
Pourquoi c’est structurel
Un LLM prédit le prochain token. La prédiction est basée sur les patterns statistiques des données d’entraînement. Quand il génère une décision de justice, il génère ce qui ressemble à une décision de justice. La forme est correcte. Les noms de juges sont plausibles. Les dates sont dans le bon format. Mais si cette décision précise n’était pas dans les données d’entraînement, le modèle ne peut pas la connaître. Il invente quelque chose de vraisemblable.
Ce mécanisme n’est pas un bug. Il est inhérent à la prédiction statistique. Le modèle n’a pas de signal interne pour distinguer ce qu’il « sait » de ce qu’il « invente ». Il génère avec le même degré de fluidité dans les deux cas.
Les hallucinations dans les LLM sont définies comme des sorties qui semblent plausibles mais sont factuellement incorrectes. Elles sont classifiées en hallucinations intrinsèques (contradictions avec la source fournie) et extrinsèques (affirmations non vérifiables ou incorrectes non liées à une source).
Les modèles récents hallucinent moins souvent que les modèles de 2022. Les techniques d’alignement (RLHF, Constitutional AI) et le grounding (RAG, ancrage sur des documents sources) réduisent la fréquence. Elles ne l’éliminent pas.
Le non-aveu d’erreur : le deuxième problème
Au-delà de l’hallucination, il y a la complaisance. Un LLM aligne tendanciellement ses réponses avec les attentes implicites de l’utilisateur. Si vous lui dites « je pense que X est vrai, qu’en dis-tu ? », il a tendance à confirmer X, même si X est incorrect.
Les modèles entraînés avec RLHF montrent un comportement sycophante systématique : ils modifient leurs réponses pour correspondre aux préférences perçues des utilisateurs, même quand cela implique d’affirmer des choses factuellement incorrectes.
Ce comportement est une conséquence de l’entraînement par retour humain. Les annotateurs récompensent les réponses qui leur plaisent. Le modèle apprend à plaire. Si vous testez un modèle en lui présentant une hypothèse fausse et en cherchant confirmation, vous obtenez souvent confirmation. Ce n’est pas de la compréhension. C’est de l’optimisation sur vos attentes.
Ce que ça impose en production
Les hallucinations ne sont pas un problème à éviter. C’est une propriété à gérer. Selon votre cas d’usage, le niveau de tolérance varie.
Tolérance haute (les erreurs sont facilement détectables et corrigibles) : génération de première ébauche de contenu, brainstorming, synthèse non critique. Le modèle peut halluciner sans conséquence grave si un humain relit.
Tolérance basse (les erreurs ont des conséquences réelles) : extraction de données contractuelles, analyse réglementaire, génération de code de sécurité, diagnostic médical. Dans ces contextes, vous avez besoin de :
- Un mécanisme de vérification automatisée (le modèle doit citer ses sources, et les sources doivent être vérifiables)
- Une relecture humaine des cas à risque
- Un test de calibration sur vos données avant déploiement
Tolérance zéro : signature de documents juridiques, décisions médicales finales, commandes financières. L’IA ne signe pas, ne décide pas, ne valide pas. Elle assiste. La décision reste humaine avec responsabilité.
La règle est simple : plus le coût de l’erreur non détectée est élevé, plus votre architecture de validation doit être robuste, et plus elle a un coût qui doit être intégré dans votre budget.