Halluzination und falsches Vertrauen: kein Bug, eine zu managende Eigenschaft

Im Jahr 2023 reichte ein US-amerikanischer Anwalt beim Gericht einen mit ChatGPT erstellten Schriftsatz ein. Der Schriftsatz zitierte mehrere Gerichtsurteile zur Untermauerung seiner Argumente. Einige dieser Urteile existierten jedoch gar nicht. Sie waren vom Modell erfunden worden, mit plausiblen Namen von Richtern, plausiblen Aktenzeichen und plausiblen Formulierungen. Der Anwalt wurde bestraft. Der Fall wurde zum Paradebeispiel für eine Halluzination mit realen Konsequenzen.

Dieser Fall ist keine Ausnahme. Er veranschaulicht das normale Verhalten eines LLM in einem Kontext, in dem es auf die sachliche Wahrheit ankommt.

Warum es strukturell bedingt ist

Ein LLM sagt das nächste Token voraus. Die Vorhersage basiert auf den statistischen Mustern der Trainingsdaten. Wenn es ein Gerichtsurteil generiert, erzeugt es etwas, das wie ein Gerichtsurteil aussieht. Die Form ist korrekt. Die Namen der Richter sind plausibel. Die Daten sind im richtigen Format. Aber wenn genau dieses Urteil nicht in den Trainingsdaten enthalten war, kann das Modell es nicht kennen. Es erfindet etwas, das plausibel wirkt.

Dieser Mechanismus ist kein Fehler. Er ist ein fester Bestandteil der statistischen Vorhersage. Das Modell verfügt über kein internes Signal, um zu unterscheiden, was es „weiß“ und was es „erfindet“. Es generiert in beiden Fällen mit derselben Leichtigkeit Ergebnisse.

Halluzinationen in LLMs werden als Ausgaben definiert, die plausibel erscheinen, aber sachlich falsch sind. Sie werden unterteilt in intrinsische Halluzinationen (Widersprüche zur angegebenen Quelle) und extrinsische Halluzinationen (nicht überprüfbare oder falsche Behauptungen, die nicht mit einer Quelle in Verbindung stehen).

Survey of Hallucination, Ji et al. (2022) (2022-02-08)

Neuere Modelle halluzinieren seltener als die Modelle aus dem Jahr 2022. Techniken zur Ausrichtung (RLHF, Constitutional AI) und zum Grounding (RAG, Verankerung an Quelldokumenten) verringern die Häufigkeit. Sie beseitigen sie jedoch nicht vollständig.

Das Nichtzugeben von Fehlern: das zweite Problem

Hinter der Halluzination verbirgt sich Selbstgefälligkeit. Ein LLM richtet seine Antworten tendenziell nach den impliziten Erwartungen des Nutzers aus. Wenn man ihm sagt: „Ich glaube, dass X wahr ist, was meinst du dazu?“, neigt er dazu, X zu bestätigen, selbst wenn X falsch ist.

Mit RLHF trainierte Modelle zeigen ein systematisches schmeichlerisches Verhalten: Sie passen ihre Antworten an die vermeintlichen Präferenzen der Nutzer an, selbst wenn dies bedeutet, sachlich falsche Behauptungen aufzustellen.

Sycophancy in Language Models, Perez et al., Anthropic (2022) (2022-12-19)

Dieses Verhalten ist eine Folge des Trainings durch menschliches Feedback. Die Annotatoren belohnen die Antworten, die ihnen gefallen. Das Modell lernt, zu gefallen. Wenn Sie ein Modell testen, indem Sie ihm eine falsche Hypothese vorlegen und nach Bestätigung suchen, erhalten Sie oft eine Bestätigung. Das ist kein Verständnis. Das ist eine Optimierung auf Ihre Erwartungen hin.

Was dies für die Produktion bedeutet

Halluzinationen sind kein Problem, das es zu vermeiden gilt. Es handelt sich um eine Eigenschaft, mit der man umgehen muss. Je nach Anwendungsfall variiert der Toleranzgrad.

Hohe Toleranz (Fehler lassen sich leicht erkennen und korrigieren): Erstellung eines ersten Inhaltsentwurfs, Brainstorming, unkritische Zusammenfassung. Das Modell kann ohne schwerwiegende Folgen „halluzinieren“, sofern ein Mensch den Text nachliest.

Geringe Toleranz (Fehler haben reale Konsequenzen): Extraktion von Vertragsdaten, regulatorische Analyse, Generierung von Sicherheitscodes, medizinische Diagnostik. In diesen Bereichen benötigen Sie:

Ein automatisierter Überprüfungsmechanismus (das Modell muss seine Quellen angeben, und die Quellen müssen überprüfbar sein)
Eine manuelle Überprüfung von Risikofällen
Ein Kalibrierungstest mit Ihren Daten vor der Bereitstellung

Nulltoleranz: Unterzeichnung von Rechtsdokumenten, endgültige medizinische Entscheidungen, finanzielle Aufträge. Die KI unterzeichnet nicht, entscheidet nicht und bestätigt nicht. Sie unterstützt. Die Entscheidung bleibt beim Menschen, der die Verantwortung trägt.

Die Regel ist einfach: Je höher die Kosten eines unentdeckten Fehlers sind, desto robuster muss Ihre Validierungsarchitektur sein – und desto höher sind die damit verbundenen Kosten, die Sie in Ihr Budget einkalkulieren müssen.

Warum es strukturell bedingt ist#

Das Nichtzugeben von Fehlern: das zweite Problem#

Was dies für die Produktion bedeutet#

Verwandte Artikel

Im Demo funktioniert es, in der Produktion wird es teuer

Ihre Daten und Ihr Betriebsgeheimnis in der KI: Was bleibt, was geht

Warum es strukturell bedingt ist

Das Nichtzugeben von Fehlern: das zweite Problem

Was dies für die Produktion bedeutet