Die Szene ist vertraut. Ein Konferenzraum, ein Softwareanbieter, eine sorgfältig vorbereitete Demo. Das Tool beantwortet Fragen zu Ihrer Branche, formuliert einen Vertrag um, fasst einen zwanzigseitigen Bericht in dreißig Sekunden zusammen. Und der Anbieter sagt mit der Leichtigkeit dessen, der es schon hundert Mal gesagt hat: “Unsere KI versteht Ihr Geschäft.”
Auf diesen Satz folgt eine Frage. Selten laut gestellt: Versteht sie, oder vervollständigt sie?
Das ist keine technische Unterscheidung, die Ingenieuren vorbehalten ist. Es ist die Grenze zwischen einer fundierten Entscheidung und einem Kauf auf der Grundlage einer ungeprüften Versprechung. Alles in diesem Artikel hängt von der Antwort ab.
Das Wort, das die ganze Arbeit des Verkaufens übernimmt
“Künstliche Intelligenz” ist ein Etikett, das John McCarthy 1956 gewählt hat, um ein Forschungsprogramm zu benennen. Es klang richtig, es deckte ein weites Feld ab, und es überlebte mehrere Jahrzehnte, in denen die Realität nicht folgte. Heute tut dieses Etikett etwas Genaues im Kopf desjenigen, der es liest: Es etabliert eine implizite Gleichwertigkeit zwischen dem, was diese Systeme tun, und dem, was ein menschlicher Geist tut.
Schauen Sie sich das zweite Wort an: künstlich. Nicht im Sinne von “falsch” im Gegensatz zu “echt”. Im etymologischen Sinne: gemacht, gebaut, durch menschliches Handwerk erzeugt. Was künstlich ist, wird nicht geboren, ist nicht bewusst, denkt nicht. Ein Artefakt, im Sinne von Aristoteles, ist das, was in der Natur nicht existiert, sondern aus der Hand des Menschen kommt. Ein großes Sprachmodell ist ein Artefakt. Eine statistisch hochentwickelte Prothese, kein Geist.
Das Wort “Intelligenz” übernimmt die Verkaufsarbeit. Das Wort “künstlich” enthält die genaue Beschreibung. Wir haben uns angewöhnt, das Substantiv zu lesen und das Adjektiv zu vergessen.
Was ein Modell wirklich tut
Wenn Sie Text an ein LLM übermitteln, passiert Folgendes tatsächlich.
Der Text wird in Tokens zerlegt, Wortteile von etwa drei Vierteln eines englischen Wortes. Das Modell berechnet für jedes Token, das dem aktuellen Kontext folgen könnte, eine Wahrscheinlichkeit. Es wählt das wahrscheinlichste Token aus, mit einer kleinen Zufallsvariation, um mechanische Wiederholungen zu vermeiden. Es rückt um ein Token vor. Es macht das erneut. Bis die Antwort endet.
Es gibt kein Verständnis in diesem Prozess. Kein Weltmodell. Keine Absicht. Keine Überprüfung gegenüber der externen Realität. Das Modell hat Ihre Dokumente nicht “gelernt”, so wie ein Jurist es würde, indem er die Rechtslogik verinnerlicht. Es hat die statistischen Regelmäßigkeiten von Milliarden von Texten gelernt, die Mitauftretensmuster zwischen Token-Sequenzen. Es weiß, was auf was folgt, mit beeindruckender statistischer Genauigkeit.
Eine Analogie, die ohne Jargon auskommt: Stellen Sie sich ein System vor, das zwanzig Jahre medizinische Fachliteratur vollständig aufgenommen hat. Es kann bei jedem halb geschriebenen medizinischen Satz die Fortsetzung mit einer Genauigkeit vorhersagen, die einen Assistenzarzt beeindrucken würde. Weiß dieses System, was eine Krankheit ist? Nein. Es weiß, was statistisch auf “Der Patient zeigt anhaltenden Husten begleitet von Fieber seit” folgt. Das ist grundlegend verschieden. Und dieser Unterschied ist kein Detail, sondern der Kern des Problems.
Die Transformer-Architektur, die allen modernen großen Sprachmodellen zugrunde liegt, ist ein Aufmerksamkeitsmechanismus zwischen Tokens. Sie erzeugt kontextuelle Repräsentationen, die für die Sequenzvorhersage bemerkenswert effektiv sind.
Das wegweisende Paper von 2017, das die aktuelle Welle ausgelöst hat, trägt nicht den Titel “Toward Artificial General Intelligence”. Es heißt “Attention Is All You Need”. Die darin beschriebene Aufmerksamkeit ist ein mathematischer Gewichtungsmechanismus zwischen Tokens. Brillant, entscheidend, die Grundlage für alles, was folgte. Aber keine Intelligenz.
Schlussfolgern als Inszenierung
Seit 2024 wird eine neue Generation von Modellen vermarktet, die angeblich “schlussfolgern” können. Das Modell “denkt”, bevor es antwortet. Es “zeigt seine Arbeit”. Es erzeugt, was als Gedankenkette bezeichnet wird.
Was passiert: Das Modell erzeugt eine Sequenz von Zwischentokens vor der endgültigen Antwort. Diese Kette sieht wie Schlussfolgern aus, weil sie die Form des Schlussfolgerns annimmt: Schritte, Überprüfungen, scheinbare Korrekturen. Und sie verbessert das Endergebnis bei strukturierten Aufgaben, insbesondere in Mathematik, formaler Logik und Code. Diese Verbesserung ist real, dokumentiert, bedeutsam.
Was nicht real ist: dass das Modell denkt, während es diese Kette erzeugt. Es sagt die Tokens der “Schlussfolgerungs”-Kette genauso voraus wie die Tokens der Antwort, nämlich indem es die wahrscheinlichste Fortsetzung im Kontext findet. Die Zwischenschritte verbessern die endgültige Antwort, weil sie den Inferenzkontext besser konditionieren, nicht weil sie einer inneren Beratung entsprechen.
Dies als “Denken”, “Reflexion” oder “Kognition” zu bezeichnen, ist eine Marketingentscheidung, keine Beschreibung des Mechanismus. Der Leistungssprung ist dokumentiert. Die kognitive Interpretation, die ihm angehängt wird, ist eine Erzählung. Beides zu unterscheiden, ist bereits eine solidere Grundlage für Entscheidungen.
Der Beweis durch das Absurde
Wenn das Modell wirklich verstünde, wären Halluzinationen unmöglich.
Ein System, das weiß, dass etwas falsch ist, behauptet es nicht. Ein System, das seine Domäne “versteht”, erfindet keine nicht existierende Rechtsprechung, keine gefälschten bibliographischen Verweise, keine Statistiken aus dem Nichts. Und dennoch passiert es. Nicht selten. Regelmäßig, mit Zuversicht, in tadellosem Stil.
Halluzination ist kein versehentlicher Fehler, der im nächsten Update behoben wird. Sie ist die direkte und vorhersehbare Konsequenz des prognosebasierten Betriebs. Das Modell erzeugt, was in seinem Token-Raum statistisch wahrscheinlich ist, nicht was in der Welt wahr ist. Wenn die wahrscheinliche Antwort der wahren ähnelt, ohne es zu sein, schreibt das Modell sie trotzdem. Der gleiche Mechanismus, der richtige Antworten produziert, produziert falsche, auf genau dieselbe Weise.
Große Sprachmodelle erzeugen statistisch plausiblen Text ohne Bezug auf Bedeutung oder Wahrheit. Die Flüssigkeit der Ausgabe erzeugt die Illusion eines Verständnisses, das nicht vorhanden ist.
Modelle halluzinieren weniger als vor drei Jahren. Die Verbesserung ist real. Aber eine Reduzierung ist keine Eliminierung. Im Stadium der derzeit bekannten Architekturen ist Halluzination eine strukturelle Eigenschaft, keine marginale Fehlfunktion auf dem Weg aus der Welt.
Zuversicht ohne Zuverlässigkeit
Es gibt ein Verhalten von Modellen, das besondere Beachtung verdient: Sie behaupten mit gleicher Zuversicht eine überprüfbare Wahrheit und einen erfundenen Fehler.
Das Modell sagt nicht “Ich bin mir nicht sicher”, wenn es das nicht ist. Es kennzeichnet seine Ausgaben nicht mit einem Zuversichtsindikator, den Sie ablesen könnten. Die oberflächliche Gewissheit ist eine Eigenschaft der Vorhersage: Wenn das wahrscheinlichste Token eine sichere Behauptung ist, produziert das Modell genau das. Die Form der Gewissheit ist kein Zuverlässigkeitssignal.
Ein erschwerender Faktor: Das Modell neigt dazu, Ihnen zuzustimmen. Wenn Ihre Frage eine falsche Prämisse enthält, werden in einem erheblichen Teil der Antworten diese Prämisse bestätigt, statt korrigiert. Das ist keine Unterwürfigkeit, es ist Vervollständigung. In den Trainingsdaten bestätigen menschliche Texte viel häufiger, als sie widersprechen. Dieses Muster wird gelernt und reproduziert.
Für eine Führungskraft, die ihr Urteil in einer KI-Frage testen möchte, schafft das eine präzise Falle. Die Frage “Ist meine Analyse solide?” hat statistisch gute Chancen, eine positive Antwort zu erhalten. Das ist keine Bestätigung, das ist ein Spiegel. Der Unterschied ist in einer Entscheidungsumgebung wesentlich.
Was das Missverständnis kostet
Drei Entscheidungen, die das Missverständnis regelmäßig verzerrt.
Überdelegation ohne Validierung. Wenn das Tool versteht, kann man ihm das Urteil überlassen. Wenn das Tool vorhersagt, muss man validieren. Dieser Unterschied verändert die Organisationsarchitektur rund um das Tool: das Volumen der menschlichen Überprüfung, die Verantwortung für Fehler, die Kontrollverfahren. Viele Organisationen haben auf der ersten Annahme deployiert und die Realität der zweiten in der Produktion entdeckt, manchmal zu erheblichen Kosten.
Kauf auf der Demo. Eine LLM-Demo ist von Design her für die Fälle optimiert, in denen das Modell gut abschneidet. Die gezeigten Anwendungsfälle sind ausgewählt. Die vollständige Leistungsverteilung, einschließlich der Fehlerschwänze, ist in der Demo nicht sichtbar. “Es funktioniert in der Demo” ist eine wahre und unzureichende Beobachtung. Die Frage ist nicht, ob es funktioniert: Es ist, wie hoch die Fehlerquote bei Ihrem spezifischen Anwendungsfall, in Ihren realen Daten, unter Ihren operativen Bedingungen ist.
Produktionseinsatz wie eine Sandbox. In einer Sandbox kostet ein Fehler nichts. In der Produktion hat ein Fehler in einem Kundenangebot, einer Vertragszusammenfassung oder einer Patientenantwort einen Wert. Fehler verschwinden nicht, wenn man von der Sandbox in die Produktion wechselt. Sie gewinnen an Gewicht.
Was diese Tools wirklich gut können
Es wäre ungenau und kontraproduktiv, die reale Leistung zu leugnen.
Diese Systeme vollbringen Aufgaben, die vor zehn Jahren niemand automatisieren konnte: hochwertige Übersetzung in Sprachen, die in den Trainingsdaten gut vertreten sind, Zusammenfassung langer Dokumente, Generierung von korrektem Code für gängige Muster, Textklassifizierung in großem Maßstab, semantische Suche, die ein Dokument nach Bedeutung statt nach genauen Wörtern abruft.
Große Sprachmodelle zeigen emergente Fähigkeiten bei Aufgaben, für die sie nicht explizit trainiert wurden, und diese Fähigkeiten nehmen mit der Modellgröße zu.
Diese Leistungen sind messbar, mit denen menschlicher Experten bei gezielten Aufgaben vergleichbar, und in ihrem etablierten Kompetenzbereich liefern diese Systeme. Der Punkt ist nicht, zu leugnen, was die Tools tun. Es ist, von ihren Stärken keine universelle Fähigkeit zu extrapolieren, die sie nicht haben.
Die strukturelle Grenze bleibt dieselbe: Diese Leistungen werden durch die Qualität der Trainingsdaten und die Nähe der Aufgabe zu dem, was das Modell gelernt hat, bedingt. Bei einem in den Corpora schlecht repräsentierten Thema, bei Überlegungen, die von gelernten Mustern abweichen, fällt die Leistung. Und das Modell signalisiert den Abfall nicht.
Eine Vorhersagemaschine, keine Intelligenz zum Kaufen
Linus Torvalds, der Autor des Linux-Kernels, sagte es im Oktober 2024 in zehn Worten: “90% Marketing, 10% Realität.” Ein allgemeines Urteil über den KI-Diskurs, nicht über die Tools selbst. Aber es benennt etwas Genaues: In diesem Sektor ist die Lücke zwischen dem, was verkauft wird, und dem, was geliefert wird, strukturell groß, weil der Name der Technologie selbst ein Versprechen trägt, das die Technologie nicht einhalten kann.
Sie mieten eine Vorhersagemaschine. Sie sagt in ihrem Kompetenzbereich, bei Aufgaben, bei denen Leistung messbar und etabliert ist, bemerkenswert gut voraus. Sie versteht nicht, weiß nicht, verifiziert nicht. Dieses Bild im Kopf zu behalten, hindert Sie nicht daran, sie zu nutzen, und es mindert nicht, was sie tut. Es verändert, was Sie delegieren, wie Sie es einrahmen, und was Sie validieren.
Das ist kein Wahrnehmungshandicap. Das ist ein Entscheidungsvorteil.