Im Demo funktioniert es, in der Produktion wird es teuer

Der Prototyp funktioniert. Alle sind beeindruckt. Der technische Leiter sagt, es sei verblüffend. Der Anbieter zeigt eine sorgfältig inszenierte Demo auf sauberen Daten, mit vorab ausgewählten Fragen.

Niemand spricht über token. Niemand zeigt, was sechs Monate nach dem Deployment passiert.

Was die Demo nicht zeigt

Eine KI-Demo ist von Natur aus eine vorteilhafte Inszenierung. Die Daten werden ausgewählt, die Fragen vorbereitet, die Randfälle ausgeblendet. Das ist ein legitimer Bewertungsschritt, solange man weiß, was man betrachtet: kein fertiges Produkt, sondern einen Machbarkeitsnachweis unter günstigen Bedingungen.

Das Problem beginnt, wenn die Investitionsentscheidung auf dieser Inszenierung beruht, als wäre sie die Produktionsrealität.

Drei Lücken trennen die Demo vom Produktionsbetrieb.

Das Volumen. Die Demo verarbeitet zehn Dokumente, hundert Anfragen. Die Produktion verarbeitet zehntausend pro Tag. LLMs berechnen pro token: jedes eingehende und ausgehende Wort hat einen Preis. Die Preise ändern sich quartalsweise und variieren je nach Modell um den Faktor hundert; die Größenordnung im Jahr 2026: Output kostet das Mehrfache des Inputs, und leistungsfähige Modelle reichen von wenigen bis zu mehreren zehn Dollar pro Million token. Diese Berechnung, angestellt für das reale Volumen, ergibt eine Monatsrechnung, die der Anbieter im Pitch nicht erwähnt.

Die tatsächliche Qualität. In der Demo antwortet das Modell korrekt auf die gezeigten Beispiele. Im Produktionsbetrieb trifft es auf Fälle, die niemand vorhergesehen hat: schlecht formatierte Dokumente, Fragen außerhalb des Rahmens, Nutzer, die etwas anderes schreiben als erwartet. Die tatsächliche Fehlerquote entspricht nie der in der Demo.

Die Überwachung. In der Demo überwacht ein Experte jede Ausgabe. Im Produktionsbetrieb kann niemand täglich 10.000 Antworten prüfen. Fehler passieren unbemerkt. Manche haben Konsequenzen.

Klarna: der Lehrfall, den man nicht mehr ignorieren kann

Zwei Jahre lang tauchte das Klarna-Beispiel in jeder KI-Agenturpräsentation auf: Im Februar 2024 gab das schwedische Fintech bekannt, dass sein KI-Assistent 75 % der Kundenservicegespräche (das Äquivalent von 700 Mitarbeitern in 23 Ländern) bearbeitet. CEO Sebastian Siemiatkowski bezeichnete es als einen der größten Produktivitätsgewinne in der Unternehmensgeschichte. Die Ankündigung verbreitete sich in jedem Anbieterpitch.

Was diese Präsentationen nicht zeigten: was als Nächstes kam.

Im Mai 2025 gab Siemiatkowski öffentlich zu, dass der Schwenk zu weit gegangen war. Die KI bewältigte das Volumen, aber die Qualität hatte sich verschlechtert. Kunden beschwerten sich. Die Antworten waren generisch, repetitiv, bei komplexen Fällen unzureichend.

Entrepreneur, 9. Mai 2025 (2025-05-09)

Klarna begann mit der Wiedereinstellung menschlicher Mitarbeiter. Das Modell, auf das man sich einpendelte: KI für das hochvolumige Routinegeschäft, Menschen für Eskalationen und urteilsintensive Situationen. Ein Hybrid. Nicht das angekündigte Replacement.

Diese Kehrtwende ist die These dieses Artikels an einem realen Fall. Die Demo-Metriken glänzten: Volumen, Bearbeitungsrate, Mitarbeiteräquivalente. Die Qualitätsmetriken (Kundenzufriedenheit, Re-Eskalationsrate, Komplexität der verbleibenden Fälle) erzwangen die Korrektur. Die Launch-Ankündigung war ein Marketing-Schnappschuss. Die vollständige Trajektorie ist etwas anderes.

Das token ist eine unsichtbare Kosteneinheit

Niemand denkt von Natur aus in token. Wir denken in Wörtern, Seiten, Dokumenten. Aber das Modell zählt token, und die Plattform stellt token in Rechnung.

Ein token entspricht ungefähr drei Vierteln eines englischen Wortes. Ein zweiseitiges Dokument: rund 500 Input-token. Die generierte Antwort: 200 Output-token. Output kostet das Mehrfache des Inputs bei allen leistungsfähigen Modellen auf dem Markt.

Die Preise bewegen sich schnell. Referenzmodelle sind in zwei Jahren um den Faktor 10 günstiger geworden; fortschrittliche Reasoning-Modelle kosten weiterhin mehrere zehn Dollar pro Million Output-token. Einen spezifischen Modellnamen in einem zeitlosen Artikel zu nennen bedeutet, in sechs Monaten veraltete Preise zu zitieren. Was stabil bleibt: das reale Produktionsvolumen mit dem token/Dokument-Verhältnis multiplizieren, den aktuellen Tagespreis des gewählten Modells anwenden und mit dem Budget vergleichen. Diese Berechnung unter realen Bedingungen (nicht anhand einer Demo-Extrapolation) zeigt die Lücke.

Wenn Halluzinationen vor Gericht enden

Die Demo zeigt keine Halluzinationen. Im Produktionsbetrieb erreichen sie echte Nutzer.

Dieser Fall wurde als Einzelfall dargestellt. Er war nur der Anfang.

Im Jahr 2025 sanktionierten US-Gerichte Anwälte in Dutzenden ähnlicher Fälle: Dubinin v. Papazian (S.D. Florida, November 2025, fiktive Zitate, Klageabweisung), In re Loletha Hale (N.D. Georgia, Oktober 2025, „die überwiegende Mehrheit der zitierten Fälle existierte entweder nicht, unterstützte die Aussage nicht oder verfälschte Quellen”), Idehen v. Stoute-Phillip (Civil Court New York, Juli 2025, sieben fiktive Fälle in einem 88-seitigen Anhang). Mitte 2026 katalogisiert die vom Juristen Damien Charlotin gepflegte Datenbank über 1.500 dokumentierte Fälle weltweit (rund 1.600 zum 1. Juni 2026), in denen KI halluzinierte Inhalte produzierte, die bei Gerichten eingereicht wurden. Das Tempo: fünf bis sechs neue Fälle pro Tag.

Im juristischen, medizinischen oder regulatorischen Produktionsbetrieb ist eine Halluzination kein Bug, der in der nächsten Version behoben wird. Sie ist ein Berufsverstoß mit unmittelbaren Konsequenzen.

Überwachung im Produktionsbetrieb

Ein häufiges Argument für KI im Produktionsbetrieb: sie reduziert den Personalaufwand. Manchmal stimmt das. Aber die Rechnung setzt voraus, dass KI-Fehler vernachlässigbar oder leicht erkennbar sind. Beides ist nicht garantiert.

In der Demo überwacht ein Experte jede Ausgabe. Im Produktionsbetrieb verlagert sich die Überwachung auf eskalierte Fälle: Ausnahmen, Beschwerden, Streitigkeiten. Weniger Volumen, aber deutlich höhere Kosten pro Fall, weil es genau die Situationen sind, die die KI nicht bewältigen konnte.

In risikoreichen Bereichen (Recht, Medizin, Finanzen, Compliance) erfordern Präzisionsanforderungen eine menschliche Prüfung bei Fällen, die einen Konfidenz-Schwellenwert überschreiten. Im kritischen Produktionsbetrieb filtert die KI, Menschen validieren die Risikofälle. Die reale Ökonomie ähnelt dem hybriden Modell, zu dem Klarna schließlich gelangte, nicht der Launch-Ankündigung.

Vor der Freigabe eines Prototyps

Der Prototyp überzeugt. Der Reflex ist, schnell in den Produktionsbetrieb zu gehen. Drei Punkte fehlen typischerweise in dieser Entscheidung.

Die realen Kosten pro verarbeiteter Einheit. Nicht die Demo-Kosten: die Produktionskosten, mit realem Volumen, realen Kontexten, realen token. Eine Berechnung, keine vage Hochrechnung.

Die akzeptable Fehlerquote. Ein LLM macht Fehler. Den Schwellenwert definieren, ab dem die betrieblichen oder rechtlichen Konsequenzen unzumutbar werden. Dieser Schwellenwert muss vor dem Deployment festgelegt und an realen Daten getestet werden, nicht an den Beispielen des Anbieters.

Den Überwachungsplan. Die Fälle, die menschliche Prüfung erfordern, auflisten, ihre Häufigkeit schätzen, die Kosten dieser Überwachung berechnen. Wenn diese Berechnung nicht vorliegt, ist das Projekt nicht produktionsreif.

Was der Anbieter nicht von sich aus sagt

Er lügt nicht. Er zeigt, was vorteilhaft ist. Das ist aus seiner Sicht rational.

Was er typischerweise nicht ungefragt erwähnt: die monatlichen API-Kosten beim angestrebten Produktionsvolumen, das Modellverhalten bei branchenspezifischen Randfällen, den Überwachungsplan, wenn die Fehlerquote den akzeptablen Schwellenwert überschreitet, die Datenaufbewahrungsrichtlinien auf seiner Plattform.

Zu letzterem Punkt: API-Aufrufe an einen extern gehosteten LLM externalisieren die Daten der Anfrage, sensible wie nicht sensible.

Deployen mit offenen Augen

KI im Produktionsbetrieb funktioniert. Sie funktioniert in Dutzenden dokumentierter Anwendungsfälle. Die Klarna-Trajektorie (hochkarätiger Launch, stille Korrektur, angenommener Hybrid) ist kein Misserfolg. Es ist der normale Verlauf eines ehrlichen Deployments.

Was Probleme verursacht: auf Basis von Demo-Metriken entscheiden, Launch-Ankündigungen ohne ihre Fortsetzung zitieren, und reale Kosten vor der Unterzeichnung nicht berechnen. Diese drei Abkürzungen erklären die Mehrheit der KI-Projekte, die nach sechs Monaten wieder am Anfang stehen.

Auf Anbieterdaten testen, Kosten hochrechnen, davon ausgehen, dass die Überwachung verschwindet: der kurze Weg zur teuren Enttäuschung.

Was das für Sie bedeutet

Für Führungskräfte: Im Produktionsbetrieb haben Kosten einen anderen Charakter: token-Volumen auf Basis realer Daten, verbleibende Überwachung eskalierter Fälle, Fehlermanagement. Die Deployment-Entscheidung muss auf diesen drei Zahlen beruhen, nicht auf der Flüssigkeit des Prototyps.
Für Praktiker: Vor der Freigabe eines Deployments: reale Kosten beim Zielvolumen (Tagestarif, nicht von vor einem Jahr), dokumentierte akzeptable Fehlerquote, zugewiesene Überwachungsressourcen. Ohne diese drei Messgrößen ist das Projekt nicht bereit.
Für Neugierige: Zwischen Demo und Produktion ändert sich die Technik nicht. Die Exposition schon: im Produktionsbetrieb erreichen Fehler echte Nutzer. Die Klarna-Trajektorie 2024-2025 ist die am besten dokumentierte verfügbare Demonstration.

Was die Demo nicht zeigt#

Klarna: der Lehrfall, den man nicht mehr ignorieren kann#

Das token ist eine unsichtbare Kosteneinheit#

Wenn Halluzinationen vor Gericht enden#

Überwachung im Produktionsbetrieb#

Vor der Freigabe eines Prototyps#

Was der Anbieter nicht von sich aus sagt#

Deployen mit offenen Augen#

Verwandte Artikel

Ihre Daten und Ihr Betriebsgeheimnis in der KI: Was bleibt, was geht

Halluzination und falsches Vertrauen: kein Bug, eine zu managende Eigenschaft