80.000 Euro auf den Kostenvoranschlag. 240.000 achtzehn Monate später. Die Differenz ist kein Betrug. Der Integrator bezifferte, was er beziffern sollte: die Entwicklung, die Integration, die Produktionsfreigabe. Niemand hat ihn gebeten, den Rest zu beziffern. Und der Rest ist genau das, was das Budget in der Produktion verbraucht. Hier ist, was im Kostenvoranschlag fehlt, in der Reihenfolge der Überraschung für den Finanzvorstand, der die Rechnung erst sechs Monate später entdeckt.
Die Kosten der Token in der Produktion
Eine LLM wird pro Token abgerechnet. Während der Entwicklungsphase ist das Volumen der Token gering: Sie testen, Sie iterieren. In der Produktion explodiert das Volumen mit der Nutzung.
Realistisches Beispiel: Eine Anwendung zur Unterstützung von Dokumenten für 100 Nutzer, die jeweils 20 Anfragen pro Tag stellen, mit einem durchschnittlichen Kontext von 2 000 Token pro Anfrage (Dokument + Frage + Antwort). Das sind 4 Millionen Token pro Tag. Bei 0,015€ für 1.000 Token (GPT-4 Turbo Tarif in Eingabe zum Zeitpunkt des Schreibens) macht das 60€ pro Tag, also 22.000€ pro Jahr, allein für die API.
Wenn Ihre Nutzung zehnmal so hoch ist, liegen Sie bei 220.000 € API pro Jahr. Diese Kosten waren im ursprünglichen Angebot nicht enthalten.
Die Kosten für die Datenvorbereitung
Damit Ihr LLM auf Ihrer Domain richtig reagieren kann, müssen Ihre Daten zugänglich sein. In der Praxis: Dokumente bereinigen, sie in verwertbare Formate umwandeln (PDF → sauberer Text, nicht trivial), eine Vektor-Datenbank aufbauen und pflegen, Aktualisierungen verwalten.
Diese Arbeit wird systematisch unterschätzt. Die eigentlichen Daten eines Unternehmens befinden sich in schlecht strukturierten PDFs, Word mit Tabellen, Excel-Exporten und E-Mails. Aus diesen Quellen sauberen Text zu extrahieren, ist ein Projekt für sich.
Ein seriöses RAG-Projekt stellt oft 30-40% des Gesamtbudgets für die Datenaufbereitung und -pflege zur Verfügung. Dieses Budget ist selten im ursprünglichen Kostenvoranschlag enthalten.
Die Kosten für die Instandhaltung von Prompts
Eine LLM reagiert auf Anweisungen (Prompts). Diese Anweisungen müssen angepasst und aufrechterhalten werden, wenn das Modell eine neue Version erhält, wenn Testfälle unerwartetes Verhalten aufzeigen, wenn sich die Anwendungsfälle ändern.
Prompt Engineering ist keine One-Shot-Aufgabe. Es ist ein kontinuierlicher Prozess. Die Modelle ändern ihre Version (GPT-4 → GPT-4o → GPT-4.5 → GPT-5 …) und ihr Verhalten ändert sich. Ein Prompt, der gut funktioniert hat, kann sich nach einer Aktualisierung des zugrunde liegenden Modells verschlechtern.
Diese Wartungskosten sind in den Kostenvoranschlägen so gut wie gar nicht enthalten. Sie machen oft 15 bis 25% der Gesamtkosten über drei Jahre aus.
Die Kosten für das menschliche Korrekturlesen
Eine LLM macht Fehler. Diese Fehler müssen erkannt werden. In ernsthaften Anwendungsfällen wird ein menschliches Korrekturlesen in den Arbeitsablauf integriert.
Dieses Korrekturlesen ist mit Kosten verbunden. Wenn das Modell 1.000 Dokumente pro Woche verarbeitet und ein Operator 10 % der Ausgaben (die unsicheren Fälle) Korrektur lesen muss, sind das 100 Dokumente, die pro Woche Korrektur gelesen werden müssen. Wenn das 5 Minuten pro Dokument dauert, sind das 500 Minuten menschlicher Bediener pro Woche, die als wiederkehrende Stelle budgetiert werden sollten.
Diese Kosten fehlen durchweg in den ROI-Berechnungen, die in den Demos vorgestellt werden. Die Demo zeigt die Zeitersparnis. Sie subtrahiert nicht die Kosten für die Überprüfung.
Die Kosten für die Infrastruktur
Über die API-Kosten hinaus, wenn Sie ein Modell aus Gründen der Vertraulichkeit oder der Latenz lokal (on-premise) einsetzen: GPUs, Server, Speicher, Netzwerk, Systemwartung. Ein H100-Server kostet in der Anschaffung zwischen 25.000 und 35.000 Euro. Hinzu kommen Strom, Kühlung und Wartung. Ein Cluster mit 4 GPUs, der der Inferenz gewidmet ist, bedeutet einen Capex von 100.000 bis 150.000 Euro und einen jährlichen Opex von 15.000 bis 30.000 Euro.
Wenn Sie über GPU-Cloud (AWS, GCP, Azure) gehen, sind die Kosten in Opex, können aber bei kontinuierlichen Workloads hoch sein.
Wie man eine realistische TCO aufbaut
Bevor Sie unterschreiben, verlangen Sie vom Anbieter sechs Zahlen: das geschätzte Token-Volumen in der Produktion mit einer Sicherheitsmarge von 50%, das Budget für die Datenvorbereitung und -pflege über drei Jahre, die Kosten für das menschliche Korrekturlesen, die als wiederkehrender Posten integriert sind, die Cloud- oder On-Prem-Infrastruktur mit ihrem 36-monatigen Gesamtkostenpreis. Wenn Ihr Anbieter sie nicht erstellen kann, ist das keine Frage der Transparenz. Es liegt daran, dass er sie nie berechnet hat.