Sie haben im Laufe des Jahres zwanzig IA-Pitches erhalten. Vielleicht sogar noch mehr. Alle versprachen ungefähr das Gleiche: minus 40% Kosten, minus 30% Bearbeitungszeit, mehr Autonomie für Teams. Einige wenige sagten die Wahrheit. Die Mehrheit packte eine öffentliche API mit einem System-Prompt-Layer und einem blauen Logo in der oberen rechten Ecke neu. Hier sind die Sätze, die Sie in Alarmbereitschaft versetzen sollten, und die genaue Frage, die Sie hinter jedem Satz stellen sollten.

Das Demo, das beim ersten Mal funktioniert

Ein Vertriebsmitarbeiter zeigt Ihnen eine Demo. Das Modell erzeugt eine einwandfreie Ausgabe. “Schauen Sie, es ist perfekt”. Sie sind beeindruckt.

Was Sie nicht sehen: Die zehn Iterationen des Prompt Engineering, die dieser Demo vorausgegangen sind. Die sorgfältig ausgewählten Testfälle, die das Modell zum Erfolg führen sollten. Das Fehlen Ihrer tatsächlichen Daten in der Demo. Die Tatsache, dass bei Ihren eigenen Daten die Quote “gleich beim ersten Mal perfekt” anders ausfallen wird und dass Sie keine Möglichkeit haben, dies vor der Bezahlung zu erfahren.

Fragen Sie, ob Sie die Demo an Ihren Daten durchführen können. Nicht auf generischen Daten, nicht auf Idealfällen. Auf Ihren Dokumenten, Ihren Konventionen, Ihren Formaten. Wenn der Verkäufer ablehnt oder nicht kann: Das Produkt ist wahrscheinlich nicht auf Ihren Kontext industrialisierbar.

Das Modell, das Ihre Branche kennt

Häufige Deklination: “Er kennt Ihre Branche”, “Er versteht die Vorschriften”, “Er beherrscht Ihren Fachjargon”.

Was ein LLM “weiß”, ist das, was in seinen Trainingsdaten enthalten war. Die gängigen öffentlichen Daten bis zu einem bestimmten Zeitpunkt. Er kennt Ihre internen Vorschriften nicht. Er kennt Ihre Standardverträge nicht. Er kennt keine neuere Rechtsprechung, die nicht öffentlich dokumentiert ist. Wenn er zu diesen Themen antwortet, extrapoliert er. Und die Extrapolation kann mit viel Vertrauen falsch sein.

Fordern Sie Testfälle zu bestimmten Punkten in Ihrer Branche an, die von einem internen Experten überprüft werden. Dokumentieren Sie auch Misserfolge, nicht nur Erfolge.

Das Werkzeug, das Ihre drei Hauptprobleme löst

Die grandioseste Version des KI-Pitches. Ihr Produktivitätsproblem: KI löst es. Ihr Qualitätsproblem: KI löst es. Ihr Problem mit der Personalbeschaffung: KI löst es.

Ein Werkzeug, das verspricht, in einem bestimmten Bereich alles zu lösen, verspricht, nichts wirklich zu lösen. KI ist gut bei klar definierten Aufgaben, mit gut strukturiertem Input und in den Bereichen, die von ihren Daten abgedeckt werden. Sie ist mittelmäßig bei mehrdeutigen Aufgaben, verrauschten Inputs und unterrepräsentierten Bereichen.

Fragen Sie nach der konkreten Aufgabe, die das Modell löst, nach dem Maß der Leistung bei dieser Aufgabe und nach dem Verfahren, wenn sich das Modell irrt.

Probier’s aus, wir werden sehen

In einem Entwicklungs- oder Prototypenkontext: legitimer Satz. Experimentieren ist die richtige Methode, um eine LLM zu bewerten.

In einem Kontext, in dem es um den Einsatz in realen Prozessen mit realen Herausforderungen geht: gefährlicher Satz. “Wir werden sehen” ist akzeptabel, wenn der Fehler eine verpasste Prompt kostet. Sie ist nicht akzeptabel, wenn der Fehler eine falsche rechtliche Entscheidung kostet. Eine fehlgeschlagene medizinische Diagnose. Eine betrügerische Überweisung, die man übersieht.

Die Toleranz gegenüber unentdeckten Fehlern hängt vom Kontext ab. In Kontexten, in denen sie hoch ist, ist “probieren und sehen” angemessen. In Kontexten, in denen sie gering ist, ist ein Plan zur Validierung und Überprüfung vor dem Einsatz zwingend erforderlich.

Was Sie vertraglich fordern müssen

Vier Dinge, die Sie vertraglich vom Anbieter verlangen sollten. Erstens das zugrunde liegende Modell: Welche LLM läuft unter der Haube und was passiert, wenn sie die Version wechselt. Zweitens die Fehlerquote, gemessen an Testfällen, die für Ihren Kontext repräsentativ sind, nicht an Demofällen. Die Bestimmung der eingereichten Daten (EU, Nicht-EU, Verwendung zu Trainingszwecken). Und das SLA, falls die Leistung nach einem Update des zugrunde liegenden Modells abfällt. Der Rest (Aufbewahrungspolitik, AI Act Perimeter, etc.) wird in den Anhängen behandelt. Aber diese vier Punkte sind die Eingangsvoraussetzung.

Wenn ein Anbieter diese vier Fragen nicht beantworten kann, haben Sie es nicht mit einer industriellen Lösung zu tun. Sie haben es mit einer Demo zu tun, die als Produkt verkleidet ist.