Die falsche Frage lautet: “Welche KI wählen wir?”. Die richtige Frage lautet: “Wer kontrolliert die Inferenz?”. Drei Familien von Arbitrageverfahren, die nicht die gleichen Akteure am Ende, nicht die gleichen vertraglichen Verpflichtungen und nicht die gleiche regulatorische Exposition in achtzehn Monaten haben.

Die proprietäre API eines amerikanischen Schauspielers

Sie rufen eine API auf. Sie bezahlen mit einem Token. Sie kümmern sich weder um die Infrastruktur noch um die Wartung des Modells oder um Aktualisierungen.

Was das konkret bedeutet: Sie lagern die Intelligenzschicht Ihrer Prozesse an einen amerikanischen Akteur aus. Sie haben keine Kontrolle über Modelländerungen, Preisänderungen, Verfügbarkeit, Nutzungsrichtlinien. Sie haben ein vertraglich festgelegtes SLA, aber wenn OpenAI seine Datenbildungspolitik oder seine Preise ändert, passen Sie sich an oder wechseln.

Wenn es sich anbietet: schnelle Prototypenentwicklung, unkritische Nutzung, nicht sensible Daten, keine regulatorischen Einschränkungen bezüglich des Standorts. Opex-Budget besser als Capex.

Das Risiko, das unterschätzt wird: die Abhängigkeit von einem Anbieter. Von einem Modell zu einem anderen zu migrieren ist machbar, aber es kostet. Das für GPT-4 entwickelte Prompt Engineering lässt sich nicht eins zu eins auf Claude oder Llama übertragen. Es gibt eine echte Migrationsschuld.

Eine vertikale Lösung, die von einem Drittanbieter gekauft wurde

Sie kaufen eine Lösung von einem Anbieter, der eine KI-Anwendung für Ihre Branche gebaut hat: CRM mit integrierter KI, ein Tool zur Rechtsgenerierung, ein Assistent für den Kundensupport.

In der Praxis ist es fast immer ein API-Wrapper (GPT, Claude oder andere) mit einer Anwendungsschicht. Der Mehrwert liegt in der Schnittstelle, dem System-Prompt, eventuell dem Fine-Tuning auf sektorspezifische Daten.

Wenn es passt: keine internen technischen Ressourcen, die Lösung deckt Ihren Anwendungsfall genau ab und die Abhängigkeit von Lieferanten ist akzeptabel.

Was wir vergessen zu beachten: Sie sind doppelt abhängig. Gegenüber dem Herausgeber der Lösung. Gegenüber dem zugrunde liegenden Modell. Wenn der Anbieter verschwindet, sein Modell ändert oder seine Preise ändert, wird Ihre Fähigkeit zur Migration durch die Realität der unterzeichneten Verträge eingeschränkt.

Das Open-Weights-Modell auf deiner eigenen Infra

Sie setzen ein Open-Weights-Modell (Llama 3, Mistral, Mixtral, Qwen…) auf Ihrer Infrastruktur ein. Sie kontrollieren die Inferenz, die Daten und die Versionen.

Was es erfordert: Infrastruktur-Capex (GPU/APU) oder GPU-Cloud-Kosten, plus interne MLOps-Fähigkeiten. Die Leistung ist bei generischen Aufgaben geringer als bei proprietären Frontier-Modellen, bei spezialisierten Aufgaben nach Fine-Tuning jedoch oft vergleichbar.

Wenn es passt: sensible Daten, gesetzliche Auflagen (DSGVO, Betriebsgeheimnis, Verteidigungsgeheimnis), hohe Inferenzvolumina, die das Capex rentabel machen, Wille zur langfristigen Kontrolle.

Zu den Kosten: Ein Server mit zwei H100-GPUs zur Inferenzierung eines Modells mit 70 Milliarden Parametern kostet 50 bis 70.000 Euro in der Anschaffung. Die Amortisation über drei Jahre kann bei entsprechendem Volumen niedriger sein als die entsprechenden API-Kosten.

Die fehlende Variable: Souveränität

Die meisten build/buy/api-Vergleiche beschränken sich auf die Kosten. Sie vergessen die Frage der Souveränität.

Wenn Ihre Wettbewerbsdifferenzierung auf Ihren proprietären Daten beruht, schafft das Senden dieser Daten an eine Drittanbieter-API für Fine-Tuning (selbst mit vertraglicher Garantie der Nichtverwendung) ein Risiko, das Sie bewusst abwägen müssen. Eine kritische Abhängigkeit von einer US-amerikanischen API schafft auch ein Risiko durch regulatorische Entscheidungen (Exportkontrollen, Branchenbeschränkungen), Ausfälle und Politikänderungen. Dieses Risiko ist gering in der Wahrscheinlichkeit, potenziell hoch in der Auswirkung.

Die DSGVO, die Verpflichtungen aus dem AI Act und branchenspezifische Vorschriften (Gesundheit, Finanzen) können Einschränkungen hinsichtlich des Standorts und der Verarbeitung von Daten auferlegen, die dazu führen, dass bestimmte API-Architekturen nicht konform sind.

Der richtige Schiedsspruch

Die richtige Arbitrage ist keine Antwort, sondern ein Raster. Datensensibilität, Inferenzvolumen, interne Ressourcen, Abhängigkeitstoleranz, regulatorische Exposition nach 36 Monaten. Kein Unternehmen unterschreibt auf allen fünf Dimensionen gleich. Was konstant ist: Zur bekanntesten API zu gehen, weil es die ist, von der Ihr Anbieter spricht, ohne sich die Open-Weights-Option auf der eigenen Infra angesehen zu haben, bedeutet, die Entscheidung nicht getroffen zu haben. Das bedeutet, dass Sie jemand anderen die Entscheidung für sich treffen lassen.