Im November 2022 bringt OpenAI ChatGPT auf den Markt. Innerhalb von fünf Tagen erreicht die Nutzerzahl eine Million. Innerhalb von zwei Monaten sind es hundert Millionen. Die Mainstream-Medien entdecken die KI, als wäre sie gerade erst entstanden. Dabei ist sie bereits 70 Jahre alt.

Diese Entwicklungsgeschichte zu verstehen, ist keine Geschichtsübung für Puristen. Es ist der einzige Weg, um zu verstehen, warum ein KI-Modell riesige Datenmengen benötigt, um zu „lernen“, warum es sich dabei nicht um Zauberei, sondern um eine gewaltige Grundlagenarbeit handelt und warum die derzeitige Leistungsfähigkeit keineswegs zufällig ist.

Vor der KI: Der Algorithmus – die eigentliche Säule

Bevor wir über maschinelles Lernen oder Deep Learning sprechen, muss erwähnt werden, worauf noch immer 90 % der Informatik beruhen: der deterministische Algorithmus.

Ein Algorithmus ist eine endliche Abfolge von Anweisungen. Man gibt eine Eingabe ein, er folgt den Regeln und erzeugt eine Ausgabe. Bei gleicher Eingabe ist das Ergebnis immer dasselbe. Das ist vorhersehbar, überprüfbar und nachvollziehbar. Eine Liste sortieren, eine Route berechnen, eine IBAN überprüfen: das sind Algorithmen.

KI hat den Algorithmus nicht ersetzt. Sie existiert neben ihm. Und in vielen Fällen (darauf werden wir in einem eigenen Artikel noch zurückkommen) erledigt ein einfacher Algorithmus die Aufgabe besser, kostengünstiger und auf nachvollziehbarere Weise als ein KI-Modell. Aber fahren wir mit der Genealogie fort.

1943–1980: Die ersten Bausteine, die ersten Enttäuschungen

1943 veröffentlichten McCulloch und Pitts das erste mathematische Modell eines künstlichen Neurons. 1950 stellte Alan Turing die grundlegende Frage: „Können Maschinen denken?“ und entwickelte den nach ihm benannten Test.

1956 prägte John McCarthy auf der Dartmouth-Konferenz den Begriff „künstliche Intelligenz“. Der Optimismus war grenzenlos. McCarthy sagte voraus, dass innerhalb einer Generation eine Maschine gebaut werden würde, die der menschlichen Intelligenz ebenbürtig sei. Dazu kam es jedoch nicht.

In den 1960er- und 1970er-Jahren kam es zum ersten „KI-Winter“: Die Versprechungen überstiegen die Möglichkeiten, die Finanzmittel versiegten. Dann folgte in den 1980er- und 1990er-Jahren ein zweiter Winter. Die Geschichte der KI ist die einer sich wiederholenden Hype-Kurve, lange bevor Gartner sie formalisierte.

1986–2012: Maschinelles Lernen verlässt das Labor

Der Durchbruch gelang mit der Gradientenrückpropagierung, die 1986 von Rumelhart, Hinton und Williams formalisiert wurde. Das Prinzip: Die Gewichte eines neuronalen Netzes werden angepasst, indem der Fehler anhand von Beispielen Schicht für Schicht rückwärts gemessen wird. Dies ist die Trainingstechnik, die auch heute noch in allen modernen Modellen verwendet wird.

Das maschinelle Lernen der 1990er- und 2000er-Jahre war jedoch durch zwei Einschränkungen begrenzt: Daten und Rechenleistung. Die Datensätze waren klein. Die Computer waren zu langsam, um tiefe neuronale Netze zu trainieren.

Was sich seit den 2000er Jahren geändert hat: Das Internet generiert Daten in einem bisher nie dagewesenen Ausmaß. Und die GPUs, die ursprünglich für Videospiele entwickelt wurden, erweisen sich als perfekt geeignet für die Matrixberechnungen im Bereich des maschinellen Lernens. Zwei Voraussetzungen für den Durchbruch.

2012: Der Durchbruch von AlexNet

Im September 2012 gewann ein tiefes neuronales Netz namens AlexNet den ImageNet-Wettbewerb mit einem spektakulären Vorsprung. Es klassifizierte Bilder mit einer Fehlerquote von 15,3 %, während der Zweitplatzierte eine Fehlerquote von 26,1 % aufwies. Zum ersten Mal übertraf ein tiefes neuronales Netz alle anderen Ansätze bei einer realen Aufgabe in großem Maßstab bei weitem.

AlexNet nutzt zwei NVIDIA GTX 580-GPUs mit 3 GB Speicher, um ein Netzwerk mit 60 Millionen Parametern anhand von 1,2 Millionen Bildern zu trainieren. Die Trainingsdauer: fünf bis sechs Tage.

AlexNet, Krizhevsky, Sutskever, Hinton (2012)

Dieser Moment wird oft als Beginn des modernen Deep Learning bezeichnet. Er begründet ein zentrales Prinzip: Je mehr Daten und Rechenleistung zur Verfügung stehen, desto besser ist die Leistung. Dieses Prinzip prägt alles, was danach folgt, bis hin zu den heutigen LLMs.

2017: „Transformer“ – das fehlende Puzzleteil

Im Jahr 2017 veröffentlichten Forscher von Google den Artikel „Attention Is All You Need“. Sie stellten darin eine neue Architektur vor: den Transformer. Anstatt den Text sequenziell (Wort für Wort) zu verarbeiten, verarbeitet er die gesamte Sequenz parallel, wobei ein Aufmerksamkeitsmechanismus die Beziehung zwischen jedem Token und allen anderen gewichtet.

Zwei entscheidende Vorteile: Es läuft auf der GPU wesentlich schneller und erfasst die weitreichenden Zusammenhänge im Text besser. Diese Architektur kommt in allen aktuellen großen Sprachmodellen zum Einsatz: GPT, Claude, Llama, Mistral.

Warum ein Modell eine Grundlage zum Lernen benötigt

Das ist genau der Punkt, den die vorherrschende Meinung systematisch ausklammert.

Ein Modell lernt nicht im luftleeren Raum. Es lernt anhand von Daten. Von sehr vielen Daten. Die heutigen großen Sprachmodelle wurden mit Hunderten von Milliarden von Tokens trainiert: Bücher, Artikel, Code, Webseiten. Diese Trainingsphase erfordert Millionen von Stunden an GPU-Rechenzeit und kostet Dutzende, manchmal sogar Hunderte von Millionen Dollar.

Das Modell speichert die statistischen Muster dieser Daten in seinen Parametern. Es kann konjugieren, weil es Millionen von Beispielen für korrekte Konjugation gesehen hat. Es kann zusammenfassen, weil es Millionen von Text-Zusammenfassungs-Paaren gesehen hat. Es kann programmieren, weil GitHub einen massiven Anteil der Trainingsdaten beigesteuert hat.

Was im allgemeinen Sprachgebrauch als „Intelligenz“ oder „Lernfähigkeit“ bezeichnet wird, ist in Wirklichkeit die Fähigkeit, von diesen Trainingsdaten auf neue, ähnliche Situationen zu verallgemeinern. Das ist nützlich. Aber es unterscheidet sich grundlegend von einem kontinuierlichen und adaptiven Lernprozess, wie ihn ein Mensch durchläuft.

2022: Warum ChatGPT die Wahrnehmung verändert hat, nicht aber die Technologie

ChatGPT ist kein technologischer Durchbruch. GPT-3, das zugrunde liegende Modell, gab es bereits seit 2020. Was sich 2022 ändert, ist die Benutzeroberfläche: eine natürliche Konversation, die für alle zugänglich ist, ohne dass Code oder Dokumentation geschrieben werden muss. Und eine Strategie zur Einführung für die breite Öffentlichkeit.

Die Auswirkungen sind enorm: Zum ersten Mal interagieren Hunderte Millionen Menschen direkt mit einem LLM. Die Wahrnehmung ändert sich grundlegend. KI ist nicht mehr nur Data Scientists und Forschern vorbehalten. Sie steht nun jedem zur Verfügung.

Technisch gesehen tat GPT-3 bereits im Jahr 2020 das, was ChatGPT im November 2022 tut, wenn auch mit weniger Finesse. Der Durchbruch betrifft die Verbreitung und die Benutzeroberfläche, nicht das technische Paradigma.

Was ändert sich, wenn man das weiß?

Das Verständnis der Genealogie bewirkt drei konkrete Veränderungen:

  1. Die aktuelle Leistungsfähigkeit hat ihren Preis. Das ist kein Zufall. Milliarden von Parametern, Milliarden von Tokens, monatelange Berechnungen. Diese Kosten schlagen sich in Ihren API-Preisen und Ihrem CO₂-Fußabdruck nieder.

  2. Die Grenzen sind struktureller Natur. Halluzinationen, zeitliche Diskontinuität, Abhängigkeit von Trainingsdaten: Das sind keine Kinderkrankheiten. Es handelt sich um Eigenschaften der aktuellen Architektur.

  3. Der nächste Hype-Zyklus steht bevor. Die Geschichte der KI verläuft zyklisch. Die aktuellen Grundlagen sind solide, doch die Erwartungen übersteigen regelmäßig die tatsächlichen Ergebnisse. Das ist kein Grund, nicht zu investieren. Es ist ein Grund, nicht auf dem Höhepunkt des Hypes zu kaufen.