Grundlagen von LLMs: transformer

Transformer: eine Einführung in die grundlegende Technologie von LLMs (KI-Chatbots)

Transformer: eine Einführung in die grundlegende Technologie von LLMs (KI-Chatbots) 1024 1024 Patrick Stolp

Sprachmodelle wie ChatGPT wirken auf den ersten Blick wie eine Blackbox. Sie scheinen aus dem Nichts kreative, kohärente und oft verblüffend menschliche Texte zu erschaffen. Man könnte versucht sein, von Magie zu sprechen. Doch ähnlich wie in der modernen semantischen Suchmaschinenoptimierung, die weit über starre Keyword-Regeln hinausgeht, haben wir es hier nicht mit Zauberei zu tun, sondern mit brillanter Ingenieurskunst. Es gibt eine innere Ordnung, eine Architektur, die diesen beeindruckenden Fähigkeiten zugrunde liegt.

Wer heute die Zukunft der digitalen Information – und damit die Grundlage für Disziplinen wie Large Language Model Optimization (LLMO) – verstehen will, muss diese Blackbox öffnen. Er muss vom staunenden Anwender zum wissenden Experten werden. Genau das ist das Ziel dieses Artikels: Wir werfen einen Blick auf das Herzstück, das dem aktuellen KI-Boom seine Kraft verleiht: eine spezifische Erfindung namens Transformer.

Um die Funktionsweise und die Genialität des Transformers zu begreifen, entschlüsseln wir zunächst das Akronym, das in aller Munde ist und dessen letzter Buchstabe den Schlüssel zum Verständnis liefert: GPT.

TL;DR

Die Reise durch die Transformer-Architektur entmystifiziert die vermeintliche Magie der Sprach-KI und offenbart sie als das, was sie ist: eine Kette von logischen, mathematisch fundierten Operationen. Die Kernidee ist ebenso elegant wie wirkungsvoll.

  1. Ein Text wird in Tokens zerlegt, von denen jeder in einen Vektor umgewandelt wird, der seine anfängliche Bedeutung repräsentiert.
  2. Das Herzstück, der Attention-Mechanismus, ermöglicht es diesen Vektoren, miteinander zu interagieren und ihre Bedeutung im spezifischen Kontext des Satzes zu verfeinern.
  3. Dieser Prozess aus Aufmerksamkeits-Analyse und Weiterverarbeitung wiederholt sich in mehreren Schichten, bis der finale Vektor des letzten Tokens eine hochgradig kontextualisierte Essenz des bisher Gesagten enthält.
  4. Aus diesem Vektor wird schließlich eine Wahrscheinlichkeitsverteilung für das nächste Wort berechnet.

Was bedeutet eigentlich GPT?

Was bedeutet eigentlich GPT?

Um die Funktionsweise von Large Language Models (LLMs) zu verstehen, müssen wir zunächst ihre Bezeichnung entschlüsseln. Die Initialen GPT stehen für „Generative Pre-trained Transformer“. Jeder dieser Begriffe beschreibt eine wesentliche Eigenschaft Großer Sprachmodelle, die wir nun nacheinander beleuchten.

G wie „Generative“: die Vorhersage des wahrscheinlichsten nächsten Wortes

Der erste Begriff, „Generativ“, beschreibt die grundlegendste Fähigkeit dieser Modelle: Sie erzeugen neuen Text. Auf den ersten Blick mag dieser Vorgang komplex erscheinen, doch im Kern basiert er auf einem erstaunlich einfachen Prinzip. Ein Großes Sprachmodell ist darauf trainiert, für eine gegebene Textpassage eine Vorhersage zu treffen, was als Nächstes kommt. Diese Vorhersage ist keine einzelne, definitive Antwort, sondern eine Wahrscheinlichkeitsverteilung über alle möglichen Wörter oder Textbausteine, die folgen könnten.

Aus diesem simplen Mechanismus der Wortvorhersage entsteht die Fähigkeit von LLMs, lange und zusammenhängende Texte zu generieren. Das Modell erhält einen Ausgangstext, wählt aus der erzeugten Wahrscheinlichkeitsverteilung eine passende Fortsetzung aus, fügt diese dem bisherigen Text hinzu und wiederholt den gesamten Prozess. Genau dieser Zyklus aus Vorhersage und Ergänzung ist es, den wir beobachten, wenn ein Chatbot wie ChatGPT Wort für Wort eine Antwort formuliert.

P wie „Pre-trained“: das Datenfundament

Der Begriff „Pre-trained“, zu Deutsch „vortrainiert“, verweist auf den initialen Lernprozess des Modells. Vor seiner eigentlichen spezifischen Anwendung wird das Sprachmodell mit einer gewaltigen Menge an Daten trainiert. Dieses Vortraining schafft eine breite Wissensbasis. Der Begriff deutet zudem an, dass auf diesem Fundament aufgebaut werden kann, um das Modell durch zusätzliches, spezialisiertes Training auf bestimmte Aufgaben, wie zum Beispiel das Führen eines Dialogs, zu optimieren.

T wie „Transformer“: Kontext ist King

Der letzte Buchstabe im Akronym ist der entscheidende – der eigentliche Schlüssel zur Leistungsfähigkeit moderner KI. Der Transformer ist eine spezifische Art von neuronalem Netzwerk, eine Maschinenlern-Architektur, die als die zentrale Erfindung hinter dem aktuellen KI-Boom gilt.

Ursprünglich wurde die Transformer-Architektur im Jahr 2017 von Google für einen sehr spezifischen Zweck entwickelt: die Übersetzung von Text von einer Sprache in eine andere.

Die Variante, die jedoch Werkzeugen wie ChatGPT zugrunde liegt, ist darauf spezialisiert, den Faden eines Textes aufzunehmen und vorherzusagen, wie er weitergeht. Seine besondere Stärke, die ihn von älteren Architekturen abhebt und die wir im nächsten Kapitel detailliert betrachten werden, ist die Fähigkeit, den Kontext zu verarbeiten. Er kann also die Beziehungen zwischen Wörtern in einem Text verstehen und bewerten, auch wenn sie weit auseinander liegen.

So funktioniert ein Transformer

Nachdem wir die Begriffe geklärt haben, folgen wir nun dem Weg der Daten durch das Modell. Was passiert genau unter der Haube, wenn ein Transformer eine Antwort generiert? Der gesamte Prozess lässt sich in mehrere klar definierte Schritte unterteilen, von der Aufspaltung des Inputs bis zur finalen Wortvorhersage.

Schritt 1: Tokenization – Text wird zu Bausteinen

Zuerst wird der eingegebene Text in eine Reihe kleinerer Teile zerlegt. Diese Einheiten werden „Tokens“ genannt. Im Falle von Text handelt es sich bei Tokens typischerweise um ganze Wörter, Wortteile oder auch nur um häufige Buchstabenkombinationen und Satzzeichen. Würde man das System mit Bildern oder Tönen füttern, wären die Tokens entsprechend kleine Bildausschnitte oder kurze Audio-Schnipsel.

Schritt 2: Embeddings – Bausteine werden zu Zahlen (Vektoren)

Jeder dieser Tokens wird nun einem Vektor zugeordnet – einer langen Liste von Zahlen, die seine Bedeutung kodieren soll. Dieser Prozess, das „Einbetten“ eines Tokens, ist fundamental für alles, was folgt. Man kann sich diese Vektoren als Koordinaten für einen Punkt in einem extrem hochdimensionalen semantischen Raum vorstellen. Während wir uns einen dreidimensionalen Raum leicht vorstellen können, hat der Vektorraum von GPT-3 beispielsweise 12.288 Dimensionen.

Die zentrale Idee dabei ist, dass dieser Raum eine semantische Struktur aufweist: Tokens mit ähnlicher Bedeutung werden auf Vektoren abgebildet, die in diesem Raum nahe beieinander liegen. Mehr noch, die Richtungen in diesem Raum können selbst Bedeutung tragen.

Ein klassisches Beispiel hierfür ist die Beobachtung, dass die Vektor-Differenz zwischen „König“ und „Mann“ der von „Königin“ und „Frau“ sehr ähnlich ist. Das Modell lernt während seines Trainings, solche Beziehungen abzubilden, sodass Richtungen im Raum Konzepte wie Geschlecht, Nationalität oder auch Familienbeziehungen repräsentieren.

Entscheidend ist jedoch, dass diese Vektoren nicht statisch sind. Der Vektor, der zu Beginn für das Wort „König“ steht, ist nur der Ausgangspunkt. Das primäre Ziel des nachfolgenden Netzwerks ist es, diesen Vektor mit Kontext anzureichern. Er soll quasi die Informationen aus seiner Umgebung aufsaugen, sodass er am Ende nicht mehr nur „König“ bedeutet, sondern beispielsweise „der schottische König aus einem Shakespeare-Stück, der durch Mord an die Macht kam“.

Schritt 3: Der Attention-Mechanismus – Vektoren „sprechen“ miteinander

Hier geschieht das, was den Transformer so revolutionär macht. Die aufbereiteten Vektoren durchlaufen einen sogenannten „Attention-Block“ (Aufmerksamkeits-Block). In diesem Schritt bekommen die Vektoren die Möglichkeit, miteinander zu „sprechen“ und Informationen auszutauschen, um ihre Werte gegenseitig zu aktualisieren.

Der Attention-Mechanismus ist dafür verantwortlich herauszufinden, welche anderen Wörter im Kontext für die exakte Bedeutung eines bestimmten Wortes relevant sind.

Nehmen wir den Satz: „Ein neuronales Netz ist ein Machine-Learning-Modell“. Das Wort „Modell“ hat hier eine andere Bedeutung als in „Ein Chanel-Kleid ist ein klassisches Mode-Modell“. Der Attention-Mechanismus ermöglicht es dem System, den Kontext zu analysieren und die Bedeutung des Vektors für „Modell“ entsprechend anzupassen. Alle diese kontextuellen Bedeutungsnuancen werden vollständig in den Zahlenwerten der Vektoren kodiert.

Schritt 4: Verarbeitung und Wiederholung

Nachdem die Vektoren im Attention-Block ihre Bedeutungen kontextuell verfeinert haben, durchlaufen sie eine andere Art von Operation, die oft als „Feed-Forward-Layer“ oder „Multi-Layer Perceptron“ bezeichnet wird. Anders als beim Attention-Mechanismus interagieren die Vektoren hier nicht miteinander, sondern werden alle parallel durch dieselbe Operation geschickt. Man kann sich diesen Schritt vereinfacht so vorstellen, als würde das Große Sprachmodell für jeden Vektor eine lange Liste von Fragen stellen und dessen Werte basierend auf den Antworten aktualisieren.

Dieser gesamte Prozess wird nicht nur einmal durchlaufen. Die Architektur des Transformers sieht vor, dass die Daten abwechselnd mehrere Attention-Blöcke und Feed-Forward-Layer passieren. Mit jeder Wiederholung dieses Zyklus wird das im Vektor kodierte Verständnis des Kontexts tiefer und nuancierter.

Schritt 5: Die Vorhersage – Vom Vektor zurück zum Wort

Am Ende dieser langen Kette von Verarbeitungsschritten ist die Hoffnung, dass die gesamte wesentliche Bedeutung der bisherigen Textpassage im Vektor des letzten Tokens verdichtet wurde. Auf diesen finalen, kontextgesättigten Vektor wird eine letzte Operation angewendet. Er wird durch eine finale Matrix, die „Unembedding Matrix“, geschickt, um eine Liste von Roh-Werten zu erzeugen – einen für jeden möglichen Token im Vokabular des Modells. Diese Werte werden in der Fachsprache auch „Logits“ genannt.

Da diese Logits eine beliebige Liste von Zahlen sind, müssen sie in eine gültige Wahrscheinlichkeitsverteilung umgewandelt werden. Hier kommt die sogenannte „Softmax“-Funktion ins Spiel. Sie stellt sicher, dass alle Werte zwischen 0 und 1 liegen und ihre Summe exakt 1 ergibt. Dabei sorgt sie dafür, dass die höchsten Logit-Werte die größte Wahrscheinlichkeit erhalten. Das Modell hat nun eine klare Verteilung, die angibt, mit welcher Wahrscheinlichkeit jeder Token der nächste im Satz sein könnte. Daraus wird dann eine Auswahl getroffen und der Kreislauf kann von Neuem beginnen.

Transformer-Technologie ein Baustein in der Zukunft des Search-Marketings

Was bedeutet dieses Wissen nun für uns, die wir uns professionell mit der Sichtbarkeit von Informationen im digitalen Raum beschäftigen? Es bedeutet alles. Das grundlegende Prinzip des Transformers ist das Verstehen von Beziehungen und Kontext. Er bewertet nicht nur einzelne Wörter, sondern deren Zusammenspiel. Damit wird deutlich, warum starre, keyword-basierte Optimierungsansätze im Zeitalter der generativen KI endgültig obsolet sind.

Wer die Funktionsweise des Transformers versteht, begreift die neue Bedeutung von kontextueller Relevanz: Es geht um semantische Tiefe, logische Zusammenhänge und die klare Einordnung von Entitäten in ihren korrekten Kontext. Die Optimierung für Maschinen, deren „Denken“ auf der Transformer-Architektur basiert, ist die nächste unausweichliche Evolutionsstufe der Suchmaschinenoptimierung. Sie hat einen Namen: Large Language Model Optimization (LLMO). Die Aufgabe ist nicht mehr nur, einer Maschine ein Vokabular beizubringen, sondern ihr zu beweisen, dass man die gesamte Konversation versteht.

    Hinterlasse eine Antwort

    Ihre Email-Adresse wird nicht veröffentlicht.