Autor: Patrick Stolp

information gain bedeutung erklärung seo llmo

Bedeutung und Funktion von Information Gain für SEO und LLMO: Erfolg durch einzigartige Informationen

Bedeutung und Funktion von Information Gain für SEO und LLMO: Erfolg durch einzigartige Informationen https://patrickstolp.de/wp-content/uploads/2025/07/information-gain-seo-llmo.jpg 1024 1024 Patrick Stolp Patrick Stolp https://secure.gravatar.com/avatar/6bdd2bf10b32556ccbe5a3b16931cb997c2c973524b74b20c375f7c9174c3ecd?s=96&d=blank&r=g 10. Juli 2025 22. Juli 2025

Von: Patrick Stolp

10. Juli 2025

Wer heute eine Frage an ein Suchsystem stellt, gibt sich mit einer Liste blauer Links nur noch selten zufrieden, seitdem es generative KI gibt. Die Suchergebnisse von einst (Google und Co.), die einem reinen Katalog von Websites glichen, aus dem man sich über das Sichten und Lesen unterschiedlicher Quellen seine eigene beste Antwort selbst zusammensetzen musste, weichen zunehmend direkten, oft erstaunlich – informativen – Antworten, die unmittelbar auf der Ergebnisseite präsentiert werden (ChatGPT und andere KI-Chatbots).

Moderne Suchsysteme haben aufgehört, einzelne Wörter oder Verweise zu zählen und zu verarbeiten. Sie haben begonnen, das Wesen von Information selbst zu ergründen, indem sie aus reinen „strings“ mehr und mehr „things“ werden ließen. Maschinen verknüpften Begriffe und Begriffskombinationen, erfassten so ihren Kontext und gewannen einen Eindruck davon, ob und in welchem Maße diese einen Beitrag zum Informationsgewinn leisten können – oder eben auch nicht. Diese tiefere Ebene des Verständnisses ist die eigentliche Revolution der Suche, die in unserer Gegenwart durch „conversational content“ ihre Manifestation findet.

Wer also, wie ich, im künftigen digitalen Search Marketing, also in der Suchmaschinenoptimierung (SEO) oder der aufkommenden Disziplin der Large Language Model Optimization (LLMO), erfolgreich sein will, muss diesen Wandel im Kern verstehen.

In diesem Artikel beleuchte ich daher das Konzept des Information Gain, das nicht nur den (menschlichen) Informationsgewinn messbar macht, sondern Maschinen in die Lage versetzt, ein Wissensnetzwerk durch semantische Verknüpfungen zu entwickeln. Abschließend erläutere ich, wie generative KI aus diesen Informationen und Informationsmetriken kohärente und nützliche Antworten erschafft.

Wie Suchmaschinen lernten, Informationen zu verstehen

Um die Genialität moderner Suchsysteme zu würdigen, muss ich einen Schritt zurückgehen. In den Anfängen war die digitale Suche ein recht mechanischer Prozess. Man kann sich das bildlich vorstellen wie den Index am Ende eines gewaltigen Sachbuchs: Suchmaschinen haben für jedes einzelne Wort eine Liste aller Seiten erstellt, auf denen es vorkam. Der Index kannte also die genaue Position von Begriffen wie „Golf“ oder „Testbericht“, aber er verstand nicht, dass diese Wörter in einer bestimmten Kombination eine spezifische und eindeutige Bedeutung erhalten.

Suchsysteme waren also kontextblind. Bei einer Suche nach „Golf GTI Testbericht“ lieferte eine Suchmaschine einfach alle Dokumente, die irgendwo in einem Dokument diese Wörter enthielten. Das Ergebnis konnte ein Bericht über ein Golfturnier, das vom Rügener Flughafen mit der internationalen Kennung „GTI“ gesponsert wurde, sein, was vermutlich nur selten die Intention gewesen wäre, oder ein „Testbericht“ über ein Automodell von Volkswagen. Das System scheiterte also daran, zu erkennen, dass der Nutzer einen ganz bestimmten Informationskontext suchte.

Phrase-based indexing

Der erste große Durchbruch zur Überwindung dieser Starrheit war die phrasenbasierte Indexierung. Doch wie entscheidet eine Maschine, welche Phrasen zusammengehören und welche nicht?

Die Antwort liegt in einem Konzept, das aus der Informationstheorie und dem maschinellen Lernen entlehnt ist und in Patenten wie US7536408B2 eine zentrale Rolle spielt: die Berechnung des Information Gain.

Um dies zu verstehen, müssen wir zwei Kernbegriffe kennen:

Entropie: Stell Dir einen Korb mit gemischten Früchten aller Art vor. Die Entropie ist hier sehr hoch, es herrscht Unordnung bzw. Chaos. Wenn Du die Früchte nun nach Sorten in kleinere Schalen sortierst, sinkt die Entropie in jeder einzelnen Schale. Entropie ist also ein Maß für die Unreinheit oder Zufälligkeit in einem Datensatz.
Entscheidungsbäume: Ein Entscheidungsbaum ist ein Modell, das versucht, diese Unordnung zu reduzieren, indem es eine Reihe von Fragen stellt. Zum Beispiel: „Ist die Frucht rot?“. Jede Antwort teilt den großen Korb in zwei kleinere, geordnetere Gruppen auf.

Information Gain ist nun die exakte mathematische Metrik, die berechnet, welche Frage die Unordnung am effektivsten reduziert. Die Formel lautet im Kern:

Information Gain = Entropie (vor der Frage) – Durchschnittliche Entropie (nach der Frage)

Eine Frage, die zu einem hohen Information Gain führt, ist also eine sehr gute Frage, weil sie viel Klarheit schafft.

Übertragen auf die Suchmaschine ist die Frage eines Suchsystems: „Sagt das Vorhandensein der Phrase A etwas über das Vorhandensein der Phrase B aus?“

Durch die Berechnung des Information Gain konnte eine Suchmaschine also quantifizieren, welche Phrasen starke, vorhersagbare Beziehungen zueinander haben und welche nur zufällig zusammen auftreten.

Statt Dokumente nur unter einzelnen Wörtern abzulegen, begann das System, sie aktiv mit Metadaten über semantische Beziehungen anzureichern.

Konkret kann man sich das so vorstellen: Ein Dokument wurde nun nicht mehr nur für das Vorkommen des Wortes „GTI“ indiziert, sondern für die „gute Phrase“ „Golf GTI Testbericht“. Der entscheidende Schritt war jedoch die Annotation: Dieses Dokument wurde im Index zusätzlich mit einem Vektor – der in diesem Kontext als eine Art digitales Etikett fungierte – versehen, der eine Liste von thematisch verwandten Phrasen repräsentierte. Diese verwandten Phrasen (z. B. „Beschleunigung“, „PS-Zahl“, „Kompaktsportler“) wurden zuvor über den Information Gain als hochgradig relevant identifiziert und zu Clustern zusammengefasst.

Das Ergebnis war ein Wissensnetzwerk, das direkt im Index verankert war. Die Suchmaschine konnte nun bei einer Anfrage nicht nur Dokumente finden, die die exakten Suchphrasen enthielten, sondern auch solche, die thematisch relevant waren, weil sie mit den passenden semantischen Clustern annotiert waren. Die eigentliche Informationsmehrwert lag nicht mehr nur im einzelnen Wort, sondern in den explizit im Index gespeicherten relevanten Beziehungen zwischen den Worten.

Information Gain aus Nutzerperspektive: Wie neu sind die Informationen eines Dokuments (speziell für dich)?

Ich fasse nochmal kurz den Wert von Information Gain für Maschine bzw. Suchsysteme zusammen: Zunächst dient der Information Gain als internes Werkzeug zur Qualitätskontrolle des Index. Funktionelle Aufgabe ist es, aus dem riesigen Ozean an Daten sinnvolle Zusammenhänge herauszufiltern. Phrasen, die nur zufällig nebeneinanderstehen, erzeugen informatives „Rauschen“ und werden durch einen niedrigen Information-Gain-Wert entlarvt und aussortiert. Gleichzeitig werden Phrasen mit hohen gegenseitigen Information-Gain-Werten zu semantischen Clustern zusammengefasst. Dies ist die Perspektive der Maschine: die Schaffung einer sauberen, logisch geordneten Wissenslandkarte.

Auf dieser Grundlage entfaltet sich die zweite, für den menschlichen Endnutzer letztlich relevante Perspektive: der „Neuheitsgrad“ einer Information bzw. eines Dokuments. Auch dieses Verständnis von Information Gain ist nicht etwa Ausdruck bloßer Zufälligkeit, sondern basiert auf einem wohldefinierten mathematischen Prinzip, umgesetzt durch Machine-Learning-Modelle: dem Rückgang der Entropie, also der mittleren Ungewissheit innerhalb einer Wahrscheinlichkeitsverteilung.

„Neu“ ist Information in diesem Sinne dann, wenn sie bestehende Erwartungen, in diesem Fall konkret den gegenwärtigen Wissensstand eines Nutzers, systematisch korrigiert oder präzisiert.

Man kann sich den Prozess des Information Gains für einen Nutzer grundsätzlich so vorstellen:

Der Startpunkt: Welches Maß an Entropie/Nicht-Wissen hat ein Nutzer?
Google oder ein anderes Suchsystem erfasst die Dokumente, die ein Nutzer zu einem Thema bereits gesehen hat (z. B. Artikel 1, 2 und 3 über „effektives Schreiben von Content-Marketing-Ratgebern“). Diese Sammlung an bekannten Informationsdokumenten repräsentiert den aktuellen Wissensstand des Nutzers, und dieser inhärent ist eine bestimmte informationelle Entropie – gewissermaßen ein Maß für das verbleibende Nicht-Wissen oder die noch unbeantworteten Aspekte des Themas.
Die Weggabelung: Welches Dokument reduziert seine Entropie/sein Nicht-Wissens?
Jedes neue, noch nicht gesehene Dokument (z. B. ein Artikel über „erfolgreiche Content-Distribution von Ratgebertexten) wird als potentieller nächster Schritt in einem Entscheidungsbaum behandelt. Das Suchsystem stellt sozusagen die Frage: Wie stark würde sich die Gesamtunsicherheit (Entropie) des Nutzers reduzieren, wenn ihm dieses Dokument präsentiert wird?
Das Etappenziel: Der Information-Gain-Score
Der Score für den Neuheitswert wird berechnet, indem die Entropie nach dem Lesen des neuen Dokuments von der Entropie davor abgezogen wird, exakt also wie weiter oben für Information Gain aus maschineller Perspektive schon formuliert. Ein Dokument, das nur bereits bekannte Fakten wiederholt, reduziert die Unsicherheit ergo kaum bis gar nicht – der Information-Gain-Score ist niedrig. Ein Dokument, das einen völlig neuen Aspekt beleuchtet (in unserem Beispiel die Distribution anstatt Produktion von Content), sorgt für eine im Vergleich höhere Reduktion der Entropie und erhält daher einen hohen Information Gain Score.

In diesem Google-Patent mit dem Titel Contextual estimation of link information gain wird dieser Prozess sogar nahezu exakt so beschrieben, auch wenn Entropie als zugrunde liegendes mathematisches Modell, soweit ich es verstehe – nicht genannt wird, so viel Ehrlichkeit soll sein.

Ein kleiner Einschub am Rande: Ich bin weder Informatiker noch Mathematiker. Ich meide Zahlen und Formeln wie der Teufel das Weihwasser. Trotzdem bin ich der Meinung, dass es ohne grundlegendes Verständnis von Kernmechanismen des Machine Learning künftig nicht mehr geht. Sie dazu meinen LinkedIn-Post:

Synthese zweier Information-Gain-Konzepte: Ordnung als Voraussetzung für Neuheit

Beide dargestellten Perspektiven auf Information Gain sind keine Gegensätze, sondern zwei Seiten derselben Medaille. Ein System, ob semantische Suchmaschine oder LLM bzw. KI-Chatbot, kann den Neuheitswert eines Dokuments für einen Nutzer (menschliche Perspektive) nur dann präzise bestimmen, wenn es zuvor die grundlegenden thematischen Zusammenhänge im gesamten Datenkorpus verstanden und geordnet hat (maschinelle Perspektive).

Um zu erkennen, dass der Artikel aus meinem Beispiel über Content-Distribution subjektiv neu und relevant ist, muss die Maschine wissen – oder berechnet haben -, dass „Content-Distribution“ und „Content-Produktion“ zwei unterschiedliche, aber zum Wissensgebiet „Content-Marketing“ gehörende semantische Cluster sind. Das Fundament der maschinellen Ordnung ermöglicht erst die „wissenserweiternde“, personalisierte Auswahl und Auslieferung passender Dokumente.

Von der Informationsfindung zur Informationserzeugung

Nachdem die Systeme gelernt hatten, Dokumente thematisch zu vernetzen, war der nächste logische Schritt eine weitere Verfeinerung des Informationssuchsystems: Weg vom ganzen Dokument hin zum einzelnen, relevantesten Textabschnitt bzw. einer (Text-)Passage, um im Wortlaut des zentralen Patents mit dem Namen „Scoring candidate answer passages“ zu bleiben.

Und warum das Ganze? Anstatt dem Nutzer nur eine Liste relevanter Dokumente auf der SERP zu präsentieren, aus denen dieser sich die Antwort selbst heraussuchen musste, sollte ihm nun die präziseste Antwort direkt präsentiert werden , oft in Form der bekannten „Answer Boxes“ oder „Featured Snippets“. (Ergänzung: Für Google ist es seit jeher das Ziel, den Nutzer im Google-Kosmos gefangen zu halten, siehe AI Overviews, aber das ist ein anderes Thema.)

Das Scoring geeigneter Textabschnitte allem voran durch Google funktioniert in mehreren Schritten: Zuerst identifiziert das System eine Nutzeranfrage als „antwortsuchend“. Daraufhin werden aus den relevantesten Dokumenten einzelne „Kandidaten-Passagen“ extrahiert.

Diese Abschnitte, oft direkt unterhalb von (Zwischen-)Überschriften, durchlaufen dann ein ausgeklügeltes, mehrstufiges Bewertungsverfahren, welches sich grob in drei Scoring-Kategorien bzw. Aufgaben unterteilen lässt:

Passt ein Textabschnitt exakt zur Nutzerfrage (Query Dependent Score)?
Wie hoch ist die Qualität der Quelle (Query Independent Score)?
In welchem Kontext steht der Abschnitt, also wie weit ist dieser in der Seitenstruktur bzw. in der strukturgebenden Überschriften-Hierarchie verschachtelt (Context Score)?

Wichtig dabei: Die anfängliche Auswahl der relevanten Dokumente, aus denen diese Passagen stammen, basiert weiterhin auf den fundamentalen Prinzipien des semantischen Index, der mithilfe von Information Gain aufgebaut wurde, wie ich es oben erklärt hatte.

Doch der bisher größte evolutionäre Sprung verwandelte die Suchmaschine vom Informations-Bibliothekar zum Informations-Autor – es vollzog sich also eine Entwicklung der bloßen Ordnung und Sortierung relevanter und „guter“ Informationsquellen („zehn blaue Links“) zur Extrahierung und Erzeugung der Information an sich. Wir sind in der Gegenwart angekommen. Willkommen in der Ära der generativen KI.

Retrieval Augmented Generation als die logische Weiterentwicklung von Information Gain

Wir haben festgestellt, dass der entscheidende evolutionäre Sprung in der Fähigkeit liegt, aus gefundenen Informationen eine neue, kohärente Antwort zu erzeugen. Das Herzstück dieser neuen Generation von Suchsystemen ist ein Verfahren namens Retrieval-Augmented Generation (RAG). Doch wie stellt man sicher, dass dieser Prozess nicht nur kreativ, sondern vor allem faktisch korrekt und nachvollziehbar ist?

Die Antwort darauf liefern ausgeklügelte Methoden wie GINGER (Grounded Information Nugget-Based Generation of Responses), ein System, das von Forschern der Universität Stavanger entwickelt wurde. Es löst die Kernprobleme bisheriger RAG-Modelle – wie faktische Fehler, fehlende Quellenbelege und das „Lost in the Middle“-Problem bei langen Kontexten – durch einen genialen, mehrstufigen Ansatz. Die zentrale Innovation von GINGER ist, dass es nicht mit ganzen Textpassagen arbeitet, sondern diese zuerst in ihre atomaren Bestandteile zerlegt: in sogenannte Information Nuggets. Das sind minimale, in sich geschlossene und überprüfbare Informationseinheiten, die eine präzise Rückverfolgung zur Quelle ermöglichen.

Der gesamte Prozess lässt sich am besten als eine Art Fertigungsstraße für Antworten verstehen:

Zerlegung in Nuggets: Zuerst extrahiert ein LLM aus den relevantesten gefundenen Textpassagen die zentralen Fakten als prägnante Nuggets.
Ordnen der Fakten: Anschließend werden diese Nuggets thematisch geclustert, um Redundanz zu vermeiden und die verschiedenen Aspekte (Facetten) einer Anfrage zu ordnen. Dies erhöht die Informationsdichte der späteren Antwort.
Priorisierung der Themen: Die erstellten Themencluster werden nach ihrer Relevanz für die Anfrage bewertet und sortiert, um die wichtigsten Informationen zu priorisieren.
Verfassen der Antwort: Zuletzt fasst ein LLM die Kernaussagen der wichtigsten Cluster zu einzelnen Sätzen zusammen und glättet diese in einem finalen Schritt zu einer flüssigen, gut lesbaren Antwort, ohne neue Inhalte hinzuzufügen.

Dieses GINGER-Verfahren stellt sicher, dass die finale Antwort maximal informativ, faktisch fundiert und frei von Redundanz ist – eine massive Verbesserung gegenüber einfachen RAG-Ansätzen.

Der Zusammenhang von RAG und Information Gain

Dieses ausgeklügelte Verfahren beginnt, wie wir sahen, mit dem „Retrieval“, also dem Abrufen relevanter Textpassagen. Dies führt uns zu einer entscheidenden technischen Frage: Woher nimmt das System diese Informationen?

Dafür muss man zwischen zwei Arten von Such-Systemen unterscheiden: Ein eigenständiges LLM ohne Zugang zu Suchmaschinendokumenten besitzt keinen durchsuchbaren Index; sein Wissen ist statisch in den Modellparametern eingebrannt. Eine klassische Suchmaschine hingegen basiert auf einem gigantischen, durchsuchbaren Index des Webs.

Moderne RAG-Systeme auf der Basis von GINGER kombinieren nun das Beste aus beiden Welten: Sie nutzen das Sprachverständnis eines LLM, geben ihm aber Zugriff auf einen externen, durchsuchbaren Index, aus dem es Fakten abrufen kann.

Genau hier wird die Verbindung zum Information Gain fundamental:

1. Information Gain als Motor für das Retrieval (Die System-Perspektive)

Die „R“-Komponente in RAG, der Retriever, benötigt einen Index, der semantische Zusammenhänge versteht, um die qualitativ besten Passagen zu finden. Die Prinzipien des maschinenzentrierten Information Gains – also Phrasen zu erkennen und anhand ihrer Beziehungen zu Clustern zu verbinden – sind die technologische Grundlage, die einen solchen intelligenten Index erst ermöglichen. Man kann also sagen: Das maschinelle Konzept des Information Gain sorgt dafür, dass die Rohstoffe für die generative KI von höchster Qualität und Relevanz sind.

2. Information Gain als Ziel für die Generation (Die Nutzer-Perspektive)

Die „G“-Komponente in RAG, der Generator, hat das Ziel, eine kohärente, nicht-redundante und maximal informative Antwort zu erstellen. Dieses Ziel deckt sich perfekt mit dem nutzerzentrierten Verständnis von Information Gain. Obwohl Systeme wie GINGER nicht explizit die Entropie-Formel verwenden, ist ihre Architektur darauf ausgelegt, genau dieses Prinzip umzusetzen: Das Clustering von Nuggets zur Vermeidung von Redundanz und das Ranking der Themencluster zur Priorisierung der wichtigsten Fakten sind beides Mechanismen, die darauf abzielen, dem Nutzer den größtmöglichen Wissensgewinn zu verschaffen.

Das nutzerzentrierte Prinzip des Information Gain beschreibt also exakt das Ziel, das fortschrittliche RAG-Systeme durch ihre komplexe Architektur zu erreichen versuchen.

Information Gain ist somit der unsichtbare Faden, der die gesamte Evolution der Suche verbindet. In seiner maschinenzentrierten Form schafft er die semantisch geordnete Grundlage, die den Retriever von RAG-Systemen leistungsfähig macht. Gleichzeitig beschreibt er in seiner nutzerzentrierten Form exakt das Ziel, das fortschrittliche Generatoren wie GINGER anstreben: die Schaffung einer faktisch korrekten, redundanzfreien und maximal aufschlussreichen Antwort.

Transformer: eine Einführung in die grundlegende Technologie von LLMs (KI-Chatbots)

Transformer: eine Einführung in die grundlegende Technologie von LLMs (KI-Chatbots) https://patrickstolp.de/wp-content/uploads/2025/06/transformer-llm-grundlagen.jpg 1024 1024 Patrick Stolp Patrick Stolp https://secure.gravatar.com/avatar/6bdd2bf10b32556ccbe5a3b16931cb997c2c973524b74b20c375f7c9174c3ecd?s=96&d=blank&r=g 22. Juni 2025 23. Juli 2025

Von: Patrick Stolp

22. Juni 2025

Sprachmodelle wie ChatGPT wirken auf den ersten Blick wie eine Blackbox. Sie scheinen aus dem Nichts kreative, kohärente und oft verblüffend menschliche Texte zu erschaffen. Man könnte versucht sein, von Magie zu sprechen. Doch ähnlich wie in der modernen semantischen Suchmaschinenoptimierung, die weit über starre Keyword-Regeln hinausgeht, haben wir es hier nicht mit Zauberei zu tun, sondern mit brillanter Ingenieurskunst. Es gibt eine innere Ordnung, eine Architektur, die diesen beeindruckenden Fähigkeiten zugrunde liegt.

Wer heute die Zukunft der digitalen Information – und damit die Grundlage für Disziplinen wie Large Language Model Optimization (LLMO) – verstehen will, muss diese Blackbox öffnen. Er muss vom staunenden Anwender zum wissenden Experten werden. Genau das ist das Ziel dieses Artikels: Wir werfen einen Blick auf das Herzstück, das dem aktuellen KI-Boom seine Kraft verleiht: eine spezifische Erfindung namens Transformer.

Um die Funktionsweise und die Genialität des Transformers zu begreifen, entschlüsseln wir zunächst das Akronym, das in aller Munde ist und dessen letzter Buchstabe den Schlüssel zum Verständnis liefert: GPT.

TL;DR

Die Reise durch die Transformer-Architektur entmystifiziert die vermeintliche Magie der Sprach-KI und offenbart sie als das, was sie ist: eine Kette von logischen, mathematisch fundierten Operationen. Die Kernidee ist ebenso elegant wie wirkungsvoll.

Ein Text wird in Tokens zerlegt, von denen jeder in einen Vektor umgewandelt wird, der seine anfängliche Bedeutung repräsentiert.
Das Herzstück, der Attention-Mechanismus, ermöglicht es diesen Vektoren, miteinander zu interagieren und ihre Bedeutung im spezifischen Kontext des Satzes zu verfeinern.
Dieser Prozess aus Aufmerksamkeits-Analyse und Weiterverarbeitung wiederholt sich in mehreren Schichten, bis der finale Vektor des letzten Tokens eine hochgradig kontextualisierte Essenz des bisher Gesagten enthält.
Aus diesem Vektor wird schließlich eine Wahrscheinlichkeitsverteilung für das nächste Wort berechnet.

Was bedeutet eigentlich GPT?

Um die Funktionsweise von Large Language Models (LLMs) zu verstehen, müssen wir zunächst ihre Bezeichnung entschlüsseln. Die Initialen GPT stehen für „Generative Pre-trained Transformer“. Jeder dieser Begriffe beschreibt eine wesentliche Eigenschaft Großer Sprachmodelle, die wir nun nacheinander beleuchten.

G wie „Generative“: die Vorhersage des wahrscheinlichsten nächsten Wortes

Der erste Begriff, „Generativ“, beschreibt die grundlegendste Fähigkeit dieser Modelle: Sie erzeugen neuen Text. Auf den ersten Blick mag dieser Vorgang komplex erscheinen, doch im Kern basiert er auf einem erstaunlich einfachen Prinzip. Ein Großes Sprachmodell ist darauf trainiert, für eine gegebene Textpassage eine Vorhersage zu treffen, was als Nächstes kommt. Diese Vorhersage ist keine einzelne, definitive Antwort, sondern eine Wahrscheinlichkeitsverteilung über alle möglichen Wörter oder Textbausteine, die folgen könnten.

Aus diesem simplen Mechanismus der Wortvorhersage entsteht die Fähigkeit von LLMs, lange und zusammenhängende Texte zu generieren. Das Modell erhält einen Ausgangstext, wählt aus der erzeugten Wahrscheinlichkeitsverteilung eine passende Fortsetzung aus, fügt diese dem bisherigen Text hinzu und wiederholt den gesamten Prozess. Genau dieser Zyklus aus Vorhersage und Ergänzung ist es, den wir beobachten, wenn ein Chatbot wie ChatGPT Wort für Wort eine Antwort formuliert.

P wie „Pre-trained“: das Datenfundament

Der Begriff „Pre-trained“, zu Deutsch „vortrainiert“, verweist auf den initialen Lernprozess des Modells. Vor seiner eigentlichen spezifischen Anwendung wird das Sprachmodell mit einer gewaltigen Menge an Daten trainiert. Dieses Vortraining schafft eine breite Wissensbasis. Der Begriff deutet zudem an, dass auf diesem Fundament aufgebaut werden kann, um das Modell durch zusätzliches, spezialisiertes Training auf bestimmte Aufgaben, wie zum Beispiel das Führen eines Dialogs, zu optimieren.

T wie „Transformer“: Kontext ist King

Der letzte Buchstabe im Akronym ist der entscheidende – der eigentliche Schlüssel zur Leistungsfähigkeit moderner KI. Der Transformer ist eine spezifische Art von neuronalem Netzwerk, eine Maschinenlern-Architektur, die als die zentrale Erfindung hinter dem aktuellen KI-Boom gilt.

Ursprünglich wurde die Transformer-Architektur im Jahr 2017 von Google für einen sehr spezifischen Zweck entwickelt: die Übersetzung von Text von einer Sprache in eine andere.

Die Variante, die jedoch Werkzeugen wie ChatGPT zugrunde liegt, ist darauf spezialisiert, den Faden eines Textes aufzunehmen und vorherzusagen, wie er weitergeht. Seine besondere Stärke, die ihn von älteren Architekturen abhebt und die wir im nächsten Kapitel detailliert betrachten werden, ist die Fähigkeit, den Kontext zu verarbeiten. Er kann also die Beziehungen zwischen Wörtern in einem Text verstehen und bewerten, auch wenn sie weit auseinander liegen.

So funktioniert ein Transformer

Nachdem wir die Begriffe geklärt haben, folgen wir nun dem Weg der Daten durch das Modell. Was passiert genau unter der Haube, wenn ein Transformer eine Antwort generiert? Der gesamte Prozess lässt sich in mehrere klar definierte Schritte unterteilen, von der Aufspaltung des Inputs bis zur finalen Wortvorhersage.

Schritt 1: Tokenization – Text wird zu Bausteinen

Zuerst wird der eingegebene Text in eine Reihe kleinerer Teile zerlegt. Diese Einheiten werden „Tokens“ genannt. Im Falle von Text handelt es sich bei Tokens typischerweise um ganze Wörter, Wortteile oder auch nur um häufige Buchstabenkombinationen und Satzzeichen. Würde man das System mit Bildern oder Tönen füttern, wären die Tokens entsprechend kleine Bildausschnitte oder kurze Audio-Schnipsel.

Schritt 2: Embeddings – Bausteine werden zu Zahlen (Vektoren)

Jeder dieser Tokens wird nun einem Vektor zugeordnet – einer langen Liste von Zahlen, die seine Bedeutung kodieren soll. Dieser Prozess, das „Einbetten“ eines Tokens, ist fundamental für alles, was folgt. Man kann sich diese Vektoren als Koordinaten für einen Punkt in einem extrem hochdimensionalen semantischen Raum vorstellen. Während wir uns einen dreidimensionalen Raum leicht vorstellen können, hat der Vektorraum von GPT-3 beispielsweise 12.288 Dimensionen.

Die zentrale Idee dabei ist, dass dieser Raum eine semantische Struktur aufweist: Tokens mit ähnlicher Bedeutung werden auf Vektoren abgebildet, die in diesem Raum nahe beieinander liegen. Mehr noch, die Richtungen in diesem Raum können selbst Bedeutung tragen.

Ein klassisches Beispiel hierfür ist die Beobachtung, dass die Vektor-Differenz zwischen „König“ und „Mann“ der von „Königin“ und „Frau“ sehr ähnlich ist. Das Modell lernt während seines Trainings, solche Beziehungen abzubilden, sodass Richtungen im Raum Konzepte wie Geschlecht, Nationalität oder auch Familienbeziehungen repräsentieren.

Entscheidend ist jedoch, dass diese Vektoren nicht statisch sind. Der Vektor, der zu Beginn für das Wort „König“ steht, ist nur der Ausgangspunkt. Das primäre Ziel des nachfolgenden Netzwerks ist es, diesen Vektor mit Kontext anzureichern. Er soll quasi die Informationen aus seiner Umgebung aufsaugen, sodass er am Ende nicht mehr nur „König“ bedeutet, sondern beispielsweise „der schottische König aus einem Shakespeare-Stück, der durch Mord an die Macht kam“.

Schritt 3: Der Attention-Mechanismus – Vektoren „sprechen“ miteinander

Hier geschieht das, was den Transformer so revolutionär macht. Die aufbereiteten Vektoren durchlaufen einen sogenannten „Attention-Block“ (Aufmerksamkeits-Block). In diesem Schritt bekommen die Vektoren die Möglichkeit, miteinander zu „sprechen“ und Informationen auszutauschen, um ihre Werte gegenseitig zu aktualisieren.

Der Attention-Mechanismus ist dafür verantwortlich herauszufinden, welche anderen Wörter im Kontext für die exakte Bedeutung eines bestimmten Wortes relevant sind.

Nehmen wir den Satz: „Ein neuronales Netz ist ein Machine-Learning-Modell“. Das Wort „Modell“ hat hier eine andere Bedeutung als in „Ein Chanel-Kleid ist ein klassisches Mode-Modell“. Der Attention-Mechanismus ermöglicht es dem System, den Kontext zu analysieren und die Bedeutung des Vektors für „Modell“ entsprechend anzupassen. Alle diese kontextuellen Bedeutungsnuancen werden vollständig in den Zahlenwerten der Vektoren kodiert.

Schritt 4: Verarbeitung und Wiederholung

Nachdem die Vektoren im Attention-Block ihre Bedeutungen kontextuell verfeinert haben, durchlaufen sie eine andere Art von Operation, die oft als „Feed-Forward-Layer“ oder „Multi-Layer Perceptron“ bezeichnet wird. Anders als beim Attention-Mechanismus interagieren die Vektoren hier nicht miteinander, sondern werden alle parallel durch dieselbe Operation geschickt. Man kann sich diesen Schritt vereinfacht so vorstellen, als würde das Große Sprachmodell für jeden Vektor eine lange Liste von Fragen stellen und dessen Werte basierend auf den Antworten aktualisieren.

Dieser gesamte Prozess wird nicht nur einmal durchlaufen. Die Architektur des Transformers sieht vor, dass die Daten abwechselnd mehrere Attention-Blöcke und Feed-Forward-Layer passieren. Mit jeder Wiederholung dieses Zyklus wird das im Vektor kodierte Verständnis des Kontexts tiefer und nuancierter.

Schritt 5: Die Vorhersage – Vom Vektor zurück zum Wort

Am Ende dieser langen Kette von Verarbeitungsschritten ist die Hoffnung, dass die gesamte wesentliche Bedeutung der bisherigen Textpassage im Vektor des letzten Tokens verdichtet wurde. Auf diesen finalen, kontextgesättigten Vektor wird eine letzte Operation angewendet. Er wird durch eine finale Matrix, die „Unembedding Matrix“, geschickt, um eine Liste von Roh-Werten zu erzeugen – einen für jeden möglichen Token im Vokabular des Modells. Diese Werte werden in der Fachsprache auch „Logits“ genannt.

Da diese Logits eine beliebige Liste von Zahlen sind, müssen sie in eine gültige Wahrscheinlichkeitsverteilung umgewandelt werden. Hier kommt die sogenannte „Softmax“-Funktion ins Spiel. Sie stellt sicher, dass alle Werte zwischen 0 und 1 liegen und ihre Summe exakt 1 ergibt. Dabei sorgt sie dafür, dass die höchsten Logit-Werte die größte Wahrscheinlichkeit erhalten. Das Modell hat nun eine klare Verteilung, die angibt, mit welcher Wahrscheinlichkeit jeder Token der nächste im Satz sein könnte. Daraus wird dann eine Auswahl getroffen und der Kreislauf kann von Neuem beginnen.

Transformer-Technologie ein Baustein in der Zukunft des Search-Marketings

Was bedeutet dieses Wissen nun für uns, die wir uns professionell mit der Sichtbarkeit von Informationen im digitalen Raum beschäftigen? Es bedeutet alles. Das grundlegende Prinzip des Transformers ist das Verstehen von Beziehungen und Kontext. Er bewertet nicht nur einzelne Wörter, sondern deren Zusammenspiel. Damit wird deutlich, warum starre, keyword-basierte Optimierungsansätze im Zeitalter der generativen KI endgültig obsolet sind.

Wer die Funktionsweise des Transformers versteht, begreift die neue Bedeutung von kontextueller Relevanz: Es geht um semantische Tiefe, logische Zusammenhänge und die klare Einordnung von Entitäten in ihren korrekten Kontext. Die Optimierung für Maschinen, deren „Denken“ auf der Transformer-Architektur basiert, ist die nächste unausweichliche Evolutionsstufe der Suchmaschinenoptimierung. Sie hat einen Namen: Large Language Model Optimization (LLMO). Die Aufgabe ist nicht mehr nur, einer Maschine ein Vokabular beizubringen, sondern ihr zu beweisen, dass man die gesamte Konversation versteht.

Content-Optimierung für KI: So schreibst du richtig für LLM-Systeme (ein Praxisleitfaden)

Content-Optimierung für KI: So schreibst du richtig für LLM-Systeme (ein Praxisleitfaden) https://patrickstolp.de/wp-content/uploads/2025/06/schreiben-fuer-llms-1024x683.jpg 1024 683 Patrick Stolp Patrick Stolp https://secure.gravatar.com/avatar/6bdd2bf10b32556ccbe5a3b16931cb997c2c973524b74b20c375f7c9174c3ecd?s=96&d=blank&r=g 8. Juni 2025 23. Juli 2025

Von: Patrick Stolp

8. Juni 2025

Zusammenfassung; TL;DR

Das Ziel der LLM-Optimierung (LLMO) ist die Integration von Inhalts-Chunks in KI-generierte Antworten, nicht das Ranking von URLs
Content muss in semantisch kohärente, in sich geschlossene Chunks (ca. 100–300 Tokens) gegliedert werden, die jeweils nur eine zentrale Idee behandeln
Eine saubere, semantische HTML-Struktur (H2, H3, P, UL) ist für das maschinelle Parsen („Layout-aware Chunking“) entscheidend
Klarheit, Direktheit und deklarative Sprache werden von LLMs gegenüber kreativen, vagen oder metaphorischen Formulierungen bevorzugt
Autorität wird durch explizite E-E-A-T-Signale, eine semantische interne Verlinkung (als Knowledge Graph) und den Aufbau thematischer Content-Cluster signalisiert
Jeder Chunk muss kontextuell autark sein (Minimierung des inferentiellen Abstands) und mehrdeutige Entitäten müssen präzisiert werden (Disambiguierung)

Vergiss alles, was du über klassische Suchmaschinenoptimierung zu wissen glaubst. Wir kommen aus einem digitalen Suchkosmos, der in seiner Essenz deterministisch war. Eine Welt der Rankingfaktoren, der Keyword-Dichte und der klar definierten, wenn auch oft geheimen, algorithmischen Regeln. Der Effekt unserer Maßnahmen war weitgehend reproduzierbar, und die zehn blauen Links waren das unumstößliche Ziel unserer Arbeit.

Diese Ära ist nicht vorbei, aber sie hat einen neuen, mächtigen Nachbarn bekommen: die generative KI bzw. large Language Models (LLMs). Und in dieser neuen Welt gelten andere Spielregeln.

Der Fokus verschiebt sich radikal: Weg von der Optimierung für Klicks und hin zur Optimierung für „Chunks“ – logische Inhaltsblöcke, die von LLM-Systemen bewertet und zu neuen Antworten synthetisiert werden. Es geht nicht mehr nur darum, auf einer Ergebnisseite zu erscheinen. Es geht darum, von einem Sprachmodell als relevante Wissensquelle abgerufen, bewertet und in eine nützliche, maschinell generierte Antwort integriert zu werden.

Dieser Artikel ist dein taktischer Leitfaden für diese Disruption. Wir werden keine Phrasen dreschen, sondern uns auf die direkt umsetzbaren, teils technischen, teils strategischen Hebel konzentrieren, die darüber entscheiden, ob deine Inhalte in Systemen wie ChatGPT, Gemini oder Perplexity eine Rolle spielen oder in der digitalen Unsichtbarkeit verharren.

Das Fundament verstehen: Keyword-Relevanz Chunk-Retrieval

Um deine Inhalte erfolgreich für LLM-Systeme zu optimieren, musst du zuerst die grundlegende Funktionsweise dieser Systeme verinnerlichen. Die Logik, nach der sie Informationen finden, bewerten und zusammenstellen, unterscheidet sich fundamental von der klassischen Suchmaschine. Der Wandel lässt sich in einem Satz zusammenfassen: Wir bewegen uns weg von der Seiten-Optimierung hin zur Chunk-Optimierung.

Was ist ein „Chunk“?

Ein Large Language Model liest und bewertet eine Webseite nicht als ein monolithisches Ganzes. Stattdessen zerlegen diese Systeme Inhalte in kleinere, verdauliche Informationseinheiten, die als „Chunks“ bezeichnet werden.

Du kannst dir einen Chunk als einen logischen, in sich geschlossenen Inhaltsblock vorstellen, der eine spezifische Idee, eine Definition oder ein Argument enthält. Anders ausgedrückt: eine in sich geschlossene Bedeutungseinheit.

In der neuen Such-Ära optimieren für diese Chunks. Dies bedeutet, dass Relevanz der neue übergeordnete „Rankingfaktor“ ist, wobei es natürlich nicht mehr um Rankings gehen wird, wozu ich später noch kommen werde.

Warum ist die Chunk-Struktur von Content wichtig für LLM-Optimierung?

Eine saubere, logische Gliederung deiner Inhalte ist kein stilistisches Extra, sondern eine technische Notwendigkeit. Eine klare Struktur hilft den LLMs dabei, die relevantesten Inhaltssegmente präzise zu lokalisieren. Jeder dieser Chunks wird einzeln bewertet, basierend darauf, wie gut seine Semantik zur eigentlichen Nutzeranfrage passt.

Vielleicht denkst du jetzt an die immer größer werdenden Kontextfenster der Modelle. Und es stimmt, die Kapazitäten sind beeindruckend: Stand Juni 2025 kann ein Modell wie Google Gemini 1.5 Pro bis zu zwei Millionen Tokens verarbeiten.

Doch selbst mit einem quasi unendlichen Gedächtnis bleibt das Grundprinzip bestehen: Die KI ruft Inhalte in Chunks ab. Eine durchdachte Struktur ist und bleibt der entscheidende Faktor für LLM-Sichtbarkeit.

Der Query-Fan-Out-Effekt

Wenn ein Nutzer eine Anfrage an eine LMM-Suche stellt, passiert unter der Haube mehr als nur ein einfacher Abgleich. Das large Language Model nimmt die ursprüngliche Frage und zerlegt sie in ein ganzes Netzwerk von Unterabfragen – ein Prozess, den man als „Query Fan-Out“ bezeichnet.

Aus einer Frage wie „Wie kann ich gesünder leben, ohne mein ganzes Leben umzukrempeln?“ werden mehrere spezifische Sub-Queries generiert, die jeweils einen anderen inhaltlichen Schwerpunkt adressieren:

Welche kleinen Veränderungen in der Ernährung haben großen Einfluss auf die Gesundheit?
(Ziel: Identifikation von „Low-Effort, High-Impact“-Maßnahmen, z. B. Wasser statt Softdrinks, mehr Ballaststoffe)
Wie viel Bewegung pro Tag reicht aus, um langfristig fit zu bleiben?
(Orientierung an Empfehlungen wie 7.000–10.000 Schritte, kurze Kraftübungen, Alltagstauglichkeit)
Wie kann ich Stress im Alltag reduzieren, ohne große Zeitinvestitionen?
(Achtsamkeit, kurze Pausen, Atemtechniken – alles mit niedriger Einstiegshürde)
Was sind gesunde Gewohnheiten für besseren Schlaf?
(Schlafhygiene, Konsistenz beim Zubettgehen, Bildschirmzeit reduzieren)
Wie kann ich ungesunde Routinen schrittweise ersetzen, ohne zu scheitern?
(Verhaltensänderung durch Habit Stacking, 80/20-Regel, Rückfallmanagement)

Die entscheidende Erkenntnis dabei ist: Dieser Prozess ist stochastisch und kontextabhängig. Die Folgefragen sind nicht für jeden Nutzer identisch. Es ist also unmöglich, Inhalte für jede erdenkliche Frage-Variation im Voraus zu erstellen.

Stattdessen musst du eine robuste semantische Infrastruktur aufbauen, also eine Art „ontologischen Kern“ deines Fachgebiets. Dein Ziel ist es, die fundamentalen Wissensbausteine so zu liefern, dass das LLM sie flexibel für ihre dynamisch generierten Antworten nutzen kann.

Das taktische LLM-Playbook: Inhalte für Retrieval und Synthese optimieren

Nachdem wir das theoretische Fundament kurz und knapp geklärt haben, gehen wir nun in die Praxis. Die folgenden taktischen Hebel sind deine konkrete Anleitung, um Inhalte so zu gestalten, dass sie von LLM-Systemen nicht nur gefunden, sondern auch als qualitativ hochwertig für die Synthese von Antworten eingestuft werden.

Regel 1: Für semantisches Chunking strukturieren

Die Grundlage jeder LLM-Optimierung ist, wie eingangs erläutert, eine saubere, maschinenlesbare Struktur. Du musst dem Großen Sprachmodell aktiv dabei helfen, deine Argumente und Informationen zu parsen.

*Es gibt zig Tools im Internet, mit denen man testen kann, wie viele Tokens ein Absatz Wörter vorweist.*

Logische Blöcke bilden: Gliedere deinen Content in thematisch fokussierte Blöcke von etwa 100–300 Tokens pro Block.
Semantische HTML-Tags nutzen: Verwende konsequent und hierarchisch korrekt <h2>, <h3>, <p>, <ul> und <li>. Diese Tags sind keine reine Formsache; sie sind essenziell für das sogenannte „Layout-aware Chunking“, eine Methode, die Inhalte basierend auf der visuellen und logischen Struktur segmentiert.
Autarke Ideen pro Abschnitt: Jeder durch eine Überschrift eingeleitete Abschnitt sollte eine in sich geschlossene Idee behandeln. Die Überschrift selbst sollte die Kernaussage oder die Frage des Abschnitts widerspiegeln.

Regel 2: Klarheit und Direktheit vor Kreativität

Generative Sprachmodelle bevorzugen eine klare, unmissverständliche Sprache, die der Absicht einer Nutzeranfrage direkt entspricht. Kreative, metaphorische Umschreibungen, die in der menschlichen Kommunikation geschätzt werden, sind für eine Maschine im Grunde nur semantisches Rauschen ohne Aussagegehalt.

Verwende einfache Sprache und direkte Antworten
Vermeide Jargon, blumige Metaphern und clevere Einleitungen. Wenn du ein Akronym benutzt, schreibe es beim ersten Mal aus.

Beispiel: Eine als konkrete Frage formulierte Überschrift wie „Blockieren polarisierte Sonnenbrillen blaues Licht?“ ist für ein LLM unendlich wertvoller als „Die Magie moderner Brillenmode“.

Regel 3: Technische Zugänglichkeit sicherstellen (LLM-Crawlability)

Deine Inhalte können noch so gut sein, aber wenn die LLM-Crawler nicht darauf zugreifen können, sind sie unsichtbar.

Crawler nicht blockieren: Stelle sicher, dass du wichtige Bots wie GPTBot (OpenAI) und Google-Extended nicht über deine robots.txt-Datei aussperrst
Inhalte zugänglich machen: Vermeide es, Kerninformationen in JavaScript-Elementen, PDFs oder Bildern zu verstecken, die für Crawler schwer zu interpretieren sind
Strukturierte Daten nutzen: Implementiere schema.org-Markup so umfassend wie möglich. Schema ist die explizite Sprache, mit der du der Maschine den Kontext und die Bedeutung deiner Inhalte unmissverständlich erklärst

Regel 4: Vertrauen und Autorität signalisieren (E-E-A-T)

LLMs sind darauf trainiert, Quellen zu bevorzugen, die vertrauenswürdig erscheinen. Deine Website muss diese Vertrauenswürdigkeit explizit signalisieren.

Zeige Autoren, Referenzen und Daten an. Jede Seite sollte einen klaren Autor mit seiner Expertise, ein Veröffentlichungs- oder Aktualisierungsdatum ausweisen
Verlinke auf anerkannte Quellen. Untermauere deine Aussagen durch Links auf wissenschaftliche Studien, offizielle Dokumentationen oder führende Experten

Regel 5: Interne Verlinkung als Knowledge Graph aufbauen

Interne Links waren in der klassischen Suchmaschinenoptimierung Werkzeuge zur Verteilung von Link-Equity und zur thematischen Strukturierung in Silos oder Topic Clustern. In GenAI-Systemen erhalten sie eine fundamental neue Rolle: Sie formen die „Retrieval Map“, die ein LLM nutzt, um deine Inhalte zu durchforsten und zu bewerten.

Dein Mindset muss sich hier ändern: Du verlinkst nicht länger thematisch relevante URLs, sondern du baust einen abrufbaren Wissensgraphen deiner eigenen Website.

Jeder Link sollte eine semantische Beziehung zwischen Entitäten ausdrücken: „Seite A erklärt Konzept B“, „Seite C vergleicht Tool D mit Tool E“ oder „Seite F ist die Grundlage für Prozess G“. Diese Vernetzung von Bedeutungen ist es, was dem LLM hilft, die Zusammenhänge in deinem Fachgebiet zu verstehen und deine Inhalte als kohärentes Ganzes zu interpretieren.

Regel 6: Deklarative Sprache nutzen

LLM-Systeme bevorzugen für ihre Antworten selbstbewusste, faktische und klar formulierte Aussagen. Vage Formulierungen und übermäßige Zurückhaltung können dazu führen, dass deine Inhalte als weniger verlässlich eingestuft und ignoriert werden.

Formuliere Fakten als Fakten: Nutze eine klare, assertive Sprache, wenn du Tatsachen präsentierst
Vermeide unsichere Qualifizierer: Formulierungen wie „einige Experten glauben“ oder „es könnte argumentiert werden“ schwächen die Aussagekraft deines Chunks und reduzieren dessen Retrieval-Stärke

Beispiel:

Schlecht: „In bestimmten Fällen könnte es möglich sein, dass ein Arbeitnehmer eventuell Anspruch auf eine Abfindung haben könnte…“

Gut: „Ein Arbeitnehmer hat grundsätzlich Anspruch auf eine Abfindung, wenn der Arbeitgeber eine betriebsbedingte Kündigung nach § 1a KSchG ausspricht.“

Viele Websites, die sich mit YMYL-Themen (Your Money Your Life; beispielsweise Medizin- oder Rechts- und Finanzthemen) beschäftigen, verwenden übervorsichtige Sprache, um beispielsweise keine Rechtsberatung vorzutäuschen. Das führt jedoch dazu, dass Inhalte von LLMs ignoriert werden. In unsere, Beispiel könnte ein Compliance-konformer Zusatz aber das Problem lösen: „Diese Information ersetzt keine individuelle Rechtsberatung. Maßgeblich ist stets die Bewertung im Einzelfall.“

Regel 7: Eine Idee pro Absatz: Embedding-freundlich schreiben

Jeder Absatz deines Textes wird von einem LLM in einen numerischen Vektor umgewandelt, ein sogenanntes „Embedding“. Die Präzision dieses Vektors entscheidet darüber, wie gut der Inhalt zu einer Anfrage passt.

Die wichtigste Regel hierfür lautet: Ein Gedanke pro Absatz. Vermischst du mehrere Ideen in einem einzigen Absatz, wird der resultierende Vektor unscharf und thematisch verwaschen. Das verschlechtert das Retrieval und die Bewertung. Halte deine Absätze kurz, kohärent und auf eine einzige, klare Aussage fokussiert.

Regel 8: Semantische Redundanz schaffen

Um deine Auffindbarkeit zu maximieren, solltest du deine Kernideen mehrfach und mit leichten Variationen im Text wiederholen. Man kann es sich so vorstellen, dass du ein breiteres Netz im Vektorraum auswirfst, um für mehr semantisch verwandte Anfragen relevant zu sein.

Formuliere Schlüsselideen 2-3 Mal neu, indem du einfache Synonyme und alternative Satzstrukturen verwendest
Verteile diese Rephrasings über verschiedene Chunks deines Artikels, zum Beispiel in der Einleitung, im Hauptteil und im Fazit
Spiegle natürliche Sprachvarianten wider

Beispiel:

Einleitungsabsatz (Chunk 1): „Datensicherheit ist ein zentrales Thema bei der Nutzung von Cloud-Diensten. Unternehmen müssen sicherstellen, dass ihre sensiblen Daten in der Cloud vor unbefugtem Zugriff geschützt sind.“

Hauptteil-Absatz (Chunk 2): „Der Schutz geschäftskritischer Informationen in Cloud-Umgebungen erfordert robuste Sicherheitsmaßnahmen wie Verschlüsselung, Zugriffskontrolle und kontinuierliches Monitoring. Besonders bei personenbezogenen Daten ist höchste Sicherheitsdisziplin gefragt.“

Fazit-Absatz (Chunk 3): „Cloud-Security ist kein Zusatz, sondern eine Grundvoraussetzung für digitale Souveränität. Wer in der Cloud arbeitet, muss Datenschutz, Integrität und Verfügbarkeit systematisch absichern.“

Regel 9: Den inferentiellen Abstand minimieren: Kontext ist alles

Ein LLM muss aus einem Chunk eine logische Schlussfolgerung (Inferenz) ziehen können. Wenn eine Behauptung und der für sie notwendige Kontext über mehrere, voneinander entfernte Absätze verteilt sind, entsteht ein großer „inferentieller Abstand“. Das zwingt das large Language Model zu Sprüngen, die fehleranfällig sind und die Verlässlichkeit deiner Inhalte senken. Deine Aufgabe ist es, diese Abstände zu minimieren.

Jeder Chunk muss eine in sich geschlossene, kohärente Argumentationseinheit sein.

Negativbeispiel (Hoher inferentieller Abstand):
- Absatz 2: „Die robots.txt ist eine einfache Textdatei, die im Stammverzeichnis einer Domain liegt.“
- Absatz 9: „Mit dieser Datei kann man das Verhalten von Web-Crawlern steuern.“
Positivbeispiel (Kein inferentieller Abstand):
- Ein Absatz: „Die robots.txt, eine einfache Textdatei im Stammverzeichnis einer Domain, ist das primäre Steuerungsinstrument, um Web-Crawlern wie dem Googlebot gezielte Anweisungen zu geben, welche Bereiche einer Website sie besuchen dürfen und welche nicht.“

Regel 10: Semantische Eindeutigkeit herstellen: Entitäten für die KI schärfen

Ein LLM versucht, jedes Wort und jeden Begriff in deinem Text einer bekannten Entität in seinem internen Wissensgraphen zuzuordnen. Mehrdeutige Begriffe sind dabei wie eine unklare Wegbeschreibung. Hilf der Maschine, indem du potentiell zweideutige Entitäten präzisierst.

Beispiele:

Mehrdeutig: „Unser neues Tool verbessert das Reporting in Analytics.“ (Welches Analytics-Tool? Adobe? Matomo? Google?)
Eindeutig: „Unser neues Tool verbessert das Reporting in Google Analytics 4 (GA4).“
Mehrdeutig: „Für diese Strategie ist Jaguar eine gute Wahl.“ (Die Automarke oder die Raubkatze? Im falschen Kontext eine teure Verwechslung.)
Eindeutig: „Für diese Marketing-Luxusstrategie ist die Automarke Jaguar eine passende Fallstudie.“

Regel 11: Einen Informations-Baukasten bereitstellen: Modulare Inhalte

Betrachte deine Artikel nicht mehr nur als lineare Texte, sondern als einen Baukasten mit Informations-Modulen. Ein LLM, das eine komplexe Anfrage zerlegt, sucht nach passgenauen Bauteilen, um eine Antwort zu konstruieren. Gib ihm diese Bauteile.

Statt nur Fließtext zu produzieren, solltest du deine Expertise in leicht extrahierbare Formate gießen. Behandle ein Thema nicht nur, sondern seziere es.

Beispiel für einen modularen Aufbau zum Thema „Serverseitiges Tagging“:
- Definitions-Block: Beginne mit einer klaren „Was ist“-Definition
- Vergleichstabelle: Stelle serverseitiges Tagging dem clientseitigen Tagging gegenüber (Kriterien: Performance, Datenkontrolle, Implementierungsaufwand)
- FAQ-Modul: Beantworte die fünf häufigsten Fragen, die in der Praxis immer wieder aufkommen.
- Anleitungs-Block: Skizziere die grundlegenden Schritte für eine Ersteinrichtung als Schritt-für-Schritt-Beschreibung

Regel 12: Die Essenz signalisieren: Zusammenfassungen für Bots

Am Ende (oder auch am Anfang) eines langen Artikels solltest du dem LLM aktiv signalisieren, was die Kernaussagen sind. Betrachte es als ein „TL;DR für Bots“.

Diese Blöcke werden oft mit hoher Priorität für die Generierung von Snippets und zusammenfassenden Antworten herangezogen. Du zeigst der Maschine damit, was du als Autor für die Quintessenz hältst. Du kannst hoch zu diesem Artikel scrollen, dort siehst du ein Beispiel für diesen Artikel, den du gerade liest.

Regel 13: Semantische Autorität aufbauen: mehr als die Summe der Teile

Ein einzelner Artikel, egal wie gut, ist im weiten Vektorraum nur ein einzelner Datenpunkt. Echte Autorität, die ein LLM als verlässlich einstuft, entsteht durch Dichte und Vernetzung.

Deine Aufgabe ist es, nicht nur einzelne Seiten, sondern ein ganzes Ökosystem an Inhalten zu schaffen, das ein Thema umfassend und aus verschiedenen Perspektiven beleuchtet.

Du baust dir damit eine semantische Festung. Ein LLM, das auf der Suche nach einer verlässlichen Antwort ist, wird eine solche Wissensbasis bevorzugen, weil sie Konsistenz und Tiefe signalisiert.

Beispiel für den Aufbau semantischer Autorität zum Thema „Core Web Vitals“:

Dein Hauptartikel: „Core Web Vitals: Warum LCP, INP und CLS im KI-Zeitalter erfolgskritisch sind.“
Unterstützende Artikel (Cluster):
- Ein technischer Deep Dive: „Praxisanleitung: Den Interaction to Next Paint (INP) korrekt messen und optimieren.“
- Eine Fallstudie: „Fallstudie: Wie wir den Cumulative Layout Shift (CLS) für einen E-Commerce-Shop um 80 % reduziert haben.“
- Ein vergleichender Artikel: „INP vs. First Input Delay (FID): Was sich für SEOs wirklich ändert.“
- Ein strategischer Ausblick: „Beeinflussen Core Web Vitals das Ranking in KI-generierten Antworten?“

Relevance Engineering ist die Zukunft und Gegenwart

Die Spielregeln haben sich unwiderruflich geändert. Wir optimieren nicht mehr nur für den Klick, sondern für die Aufnahme unserer Inhalte in eine KI-generierte Antwort innerhalb von LLMs.

Dabei leben wir aktuell in einer hybriden Welt: Die klassischen Systeme existieren weiter, während die neuen, generativen Systeme die Zukunft formen. Als Professionals müssen wir für beide Welten bauen.

Der Weg dorthin führt über die bewusste und strategische Gestaltung von Inhalten. Weg von seitenlangen Texten, hin zu klar strukturierten, semantisch präzisen und in sich geschlossenen Wissens-Chunks, die auf Vertrauen, Autorität und Klarheit basieren.

Optimierung für AI Overviews und AI Mode ≠ SEO, oder?

Optimierung für AI Overviews und AI Mode ≠ SEO, oder? https://patrickstolp.de/wp-content/uploads/2025/05/ai-mode-llm-seo-e1748679467219.jpg 1012 717 Patrick Stolp Patrick Stolp https://secure.gravatar.com/avatar/6bdd2bf10b32556ccbe5a3b16931cb997c2c973524b74b20c375f7c9174c3ecd?s=96&d=blank&r=g 31. Mai 2025 23. Juli 2025

Von: Patrick Stolp

31. Mai 2025

Viele SEOs flippen auf LinkedIn aktuell aus. Ausnahmsweise auch mit Recht, so meine Meinung. Mit dem Aufkommen von Googles AI Overviews und dem sich abzeichnenden, tiefergreifenden AI Mode sehen sich viele in der Branche mit einer Welle der Unsicherheit konfrontiert. Doch inmitten dieser Umwälzungen macht eine erstaunlich oft gehörte Phrase die Runde: „Das ist doch alles nur SEO.“ Eine Aussage, die nicht nur eine bemerkenswerte Simplifizierung darstellt, sondern auch von einer gefährlichen Fehleinschätzung der technologischen Realität zeugt. Ist es die typisch menschliche Verdrängung angesichts existenzieller Veränderungen, die hier spricht? Oder schlicht ein Mangel an tiefgreifender Auseinandersetzung mit der Funktionsweise von Large Language Models (LLMs) und den daraus resultierenden generativen Oberflächen?

Man könnte argumentieren, das Gehirn sei faul, auf Effizienz getrimmt und neige dazu, Probleme zu unterdrücken. Und ja, eine ganze Branche, deren Protagonisten ihre Positionierung an die drei Buchstaben S-E-O geknüpft haben, spürt dieser Tage ein deutliches Beben. Die Behauptung, die „SEO-Basics blieben dieselben“, mag beruhigend klingen, ist aber ein Trugschluss. Das weiß jeder, der sich intensiv mit den technischen Grundlagen der neuen „Suchsysteme“, den LLMs, beschäftigt. So wie ich.

Dieser Artikel wird argumentieren, dass die Optimierung für generative KI-Systeme wie Googles AI Overviews oder den in Patenten wie „Search with stateful chat“ skizzierten AI Mode weit mehr ist als eine bloße Erweiterung des bekannten SEO-Toolkits. Es geht um eine neue Disziplin – nennen wir sie Large Language Model Optimization (LLMO) oder Generative Engine Optimization (GEO) – die ein tiefes Verständnis der zugrundeliegenden Technologien, eine radikal andere Herangehensweise an Content und eine Neuausrichtung strategischer Ziele erfordert. Wer jetzt nicht bereit ist, die alten Denkmuster zu hinterfragen und sich den neuen Realitäten zu stellen, riskiert nicht nur den Anschluss zu verlieren, sondern in der informationsgetriebenen Welt von morgen unsichtbar zu werden.

Disruption in der Informationsverarbeitung: Warum AI Overviews, AI Mode und LLMs die SEO-Landkarte fundamental neu zeichnen

Wer auf der Suche nach Informationen war, der bediente sich in der Regel einer Google-Suche. Wenn wir ehrlich sind, beschreibt dieses Anliegen die Funktion der Suchmaschine Google aber nicht sonderlich präzise. Tatsächlich – mit Ausnahme von Google-Formaten wie die Featured Snippets – erhielten Nutzer von Google nach der Eingabe einer Suchanfrage aber keine direkte Antwort, also eine Information, sondern eine Liste an Dokumenten, die womöglich die Antwort auf eine Frage hatten.

Die Liste war dabei vorsortiert nach vermeintlicher Relevanz, inhaltlicher Qualität und Vertrauen zum Publisher. Die Informationen musste ein Nutzer aber dennoch selbst herausfiltern.

Dies ändert sich nun. Google übernimmt im AI Mode und teils auch durch die AI Overviews das Googeln für seine Nutzer. Der kognitive Aufwand wird für den Nutzer somit weiter gesenkt. Die Antwort auf die gestellte und mögliche Folgefragen gibt es jetzt direkt durch das Google-System, namentlich durch ein Query Fan-out.

Infobox:

Der Google AI Mode geht über die explizite Suchanfrage hinaus. Basierend auf der initialen Suchanfrage können intern zusätzliche, „synthetische“ Suchanfragen generiert werden, um ein umfassenderes Verständnis zu erlangen und eine reichhaltigere Antwort zu erstellen. Eine erfolgreiche Optimierung muss daher nicht nur die primäre Anfrage, sondern auch diese impliziten, verwandten Fragen und ganze Nutzer-Journeys antizipieren und abdecken. Das Patent „Search with stateful cha“ beschreibt, wie der AI Mode hierfür einen „contextual search state“ über mehrere Interaktionen hinweg aufrechterhält. Mehr dazu unter Query Fan-Out in Google AI Mode: Definition & implizite SEO-Auswirkungen.

Googles erklärtes Ziel ist es, „das Googeln für dich zu erledigen“ und die kognitive Last für den Nutzer, die sogenannten „Delphic Costs“, zu reduzieren, indem das System die Informationssynthese übernimmt, die der Nutzer früher selbst leisten musste. Dies bedeutet, dass Inhalte nicht nur „gefunden“, sondern von der KI aktiv verarbeitet und weitergedacht werden.

Nicht nur der Google AI Mode, auch andere Sprachmodelle besitzen dafür „Reasoning“-Fähigkeiten, das heißt, sie können Informationen aus multiplen (oft heterogenen und multimodalen) Quellen nicht nur abrufen, sondern auch interpretieren, verknüpfen, bewerten und daraus neue Schlussfolgerungen oder komplexe Antworten synthetisieren.

Einzigartige Antworten durch Hyperpersonalisierung

Während Personalisierung in der Google-Suche nichts wirklich Neues ist, erreicht sie im AI Mode eine neue Dimension. Durch die Nutzung von User Embeddings, die einer AI-Mode-Konversation gewissermaßen als eine Art Layer überlagert und auf dem bisherigen Dialogverlauf (contextual state), dem Vorwissen des Nutzers zu bestimmten und potentiell Daten aus dem gesamten Google-Ökosystem (Gmail, Kalender etc.) basieren, wird jede Antwort hochgradig individualisiert.

Das Ideal eines für alle Nutzer gleichen Suchergebnisses, auf dem traditionelles Ranktracking beruht, löst sich damit für den AI Mode weitgehend auf. Die Konsequenz: Was für einen Nutzer eine relevante und hilfreiche Antwort darstellt, kann für einen anderen bei identischer Suchanfrage bereits ganz anders aussehen.

Large Language Models ranken und indizieren nicht

Wie bereits erwähnt steht das Ende der zehn blauen Links bevor. Es kommt die Zeit der personalisierten synthetisierten KI-Antworten. Im Zuge dessen möchte ich mit der häufig gelesenen Behauptung aufräumen, dass es für LLMs bzw. im AI Mode, bei ChatGPT und Co. „Rankingfaktoren“ gäbe. Große Sprachmodelle führen keine Ranking-Scorings durch, wie es Suchmaschinen tun.

Richtig ist zwar, dass einige LLMs und auch der Google-AI-Mode Retrieval-Techniken wie beispielsweise für das Grounding (eine Art Informationsfaktencheck durch Nutzung relevanter und vertrauenswürdiger Quellen) anwenden, allerdings ist dieser Prozess lediglich ein Mittel zum Zweck.

Die eigentliche Antwortgenerierung folgt dann LLM-internen Logiken der Wahrscheinlichkeitsberechnung und semantischen Kohärenz. LLMs haben auch keinen Dokumenten-Index im Sinne einer klassischen Suchmaschine; sie mögen zwar Vektordatenbanken nutzen, aber diese dienen ausschließlich der semantischen Ähnlichkeitssuche und nicht der Relevanzbewertung im Sinne klassischer Suchmaschinenrankings.

In einer Vektordatenbank werden Inhalte auf Basis ihrer Bedeutung als numerische Vektoren gespeichert, sodass ein LLM kontextuell passende Informationen abrufen kann. Entscheidend ist jedoch: Es findet keine Bewertung oder Gewichtung statt. Richtig ist zwar, dass mittlerweile auch die klassische Google-Suche mit Vektordatenbanken arbeitet, allerdings nur als Vorfiltrierung für weitere Bewertungssysteme wie das Qualitätssystem E-E-A-T.

Von SEO zu LLMO

Somit nähern wir uns einer zentralen Frage: Nämlich was der AI-Mode und grundlegende LLM-Techniken für die klassische Suchmaschinenoptimierung bedeutet. Es ist ein offenes Geheimnis, dass auch die klassische Google-Suche seit Hummingbird keine rein lexikalische Suche mehr ist, sondern eine hybride lexikalisch-semantische Suchmaschine.

Das bedeutet, dass auch im Google-Suchesystem teils noch Sparse-Retrieval-Methoden wie TF-IDF oder BM25 Anwendung finden, also klassische „Keyword“-Such-Systeme, beispielsweise um eine möglichst schnelle und kostengünstige Relevanzbewertung von Dokumenten bzw. Inhalten vornehmen zu können.

Vektorsysteme sind dann besonders nützlich, wenn nicht exakte Begriffsübereinstimmung, sondern semantische Nähe eine Rolle spielt – etwa bei der Suche nach ähnlichen Inhalten oder zur Identifikation thematisch verwandter Dokumente.

Nicht zu vergessen in Googles hauseigene Entitätendatenbank bzw. Entitäten-Index, der Knowledga Graph. Google nutzt heute hybride Rankingstrategien, um je nach Suchintention ein dynamisches Gleichgewicht zwischen Recall und Precision zu erzielen. Die Begriffe Recall und Precision stammen ursprünglich aus der Information Retrieval- und Suchmaschinentechnologie und sind zentrale Metriken zur Bewertung von Such- und Klassifikationssystemen.

Beide messen auf unterschiedliche Weise, wie gut ein System relevante Informationen identifiziert und ausliefert. Precision bevorzugt Qualität der Treffer. Recall bevorzugt Vollständigkeit der Treffer. Bei unklaren oder weit gefassten Suchanfragen wird Recall priorisiert (z. B. durch semantische Erweiterung via Entitäten oder Synonyme). Bei sehr konkreten oder transaktionalen Suchen hingegen fokussiert sich Google auf Precision, um dem Nutzer sofort die bestmögliche Antwort zu liefern.

Dieser hybride Ansatz der klassischen Google-Suche wird durch die Funktionsweise von LLMs und dem AI Mode nochmals auf eine neue Ebene gehoben, und zwar eine, die traditionelle Optimierungsansätze an ihre Grenzen bringt. Während die klassische Suche noch auf das Ranking von Dokumenten abzielt, auch wenn dies durch semantische Komponenten angereichert wird, geht es im AI Mode und bei LLM-generierten Antworten um die Synthese von Informationen aus den relevantesten Passagen oder „Chunks“ verschiedener Quellen.

Hier verschiebt sich der Fokus weg von der Optimierung eines gesamten Dokuments auf eine Handvoll Keywords hin zu einem deutlich granulareren und dynamischeren Prozess. Es geht nicht mehr primär darum, für Keywords zu ranken, sondern darum, die Wahrscheinlichkeit zu maximieren, dass die eigenen Inhalte (bzw. spezifische Abschnitte daraus) von einem LLM als die präzisesten, nützlichsten und vertrauenswürdigsten Informationsbausteine für die Beantwortung einer expliziten oder impliziten (synthetischen) Nutzeranfrage erachtet werden. Dies erfordert einen neuen Denkansatz: Relevanz-Engineering.

Relevanz-Engineering als neues Content-Optimierungsziel

Relevanz-Engineering zielt darauf ab, Inhalte auf die Verarbeitungslogik von Large Language Models zu optimieren. Im Kern geht es darum, Inhalte so zu strukturieren, zu formulieren und mit Kontext anzureichern, dass sie für LLMs optimal „lesbar“, interpretierbar und als Grundlage für die Antwortgenerierung geeignet sind. Doch was bedeutet das konkret?

Optimierung für LLM Readability und Chunk Relevance

LLMs, wie sie im AI Mode Anwendung finden, bevorzugen Inhalte, die klare Kontexte bieten, in natürlicher Sprache verfasst sind, eine logische Struktur und Informationshierarchie aufweisen und exakt auf die (oft sehr spezifische) Nutzerintention passen.

Dies bedeutet, Inhalte müssen in präzise, in sich geschlossene „Information Nuggets“ oder Chunks zerlegt werden können, die eine hohe semantische Dichte aufweisen und spezifische Aspekte einer Anfrage beantworten. Eine Studie zur Textvereinfachung (arXiv:2505.01980v1) unterstreicht, wie wichtig leicht verständliche und kognitiv wenig belastende Inhalte sind.

Antizipation synthetischer Queries und Nutzer-Journeys

Da der Google AI Mode basierend auf dem Nutzerkontext und der initialen Anfrage weitere, synthetische Queries generiert, reicht es nicht mehr, sich auf offensichtliche Keywords zu konzentrieren. Relevanz-Engineering muss darauf abzielen, komplette Themencluster und potenzielle Nutzer-Journeys so abzudecken, dass die eigenen Inhalte auch für diese impliziten Anfragen als relevant erkannt werden. Dies erfordert eine tiefere Auseinandersetzung mit einer Thematik und den möglichen Informationspfaden der Nutzer.

Nutzung von Vektor-Embeddings zur Analyse und Optimierung

Um die semantische Relevanz von Content-Passagen für spezifische (auch synthetische) Anfragen zu bewerten, müssen SEOs selbst Werkzeuge und Methoden der Vektorisierung und Ähnlichkeitsberechnung anwenden.

Es geht also darum, Vektor-Embeddings für Queries und Content-Passagen zu generieren (idealerweise mit Googles eigenen Modellen ), deren Ähnlichkeit zu berechnen (z.B. Kosinus-Ähnlichkeit) und auf dieser Basis die Inhalte gezielt semantisch anzureichern.

Grundsätzlich gilt zukünftig zu berücksichtigen, dass der Google AI Mode multimodal funktioniert, also nicht nur Text, sondern auch Bilder, Audio und Video berücksichtigt. Relevanz-Engineering muss daher auch die Optimierung und Bereitstellung dieser multimodalen Inhalte umfassen, um sicherzustellen, dass die eigenen Informationen in der für die jeweilige Anfrage und den Nutzerkontext am besten geeigneten Form berücksichtigt werden können.

Es bedarf neuer Metriken zur Erfolgsmessung

Die Rolle klassischer Suchmaschinen-Rankings als primärer Indikator für Sichtbarkeit und Erfolg erodiert im Kontext generativer KI-Systeme zusehends. Zum einen weil LLMs, wie erklärt, nicht ranken und es grundsätzlich personalisierte Antworten gibt. Sichtbarkeit zu messen, wird also nahezu unmöglich.

Zum anderen zeigen Analysen aktueller AI Overviews in den Google-Suchergebnissen bereits eine signifikante Diskrepanz: Die in den KI-generierten Antworten zitierten Quellen korrelieren immer weniger mit den Top-10-Positionen der traditionellen organischen Suchergebnisse. Es kommt vor, dass Quellen zitiert werden, die weit jenseits der Top-10 oder sogar außerhalb der Top-100 ranken. Ähnliche Muster sind auch bei anderen LLM-basierten Antwortsystemen wie ChatGPT zu beobachten. Es könnte sein, dass die Situation für den Google AI Mode nicht sonderlich anders sein wird.

Hinzu kommt, dass Unternehmen wie Deepseek oder Alibaba intensiv an Methoden forschen, um ihre LLMs für das Grounding weniger abhängig von externen Suchmaschinen zu machen. Die Gründe hierfür sind vielfältig: Kostenreduktion, größere Unabhängigkeit und potenziell schnellere Antwortgenerierung.

Sollten sich diese Ansätze durchsetzen, würde der Einfluss traditioneller Suchmaschinen-Rankings auf Erwähnungen von rankenden URLs in LLM-Antworten weiter signifikant sinken. Es ist daher riskant, sich als SEO darauf zu verlassen, dass gute Rankings in der klassischen Suche automatisch zu Sichtbarkeit in LLM-basierten Systemen führen.

Neue KPIs für das Zeitalter der KI-gestützten Suche

Wie Google selbst andeutet, sollen SEOs aufhören, primär Klicks zu messen. Googles AI Mode und ähnliche Systeme zielen wie aufgezeigt darauf ab, Nutzeranfragen direkt in der Suchoberfläche umfassend zu beantworten. Dies führt unweigerlich dazu, dass Nutzer seltener auf die zugrundeliegenden Quell-Websites klicken.

Sichtbarkeit bedeutet hier nicht mehr primär, Klicks auf die eigene Seite zu generieren, sondern als vertrauenswürdige Quelle in der generierten Antwort prominent zitiert oder referenziert zu werden. Dies wirft eine kritische Frage auf: Wenn traditionelle Indikatoren wie Position, Klicks oder Impressionen an Aussagekraft verlieren, wie messen wir dann zukünftig Erfolg?

Aus den bisherigen Ausführungen ergeben sich für mich folgende neue KPIs:

Chunk Retrieval Frequency: Wie oft werden einzelne Inhalts-„Chunks“ abgerufen? Dies spiegelt die Relevanz auf granularer Ebene wider, die für LLM-Antworten entscheidend ist.
Embedding Relevance Score: Die Vektorähnlichkeit zwischen Suchanfrage und Inhalt, beispielsweise durch Cosinus-Ähnlichkeit – ein Kernmaß für die Auffindbarkeit in Vektordatenbanken und somit ein Indikator für die semantische Passgenauigkeit.
Attribution Rate in LLM Outputs / LLM Citation Count: Wie oft wird eine Marke oder Quelle in KI-generierten Antworten namentlich genannt oder zitiert? Dies wird zur neuen Währung für Sichtbarkeit und Vertrauen und zeigt den direkten Einfluss auf die Antwortgenerierung.
Vector Index Presence Rate: Der Prozentsatz der eigenen Inhalte, der in relevanten Vektordatenbanken indexiert ist. Denn was nicht auffindbar ist, kann nicht Teil einer LLM-Antwort werden.
LLM Answer Coverage: Die Anzahl unterschiedlicher Fragen und Themenbereiche, die durch die eigenen Inhalte abgedeckt und potentiell von einem LLM für Antworten genutzt werden können; ein Indikator für thematische Breite und Nützlichkeit.

Die unbequeme Wahrheit: Wer jetzt nicht handelt, wird Teil der digitalen Vergangenheit

Die Analyse ist eindeutig, die Schlussfolgerung unumgänglich: Die Optimierung für Googles AI Mode (und andere LLM-Systeme) ist nicht „nur SEO“. Wer dies weiterhin behauptet, verschließt die Augen vor einem Umbruch, der die Grundfesten unserer SEO-Branche erschüttert. Es geht hier nicht um ein weiteres Algorithmus-Update, das mit ein paar taktischen Anpassungen pariert werden kann. Wir erleben eine disruptive Veränderung in der Art und Weise, wie Nutzer Informationen suchen, erhalten und mit ihnen interagieren.

Der vielzitierte Ausruf „SEO ist tot“ mag in der Vergangenheit oft übertrieben gewesen sein – doch diesmal steht mehr auf dem Spiel als nur Rankingfaktoren. Es geht um die zukünftige Relevanz im digitalen Informationsraum.

Die Bequemlichkeit des Bekannten und die menschliche Neigung, komplexe Probleme zu verdrängen, mögen verständlich sein. Doch sie sind in der aktuellen Situation fatale Ratgeber. Die technologischen Realitäten erfordern ein radikales Umdenken. Wer sich jetzt nicht mit den technologischen Grundlagen von LLMs auseinandersetzt, wer nicht bereit ist, neue Kompetenzen aufzubauen, bestehende Werkzeuge kritisch zu hinterfragen und organisationale Silos einzureißen, der wird den Anschluss verlieren.

Die Zukunft der Informationsbeschaffung liegt im Dialog, in der direkten, KI-gestützten Bedürfnisbefriedigung. Wir müssen lernen, Inhalte für KI-Agenten aufzubereiten, die als Interpreten und Synthetisierer für den Endnutzer fungieren. Die Herausforderung liegt darin, die Informationsräume so zu gestalten, dass die probabilistischen Modelle der KI zu validen, hilfreichen und – aus Unternehmenssicht – förderlichen Ergebnissen „raten“.

Wie ich bereits an anderer Stelle formulierte: Ein Sprachmodell versteht nicht, weil es „weiß“, sondern weil es gut „rät“ – und das gelingt nur, wenn seine Wahrscheinlichkeitsverteilung die zugrundeliegende Realität approximiert.

Die Kunst für uns als Informationsarchitekten und Zukunftsgestalter im digitalen Raum wird sein, genau diese Approximation im Sinne unserer Ziele zu beeinflussen. Das ist die eigentliche Aufgabe jenseits von Keywords und Backlinks. Wer diese Herausforderung annimmt, hat die Chance, die nächste Ära des Search Marketings aktiv mitzugestalten. Wer sie ignoriert, wird unweigerlich Teil der digitalen Vergangenheit. Es gibt keine Ausreden mehr.

Google AI Mode: Funktion & Prozessschritte auf Basis von Google-Patenten erklärt

Google AI Mode: Funktion & Prozessschritte auf Basis von Google-Patenten erklärt https://patrickstolp.de/wp-content/uploads/2025/05/ai-mode-funktionsweise.jpg 1024 708 Patrick Stolp Patrick Stolp https://secure.gravatar.com/avatar/6bdd2bf10b32556ccbe5a3b16931cb997c2c973524b74b20c375f7c9174c3ecd?s=96&d=blank&r=g 28. Mai 2025 23. Juli 2025

Von: Patrick Stolp

28. Mai 2025

SEO ist nicht tot. SEO ist gestorben und wieder auferstanden. SEO ist ein Zombie. Oder um es etwas philosophischer auszudrücken: In klassischer SEO waren die Optimierungsmaßnahmen für die Suchmaschine deterministisch.

Im Google-Kosmos befanden wir uns innerhalb einer gewissen regelbasierten Ordnung. Klar, viele Rankingfaktoren waren offiziell nicht bekannt, aber man wusste, dass diese klar definiert waren und algorithmischen Regeln folgten. Der Effekt von Maßnahmen war reproduzierbar, und: Wenn du oder ich eine Suchanfrage in die Google-Suchmaske eingaben, dann war das Endergebnis für dich wie für mich (fast) identisch.

Das ist auch immer noch der Fall. Aber die Zukunft hat begonnen und die klassische Suche – und somit das Handwerk der Suchmaschinenoptimierung – weichen einer eher probabilistischen Weltenordnung durch Sprachmodelle wie ChatGPT, Gemini und, damit verbunden, dem neuen Google AI Mode.
Damit einher geht eine gewisse Inkonsistenz. Ein LLM kann auf denselben Prompt bzw. dieselbe Suchanfrage zum Beispiel zehn unterschiedliche Meta-Descriptions generieren, die alle „gut“ sein können, aber sich im Stil und Fokus leicht unterscheiden, eben weil es keine deterministische, „die eine richtige“ Option gibt.

Auch deswegen wird häufig abgestritten, dass es bei der „Next-Token-Vorhersage“ auch nur irgendein Verständnis im eigentlichen Sinn gebe. Aber ist dies überhaupt möglich? Ich bin kein Data Scientist und maße mir eine selbstbewusste Meinung nur in meinen Fachgebieten an. Aber als erfahrender SEO, der sich seit langer Zeit mit Technologien des Machine Learning befasst, stelle ich daher dennoch die Frage, inwieweit eine sinnvolle Vorhersage unabhängig einem wenigstens impliziten Verständnis der (menschlichen) Realität möglich sein sollte. Zusammengefasst bedeutet dies für mich: Ein Sprachmodell versteht nicht, weil es „weiß“, sondern weil es gut „rät“ – und das gelingt nur, wenn seine Wahrscheinlichkeitsverteilung die zugrunde liegende Realität approximiert.

Entgegen aller „SEO-Regeln“ war dies bewusst eine sehr abstrakte und für semantische Suchmaschinen eher nicht vorteilhafte Einleitung für das Kernthema dieses Artikels: Googles neuen AI Mode. Diese ausufernde Hinführung zum Artikel zeigt aber schon, wie komplex die Gegenwart für Fachleute aus dem Search Marketing ist.

Im Folgenden werde ich den aktuellen (Wissens-)Stand aufzeigen, was uns Google-Patente über die Funktionsweise des AI Mode sagen können, was die Kernkonzepte Reasoning, Dense und Sparse Retrieval, Passage-Level Retrieval sowie User Embeddings bzw. Personalisierung in diesem Kontext bedeuten. Dieser Artikel ist die Einleitung für kommende Artikel zur eigentlichen Kernfrage: was alle neuen Erkenntnisse und Technologien eigentlich für uns SEOs – und natürlich unseren Kunden, die weiterhin sichtbar sein wollen – für Auswirkungen haben.

Was ist der Google AI Mode und wie ist der Ablauf von Suchanfrage bis generierter Antwort? – einfach erklärt

Was für dich bei Nutzung des AI Modes wie eine einzelne, direkte Antwort von Google erscheint, ist in Wahrheit das Resultat eines hochkomplexen wie mehrstufigen Prozesses im Hintergrund. Der AI Mode orchestriert eine Kette von Operationen, um zu einem Ergebnis zu gelangen, das über eine simple Dokumentenabfrage weit hinausgeht.

Der Prozess beginnt mit deiner Suchanfrage (Receive Query). Unmittelbar danach greift das System auf kontextuelle Informationen (Retrieve Contextual Information) zu – Daten über deine vorherigen Interaktionen, deinen Standort oder die aktuelle Suchsitzung können hier einfließen. Gleichzeitig erzeugt ein generatives Sprachmodell eine erste, rohe Interpretation deiner Anfrage (Generate Initial LLM Output).

Ein entscheidender Schritt ist die anschließende Zerlegung deiner ursprünglichen Frage. Sie wird intern in ein Netzwerk von synthetischen Folgefragen (Generate Synthetic Queries / Query Fan-Out) aufgefächert. Das System antizipiert damit verwandte Aspekte und implizite Informationsbedürfnisse, die über deine explizite Eingabe hinausgehen. Für jede dieser spezifischen Unterfragen werden dann passende Dokumente und Informationsschnipsel (Retrieve Query-Responsive Documents) aus dem Index identifiziert. Parallel dazu wird deine ursprüngliche Anfrage präzise hinsichtlich Intention und gewünschtem Antwortformat klassifiziert (Classify Query).

Auf Basis dieser Klassifizierung wählt der AI Mode nun spezialisierte Sprachmodelle (Select Specialized LLM(s)) aus. Man kann sich diese als Module vorstellen, die jeweils für bestimmte Aufgaben optimiert sind – etwa für Zusammenfassungen, Vergleiche oder die Extraktion spezifischer Entitäten. Diese Modelle arbeiten dann zusammen und erzeugen logische Schlussfolgerungsketten (Generate Reasoning Chains). Hierbei werden Informationen aus den zuvor abgerufenen Dokumenten nicht nur einfach wiedergegeben, sondern aktiv verarbeitet und in einen logischen Zusammenhang gestellt, um zu einer fundierten Antwort zu gelangen. Die Auswahl der Dokumente stützt sich dabei weniger auf klassische Rankingfaktoren für die ursprüngliche Query, sondern darauf, inwieweit sie einzelne Schritte in dieser maschinellen Argumentationskette stützen.

Die Ergebnisse dieser spezialisierten Modelle und Argumentationsketten werden zu einer kohärenten finalen Antwort synthetisiert (Synthesize Final Response). Bevor diese Antwort jedoch ausgespielt wird, erfährt sie eine weitere, wichtige Anpassung durch sogenannte Nutzer-Embeddings (Apply User Embeddings). Das sind im Grunde vektorisierte Repräsentationen deiner individuellen Präferenzen und bisherigen Nutzerverhaltens. Diese Embeddings ermöglichen eine tiefgreifende Personalisierung, die nicht nur oberflächliche Aspekte der Darstellung betrifft, sondern die Auswahl und Gewichtung der Informationen in der Antwort selbst maßgeblich beeinflussen kann.

Zuletzt werden relevante Quellen ausgewählt oder Zitate für die generierten Aussagen erstellt (Select or Generate Citations), um eine gewisse Nachvollziehbarkeit zu gewährleisten. Erst nach all diesen Schritten wird dir die endgültige, maßgeschneiderte Antwort präsentiert (Render Response).

Was ist der Google AI Mode und wie ist der Ablauf von Suchanfrage bis generierter Antwort? – detaillierte technische Erklärung

Google will selbst mal wieder keine Informationen preisgeben und versucht uns mit dieser über die technischen Grundlagen von AI Overviews und AI Mode absolut nichtssagenden Dokumentation abzuspeisen. Aber so nicht! Deswegen habe ich die Recherche-Maschine angeschmissen und bin tief in mein Patente-Rabbit-Hole abgetaucht. Eine nicht zu verschweigende Vorleistung kam dabei von SEO-Ikone Mike King und seinem Blogbeitrag zum AI Mode.

Zusammenfassend lässt sich sagen, dass der Google AI Mode darauf abzielt, einen Google-Nutzer im Zeitverlauf besser zu verstehen und ihm relevantere Antworten zu liefern. Dieses Ziel wird prozessual so erreicht, dass

Erstens das System Informationen aus einer Vielzahl abgeleiteter (synthetischer) Suchanfragen extrahiert und
Zweitens seine Antwort bzw. Antworten durch mehrschichtiges logisches Denken (Reasoning) zusammensetzt.

Das Patent „Search with Stateful Chat“ (US20240289407A1) konzeptioniert dieses System, während das Patent „Query Response from a Custom Corpus“ (US20240362093A1) aufzeigt, wie die letztliche Generierung der Antwort im AI Mode vonstattengeht.

Schritt 1: Kontextualisierung einer Suchanfrage und initiale Dokumentenidentifizierung

Der Grundstein des Google AI Mode ist ein tiefgreifendes, personalisiertes Verständnis des Nutzers und seiner aktuellen Informationsbedürfnisse. Beides wird maßgeblich durch den sogenannten Stateful Context realisiert.

Dieses Systemmerkmal erfasst und berücksichtigt kontinuierlich individuelle Informationen über den Nutzer, wie beispielsweise den Verlauf früherer Suchanfragen, den aktuellen geografischen Standort, verwendete Geräte oder auch spezifische Verhaltenssignale während der Interaktion mit Diensten aus dem Google-Kosmos.

Diese vielfältigen Kontextinformationen werden in numerische Repräsentationen, sogenannte Vektoren bzw. Embeddings, umgewandelt. Diese Embeddings erlauben es dem System, den Nutzerkontext persistent über verschiedene Sitzungen und einzelne Prozessschritte hinweg dynamisch zu berücksichtigen und für die Interpretation von Anfragen und die Personalisierung von Antworten heranzuziehen. Man kann sich dies als eine adaptive Verständnisebene, eine Art Layer, vorstellen, die den gesamten Such- und Antwortgenerierungsprozess überlagert und beeinflusst.

Aufbauend auf diesem dynamischen Nutzerkontext startet bei einer neuen Suchanfrage die Query Fan-Out-Technik. Hierbei wird die ursprüngliche Suchanfrage des Nutzers nicht isoliert betrachtet, sondern dient als Basis für die Generierung einer Vielzahl zusätzlicher, sogenannter synthetischer Suchanfragen durch ein vorgelagertes generatives Modell.

Diese synthetischen Anfragen können thematisch verwandte Aspekte, implizite Annahmen oder mögliche Verfeinerungen der ursprünglichen Intention abdecken. Jede dieser Anfragen (die ursprüngliche und die synthetischen) wird dann genutzt, um im breiten Google-Index oder in spezifisch definierten Datensammlungen nach potenziell relevanten Suchergebnisdokumenten (SRDs) zu suchen.

Die Auswahl dieser ersten Dokumentenmenge erfolgt typischerweise durch den Abgleich der Vektor-Embeddings der verschiedenen Anfragen mit den Embeddings der potenziellen Quelldokumente. Diese initiale Sammlung von Dokumenten bildet die Grundlage für die weitere, verfeinerte Verarbeitung.

Schritt 2: Erstellung und Nutzung des spezifischen Custom Corpus

Die im vorherigen Schritt identifizierten Suchergebnisdokumente (SRDs) werden nun zu einem sogenannten Custom Corpus zusammengefasst. Dieser Begriff beschreibt eine dynamisch erstellte oder vordefinierte, eng abgegrenzte Sammlung von Dokumenten, die vom System als besonders relevant für die spezifische Nutzeranfrage und den aktuellen Nutzerkontext erachtet wird.

Anstatt also potenziell den gesamten Web-Index zu durchsuchen, fokussiert sich das System für die detaillierte Inhaltsanalyse nun auf diesen individuell kontextbezogenen, thematisch eingegrenzten Korpus.

Dieser Custom Corpus dient als primäre und qualitativ hochwertige Informationsquelle für die nachfolgenden Schritte der Antwortgenerierung durch die Google-internen Large Language Models (LLMs). Die Nutzung eines solchen Custom Corpus ermöglicht es, Antworten zu generieren, die auf spezifische Dokumente zugeschnitten sind, ohne dass das zugrundeliegende LLM dafür jedes Mal neu trainiert werden muss.

Schritt 3: Identifizierung und Bewertung relevanter Textpassagen

Nachdem der Custom Corpus mit den relevantesten Dokumenten erstellt wurde, geht der AI Mode in die Tiefe und analysiert diese Dokumente auf der Ebene einzelner Textpassagen (Chunks). Aus den Dokumenten des Custom Corpus werden hierfür zunächst einzelne, in sich geschlossene Textabschnitte extrahiert.

Um die Relevanz dieser Passagen für die ursprüngliche Nutzeranfrage präzise zu bewerten, kommt ein im Patent US20250124067A1 (Method for Text Ranking with Pairwise Ranking Prompting) detailliert beschriebenes Verfahren zum Einsatz: das paarweise Ranking von Textpassagen durch ein Sprachmodell.

Ein generatives Sequenzverarbeitungsmodell (ebenfalls ein LLM) erhält dabei einen Prompt, der die Nutzeranfrage sowie jeweils zwei dieser extrahierten Textpassagen enthält. Basierend auf der Anfrage führt das LLM einen direkten Vergleich zwischen den beiden Passagen durch, um zu entscheiden, welche der beiden die Anfrage besser oder treffender beantwortet bzw. relevantere Informationen liefert.

Das Ergebnis dieses Vergleichs kann unterschiedlich ausgestaltet sein: Entweder generiert das LLM einen Text, der die höhergerankte Passage explizit benennt (z. B.: Passage A ist relevanter als Passage B), oder es gibt einen numerischen Score (z. B. eine Wahrscheinlichkeit oder einen Konfidenzwert) aus, der die relative Präferenz für eine der Passagen quantifiziert. Um die Konsistenz und Zuverlässigkeit dieser Bewertung zu erhöhen, kann der Prozess wiederholt werden, wobei die Reihenfolge der beiden verglichenen Passagen im Prompt vertauscht wird.

Durch die wiederholte Anwendung dieses paarweisen Vergleichs auf eine Vielzahl von Passagen aus dem Custom Corpus erstellt das System eine nach Relevanz geordnete Rangliste der Textpassagen. Diese hochrelevanten und priorisierten Passagen stellen die qualitativ besten „Informationsbausteine“ dar, die dem System nun für die finale Phase der Antwortgenerierung zur Verfügung stehen.

Schritt 4: Klassifikation der Anfrage und Auswahl spezialisierter Antwort-LLMs

Nachdem nun der Pool hochrelevanter Dokumente, also des Custom Corpus, und darin die relevantesten Textpassagen identifiziert und bewertet wurden, erfolgt eine weitere Analyseebene: die Klassifikation der ursprünglichen Nutzeranfrage im Kontext der bisherigen Erkenntnisse.

Basierend auf der Natur der Anfrage, dem etablierten Stateful Context des Nutzers und potentiell auch der Art der gefundenen relevanten Dokumente und Passagen klassifiziert das System die zugrundeliegende Intention des Nutzers und leitet daraus ab, welche Art von Antwort oder welches Darstellungsformat am besten geeignet wäre. Dieser Klassifikationsschritt wird im Patent Search with Stateful Chat (US20240289407A1) beschrieben (siehe FIG. 8 und FIG. 9, insbesondere Blöcke 962 und 964).

Abhängig von der Klassifikation, ob also beispielsweise eine kreative Texterstellung, eine faktische Zusammenfassung oder Ähnliches benötigt wird, wählt das System dann ein oder mehrere spezialisierte, nachgelagerte Sprachmodelle (Downstream LLMs) aus.

Das Patent Search with Stateful Chat listet hierfür verschiedene Typen von LLMs auf, wie z.B. Creative Text LLM, SRP Generative LLM (für die Zusammenfassung von Suchergebnisseiten), Clarification LLM oder Next Step LLM. Diese spezialisierten Modelle sind jeweils für bestimmte Aufgaben oder Antwortstile optimiert.

Schritt 5: Antwortsynthese und Verlinkung/Zitierung der Quellen

Im finalen Schritt wird die eigentliche Antwort für den Nutzer generiert und mit Quellenbelegen versehen. Dieser Prozess stützt sich auf die Retrieval Augmented Generation (RAG). Das jeweilige Sprachmodell oder die in Schritt 4 ausgewählten, spezialisierten Antwort-LLMs nutzen nun die in Schritt 3 identifizierten und höchstgerankten Textpassagen als fundierte Wissensgrundlage. Diese Passagen dienen als kontextuelle Eingabe, auf deren Basis das LLM eine kohärente und höchstrelevante Antwort auf die ursprüngliche Nutzeranfrage synthetisiert.

Ein entscheidender Aspekt für Transparenz und Nachvollziehbarkeit ist die Verlinkung bzw. Zitierung der verwendeten Quellen. Hierfür kommt eine spezielle Komponente zum Tragen, die in den Patenten US20240362093A1 (Query response using a custom corpus) als „Response Linkifying Engine 138“ und in US20240289407A1 (Search with stateful chat) als ein Mechanismus zur Verifizierung von Antwortteilen beschrieben wird.

Diese Engine hat die Aufgabe, Links oder eindeutige „Dokumentenidentifikatoren“ direkt in die generierte Antwort einzubetten, die auf die Ursprungsdokumente im Custom Corpus verweisen, aus denen die jeweiligen Informationen stammen.

Die (Quellen-)Nennung erfolgt dabei nicht pauschal, sondern basiert auf einer Verifizierung von spezifischen Teilen der generierten Antwort. Wie im Patent US20240289407A1 (insbesondere FIG. 3, Block 360) dargelegt wird, werden einzelne Abschnitte der finalen Antwort mit Passagen aus den Kandidaten-Dokumenten (den SRDs aus dem Custom Corpus) verglichen.

Stellt das System fest, dass ein Quelldokument einen bestimmten Teil der generierten Antwort stützt oder verifiziert, wird dieser Antwortteil mit einem entsprechenden Link zu ebenjenem Dokument versehen. Das bedeutet, dass die Entscheidung für ein Zitat nicht primär von der organischen Rankingposition des Quelldokuments abhängt, sondern davon, inwieweit es spezifische Aussagen in der KI-generierten Antwort direkt belegen kann.

Optimierung für AI Mode nichts anderes als SEO? Nein!

Was bedeuten diese Erkenntnisse nun für uns SEOs? Klar dürfte sein, dass oder das Aufgabengebiet der Large Language Model Optimization (LLMO) bzw. Generative Engine Optimization (GEO) doch anders aussehen wird als klassische Suchmaschinenoptimierung. Was sich nicht ändern wird, ist die Notwendigkeit, sich Googles Systemen anzupassen, und mit „sich“ sind eigene Website-Inhalte gemeint.

Google selbst zielt darauf ab, Informationsbedürfnisse direkter zu befriedigen und den kognitiven Aufwand für Nutzer zu reduzieren, indem es komplexe Anfragen durch die Synthese von Informationen aus vielfältigen Quellen beantwortet; und ebendies erfordert eine grundlegende Neubewertung bisheriger SEO-Taktiken.

Welche konkreten Auswirkungen diese tiefgreifenden Veränderungen auf die tägliche SEO-Arbeit haben und welche neuen Strategien erforderlich sind, um in dieser neuen Ära der Suche weiterhin Sichtbarkeit zu gewährleisten, wird ein kommender Artikel detailliert beleuchten.

Query Fan-Out in Google AI Mode: Definition & implizite SEO-Auswirkungen

Query Fan-Out in Google AI Mode: Definition & implizite SEO-Auswirkungen https://patrickstolp.de/wp-content/uploads/2025/05/google-ai-query-fan-out-1024x683.jpg 1024 683 Patrick Stolp Patrick Stolp https://secure.gravatar.com/avatar/6bdd2bf10b32556ccbe5a3b16931cb997c2c973524b74b20c375f7c9174c3ecd?s=96&d=blank&r=g 26. Mai 2025 23. Juli 2025

Von: Patrick Stolp

26. Mai 2025

Googles AI Mode, der kürzlich in den USA startete, verändert „die Suche“ als Marketingkanal vermutlich mit einer lange nicht mehr gesehenen disruptiven Wirkung. Eine Kernmechanismus hinter Googles neuer AI-Suche ist die sogenannte „Query Fan-Out“-Technik, die Suchanfragen mehrstufig kontextuell verarbeitet und tiefgreifende Auswirkungen auf die „klassische“ Suchmaschinenoptimierung haben wird.

Dieser Artikel analysiert präzise, was Query Fan-Out technisch bedeutet, wie es im AI Mode funktioniert und welche konkreten, teils impliziten, SEO-Anpassungen daraus resultieren. Für SEO-Experten, die ihre Strategien zukunftssicher gestalten wollen, ist das Verständnis dieser Technik unerlässlich.

Was ist Query Fan-Out und was ist die konzeptionelle Idee dahinter?

Google selbst beschreibt Query Fan-Out als eine Technik, bei der eine Nutzerfrage in relevante Unterthemen zerlegt wird. Auf Basis dieser Zerlegung werden simultan eine Vielzahl von Suchanfragen ausgeführt. Das primäre Ziel dieser Methode ist es, tiefer in das Web einzutauchen, als es mit einer traditionellen Google-Suche möglich wäre. Dadurch sollen Nutzer noch mehr von dem entdecken, was das Web zu bieten hat, und gewissermaßen „hyperrelevante“ Inhalte finden, die exakt ihrer ursprünglichen Frage entsprechen.

Google dazu wörtlich:

„Under the hood, AI Mode uses our query fan-out technique, breaking down your question into subtopics and issuing a multitude of queries simultaneously on your behalf. This enables Search to dive deeper into the web than a traditional search on Google, helping you discover even more of what the web has to offer and find incredible, hyper-relevant content that matches your question.”

Im Kern ist Query Fan-Out eine Information-Retrieval-Technik. Sie erweitert eine einzelne Nutzeranfrage (Query) in multiple Sub-Queries. Diese Sub-Queries sind darauf ausgelegt, verschiedene mögliche Nutzerintentionen zu erfassen und dadurch vielfältigere und breitere Ergebnisse aus unterschiedlichen Quellen zu gewinnen. Zu diesen Quellen zählen das Live-Web, der Knowledge Graph und spezialisierte Datensätze wie beispielsweise den Google Shopping Graph.

Infobox:

Um das Konzept „Query Fan-Out“ grundsätzlicher zu verstehen, hilft ein kurzer Blick auf den Ursprung des Terms „Fan-Out“. Dieser stammt ursprünglich aus dem Design elektronischer Schaltungen. Dort beschreibt ein Fan-Out-Design, wie ein Signal von einer vorgeschalteten Komponente auf viele parallele Unterkomponenten aufgeteilt wird, um eine effektive Verarbeitung zu ermöglichen.
In der Datenverarbeitung und im Design von Datenpipelines bezieht sich Fan-Out generisch auf ein Szenario, in dem eine vorgeschaltete Operation viele ähnliche nachgelagerte Prozesse auslöst. Man kann es sich als einen Prozess vorstellen, der sich in viele parallele Teilprozesse aufspaltet, um dadurch eine Aufgabe effizienter zu bewältigen.

Die Stärke des Query Fan-Out zeigt sich insbesondere bei der Dekonstruktion komplexer Anfragen. Die Technik ist besonders vorteilhaft für vergleichende Analysen, multikriterielle Entscheidungsfindungen und für Fragen, die eine Synthese von Informationen aus diversen Quellen erfordern, um eine umfassende Antwort zu generieren.

Wie funktioniert Query Fan-Out in Googles AI Mode?

Nachdem wir das grundlegende Prinzip des Query Fan-Out definiert haben, stellt sich die Frage, wie Google diese Technik konkret in seinem AI Mode implementiert. Der Prozess ist mehrstufig und zielt darauf ab, aus einer einzelnen Nutzeranfrage ein Maximum an relevanten Informationen zu extrahieren und zu einer kohärenten Antwort zu synthetisieren.

Hinweis:

Es ist wichtig zu verstehen, dass der AI Mode für diese anspruchsvollen Prozesse auf eine speziell angepasste Version von Googles aktuell leistungsfähigstem Modell, Gemini 2.5, zurückgreift. Dieses Modell dient als Testumgebung für neue Funktionen, wobei Nutzerfeedback direkt in die Weiterentwicklung einfließt.

Schritt 1: Analyse der Nutzeranfrage

Wenn ein Nutzer eine Anfrage im AI Mode stellt, analysieren Googles Systeme diese zunächst mittels fortschrittlichem Natural Language Processing (NLP). Dabei werden unter anderem die Nutzerintention, der Komplexitätsgrad der Anfrage und der benötigte Antworttyp ermittelt. Auf dieser Basis wird entschieden, ob und in welchem Umfang ein Query Fan-Out notwendig ist.

Die Differenzierung ist hier entscheidend: Einfache, faktische Anfragen, wie beispielsweise „Einwohnerzahl Lübeck“, lösen möglicherweise keinen oder nur einen sehr begrenzten Fan-Out-Prozess aus. Im Gegensatz dazu würden komplexe Anfragen den Fan-Out-Prozess aktivieren.

Schritt 2: Parallele Exploration & Informationsbeschaffung

Sobald die Notwendigkeit für einen Fan-Out erkannt wurde, beginnt das System mit dem eigentlichen „Auffächern“ der ursprünglichen Anfrage. Es untersucht simultan diverse Facetten und Unterthemen, die mit der Anfrage in Verbindung stehen. Diese Exploration basiert auf semantischem Verständnis, Mustern im Nutzerverhalten und der logischen Informationsarchitektur, die das betreffende Thema umgibt.

Ein wesentlicher Unterschied zur traditionellen Suche besteht darin, dass nicht nur eine einzelne Suchanfrage ausgeführt wird, die einen einzelnen Satz an Ergebnissen liefert. Stattdessen ruft der AI Mode Informationen für alle durch den Fan-Out generierten Sub-Queries gleichzeitig und parallel ab. Dies erweitert den Pool an verfügbaren Informationen für die Antwortsynthese erheblich.

Schritt 3: Synthese zur kohärenten Antwort

Die parallel abgerufenen Informationen und Inhalte werden anschließend von Google bewertet, wobei die bekannten Ranking- und Qualitätssignale zum Einsatz kommen. Im finalen Schritt kombiniert das System die evaluierten Informationen aus den multiplen Quellen und den verschiedenen Fan-Out-Anfragen.

Ziel ist es, eine in sich stimmige, umfassende Antwort zu erstellen, die nicht nur die ursprüngliche Anfrage adressiert, sondern auch relevante Informationen und diverse Perspektiven aus verschiedenen Quellformaten integriert. Für das obige Beispiel könnten diese Quellen beispielsweise Restaurantführer, UGC-Bewertungsportale, Blogs mit veganen Food-Guides und Map-Einträge für die Lokalisation sein.

Query Fan-Out in der SEO-Praxis mit Anwendungsbeispiel

Um die Funktionsweise des Query Fan-Out zu veranschaulichen, betrachten wir eine präzise, lokale Suchanfrage, wie sie täglich zig Mal gestellt wird. Stellen wir uns vor, ein Nutzer gibt folgende Anfrage in die Suchmaske des Google AI Mode ein:

Beste vegane Restaurants in Lübeck auf der Altstadtinsel im höheren Preissegment

Diese Anfrage ist zwar durchaus spezifisch, enthält formal aber dennoch mehrere Kriterien, die der AI Mode mittels Query Fan-Out analysieren und verarbeiten würde, um zu einer insgesamt relevanteren Antwort als bei der klassischen Suche zu kommen. Die Komplexität ergibt sich hier aus der Notwendigkeit, verschiedene Attribute und Informationsquellen miteinander zu verknüpfen.

Suchdimensionen und implizite Bedürfnisse der Suchanfrage

Googles AI würde die Anfrage in ihre wesentlichen inhaltlichen Bestandteile zerlegen und die Kernintentionen des Nutzers erfassen. Dazu zählen:

Art der Einrichtung: „Restaurant“
Kulinarische Ausrichtung: „Vegan“
Qualitätsanspruch: „Bestes“ (impliziert Suche nach Top-Bewertungen, exzellenter Qualität, besonderem Ambiente)
Standort/Lokalisation: Lübeck, mit der Präzisierung „auf der Altstadtinsel“
Preisniveau: „im höheren Preissegment“

Implizite Bedürfnisse/Fragen könnten sein:

Benötigt man eine Reservierung?
Wie sind die Öffnungszeiten?
Gibt es aktuelle Speisekarten online?
Wie sind die Erfahrungen anderer Gäste (Bewertungen von Speisen, Bewirtung, Ambiente etc.)?
Gibt es Parkmöglichkeiten oder eine gute Anbindung an öffentliche Verkehrsmittel?

Generierung von Sub-Query-Typen und konkreten Sub-Queries

Auf Basis dieser Analyse würden in Googles AI Mode verschiedene Sub-Queries generiert, um Informationen aus unterschiedlichen Blickwinkeln und Quellen zu sammeln. Die folgende Tabelle illustriert beispielhaft, wie die verschiedenen Facetten bzw. Dimensionen der Originalanfrage in Sub-Queries übersetzt werden könnten:

Facette / Dimension der Originalanfrage	Sub-Query (exemplarisch)	Mögliches Informationsziel / Quellenart
Basis: Restauranttyp + Ort	Vegane Restaurants Lübeck Altstadtinsel	Restaurantverzeichnisse, spezialisierte Food-Blogs, Google-Maps-Daten
Qualitätsanspruch	Top bewertete vegane Restaurants Lübeck	Bewertungsportale (z.B. TripAdvisor, Google Reviews), Gourmet-Guides
Preisniveau + Ort (verknüpft)	Gehobene Restaurants Lübeck Altstadt vegane Optionen	Restaurantkritiken, Menü-Analysen (Preisindikatoren), Lifestyle-Magazine
Spezifische Kombination (alle Facetten)	Vegane Fine Dining Lübeck Altstadtinsel	Spezialisierte Food-Blogs mit Fokus auf gehobene Küche, Restaurant-Websites
Nutzererfahrungen/Reviews	Erfahrungen vegane Restaurants Lübeck Altstadtinsel teuer	Foren, detaillierte Nutzerbewertungen, Social Media Kommentare
Detailinformationen (pro Restaurant)	Speisekarte [Name eines potenziellen Restaurants] vegan	Offizielle Restaurant-Websites, Speisekarten-Aggregatoren
Atmosphäre/Ambiente (implizit bei „beste“)	Restaurants Lübeck Altstadtinsel stilvolles Ambiente vegan	Reiseblogs, Lifestyle-Artikel, Fotogalerien von Restaurants, Innenarchitektur-Features
Serviceaspekt (implizit bei „beste“)	Reservierung [Name eines potenziellen Restaurants] Lübeck	Restaurant-Websites, Online-Reservierungsplattformen

Architektur und Funktionsweise von Query Fan-Out im Kontext Large Language Models

Die technische Realisierung von Query Fan-Out, wie sie Google im Rahmen der Promptagator-Technologie (siehe WO2024064249A1) beschreibt, basiert auf einem mehrstufigen Workflow, der aus dem klassischen Prompt Engineering herauswächst und die Generierung, Selektion und Weiterverarbeitung von Subqueries systematisch integriert.

Konkret erfolgt die Query-Diversifizierung nicht einfach nur als Nebeneffekt eines leistungsfähigen Sprachmodells. Vielmehr wird das LLM gezielt mit ausgewählten Beispiel-Prompts (Few-Shot oder Zero-Shot) angesteuert und erzeugt daraus für jede Taskstellung eine Vielzahl synthetischer Query-Dokument-Paare.

Diese synthetischen Datensätze dienen als Grundlage für das anschließende Training und Fine-Tuning von Retrieval-Modellen – ein Aspekt, der insbesondere für Low-Resource-Szenarien und neue Retrieval-Tasks ohne große Trainingsmengen unverzichtbar ist.

Ein Kernelement: Die Vielfalt und Qualität der generierten Subqueries werden durch zusätzliche Komponenten wie Round-Trip Filtering und konsistenzbasiertes Sampling weiter optimiert. Dadurch entsteht ein hochdiverser und aufgabenspezifisch zugeschnittener Query-Pool, der nicht nur auf Oberflächenebene variiert, sondern auch tieferliegende Suchintentionen und argumentative Facetten abbildet.

Filtermechanismen, Re-Ranking und Training: Qualitätsmanagement beim Query Fan-Out

Ein zentrales Alleinstellungsmerkmal des patentierten Ansatzes ist das integrierte Qualitätsmanagement der generierten Subqueries:

Mittels Round-Trip Filtering werden im Patent gezielt solche synthetischen Query-Document-Paare selektiert, die besonders konsistent mit den ursprünglichen Prompts bzw. der Zielintention sind.
Das bedeutet: Die LLM-generierten Subqueries werden iterativ mit dem Ziel geprüft, dass sie sowohl möglichst viel Diversität (also verschiedene Facetten und Suchaspekte) als auch ein hohes Maß an Relevanz zum Task aufweisen. Queries, die z. B. zu generisch oder zu weit vom Task entfernt sind, werden herausgefiltert.

Im nächsten Schritt kommt ein optionales, oft jedoch hochwirksames Re-Ranking zum Einsatz:
Die Retrieval-Systeme nutzen nicht nur einfache Dual-Encoder-Modelle, sondern können durch Cross-Attention-basierte Re-Ranker ergänzt werden, die die Dokument-Query-Relation noch feiner bewerten und sortieren.

Dies ist vor allem bei hochkomplexen Aufgabenstellungen (Stichwort: argumentatives oder kontradiktorisches Retrieval, z. B. für Fact-Checking, Rechts- oder Wissenschaftsanwendungen) ein echter Qualitätshebel.

Abschließend werden die so kuratierten Query-Document-Paare als Trainingsgrundlage genutzt, um hochperformante, domänen- oder taskspezifische Retrieval-Modelle aufzubauen – selbst dann, wenn ursprünglich keine oder nur wenige handannotierte Trainingsdaten verfügbar waren.

Patentbasierte Insights: Skalierbarkeit und Zukunftspotenzial von Query Fan-Out

Das Patent unterstreicht noch einen weiteren, bislang selten diskutierten Aspekt: Die Architektur hinter Query Fan-Out ist hochgradig skalierbar und vielseitig einsetzbar.

Nicht nur lassen sich damit unterschiedlichste Retrieval-Aufgaben – von klassischer Websuche über semantische Navigation in großen Enterprise-Datenbanken bis hin zu spezialisierten Frage-Antwort-Systemen – effizient abbilden.

Durch die Modularisierung (Prompt, Query-Generation, Filtering, Re-Ranking, Training) lässt sich das System dynamisch an neue Use Cases und Datenstrukturen anpassen.

Gerade im Hinblick auf zukünftige Entwicklungen im Bereich Search, Enterprise Knowledge Management und automatisiertes Content Discovery bieten diese patentierten Mechanismen eine wegweisende Basis:
Sie ermöglichen nicht nur eine optimierte Abdeckung von Suchintentionen, sondern sorgen durch den gezielten Query-Fan-Out-Prozess für ein nie dagewesenes Maß an Ergebnisdiversität, Relevanz und semantischer Präzision.