SEO
Generative Engine Optimization (GEO): Strategien, KPIs & Maßnahmen für KI-Sichtbarkeit
Sven Giese / 5. Februar 2026

- Home
- Blog
- Generative Engine Optimization (GEO): Strategien, KPIs & Maßnahmen für KI-Sichtbarkeit
Am 27. Januar 2026 erschien eine neue Studie von SparkToro und Gumshoe.ai, die deutlich zeigte, dass Antworten von LLMs und KI-Systemen nicht konsistent sind. Fast zwei Jahrzehnte lang haben wir Online-Marketer und SEOs in einer deterministischen Welt gelebt: Du hast Input A geliefert (Keyword und Backlinks) und Output B bekommen (ein Ranking). Doch mit dem Aufstieg von Large Language Models (LLMs) wie ChatGPT, Claude und Google Gemini ist diese Gewissheit kollabiert.
Wir optimieren nicht mehr für Suchmaschinen (SEO), sondern für Antwortmaschinen (AEO/GEO). Und diese Maschinen würfeln. Willkommen in der neuen Realität der digitalen Suche im Jahr 2026.
Wichtig dabei: Klassisches SEO ist nicht „tot“. Es bleibt das Fundament, damit Inhalte überhaupt gefunden, verstanden und als Quelle genutzt werden können. Neu ist die Oberfläche, neu sind die Mechaniken, neu ist die Messlogik – und neu ist, dass du entsprechende GEO-Strategien benötigst.
TL;DR: Das Wichtigste zu GEO in Kürze
- AI-Rankings sind Lärm. Einzelscreenshots taugen nicht, weil Listen selten identisch wiederkommen (unter 1%).
- SEO bleibt Fundament, aber die Logik kippt. Antworten werden generiert, nicht nur gelistet. Deshalb ändern sich Ziele und Belege für den Erfolg.
- Neue KPI statt Position: Miss Visibility Percentage und Share of Model – und zwar pro Modell, nicht aggregiert.
- Sichtbarkeit entsteht durch Klarheit und Glaubwürdigkeit. Direct Answers, saubere Struktur (Grounding Pages) und Schema.org erhöhen die Chance, korrekt genannt und zitiert zu werden.
Wie konsistent sind KI-Empfehlungen? Die SparkToro-Studie 2026
Stell dir vor, du gehst in eine Bibliothek und fragst nach einem Buch über CRM-Software. Der Bibliothekar gibt dir einen Titel. Du gehst kurz raus, kommst eine Minute später wieder rein, stellst exakt dieselbe Frage – und der Bibliothekar schwört Stein und Bein, dass er das erste Buch noch nie gesehen hat, und empfiehlt dir etwas gänzlich anderes.
Lange Zeit hast du vielleicht geglaubt, dass KI-Modelle bei der Informationssuche ähnlich zuverlässig arbeiten wie klassische Suchmaschinen. Diese Annahme wurde durch eine umfangreiche Studie von SparkToro und Gumshoe.ai Anfang 2026 mindestens infragegestellt.
Die Forschungsfrage war simpel: Wenn du verschiedenen KI-Modellen immer wieder denselben Prompt gibst, erhältst du dann dieselben Markenempfehlungen? Dazu führten 600 Freiwillige fast 3000 Testdurchläufe durch. Sie nutzten identische Prompts in verschiedenen Sektoren (z. B. „beste CRM-Software“, „Kopfhörer für Reisende“) auf ChatGPT, Claude und Google AI Overviews.
Die Ergebnisse lieferten für uns als SEOs eigentlich erwartbare Ergebnisse:
- Weniger als 1 % Konsistenz: Die Wahrscheinlichkeit, dass ChatGPT oder Google bei 100 identischen Anfragen exakt dieselbe Liste an Marken zurückgibt, liegt bei unter 1 zu 100.
- Volatile Reihenfolge: Selbst wenn die enthaltenen Marken ähnlich waren, variierte ihre Reihenfolge fast immer. Die Chance, dieselbe Reihenfolge zweimal zu erhalten, liegt bei unter 1 zu 1000.
- Variable Listenlänge: Die KI entscheidet scheinbar willkürlich über die Menge. Einmal nennt sie dir drei Produkte, im nächsten Durchlauf zehn.
Diese Daten zerstören die Illusion, dass du ein „Ranking“ in einer KI festnageln kannst. Ein klassischer SEO-Report, der behauptet „Wir sind auf Platz 1 bei ChatGPT“, ist nicht nur ungenau – er ist statistisch wertlos, da er eine Momentaufnahme darstellt, die sich im nächsten Sekundenbruchteil ändern kann.
Ranking vs. Sichtbarkeit: Das „City of Hope“-Beispiel
Ein Beispiel aus der Studie verdeutlicht den Unterschied zwischen „Ranking“ und „Sichtbarkeit“: Bei der Anfrage nach Krebsbehandlungszentren erschien das Krankenhaus „City of Hope“ in 97 % der Antworten (in 69 von 71 Durchläufen). Das ist eine extrem hohe Sichtbarkeit.
Aber: „City of Hope“ war nur in 25 dieser 69 Fälle die erstgenannte Empfehlung (Platz 1). In den anderen Fällen rutschte es auf Platz 2, 3 oder tiefer. Hättest du nur einen einzigen Test gemacht (wie wir es oft tun, wenn wir „mal schnell prüfen“, wo wir stehen), hättest du vollkommen unterschiedliche Schlüsse gezogen. Dieses Paradoxon zeigt: Die Position (Ranking) ist in einer probabilistischen Umgebung irrelevant. Die einzige robuste Metrik ist die Häufigkeit des Erscheinens über eine große Stichprobe hinweg.
Sektorale Varianz: In welchen Branchen variieren LLM-Ergebnisse am stärksten?
Die Studie zeigte auch, dass die Inkonsistenz nicht überall gleich ist. Sie hängt stark von der „Entropie“ deines Sektors ab:
- Niedrige Entropie (hohe Konsistenz): In Bereichen mit faktisch begrenzten Antworten (z. B. „Volvo-Händler in Los Angeles“) ist die KI stabiler. Sie kann weniger halluzinieren, ohne faktisch falsch zu werden.
- Hohe Entropie (großes Chaos): In kreativen oder subjektiven Feldern explodiert die Varianz. Bei Fragen nach „neuen Science-Fiction-Romanen“ oder „Branding-Agenturen“ agieren die Modelle wie Zufallsgeneratoren. Da es tausende „richtige“ Antworten gibt, würfelt das Modell bei jedem Durchlauf neu.
Warum LLMs bei jeder Anfrage andere Ergebnisse liefern
Um Strategien gegen dieses Chaos zu entwickeln, musst du verstehen, warum es passiert. LLMs sind keine Datenbanken. Sie sind Wahrscheinlichkeitsmaschinen.
Wie LLMs funktionieren: Token-Vorhersage und Temperatur-Parameter
Im Kern funktioniert ein LLM wie eine Autocomplete-Funktion auf Steroiden. Denn es berechnet nicht die „Wahrheit“, sondern die Wahrscheinlichkeit des nächsten Wortes (engl. Tokens).
Wenn du also fragst: „Empfiehl mir eine CRM-Software“, berechnet das Modell Wahrscheinlichkeiten für Salesforce, HubSpot etc. Aber es wählt nicht immer stur den wahrscheinlichsten Kandidaten. Hier kommen Parameter wie die LLM-Temperatur ins Spiel: Ein Wert (oft zwischen 0 und 1), der den Zufallsfaktor steuert. Eine hohe Temperatur sorgt für „Kreativität“. Da Chatbots wie ChatGPT menschlich wirken sollen, ist eine gewisse Varianz systemseitig eingebaut.
Das Modell berechnet die Wahrscheinlichkeit bei jedem Wort und Wortbestandteil neu. Wenn „Salesforce“ im ersten Satz genannt wurde, ändert sich die Wahrscheinlichkeitsverteilung für das nächste Wort. Diese Kaskade führt zu den chaotischen Listen, die wir beobachten.
Foundational Knowledge vs. RAG: Woher LLMs ihr Wissen beziehen
Ein weiterer Grund für die Instabilität ist die Trennung des Wissens: Die Foundational Model Knowledge ist das „Gedächtnis“ der KI, basierend auf dem Training (CommonCrawl, Wikipedia). Marken wie Coca-Cola sind hier fest verankert („semantische Resonanz“) und werden konsistenter genannt. Daneben gibt es RAG (Retrieval-Augmented Generation): Bei aktuellen Fragen sucht die KI live im Internet (Bing/Google) und füttert die Ergebnisse in das Modell. Mehr dazu in unserem Beitrag zum Start der AI Overviews in Deutschland.
GEO-KPIs: 6 Metriken für KI-Sichtbarkeit messen und auswerten
Die vielleicht größte Herausforderung besteht aus meiner Sicht im Verlust der Messbarkeit. Die alten KPIs funktionieren innerhalb dieses neuen Settings nicht mehr. Im Folgenden daher eine Reihe an Vorschlägen für GEO-KPIs, um die KI- und LLM-Welt auch messtechnisch zielführend in den Blick zu bekommen.
Branded Search Lift: Markensuchen als indirekter KI-Erfolgsindikator
Da viele KI-Interaktionen „Zero-Click“ sind (die Antwort wird direkt gegeben), suchen Nutzer anschließend oft gezielt nach der Marke, die ihnen empfohlen wurde. Ein Anstieg des Suchvolumens nach dem eigenen Markennamen (ohne parallel laufende TV-Kampagnen) ist oft der beste Indikator für erfolgreiche AEO. Anders gesagt: Online-Marketer müssen sich von der „Last-Click“-Attribution lösen.
Share of Model (SoM): Marktanteil in KI-Antworten messen
Der Share of Model (SoM) ist die KI-Adaption des klassischen „Share of Voice“. Er misst den prozentualen Anteil deiner Marke an den Gesamtempfehlungen eines spezifischen KI-Modells innerhalb eines Themenclusters. Folgende Formel kannst du als Grundlage nutzen:
Share of Model = (Anzahl der Nennungen der eigenen Marke / Gesamtzahl aller Markennennungen im Cluster) × 100
Ein Beispiel: SEO-Agenturen auf ChatGPT vs. Google AI Overviews
Ein Thema, das wir bei SMART LEMON naturgemäß selbst im Blick haben: Wie sichtbar ist die eigene Agentur, wenn jemand eine KI nach SEO- oder GEO-Dienstleistern fragt? Um den SoM greifbar zu machen, hier ein vereinfachtes Szenario auf Basis von 100 identischen Prompts („Welche SEO-Agentur in Deutschland kann mir bei GEO und KI-Sichtbarkeit helfen?“):
ChatGPT (durchschnittlich 2,4 Markennennungen pro Antwort = 240 Nennungen gesamt):
- Evergreen Media: 52 Nennungen
- Claneo: 41 Nennungen
- Seokratie: 38 Nennungen
- SMART LEMON: 34 Nennungen
- SEO-Küche: 28 Nennungen
- Weitere: 47 Nennungen
Ergebnis: SoM SMART LEMON auf ChatGPT = (34 / 240) × 100 = 14,2 %
Google AI Overviews (durchschnittlich 6,0 Markennennungen pro Antwort = 600 Nennungen gesamt):
- Evergreen Media: 89 Nennungen
- Claneo: 78 Nennungen
- Projecter: 67 Nennungen
- SEO-Küche: 61 Nennungen
- Seokratie: 55 Nennungen
- SMART LEMON: 48 Nennungen
- Weitere: 202 Nennungen
Ergebnis: SoM SMART LEMON auf Google AIO = (48 / 600) × 100 = 8,0 %
Was zeigt das? Obwohl SMART LEMON bei Google AIO in absoluten Zahlen häufiger auftaucht (48 vs. 34), ist der Share of Model dort nur halb so hoch – weil Google AIO den Kuchen auf deutlich mehr Agenturen aufteilt. Auf ChatGPT ist die relative Wettbewerbsposition also stärker, obwohl die absolute Sichtbarkeit bei Google AIO höher liegt. Beide Werte erzählen eine unterschiedliche Geschichte, und genau deshalb brauchst du beide.
Warum du pro Modell messen musst
Diese Unterscheidung nach Modellen ist keine akademische Übung. Eine Analyse von BrightEdge (August 2025), basierend auf zehntausenden identischen Prompts, dokumentiert eine Diskrepanz von 61,9 % bei den Markenempfehlungen zwischen ChatGPT, Google AI Overviews und Google AI Mode. Nur 17 % der Anfragen lieferten auf allen drei Plattformen dieselben Marken.
Die Ursache liegt in den grundlegend verschiedenen „Persönlichkeiten“ der Plattformen:
- ChatGPT agiert wie ein Markenempfehler: Es nennt durchschnittlich 2,4 Marken pro Antwort und bevorzugt dabei historisch etablierte Marken mit starker Präsenz in den Trainingsdaten. ChatGPT erwähnt Marken 3,2-mal häufiger als es sie verlinkt. Der Wert liegt hier also primär im Branding, nicht im Traffic.
- Google AI Overviews verfolgt den umgekehrten Ansatz: Mit durchschnittlich 6,0 Markennennungen pro Anfrage bietet es deutlich mehr „Slots“. Gleichzeitig verlinkt es 2,4-mal häufiger als es bloß erwähnt – die Zitationsrate ist hier also das stärkere Signal.
- Google AI Mode ist am selektivsten: Weniger Marken schaffen es in die Antwort, aber diejenigen, die genannt werden, profitieren von starker Zitationsunterstützung.
Ein aggregierter SoM über alle Modelle hinweg ist daher nicht nur ungenau – er ist aktiv irreführend. Du benötigst separate Werte für jedes Modell, idealerweise ergänzt um die jeweilige Citation Rate (wird deine Marke auch verlinkt oder nur genannt?).
Wie du den SoM praktisch erhebst
- Prompt-Set definieren: Erstelle 10–20 repräsentative Prompts für dein Themencluster. Orientiere dich dabei an realen Nutzeranfragen aus der Google Search Console, aus Keyword-Recherchen oder von Plattformen wie AnswerThePublic.
- Stichprobe durchführen: Jeder Prompt sollte mindestens 30-mal pro Modell ausgeführt werden (mehr ist besser; SparkToro empfiehlt 60–100 Durchläufe für robuste Werte).
- Jede Markennennung zählen: Nicht nur das Erstgenannte, sondern jede einzelne Nennung – inklusive Position in der Antwort und Art (Erwähnung vs. Verlinkung).
- Regelmäßig wiederholen: Monatliche Benchmarks sind das Minimum. In dynamischen Branchen empfehlen sich wöchentliche Stichproben, um Verschiebungen nach Modell-Updates frühzeitig zu erkennen.
Spezialisierte Tools wie Peec AI, Otterly.AI und inzwischen auch SISTRIX automatisieren diesen Prozess inzwischen weitgehend und liefern Dashboards mit Verlaufsdaten. Für den Einstieg reicht aber auch ein strukturiertes Google Sheet mit manuellem Tracking.
SoM ist kein Ersatz, sondern eine Ergänzung
Wichtig: Der Share of Model misst deine relative Position im Wettbewerb innerhalb eines Modells. Er sagt nichts darüber aus, ob du überhaupt in den Antworten auftauchst (das ist die Visibility Percentage) oder ob die Nennungen positiv sind (das ist der Sentiment Score). Die drei KPIs ergänzen sich: Visibility Percentage zeigt, ob du im Spiel bist. SoM zeigt, wie groß dein Stück vom Kuchen ist. Und der Sentiment Score zeigt, ob die KI dich empfiehlt oder vor dir warnt.
Visibility Percentage: Wie oft erscheint deine Marke in KI-Antworten?
Während der SoM deine relative Stärke gegenüber Wettbewerbern misst, misst die Visibility Percentage deine absolute Präsenz. Sie beantwortet dir die Frage: „Wenn 100 Leute nach meiner Produktkategorie fragen, wie viele sehen meine Marke?“ Dies ist die robusteste Metrik gegen die Inkonsistenz. Experten wie SparkToro empfehlen, mindestens 60–100 Durchläufe zu mitteln, um diesen Wert verlässlich zu bestimmen.

Citation Rate & Detection Rate: Wirst du verlinkt oder nur erwähnt?
Für deinen Traffic (Klicks) ist die bloße Nennung nicht genug. Die KI muss deine Marke verlinken.
- Citation Rate: Der Prozentsatz der Antworten, in denen deine Marke nicht nur als Text erwähnt, sondern als klickbare Quelle (Fußnote, Link) ausgegeben wird. Hanns Kronenberg warnt jedoch: Die Klickrate (CTR) aus KI-Antworten liegt oft nur bei ca. 1 %.
- Der Wert der Nennung liegt also eher im Branding („Brand Awareness“) als im direkten Traffic.
Detection Rate: eine technische Metrik. Wird deine Entität vom Modell überhaupt erkannt? Wenn du nach „Marke X“ fragst und die KI halluziniert oder sagt „Ich kenne diese Marke nicht“, ist die Detection Rate 0.
Sentiment Score: Wie KI-Modelle die Tonalität deiner Marke bewerten
Da KI-Modelle Empfehlungen oft basierend auf aggregierten Bewertungen aussprechen (Studien zeigen einen Durchschnitt von 4,3 Sternen für Empfehlungen), wird das Sentiment zu einer harten SEO-Metrik.
Ein negatives Sentiment in den Trainingsdaten wirkt fast wie ein „NoIndex“-Tag in der klassischen SEO. Die KI wird deine Marke aktiv vermeiden, um dem Nutzer keine „schlechte“ Empfehlung zu geben. Moderne Tools beginnen nun, die „Tonalität“ der KI-Antworten zu skalieren (positiv/neutral/negativ).

Harmonic Centrality: Wie zentral ist deine Domain im Web-Graph?
Viele große Sprachmodelle nutzen Datensätze, die (direkt oder indirekt) auf Common Crawl basieren. Common Crawl kann nicht das gesamte Web gleich behandeln. Deshalb priorisiert der Crawler. Und dafür spielen Web-Graph-Signale eine Rolle, unter anderem Harmonic Centrality (HC).
Sie beschreibt, wie nah eine Domain im Web-Graph an zentralen Knoten liegt. Anders als beim PageRank geht es nicht um vererbte Autorität, sondern um strukturelle Nähe. Mathematisch ist das sauber – nur: Daraus werden gerade Kausalketten gebaut, die so nicht belegt sind.
- HC-Realitätscheck in 5 Minuten: Mit dem kostenlosen Web Graph Checker (Link am Ende des Textes) lässt sich die eigene Domain im Common-Crawl-Web-Graph prüfen.
- Notiere dir die Werte für HC Rank und PageRank.
- Vergleiche diese Werte mit fünf (oder mehr) direkten Mitbewerbern. Hier dann Ausreißer identifizieren: Wer ist deutlich zentraler vernetzt?

GEO-Maßnahmen: Was Marken jetzt für KI-SEO tun sollten
Während die Diagnose „Chaos“ lautet, liefert Hanns Kronenberg (Gründer von GPT Insights & dem Grounding Page Project) die Therapie. Seine These: „Die Oberfläche ist chaotisch, aber die Tiefe ist logisch.“
Prompt Decoding: Warum Intent wichtiger wird als Keywords
In KI-Diensten suchen Nutzer nicht mehr nach [laufschuhe kaufen], sondern sie chatten komplex. Hanns Kronenbergs Ansatz des Prompt Decoding besagt: Versuch gar nicht erst, den genauen Wortlaut zu treffen. Optimiere auf den Intent (die Absicht). Wenn die KI versteht, dass es um „breite Füße + Laufen“ geht, muss deine Marke als logische Konsequenz erscheinen – egal, wie der Nutzer fragt.
Die „English Trap“: Warum deutsche Marken englische Inhalte benötigen
Das ist der vielleicht wichtigste Punkt für deutsche Unternehmen: Die meisten LLMs „denken“ auf Englisch. Ihr latenter Raum (das Gehirn) ist englisch geprägt. Wenn ein Nutzer dich auf Deutsch fragt, übersetzt das Modell die Anfrage intern oft ins Englische, sucht in englischen Quellen und übersetzt das Ergebnis zurück. Die brutale Konsequenz: Wenn du keine englischen, maschinenlesbaren Informationen bereitstellst, bist du für die KI oft unsichtbar. Du existierst schlichtweg nicht in ihrem relevanten Suchraum. Die Lösung: Auch lokale deutsche Marken benötigen englischsprachige Signale (z. B. eine englische Grounding Page), um im „Systemkern“ stattzufinden. Deutsch bleibt aber natürlich trotzdem Pflicht, weil Nutzerfragen und lokale Kontexte deutsch sind. Das Ziel ist ein Zusatz-Layer, nicht ein Ersatz.
Grounding Pages: Eine zentrale Faktenseite für KI-Systeme erstellen
KI-Modelle hassen Ambiguität. Eine Website voller Marketing-Floskeln verwirrt die Maschine. Die Lösung ist der Grounding Page Standard. Eine dedizierte Seite (z. B. /facts/), die Fakten in reinster Form liefert (HTML Definition Lists) und sich selbst erklärt („Was wir sind“ und „Was wir NICHT sind“). Mehr zu dem Thema findest du auch in unserem Artikel „KI-Sichtbarkeit steigern: GEO-Maßnahmen im Praxistest„. Ergebnis: Weniger Interpretationsspielraum. Mehr maschinelles Vertrauen. Die KI muss weniger raten.

Technische GEO-Optimierung: Website-Struktur für LLMs und AI Overviews
In der Ära der Answer Engines liest die KI deine Inhalte nicht wie ein Mensch – sie „parst“ sie. Microsoft hat im Oktober 2025 explizite Richtlinien veröffentlicht, wie Inhalte beschaffen sein müssen, um von Copilot und anderen KI-Agenten verarbeitet zu werden. Der Schlüsselbegriff ist Modularität.
Snippable Content: Inhalte so strukturieren, dass LLMs sie parsen können
KI-Systeme zerlegen lange Texte in kleine, verdauliche Informationshappen (Chunks). Eine monolithische „Textwüste“ (Wall of Text) ist für eine KI schwer zu verarbeiten, da die Zuordnung von Fakten zu Kontexten unscharf wird. Microsoft empfiehlt Strukturierungsmaßnahmen, die dir als SEO aber auch nicht unbekannt vorkommen dürften: Klare semantische Hierarchien, Frage-und-Antwort-Paare sowie Listen und Tabellen.
Strukturierte Daten und Schema.org: Pflicht für KI-SEO in 2026?
Strukturierte Daten sind im Jahr 2026 keine „nette Ergänzung“ mehr, sondern die conditio sine qua non für AI-SEO. Sie fungieren als Übersetzer zwischen unstrukturierter HTML-Sprache und der KI. Die KI nutzt die strukturierten Daten im Hintergrund, um die Antwort zu formulieren, zitiert sie aber nicht visuell als Markup.
- Prozess: Der Indexer liest das JSON-LD (z. B. price: 99.00).
- Verarbeitung: Das System wandelt dies in einen Fakt um („Das Produkt kostet 99 €“).
- Generierung: Das LLM schreibt den Satz: „Das Produkt ist für 99 € erhältlich.“
Ohne das Schema hätte die KI den Preis im Fließtext vielleicht übersehen, falsch zugeordnet – oder es war für das LLM gar nicht erst sichtbar (siehe hierzu auch unseren Beitrag zu LLMs und SEO). Schema ist also eine Investition in maschinelles Vertrauen (engl. Machine Trust). Wichtig hierbei: Die Daten im Schema müssen exakt mit dem sichtbaren Text übereinstimmen. Inkonsistenzen (z. B. Preis im Text 100 €, im Schema 90 €) könnten dazu führen, dass die KI die Quelle ignoriert.
Content-Strategie für GEO: So wirst du zur zitierten Quelle in ChatGPT & Co.
Während die Technik sicherstellt, dass die Maschine den Inhalt lesen kann, sorgt deine Content-Strategie dafür, dass sie ihn auch zitieren will. Microsofts Guide aus dem Januar 2026 („From Discovery to Influence“) hilft dabei, Klarheit in die Begriffe zu bringen:
- AEO (Answer Engine Optimization) = Optimiert Inhalte so, dass Assistenten und Agenten sie finden, verstehen und als Antwort nutzen können.
- GEO (Generative Engine Optimization) = zielt stärker auf Vertrauen und Autorität in generativen Suchumgebungen
Direct Answers: So formulierst du Inhalte, die KI-Systeme zitieren
Analysen von GPT-Insights zeigen, dass es „7 Goldregeln“ gibt, um die Wahrscheinlichkeit einer Übernahme in Google AI Overviews (AIO) zu maximieren. Die wichtigste davon ist das Prinzip der umgekehrten Pyramide auf Absatzebene.
- Regel 1: Antwort zuerst: Die direkte Antwort auf eine Frage (die in der H2 steht) muss im ersten Satz des folgenden Absatzes stehen. Kein „Es kommt darauf an“, keine langen Einleitungen.
Schlecht: „Wenn man sich die Entwicklung der Preise ansieht, kann man feststellen, dass…“
Gut: „Der Preis für das Modell X beträgt 299 €. Dies entspricht einem Anstieg von…“ - Regel 2: W-Fragen als Anker: Nutze echte Nutzerfragen als Zwischenüberschriften.
- Regel 3: Vermeidung von „Weichmachern“: Wörter wie „vielleicht“, „könnte“ oder „manchmal“ reduzieren die Extraktionswahrscheinlichkeit. KIs bevorzugen definitive Aussagen, die als Fakten behandelt werden können.
- Regel 4: Kurz halten: Absätze sollten unter 80 Wörtern bleiben, um eine saubere semantische Zerlegung zu ermöglichen.
Die 250-Dokumente-Schwelle: Wie viele Dokumente benötigt es, um ein LLM zu beeinflussen?
Um das Narrativ“ deiner Marke innerhalb eines LLMs zu verändern (On-Model SEO), reicht ein einzelner viraler Hit nicht aus. In der GEO-Community kursiert die Schätzung, dass etwa 250 Dokumente (Artikel, Pressemeldungen, Erwähnungen auf Drittseiten) notwendig sind, um die Gewichtung in einem neuronalen Netz signifikant zu verschieben.
Woher kommt die Zahl?
Der Ursprung dieser Schwelle ist aufschlussreich – und stammt nicht aus dem Marketing, sondern aus der KI-Sicherheitsforschung. Im Oktober 2025 veröffentlichten Anthropic, das UK AI Security Institute und das Alan Turing Institute eine Studie mit dem Titel „Poisoning Attacks on LLMs Require a Near-Constant Number of Poison Samples“. Das zentrale Ergebnis: Bereits 250 gezielt manipulierte Dokumente reichen aus, um Sprachmodelle mit 600 Millionen bis 13 Milliarden Parametern nachweislich zu verändern – unabhängig von der Modellgröße und der Menge der sauberen Trainingsdaten. Bei einem 13B-Parameter-Modell machten diese 250 Dokumente gerade einmal 0,00016 % der gesamten Trainingsdaten aus.
Die Studie untersuchte zwar einen destruktiven Anwendungsfall (Backdoor-Angriffe, die das Modell bei einem Trigger-Wort Unsinn produzieren lassen). Aber die zentrale Erkenntnis ist auch für das Marketing relevant: Die Anzahl der Dokumente, die nötig ist, um ein Modell zu beeinflussen, skaliert nicht proportional mit der Modellgröße. Es ist eine nahezu konstante Zahl.
Die GEO-Community hat dieses Ergebnis in einen positiven Kontext übertragen: Wenn 250 konsistente, manipulative Dokumente das Verhalten eines Modells negativ verändern können, dann sollten 250 konsistente, glaubwürdige Dokumente mit einer einheitlichen Markenbotschaft die Wahrnehmung einer Marke ebenfalls verschieben können. Search Engine Land formuliert es so: „It’s estimated that 250 documents are needed to meaningfully influence how an LLM perceives a brand“.
Wichtige Einordnung: kein Naturgesetz, aber ein brauchbarer Richtwert
Diese Übertragung von Sicherheitsforschung auf Content-Strategie ist eine Extrapolation, keine bewiesene Kausalität. Zwischen „250 Dokumente verändern ein Modell bei der nächsten Trainingsrunde“ und „250 Artikel verbessern die Markenwahrnehmung bei ChatGPT“ liegen wichtige Zwischenschritte:
- Trainingszyklus: Die Dokumente müssen tatsächlich in die Trainingsdaten eines Modells gelangen – über Common Crawl, Medienpartnerschaften oder RAG-Indexierung. Ein Blogartikel auf einer Domain mit niedrigem Crawl-Budget wird anders gewichtet als eine Erwähnung auf spiegel.de.
- Konsistenz der Botschaft: Die Anthropic-Studie arbeitete mit identischen Trigger-Dokumenten. Für Brand Narrative heißt das: 250 widersprüchliche Erwähnungen bringen wenig. Die Aussagen müssen eine einheitliche Richtung haben.
- Glaubwürdigkeit der Quellen: Nicht jedes Dokument wiegt gleich. Eine Erwähnung in einem Fachartikel auf t3n, OMR oder dem Search Engine Journal hat deutlich mehr Gewicht als ein Gastbeitrag auf einem No-Name-Blog.
Die Zahl 250 ist also kein Naturgesetz, sondern ein Richtwert, der dein Content-Marketing in eine klare Richtung lenkt: weg vom Unikat, hin zur Volumenstrategie mit konsistenter Botschaft.
Was das praktisch bedeutet: Ein Gedankenexperiment
Stell dir vor, SMART LEMON möchte in den LLMs als „führende deutsche Agentur für GEO und KI-Sichtbarkeit“ verankert werden. Wie könnten 250 Dokumente aussehen?
- Owned Content (ca. 60–80 Dokumente): Blog-Artikel, Fallstudien, Whitepaper, Grounding Pages – jeweils mit der konsistenten Kernaussage, dass SMART LEMON sich auf GEO und KI-SEO spezialisiert hat. Dazu die eigene Website mit klaren, maschinenlesbaren Fakten (Schema.org, Definition Lists).
- Earned Media (ca. 80–100 Dokumente): Gastbeiträge in Fachmedien (t3n, OMR, Search Engine Journal), Erwähnungen in Podcast-Shownotes und Konferenz-Recaps, Zitate in Fachartikeln anderer Autoren, Einträge in Agentur-Vergleichen und -Rankings.
- Social & Community (ca. 50–70 Dokumente): LinkedIn-Artikel und -Posts (werden von Perplexity und ChatGPT mit Websuche innerhalb von Minuten indexiert), Beiträge in relevanten Reddit-Threads oder Fachforen, YouTube-Transkripte von Vorträgen oder Webinaren.
- Strukturierte Referenzen (ca. 20–30 Dokumente): Wikipedia-Erwähnung oder Wikidata-Eintrag, Einträge in Branchenverzeichnissen (z. B. Clutch, Sortlist, OMR Reviews), Pressemitteilungen über Nachrichtenagenturen.
Der Schlüssel liegt nicht darin, 250 beliebige Dokumente zu produzieren, sondern sicherzustellen, dass jedes einzelne dieselbe Kernassoziation transportiert: „SMART LEMON = GEO-Expertise“. Denn das Modell lernt keine Einzelfakten, sondern statistische Muster – und je häufiger und konsistenter ein Muster auftaucht, desto stärker wird die Assoziation.
Konsistenz schlägt Einzigartigkeit
Dieser letzte Punkt verdient besondere Aufmerksamkeit, weil er unserem Instinkt als Marketer widerspricht. Wir sind darauf trainiert, „einzigartige“ Inhalte zu produzieren. Aber für On-Model SEO gilt eine andere Logik: Das Modell benötigt keine 250 verschiedenen Geschichten über deine Marke. Es braucht 250 glaubwürdige Quellen, die im Kern dasselbe sagen – in unterschiedlichen Formaten, auf unterschiedlichen Plattformen, von unterschiedlichen Autoren. Die Variation liegt im Kontext, nicht in der Botschaft.
Wenn 250 unabhängige, glaubwürdige Quellen übereinstimmend sagen, dass „Marke X führend in Nachhaltigkeit ist“, wird das Modell diese Assoziation lernen. Sagt eine einzige Quelle „führend in Nachhaltigkeit“, eine andere „günstigster Anbieter“ und eine dritte „bester Service“, lernt das Modell: keine klare Positionierung.
Digital PR als GEO-Hebel: Warum Drittquellen entscheidend sind
In einer LLM-getriebenen Suchwelt zählt nicht nur, was du selbst über dich sagst, sondern vor allem, was glaubwürdige Dritte über dich veröffentlichen. Genau hier setzt Digital PR an: Ziel ist nicht „Content streuen“, sondern redaktionelle Relevanz und unabhängige Erwähnungen aufzubauen. Und zwar nicht mit generischem Content, sondern klaren, zitierfähigen Aussagen und originären Datenpunkten und Einordnungen.
Denn KI-Systeme orientieren sich stark an Signalen von Autorität und Konsens. Wenn seriöse Medien, Branchenportale, Verbände, Podcasts oder Expertennewsletter wiederholt dieselben Kernaussagen über deine Marke transportieren, entsteht ein belastbares Referenznetz.

Warum der Website-Footer für LLMs wichtiger ist als gedacht
Eine überraschende Erkenntnis aus aktuellen Analysen ist die Renaissance des Footers (Fußzeile). LLMs nutzen den Footer intensiv, um zu verstehen, was eine Firma ist und tut.
Klare Links zu „Über uns“, „Dienstleistungen“, „Impressum“ und Zertifikaten im Footer helfen der KI, die Entität der Webseite global einzuordnen. Eine unklare Footer-Struktur kann dazu führen, dass die KI den Kontext der gesamten Seite missversteht.
Content-Freshness: Warum aktuelle Inhalte in RAG-Systemen bevorzugt werden
Für aktuelle Themen (News, Trends) ist „Freshness“ der entscheidende Faktor für RAG-Systeme. Inhalte auf Plattformen wie LinkedIn, Reddit oder YouTube werden oft innerhalb von Minuten indexiert bzw. als Quelle herangezogen.

Fazit: So gelingt Generative Engine Optimization in der Praxis
Wir erinnern uns an die Bibliothek vom Anfang. Der Bibliothekar wurde gefeuert. An seiner Stelle steht jetzt ein hochintelligenter, aber leicht halluzinierender persönlicher Einkäufer. Er rennt nicht mehr zum Regal. Er schreibt dir das Buch neu, basierend auf dem, was er glaubt zu wissen.
In dieser Welt gewinnt nicht mehr der Lauteste (meiste Backlinks), sondern der Klarste. Hör auf, für Algorithmen zu schreiben, die Keywords zählen. Fang an, deine Identität so zu strukturieren, dass Maschinen sie verstehen. Das Chaos ist besiegbar – aber nur, wenn du bereit bist, deine Metriken und deine Daten-Strategie anzupassen.
Weitere Informationen und Quellen zu GEO-Strategien in 2026
- Matt G. Southern: AI Recommendations Change With Nearly Every Query: SparkToro – auf: searchenginejournal.com am 30. Januar 2026 (englisch)
- Jordan Koene: What 2 million LLM sessions reveal about AI discovery – auf: searchengineland.com am 30. Januar 2026 (englisch)
- Sven Giese: Selten hat eine neue „Metrik“ so schnell so viel Unsinn produziert wie „AI Rankings“ – auf: linkedin.com am 30. Januar 2026 (deutsch)
- Christian Kunz: Empfehlungen in KI-Tools von Marken und Produkten sind laut Studie fast zufällig – auf: seo-suedwest.de am 29. Januar 2026 (deutsch)
- Nicola Agius: How to optimize for AI search: 12 proven LLM visibility tactics – auf: searchengineland.com am 29. Januar 2026 (englisch)
- Laurie Sullivan: AI Brand Recommendations: Chaotic, Inconsistent – auf: mediapost.com am 28. Januar 2026 (englisch)
- Danny Goodwin: AI recommendation lists repeat less than 1% of the time: Study – auf: searchengineland.com am 28. Januar 2026 (englisch)
- In AI-Driven Discovery, Few Brands Are Chosen, Most Disappear – auf: prnewswire.com am 28. Januar 2026 (englisch)
- Rand Fishkin: NEW Research: AIs are highly inconsistent when recommending brands or products; marketers should take care when tracking AI visibility – auf: sparktoro.com am 27. Januar 2026 (englisch)
- How to Make Sense of the Conflicting Data on AI Search – auf: trafficsoda.com am 20. Januar 2026 (englisch)
- Nadine von Piechowski: GEO: Mehr Sichtbarkeit bei ChatGPT, Perplexity und Co. durch Grounding Pages – auf: omr.com am 12. Januar 2026 (deutsch)
- Jen Myers: From Discovery to Influence: A Guide to AEO and GEO – auf: about.ads.microsoft.com am 6. Januar 2026 (englisch/mehrsprachig)
- Grounding Page Standard (v1.4) – Documentation Hub – auf: groundingpage.com am 14. Dezember 2025 (deutsch/englisch)
- Hanns Kronenberg: Nutzen Large Language Models (LLMs) strukturierte Daten? Wie ChatGPT & Gemini wirklich mit Schema.org arbeiten – auf: gpt-insights.de am 5. November 2025 (deutsch)
- Krishna Madhavan: Optimizing Your Content for Inclusion in AI Search Answers – auf: about.ads.microsoft.com am 8. Oktober 2025 (englisch)
- Michael Brito: AI Search Variance: Risk, Opportunity, or Both? – auf: britopian.com am 1. September 2025 (englisch)
- Brightedge: ChatGPT vs Google AI: 62% Brand Recommendation Disagreement – auf: brightedge.com am 27. August 2025 (englisch)
- Cecilia Meis: Google AI Mode Could Reshape Search: What SEOs Should Know – auf: semrush.com am 25. Juli 2025 (englisch)
- Common Crawl Rank Checker – auf: webgraph.metehan.ai (englisch)

Sven Giese
Sven ist ein echtes SMART LEMON Urgestein. Er ist seit 2012 bei uns und war der erste Mitarbeiter der Agentur. Als Head of SEO leitet er das SEO-Team und verantwortet in diesem Bereich das Tagesgeschäft. Außerdem bildet er Kolleg:innen in Sachen Suchmaschinenoptimierung aus. Den Großeltern kann man das so erklären: Sven macht was mit Computern. Und mit Nachdenken 😉