
- Home
- Blog
- Strategische interne Link-Matrix mit KI und GSC-Daten
Interne Verlinkung ist ein Eckpfeiler jeder erfolgreichen SEO-Strategie. Doch in der Praxis ist sie oft ein manueller, zeitaufwendiger Prozess, der mehr auf Bauchgefühl als auf harten Daten basiert. Man klickt sich durch die Website, sucht nach passenden Keywords und hofft, die richtige Verbindung zu finden. Mit dem Aufkommen von LLMs und dem semantischen Konzept der Embeddings hat sich in der SEO-Branche ein automatisierter Prozess bewährt, der den Aufbau einer zielführenden internen Verlinkung deutlich vereinfacht.
In der Praxis waren aber viele Online-Marketing-Teams mit dem Output dieses Prozesses schlichtweg überfordert. Daher haben wir die bereits vorhandenen Ansätze weitergedacht und einen automatisierten Arbeitsablauf entwickelt, der nicht nur Link-Chancen findet, sondern sie auch priorisiert, thematisch bündelt und direkt umsetzbare Ankertext-Empfehlungen liefert. Das Ergebnis ist keine unübersichtliche Excel-Tabelle, sondern eine strategische Matrix für deine interne Verlinkung. Im vorliegenden Artikel dokumentieren wir dir die Systematik hinter unserem Analyse-Skript und zeigen, wie das Ergebnis deine tägliche SEO-Arbeit deutlich erleichtert.
TL;DR – das Wichtigste in Kürze
- Interne Verlinkung als SEO-Grundlage: Traditionell mühsam und manuell, lässt sich interne Verlinkung durch den Einsatz von KI und Screaming Frog automatisieren und strategisch effizienter gestalten.
- Technische Basis des Workflows: Screaming Frog crawlt Inhalte, extrahiert Embeddings, die per Python-Skript semantisch analysiert werden. Das Ergebnis sind präzise Link-Vorschläge auf Grundlage inhaltlicher Ähnlichkeiten.
- Mehrwert durch Datenintegration: Google-Search-Console-Daten fließen in die Bewertung ein, sodass Linkchancen anhand von Relevanz, Autorität und Klickpotenzial priorisiert werden.
- Thematische Cluster und Ankertexte: KI-basiertes Clustering bündelt URLs in Themenblöcke und liefert datengestützte, qualitativ hochwertige Ankertexte, die Nutzerintention und SEO gleichermaßen berücksichtigen.
Interne Verlinkung und Embeddings: Ein paar Vorüberlegungen, Tools und Voraussetzungen für den Aufbau
Beginnen wir mit ein paar Vorüberlegungen zur internen Verlinkung. Der im Folgenden skizzierte Prozess versucht, die bewährten Ansätze von Mike King, Everett Sizemore, Gus Pelogia und Brittney Muller weiterzudenken. Die entsprechenden Beiträge, Skripte und Anleitungen sind in den weiterführenden Quellen am Ende verlinkt.
ScreamingFrog + ChatGPT = Embeddings
Ihnen allen gemeinsam ist die Verwendung des ScreamingFrog SEO Spider und eines gültigen API-Keys für ein LLM (siehe zu diesem Thema auch unseren Blogartikel „LLMs und SEO„). In den meisten Fällen ChatGPT, aber auch mit anderen Anbietern lassen sich die gewünschten Ergebnisse erzielen. Kurzum: Du benötigst die kostenpflichtige Version des ScreamingFrog (245 € + Steuern) und API-Credits für ChatGPT (bei OpenAI kommst du mit 20 € sehr, sehr weit; die API-Abfragen produzieren Kosten im Cent-Bereich). Das ist aber definitiv gut investiertes Geld.
Seit Version 20.0 lässt sich der Frosch per API mit LLM-System wie ChatGPT, Gemini und Co. für verschiedene automatisierte Anwendungsfälle verbinden. Uns interessiert für die interne Verlinkung primär das Extrahieren sogenannter Embeddings aus gecrawlten URLs.
Diese sind im Prinzip eindeutige Nummern, die den Wörtern und Begriffen einer Seite zugewiesen werden. Sprich, der gefundene Content einer URL wird in maschinenlesbare Zahlenketten übersetzt. Für die interne Verlinkung bedeutet dies dann, dass sich per Python-Script (als kostenloses Colab-Notebook) die Cosinus-Ähnlichkeit für diese Zahlenketten (semantische) Verwandtschaftsbeziehungen berechnen lässt. Sprich, je ähnlicher sich die Zahlenwerte sind, desto höher ist auch die Wahrscheinlichkeit, dass sie eine inhaltliche Übereinstimmung besitzen. Perfekte Voraussetzungen für die interne Verlinkung. Besonders, wenn dies für eine Domain mit tausenden URLs durchgeführt werden muss.

Embeddings und URLs als Basis für die interne Verlinkung
Im Prinzip läuft dieser Analyseprozess wie folgt ab:
- Der ScreamingFrog crawlt die Website und extrahiert für jede URL die Embeddings der Inhalte.
- Alle internen Links und die Embeddings werden als separate CSV-Dateien exportiert.
- Ein Python-Script bereinigt die Daten (Fehler, Leerstellen usw.) und führt die exportierten Daten zusammen.
- Am Ende steht ein Dokument, das alle relevanten URLs einer Domain und die URLs zu den 5 am stärksten verwandten Seiten basierend auf der Kosinusähnlichkeit listet. Ferner markiert das Python-Script fehlende interne Verlinkungen.
Das hat sich in der Praxis bewährt und lässt sich auch problemlos durch eine(n) SEO mit etwas Erfahrung umsetzen. Je nach Größe der Domain (= Zahl der URLs) wird die finale Tabelle schnell unübersichtlich bzw. liefert keine Priorisierung. Und an dieser Stelle setzen wir an.

Benötigte Datenquellen: Was du für die Analyse benötigst
Um diesen automatisierten Workflow zu nutzen, benötigst du vier Exporte aus gängigen SEO-Tools. Das Skript ist so konzipiert, dass es die Spalten intelligent erkennt, auch wenn die Bezeichnungen leicht abweichen.
Link-Export (aus Screaming Frog): Eine Liste aller internen Links deiner Website (Bulk Export > All Inlinks).
Embeddings-Export (aus Screaming Frog): Die semantischen Vektoren deiner Seiteninhalte. Dies geschieht über eine Custom Extraction in Screaming Frog, die eine KI-API ansteuert.
Kombinierter GSC-Export (aus Looker Studio): Eine einzelne CSV-Datei, die Query, Landing Page, Clicks und Impressions enthält. Dies ist der empfohlene Weg, um eine saubere Datenbasis zu erhalten. Alternativ kannst du dir die benötigten Daten bzw. deren Kombination auch mit den Google-Sheets-Erweiterungen „Search Analytics for Sheets“ oder „Seo Sheets“ ziehen. Beide Erweiterungen haben wir in den weiterführenden Quellen verlinkt. Mit einer solchen Extension lässt sich übrigens auch sehr einfach ein Google-Search-Console-Datenbackup durchführen.
- Seiten-Crawl (aus Screaming Frog): Der Standard-Export internal_all.csv, der Metadaten wie URL, H1 und Title enthält.
Die Systematik: Vier Daten-Ebenen für die perfekte Verlinkung
Unser Skript kombiniert diese vier Datenquellen, um eine umfassende und intelligente Analyse zu ermöglichen. Jede Ebene baut auf der vorherigen auf.

1. Semantische Ähnlichkeit: Verstehen, was wirklich zusammenpasst
Das Herzstück der Analyse sind Vector Embeddings. Anstatt nur nach übereinstimmenden Keywords zu suchen, wandelt eine KI den Inhalt jeder Seite in eine mathematische Repräsentation (einen Vektor) um.
- Wie es funktioniert: Das Skript vergleicht diese Vektoren und berechnet die „Cosinus-Ähnlichkeit“ zwischen allen Seiten. Ein hoher Wert bedeutet eine starke thematische Übereinstimmung
- Das Ergebnis: Wir finden die Top 5 der wirklich relevanten Verlinkungs-Partner für jede einzelne URL auf deiner Website.
2. GSC-Performance-Daten: Wert und Autorität messen
Relevanz allein reicht nicht aus. Ein Link ist dann am wertvollsten, wenn er von einer starken Seite auf eine wichtige Seite verweist. Um dies zu messen, nutzen wir ausschließlich Daten aus der Google Search Console.
- Wie es funktioniert: Wir verwenden den kombinierten GSC-Export.
- Wert der Zielseite: Wird über die Gesamtzahl der Klicks definiert, die eine Seite erhält.
- Autorität der Quellseite: Wird über die Gesamtzahl der Impressionen definiert. Eine Seite, die Google oft anzeigt, hat eine hohe Sichtbarkeit und damit eine hohe „interne Autorität“.
- Das Ergebnis: Wir können die Wichtigkeit von Quell- und Zielseite objektiv bewerten.
3. Thematisches Clustering: Strategische Blöcke bilden
Um die Topical Authority gezielt zu stärken, bündelt das Skript alle Seiten in thematische Cluster. Die Benennung dieser Cluster erfolgt dabei auf Basis deiner eigenen, bewusst gewählten Seitenarchitektur.
- Wie es funktioniert: Ein K-Means-Clustering-Algorithmus gruppiert die Seiten basierend auf der Ähnlichkeit ihrer Vektoren. Anschließend identifiziert das Skript für jeden Cluster die thematisch repräsentativste Seite. Der Verzeichnispfad dieser Seite wird zum Namen des Clusters.
- Beispiel: Die repräsentativste Seite eines Clusters ist /blog/was-ist-e-e-a-t/. Das Skript extrahiert den Pfad und benennt den Cluster SEO – Content-Marketing.
- Das Ergebnis: Jede Link-Chance wird einem klaren, strukturbasierten Themen-Cluster zugeordnet, was dir die strategische Bündelung von Maßnahmen ermöglicht.
4. Intelligente Ankertext-Empfehlung: Qualität vor Quantität
Der perfekte Ankertext ist keine Geschmackssache. Er muss die Nutzerintention widerspiegeln und darf nicht generisch sein.
Wie es funktioniert: Das Skript analysiert alle Suchanfragen für eine Ziel-URL und prüft sie gegen eine interne Blacklist mit generischen Begriffen (z.B. „beliebte begriffe“, „hier klicken“). Anschließend wählt es nach einer klaren Prioritätenliste den besten, qualitativ hochwertigen Ankertext aus:
- Top-Klick-Suchanfrage (wenn nicht generisch)
- Top-CTR-Suchanfrage (wenn nicht generisch)
- H1-Überschrift & Seitentitel (als Fallback)
Das Ergebnis: Du erhältst eine einzige, direkt umsetzbare Ankertext-Empfehlung, die sowohl auf echtem Nutzerverhalten basiert als auch qualitativ hochwertig ist.

Das Ergebnis: Eine priorisierte und strategische To-do-Liste
Nachdem das Skript alle Daten verarbeitet hat, generiert es eine extrem reduzierte und auf die Umsetzung fokussierte Excel- oder CSV-Datei mit Vorschlägen für Links, die noch NICHT gesetzt worden sind. Diese Datei enthält nur vier Spalten:
- Opportunity Score: Der wichtigste Wert. Er berechnet sich aus der Relevanz, der Autorität der Quellseite (Impressionen) und dem Wert der Zielseite (Klicks). Sortiere danach, und du hast deine Prioritätenliste.
- Cluster Name: Dein strategischer Hebel. Filtere danach, um alle Link-Chancen für ein bestimmtes Thema gebündelt umzusetzen.
- Source und Target URL: Deine konkrete Arbeitsanweisung: „Gehe zu dieser Seite und setze einen Link auf jene Seite.“
- Recommended Anchor Text: Der beste, datengestützte und qualitativ geprüfte Ankertext, den du direkt verwenden kannst.
In der Praxis sieht eine solche Tabelle dann wie im unten abgebildeten (fiktiven) Beispiel aus:
| Opportunity Score | Cluster Name | Source URL | Target URL | Recommended Anchor Text |
|---|---|---|---|---|
| 95.4 | SEO – Content – Marketing | /blog/technische-seo-checkliste/ | /seo-dienstleistungen/ | Seo Agentur |
| 92.1 | SEO – Content – Marketing | /blog/was-ist-e-e-a-t/ | /seo-dienstleistungen/ | Seo Beratung |
| 88.7 | Social Media – Strategie | /blog/instagram-tipps/ | /social-media-agentur/ | Social Media Agentur |
| … | … | … | … | … |
Anwendungsbeispiele aus der Praxis
Wie übersetzt sich diese Tabelle in konkrete SEO-Maßnahmen? Hier sind drei typische Anwendungsfälle:
- Bottom-of-Funnel-Seiten stärken:
- Szenario: Die Analyse zeigt mit einem hohen Opportunity Score, dass dein Blogartikel „Technische SEO-Checkliste“ thematisch extrem relevant für deine kommerzielle Seite „/seo-dienstleistungen/“ ist, aber noch nicht dorthin verlinkt.
- Maßnahme: Du öffnest den Blogartikel, fügst einen passenden Satz ein und verlinkst mit dem empfohlenen Ankertext „SEO Agentur“ auf deine Dienstleistungsseite. So leitest du qualifizierten Traffic vom informativen Content zur konvertierenden Seite.
- Neue Inhalte gezielt anschieben:
- Szenario: Du hast gerade einen neuen, ausführlichen Artikel zum Thema „Was ist E-E-A-T?“ veröffentlicht. Die Analyse zeigt, dass dieser Artikel eine hohe semantische Ähnlichkeit zu deinem bereits etablierten und starken „Content-Marketing-Guide“ hat.
- Maßnahme: Du setzt vom etablierten Guide einen Link auf den neuen Artikel. Dadurch erhält der neue Inhalt sofort einen wertvollen internen Link von einer autoritativen Seite und wird von Google schneller erfasst und als relevant eingestuft.
- Topical Authority durch Cluster-Verlinkung aufbauen:
- Szenario: Du filterst die Ergebnisliste nach dem „Cluster Name“ Blog – Social Media. Die Liste zeigt dir fünf verschiedene Blogartikel über Instagram, Facebook und LinkedIn, die alle noch nicht auf deine zentrale Pillar-Page „/social-media-agentur/“ verlinken.
- Maßnahme: Anstatt nur einen einzelnen Link zu setzen, arbeitest du die gesamte Cluster-Liste ab. Du verlinkst aus allen fünf relevanten Blogartikeln auf deine zentrale Dienstleistungsseite. Dadurch signalisierst du Google unmissverständlich, dass diese Seite das thematische Zentrum deiner Social-Media-Expertise ist.
Fazit
Dieser Workflow transformiert die interne Verlinkung von einer reaktiven Fleißaufgabe in einen proaktiven, strategischen Prozess. Anstatt im Dunkeln zu stochern, triffst du datengestützte Entscheidungen, die die thematische Relevanz deiner Website gezielt stärken, die Nutzerführung verbessern und letztlich deine Sichtbarkeit in den Suchergebnissen nachhaltig steigern.
Weiterführende Quellen und Informationen zur internen Link-Matrix mit KI und GSC-Daten
- Sven Giese: Google Colab Notebook mit dem Internal Linking Analysis Script für SMART LEMON (deutsch/mehrsprachig)
- Everett Sizemore: How I Found Internal Linking Opportunities With Vector Embeddings – auf: moz.com am 3. Oktober 2024 (englisch)
- Gus Pelogia: Using the Screaming Frog SEO Spider and OpenAI Embeddings to Map Related Pages at Scale – auf: screamingfrog.co.uk am 23. September 2024 (englisch)
- Mike King: SEO Use Cases for Vectorizing the Web with Screaming Frog – auf: ipullrank.com am 5. August 2024 (englisch)
- Britney Mullers Original Python Script “SF Internal Link Opportunities” als Google Colab Notebook (englisch)
- Ana Pérez: Internal Linking Guide for SEO with Google Colab (Python) – auf: anaperezbotella.com (englisch/spanisch)
- Raffaele Visintin: Embeddings, Seo & Screaming Frog – auf: screamingfrog.club (englisch/mehrsprachig)
- Die offizielle Website der Google Sheets Erweiterung: Search Analytics for Sheets (englisch)
- Website der Sheets-Extension SEO Sheets (englisch)

Sven Giese
Sven ist ein echtes SMART LEMON Urgestein. Er ist seit 2012 bei uns und war der erste Mitarbeiter der Agentur. Als Head of SEO leitet er das SEO-Team und verantwortet in diesem Bereich das Tagesgeschäft. Außerdem bildet er Kolleg:innen in Sachen Suchmaschinenoptimierung aus. Den Großeltern kann man das so erklären: Sven macht was mit Computern. Und mit Nachdenken 😉