SEO

Google Crawler und Crawl-Budget: Der vollständige Guide

David Erdmann / 27. März 2026

SEO-Zitrone mit Sonnenbrille und Lupe mit diversen GBots und Spidern (Crawlern). - SMART LEMON
  • Home
  • Blog
  • Google Crawler und Crawl-Budget: Der vollständige Guide

Der vollständige Guide: wie Google crawlt, welche Crawler es gibt, was das Crawl Budget bestimmt und wie du das Crawling möglichst gezielt steuerst.

Die neue Google-Dokumentation ist dabei keine tief technische Spezialanleitung, sondern eher ein komprimierter Überblick über Grundprinzipien, Zuständigkeiten und Grenzen des eigenen Crawlings. Genau das macht sie für SEO interessant, denn sie verdichtet einige Punkte, die in der Praxis oft missinterpretiert werden. Im folgenden Blogbeitrag schlüsseln wir das Thema für dich auf.

Diesen Inhalt mit KI-Tools zusammenfassen

ChatGPTPerplexityClaude

TL;DR: Google Crawler & Crawl-Budget

  • Google crawlt das Web mit mehreren spezialisierten Bots, nicht nur dem Googlebot. Jeder hat einen eigenen User-Agent, eine eigene Aufgabe, und lässt sich separat per robots.txt steuern.
  • Crawling ist Phase 1 vor Indexierung und Ranking. Wer hier Probleme hat, verliert, bevor das Spiel überhaupt beginnt.
  • Häufiges Crawling ist ein Qualitätssignal – Google crawlt öfter, was Nutzer suchen und was sich aktualisiert. Seltenes Crawling ist kein Alarm, aber ein Hinweis, den man prüfen sollte.
  • Das Crawl Budget bestimmt, wie viele Seiten Google pro Zeitraum crawlt. Es ergibt sich aus Servergeschwindigkeit (Crawl-Rate-Limit) und dem, was Google für relevant hält (Crawl-Bedarf). Für Websites unter 1000 Seiten ist es selten ein Problem. Ab 10 000 URLs mit Facetten-Navigation oder vielen technischen Duplikaten wird es kritisch.
  • KI-Crawler sind eine eigene Kategorie. GPTBot, PerplexityBot, ClaudeBot und Google-Extended crawlen unabhängig von Google Search. Google-Extended blockieren kostet kein Ranking. KI-Crawler pauschal blockieren kostet GEO-Sichtbarkeit.

Was ist Google Crawling?

Google Crawling ist der automatisierte Prozess, mit dem Google neue Webseiten entdeckt, deren Inhalte analysiert und für die Aufnahme in den Suchindex vorbereitet. Kein Crawling, kein Ranking.

Der Prozess läuft in 3 aufeinanderfolgenden Phasen ab:

  1. Crawling: Automatisierte Systeme rufen URLs ab und lesen deren Inhalte
  2. Indexierung: Die gecrawlten Inhalte werden analysiert und in den Google-Index aufgenommen
  3. Ranking: Bei einer Suchanfrage bewertet und sortiert Google die indexierten Inhalte

Crawling ist Phase 1. Wer hier Probleme hat, verliert bereits vor dem Ranking.

Googles Crawler: Mehr als nur der Googlebot

Viele SEOs sprechen pauschal von „dem Googlebot“. Das ist ungenau. Google betreibt mehrere spezialisierte Crawler für unterschiedliche Zwecke:
CrawlerZweckUser-Agent (Auszug)
Googlebot (Desktop)Indexierung für Desktop-SucheGooglebot/2.1
Googlebot (Smartphone)Mobile-First-Indexierung (Standard-Bot)Googlebot (Smartphone)
Googlebot-ImageGoogle ImagesGooglebot-Image/1.0
Googlebot-VideoGoogle Video-SucheGooglebot-Video/1.0
Googlebot-NewsGoogle NewsGooglebot-News
AdsBot-GoogleQualitätsprüfung für Ads Landing PagesAdsBot-Google
Google-ExtendedDatenerhebung für KI-Modelle (Gemini)Google-Extended

Googles Crawler nutzen erkennbare User-Agents und verifizierbare IP-Adressen. Wer Logfiles analysiert, sollte nach Crawler-Typ differenzieren: Nicht alle Googlebot-Zugriffe haben dieselbe Funktion.

Konkret: In der Search Console unter Einstellungen > Crawl-Statistiken siehst du (in einer etwas anderen Benennung), welcher Crawler wie oft auf deine Seite zugegriffen hat. Abweichungen zwischen Typen können auf technische Probleme oder Crawl-Budget-Verschwendung hinweisen.

Screenshot Crawling-Statistiken aus der Google Search Console - SMART LEMON

Häufiges Crawling: Was es bedeutet (und was nicht)

Googles Dokumentation enthält eine ungewöhnlich klare Aussage: Wenn Google eine Website häufig crawlt, ist das grundsätzlich ein positives Signal. Google verknüpft hohe Crawl-Aktivität mit 2 Faktoren:

  • Frische Inhalte: Seiten, deren Inhalte sich regelmäßig ändern (Preise, Verfügbarkeiten, News)
  • Nutzer-Nachfrage: Inhalte, nach denen Search-Nutzer aktiv suchen

Das Paradebeispiel: E-Commerce-Seiten werden häufiger gecrawlt, damit aktuelle Preise und Produktverfügbarkeiten in den Suchergebnissen erscheinen. Verzögerte Crawls würden zu veralteten Snippets führen.

Was häufiges Crawling nicht bedeutet: Es garantiert weder Indexierung noch gute Rankings. Der Zusammenhang ist eher umgekehrt: Seiten, die Search-seitig relevant sind, werden häufiger gecrawlt.

Konkret: Sehr wenige Googlebot-Zugriffe in den Logfiles sind kein Ranking-Killer, aber ein mögliches Warnsignal. Frage: Wird die Seite regelmäßig aktualisiert? Gibt es Indexierungsprobleme? Blockiert robots.txt relevante Seiten versehentlich?

Warum Google dieselbe URL mehrfach crawlt

Moderne Webseiten sind komplex. Google kann dieselbe URL mehrfach aufrufen, um ein vollständiges Bild zu erhalten:

  1. Erster Crawl: HTML-Grundstruktur erfassen
  2. Zweiter Crawl (Rendering): JavaScript-gerenderte Inhalte nachladen
  3. Weitere Crawls: Einzelne Ressourcen wie Bilder oder strukturierte Daten

Für JavaScript-lastige Websites (SPAs, React, Angular) ist das besonders relevant. Inhalte, die erst nach JS-Ausführung sichtbar werden, erreichen Google erst beim zweiten oder dritten Crawl. Manchmal gar nicht.

Konkret:

  • Prüfe via Search Console > URL-Überprüfung > Live-Test, ob Google deine Seite gerendert sieht (siehe unten)
  • Teste serverseitiges Rendering (SSR) oder Static Site Generation (SSG) für kritische Seiten
  • Vermeide, wichtige Inhalte hinter Lazy-Load-Konstrukten zu verstecken
Screenshot des Live-URL-Tests in der Google Search Console

Was ist das Crawl Budget?

Nicht jede Seite einer Domain wird gleich häufig gecrawlt. Google verteilt seine Crawl-Kapazität dynamisch. Das Konzept: Crawl Budget.

Crawl Budget = Crawl-Rate-Limit × Crawl-Bedarf

FaktorDefinitionSteuerung durch Site Owner
Crawl-Rate-LimitWie schnell darf Google crawlen, ohne den Server zu überlasten?Indirekt: Servergeschwindigkeit und Antwortzeiten optimieren
Crawl-BedarfWie viele Seiten bewertet Google als relevant und aktuell genug zum Crawlen?Direkt: Content-Qualität, Linkstruktur, Aktualität

Google passt beide Faktoren dynamisch in Echtzeit an. Steigt die Fehlerrate oder die Antwortzeit, reduziert Google die Crawl-Rate automatisch, ohne Vorwarnung.

Wann ist das Crawl Budget relevant? Für kleine Websites unter 1.000 Seiten mit schnellen Servern spielt es meist keine Rolle. Kritisch wird es bei:

  • Websites mit mehr als 10.000 URLs
  • E-Commerce-Shops mit Facetten-Navigation
  • Nachrichtenseiten mit hohem Publikationsvolumen
  • Websites mit vielen technischen Duplikaten

Wie berechnet Google das Crawl-Rate-Limit?

Google analysiert 3 Signale:

  1. Server-Antwortzeit: Unter 200 ms crawlt Google aggressiver. Über 500 ms drosselt Google spürbar.
  2. HTTP-Fehlerrate: Mehr als 5 % 5xx-Fehler reduzieren das Crawl-Rate-Limit.
  3. Historische Crawl-Daten: Google lernt aus vergangenen Sessions, wie viel eine Domain verträgt.

Das Crawl-Rate-Limit kannst du nicht manuell senken oder erhöhen. Die Suchmaschine empfiehlt bei der Notwendigkeit einer Senkung aber entweder die Ausgabe von einem Statuscode 500, 503 oder 429. Alternativ gibt es auch einen Report, den du melden kannst (weiter unten verlinkt).

Die neun größten Crawl-Budget-Killer

#FaktorAuswirkungErkennungsmethodeFix
1Facetten-Navigation ohne CanonicalHunderte bis Millionen parametrisierter URLsSearch Console > Indexabdeckung > nicht indexiertCanonical auf Hauptkategorie; noindex auf Filtervarianten
2Redirect-Ketten (3+ Hops)Jeder Hop kostet Crawl-Budget und verlangsamt den CrawlScreaming Frog > Response Codes > 3xx-ChainsDirekte Redirects auf finale URL
3Session-IDs in URLsIdentischer Content unter Millionen verschiedener URLsLogfile-Analyse; Search Console > URL-MusterSession-IDs entfernen oder via robots.txt blockieren
4Interne Links auf 404-SeitenCrawler-Zeit für tote Seiten verschwendetScreaming Frog > Response Codes > 4xxTote Links bereinigen; 301 auf relevante Zielseiten
5Langsame Seiten (> 2s TTFB)Google drosselt automatischSearch Console > Core Web Vitals; GTmetrixServer-Caching, CDN, Datenbankoptimierung
6Duplizierter Content ohne CanonicalCrawler erschöpft sich an Varianten statt Unique ContentSiteliner; Screaming Frog > Duplicate ContentCanonicals konsequent setzen
7Orphan Pages (kein interner Link)Seiten ohne interne Links werden selten gecrawltScreaming Frog > Orphan Pages-ReportRelevante interne Links auf verwaiste URLs setzen
8Zu große XML-Sitemaps (> 50k URLs)Parsing-Overhead; nicht alle URLs werden verarbeitetSearch Console > Sitemaps > FehlerSitemaps aufteilen (< 10.000 URLs je Datei)
9robots.txt blockiert RessourcenCSS/JS blockiert > Rendering unmöglich > keine IndexierungSearch Console > URL-Überprüfung > ScreenshotRessourcen in robots.txt freigeben

Crawl-Budget-Audit: 10-Punkte-Checkliste

Bevor du optimierst, benötigst du eine Baseline. Diese Prüfschritte liefern sie:

  • Google Search Console > Crawl-Statistiken: Wie viele URLs crawlt Google täglich? Trend steigend oder sinkend?
  • Search Console > Indexabdeckung: Wie viele URLs sind gecrawlt, aber nicht indexiert? (Signal für Budget-Verschwendung)
  • Logfile-Analyse: Welche URLs crawlt Google am häufigsten? Sind das deine wichtigen Seiten?
  • robots.txt prüfen: Blockiert die Datei CSS, JS oder relevante Inhaltsbereiche versehentlich?
  • Redirect-Ketten identifizieren: Screaming Frog oder Sitebulb > alle 3xx-Chains mit 3+ Hops auflisten
  • Duplicate-Content-Scan: Siteliner oder Screaming Frog > prozentualer Anteil duplizierten Contents
  • Parametrisierte URLs prüfen: Logfiles zeigen, ob Filtervarianten gecrawlt werden
  • Orphan Pages identifizieren: Screaming Frog > nicht intern verlinkte URLs
  • Sitemap-Qualität prüfen: Sind alle URLs in der Sitemap crawlbar und indexiert? Das kannst du gut im Index-Report der Search Console einsehen.
  • Server-Antwortzeiten messen: Antwortzeit < 200 ms unter Last ist das Ziel; Für eine detaillierte Analyse nutzt du am besten externe Tools (bspw. GTMetrix). Der Bereich Core Web Vitals in der GSC liefert ebenfalls Anhaltspunkte.

Crawl Budget optimieren: Die wichtigsten Hebel

Priorität 1: Budget-Killer eliminieren

Redirect-Ketten auflösen, tote Links bereinigen, parametrisierte URLs via robots.txt oder Canonical konsolidieren. Das sind die schnellsten Gewinne.

Priorität 2: Crawl-Bedarf steigern

Mehr Seiten regelmäßig aktualisieren (Datum im HTML sichtbar und dateModified im Schema), hochwertige interne Verlinkung auf wichtige Seiten aufbauen (siehe hierzu unseren Beitrag zur internen Link-Matrix), Backlinks für priorisierte URLs entwickeln.

Priorität 3: Server-Performance verbessern

Ziel: Time to First Byte (TTFB) unter 200 ms. Ein schneller Server erlaubt Google, mehr Seiten pro Zeiteinheit zu crawlen, ohne die Drosselungs-Grenze zu erreichen.

Priorität 4: Sitemaps strukturieren

Separate Sitemaps für Haupt-Content, News, Bilder und Videos. Jede Sitemap unter 10.000 URLs. Sitemaps in der Google Search Console einreichen und regelmäßig auf Fehler prüfen.

Login-Walls, Paywalls und gesperrte Inhalte

Google crawlt ohne spezielle Freigabe keine Inhalte hinter Login-Schranken oder Paywalls. Für Inhalte, die trotzdem indexiert werden sollen, gibt es dokumentierte Lösungen:

  • Flexible Sampling: Menschlichen Nutzern nach X Artikeln eine Paywall zeigen, Google aber vollständigen Zugriff erlauben (mit Schema-Auszeichnung)
  • Lead Wall: Vorschau öffentlich, Rest hinter Login. Via Preview Controls steuerbar.
  • Kein Cloaking: Googlebot andere Inhalte zeigen als menschlichen Nutzern ist ein klarer Verstoß gegen Googles Spam-Richtlinien.

KI-Crawler: Wer crawlt neben Google?

Seit 2023 sind zahlreiche KI-Crawler aktiv, die Content für LLM-Training und KI-Antworten sammeln. Für GEO-Zitierbarkeit ist entscheidend, wer Zugriff hat.
KI-CrawlerBetreiberZweckrobots.txt-Blockierung
GPTBotOpenAI (ChatGPT)LLM-Training und RetrievalUser-agent: GPTBot
PerplexityBotPerplexity AIEchtzeit-Suche und QuellenauswahlUser-agent: PerplexityBot
ClaudeBotAnthropicLLM-TrainingUser-agent: ClaudeBot
Google-ExtendedGoogleKI-Modelltraining (Gemini)User-agent: Google-Extended
Applebot-ExtendedAppleKI-Features (Apple Intelligence)User-agent: Applebot-Extended
BytespiderByteDance / TikTokLLM-TrainingUser-agent: Bytespider

Google-Extended zu blockieren beeinflusst das Ranking in der Google-Suche nicht. Wer KI-Trainingsdaten schützen will, kann Google-Extended separat sperren, ohne Ranking-Nachteile.

Beispiel robots.txt für selektives Blocking:

				
					User-agent: GPTBot
Disallow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Disallow: /premium/

				
			

Für GEO: Wer in KI-Antworten zitiert werden will, sollte KI-Crawler nicht pauschal blockieren. Perplexity, ChatGPT und Gemini können Inhalte nur referenzieren, wenn ihre Crawler Zugriff hatten. Siehe zu diesem Thema auch unseren Beitrag „LLMs und SEO„.

Steuerung: Was du als Site Owner kontrollieren kannst

ToolFunktionWichtigste Einschränkung
robots.txtCrawl-Zugriff erlauben oder sperrenBlockiert Crawling, nicht Indexierung
Robots-Meta-TagIndexierung und Darstellung steuern (noindex, nofollow, nosnippet)Wird nur gelesen, wenn die Seite gecrawlt wird
SitemapsNeue und aktualisierte URLs priorisiert meldenKein Ranking-Signal, hilft aber der Crawl-Effizienz
Search ConsoleCrawl-Statistiken, Probleme, manuelle URL-ÜberprüfungReaktiv, keine direkte Crawl-Rate-Steuerung
Häufiger Irrtum: robots.txt verhindert das Crawling, nicht die Indexierung. Eine gesperrte URL kann trotzdem in den Suchergebnissen erscheinen, wenn andere Seiten auf sie verlinken. Dann allerdings ohne Snippet und ohne Kontext.

Fragen und Antworten rund um Google Crawler und Crawl Budget

Was macht der Googlebot genau?

Der Googlebot ist ein automatisiertes Programm (Spider/Crawler), das URLs aufruft, deren HTML-Inhalte liest und neue Links entdeckt, um diese ebenfalls zu crawlen. Er kann JavaScript ohne zusätzlichen Rendering-Schritt nicht ausführen.

Wie oft crawlt Google meine Website?

Das hängt vom Crawl Budget ab. Kleine Websites mit wenigen Seiten werden möglicherweise täglich gecrawlt. Große Domains mit Millionen URLs können Wochen auf einen vollständigen Crawl-Zyklus warten, wenn überhaupt. Aktuelle Inhalte (News, E-Commerce) werden häufiger gecrawlt als statische Seiten.

Was ist der Unterschied zwischen Crawling und Indexierung?

Crawling: Google besucht die URL und liest den Inhalt. Indexierung: Google speichert und verarbeitet diesen Inhalt für die Suche. Eine gecrawlte Seite ist nicht automatisch indexiert. Eine indexierte Seite wurde jedoch immer gecrawlt.

Wie sehe ich mein Crawl Budget in der Search Console?

Dein Crawl-Budget kannst du nicht direkt einsehen. Eine Annäherung findest du aber in der Google Search Console > Einstellungen > Crawling-Statistiken. Dort siehst du Crawl-Anfragen pro Tag (letzte 90 Tage), durchschnittliche Antwortzeit und Dateigröße, aufgeschlüsselt nach Crawler-Typ. Und apropos Dateigröße: Seit Februar 2026 gilt ein neues 2‑MB-Crawling-Limit bei Google. Prüfe also unbedingt, wie groß deine Dateien sind.

Kann ich mein Crawl Budget erhöhen?

Direkt nicht. Google bestimmt das Budget. Indirekt kannst du es verbessern: Servergeschwindigkeit erhöhen, Budget-Killer eliminieren, interne Verlinkung optimieren und Seiten regelmäßig aktualisieren.

Beeinflusst das Crawl Budget Rankings direkt?

Nicht direkt. Wenn wichtige Seiten nicht gecrawlt werden, können sie nicht indexiert werden, und eine nicht indexierte Seite hat kein Ranking. Crawl Budget ist ein notwendiges, kein hinreichendes Ranking-Signal.

Kann ich bestimmte KI-Crawler blockieren, ohne Google-Rankings zu verlieren?

Ja. Google-Extended, GPTBot und andere KI-Crawler können in robots.txt separat gesteuert werden. Das Blockieren von Google-Extended beeinflusst weder Crawling noch Ranking in der Google-Suche.

Wie schnell indexiert Google eine neue Seite?

Sehr unterschiedlich: von einigen Minuten/Stunden bei gut verlinkten News-Seiten bis zu mehreren Wochen bei neuen Domains ohne Backlinks. Die schnellste Methode ist die URL-Überprüfung in der Search Console mit manuellem Indexierungsantrag.

Was passiert, wenn Google meine Seite nicht crawlen kann?

Seiten, die nicht gecrawlt werden (z. B. durch robots.txt blockiert oder durch Server-Fehler unerreichbar), können nicht indexiert werden. Rendering-Probleme durch JavaScript können dazu führen, dass nur Teile des Inhalts indexiert werden.

Sollte ich KI-Crawler im Crawl Budget berücksichtigen?

KI-Crawler wie GPTBot oder PerplexityBot haben kein Crawl Budget im SEO-Sinne: Sie crawlen unabhängig von Google. Für GEO-Zitierbarkeit solltest du sicherstellen, dass diese Bots in robots.txt nicht blockiert sindund alle relevanten Inhalte auch sehen/erfassen können.

David Erdmann
Senior SEO Consultant

David startete 2016 als Trainee bei SMART LEMON. Gestartet mit einem redaktionellen Hintergrund, ist er mittlerweile Senior SEO Manager und bespielt alle Bereiche der Suchmaschinenoptimierung: von Technik über Content bis Strategie.

menu-2