Wachstumstaktiken für Verlage für die Wahlsaison | WEBINAR

Erfahren Sie mehr

SODP

SODP Media

  • Education
    • Articles
      • Audience Development
      • Content Strategy
      • Digital Publishing
      • Monetization
      • SEO
      • Digital Platforms & Tools
    • Opinion
    • Podcast
    • Events
      • SODP Dinner Event London 2025
      • SODP Dinner Event Dubai 2025
      • SODP Dinner Event California 2025
      • All Events
  • Top Tools & Reviews
  • Research & Resources
  • Community
    • Slack Channel
    • Newsletter
  • About
    • About Us
    • Contact Us
    • Editorial Policy
  • English
sodp logo
SODP logo
    Suchen
    Schließen Sie dieses Suchfeld.
    Anmeldung
    • Ausbildung
      • Podcast
      • Artikel
        • Zielgruppenentwicklung
        • Content-Strategie
        • Digitales Publizieren
        • Monetarisierung
        • SEO
        • Digitale Plattformen und Tools
        • Artikel
        • Meinung
        • Podcasts
        • Veranstaltungen
        • Zielgruppenentwicklung
        • Content-Strategie
        • Digitales Publizieren
        • Monetarisierung
        • SEO
        • Digitale Plattformen und Tools
        • Alle ansehen
    • Top-Tools & Bewertungen
        • Headless CMS-Plattformen
        • Digitale Publishing-Plattformen
        • Redaktionelle Kalendersoftware
        • Zeitschriften-Apps
        • E-Mail-Newsletter-Plattformen
        • Weitere Listen mit den besten Werkzeugen
        • Rezensionen
    • Forschung und Ressourcen
    • Gemeinschaft
      • Slack-Channel
      • Geschäftszeiten
      • Newsletter
        • Slack-Channel
        • Newsletter
    • Um
      • Über uns
      • Kontaktiere uns
      • Redaktionelle Richtlinien
        • Über uns
        • Kontaktiere uns
        • Redaktionelle Richtlinien
    Platzhalter
    SODP logo
    Werden Sie Markenpartner

    Startseite > SEO-Kurs für Publisher > Kapitel 2: Technische SEO > Crawl-Geschwindigkeit und -Frequenz
    6

    Crawling-Geschwindigkeit und -Frequenz

    Crawling-Geschwindigkeit und -Frequenz
    Vorheriges Modul
    Zurück zum Kapitel
    Nächstes Modul

    Lernziel

    Nach Durcharbeiten dieses Moduls sollten Sie verstehen, was ein Crawl-Budget ist, wie es einer Website zugewiesen wird und wie Sie es optimieren können.

    Videodauer

    23:27

    Quiz beantworten

    Nehmen Sie das aktuelle Modulquiz

    Materialien

    Gebrauchsfertige Vorlagen

    Ressourcen

    Berichte und Ressourcen

    Zeitlimit: 0

    Quizzusammenfassung

    0 von 9 Fragen abgeschlossen

    Fragen:

    Information

    Sie haben das Quiz bereits abgeschlossen. Daher können Sie es nicht erneut starten.

    Quiz wird geladen…

    Sie müssen sich anmelden oder registrieren, um das Quiz zu starten.

    Sie müssen zunächst Folgendes erledigen:

    Ergebnisse

    Quiz abgeschlossen. Die Ergebnisse werden protokolliert.

    Ergebnisse

    0 von 9 Fragen richtig beantwortet

    Deine Zeit:

    Die Zeit ist vergangen

    Sie haben 0 von 0 Punkten erreicht, ( 0 )

    Erreichte(r) Punkt(e): 0 von 0 , ( 0 )
    0 Essay(s) ausstehend (Mögliche(r) Punkt(e): 0 )

    Kategorien

    1. Nicht kategorisiert 0%
    1. 1
    2. 2
    3. 3
    4. 4
    5. 5
    6. 6
    7. 7
    8. 8
    9. 9
    1. Aktuell
    2. Rezension
    3. Antwortete
    4. Richtig
    5. Falsch
    1. Frage 1 von 9
      1. Frage

      Was ist ein Crawl-Budget?

      Richtig
      Falsch
    2. Frage 2 von 9
      2. Frage

      Ein Maß dafür, wie oft Google eine bestimmte Seite/Website erneut crawlen möchte, wird als ____ bezeichnet.

      Richtig
      Falsch
    3. Frage 3 von 9
      3. Frage

      Crawl-Budgets sind im Allgemeinen nur für Publisher relevant, deren Website mehr als wie viele Seiten hat?

      Richtig
      Falsch
    4. Frage 4 von 9
      4. Frage

      Wo findet man Statistiken zum Kriechen?

      Richtig
      Falsch
    5. Frage 5 von 9
      5. Frage

      Was ist die Datei „robots.txt“?

      Richtig
      Falsch
    6. Frage 6 von 9
      6. Frage

      Welche der folgenden Maßnahmen können Ihr Budget für die Datenerfassung reduzieren?

      Richtig
      Falsch
    7. Frage 7 von 9
      7. Frage

      Welche der folgenden Aufgaben kann ein Drittanbieter-Crawler wie Semrush oder Screaming Frog NICHT ausführen?

      Richtig
      Falsch
    8. Frage 8 von 9
      8. Frage

      Was bedeutet Folgendes? Tags an einen Crawler übermitteln?

      Richtig
      Falsch
    9. Frage 9 von 9
      9. Frage

      Was bedeutet der Fehlercode 503?

      Richtig
      Falsch

    2.6.1 Was ist ein Crawl-Budget?

    Das Crawl-Budget ist die Anzahl der Seiten Ihrer Website, die ein Webcrawler innerhalb eines bestimmten Zeitraums durchsuchen wird.

    Jedes Mal, wenn Sie auf „Veröffentlichen“ klicken, muss Google die Inhalte crawlen und indexieren, damit sie in den Suchergebnissen erscheinen. Angesichts des Umfangs und der Menge an Inhalten im Internet ist das Crawling eine wertvolle Ressource, die budgetiert und rationiert werden muss, um sie möglichst effizient zu nutzen.

    Vereinfacht gesagt, ist es für Google schwierig, jeden Tag jede einzelne Seite im Internet zu durchsuchen und zu indexieren. Daher durchsucht Google jede Website entsprechend seinem zugewiesenen Budget.

    2.6.2 Wie wird das Crawling-Budget den Websites zugewiesen?

    Das Crawl-Budget wird Websites auf der Grundlage zweier Faktoren zugewiesen – Crawl-Limit und Crawl-Nachfrage.

    Kriechgrenze

    Dies ist die Fähigkeit und/oder Bereitschaft einer Website, gecrawlt zu werden.

    Nicht jede Website ist für den täglichen Crawling-Vorgang ausgelegt. Beim Crawling sendet der Googlebot Anfragen an den Server Ihrer Website, was bei zu häufiger Durchführung die Serverkapazität überlasten kann.

    Außerdem möchte nicht jeder Herausgeber, dass seine Website ständig gecrawlt wird.

    Kriechbedarf

    Die Crawl-Anforderung ist ein Maß dafür, wie oft eine bestimmte Seite (erneut) gecrawlt werden sollte. Beliebte oder häufig aktualisierte Seiten müssen häufiger gecrawlt und erneut gecrawlt werden.

    2.6.3 Warum sollten sich Verlage um das Crawl-Budget kümmern?

    Wenn Google Ihre Inhalte nicht crawlen und indexieren kann, werden diese Inhalte einfach nicht in den Suchergebnissen angezeigt.

    Das heißt, Crawling-Budgets sind in der Regel nur für mittlere bis große Verlage relevant, deren Website mehr als 10.000 Seiten umfasst. Kleinere Verlage brauchen sich darüber keine großen Gedanken zu machen.

    Webseiten mit 10.000 oder mehr Seiten sollten jedoch vermeiden, dass der Googlebot unwichtige Seiten crawlt. Wird das Crawling-Budget für irrelevante oder weniger wichtige Inhalte aufgebraucht, werden möglicherweise wertvollere Seiten nicht gecrawlt.

    Darüber hinaus sollten Nachrichtenverlage ihre Crawling-Budgets sorgfältig im Auge behalten, da das Crawling eine der drei Methoden ist, mit denen Google News zeitnah neue Inhalte findet. Die beiden anderen Methoden sind Sitemaps und das Google Publisher Center, die wir in unseren Modulen Google News Sitemap und Google Publisher Center

    2.6.4 Optimierung für Crawler

    Die Optimierung der Häufigkeit und Geschwindigkeit, mit der Googlebot Ihre Website crawlt, erfordert die Überwachung verschiedener Variablen. Wir beginnen mit einer Auflistung der wichtigsten Faktoren für die Optimierung des Crawl-Budgets und der Crawl-Frequenz.

    Inhalte durchsuchen

    Die beiden nützlichsten Taktiken, um zu überwachen, wie Ihre Inhalte gecrawlt werden, sind die Analyse von Protokolldateien und des Crawling-Statistikberichts der Google Search Console (GSC).

    1. Analyse der Protokolldateien

    Eine Logdatei ist ein Textdokument, das alle Aktivitäten auf dem Server Ihrer Website aufzeichnet. Dies umfasst alle Daten zu Crawling-Anfragen, Seitenaufrufen, Bildanfragen, Anfragen nach JavaScript-Dateien und allen anderen Ressourcen, die zum Betrieb Ihrer Website benötigt werden.

    Für die technische Suchmaschinenoptimierung (SEO) liefert die Logdateianalyse viele nützliche Informationen über das URL-Crawling, darunter unter anderem:

    • Welche URLs wurden gecrawlt?.
    • Welche URLs werden am häufigsten gecrawlt?.
    • Identifizierung von URLs mit geringem Wert oder solchen, die nicht essentiell sind, die gecrawlt werden und dadurch das Crawling-Budget verschwenden.

    Wie geht es darum

    Die Analyse von Logdateien erfordert gewisse technische Kenntnisse des Website-Backends. Daher empfehlen wir die Verwendung einer Logdatei-Analysesoftware. Es gibt zahlreiche kostenlose und kostenpflichtige Tools zur Logdateianalyse, darunter beispielsweise Graylog , Loggly , Elastic Stack , Screaming Frog Log Analyzer und Nagios .

    Wenn Sie ein erfahrener Entwickler oder Systemadministrator sind, können Sie auch manuell eine Protokolldateianalyse durchführen.

    Gehen Sie dazu wie folgt vor:

    1. Melden Sie sich im cPanel Ihres Hosting-Anbieters an
    1. Navigieren Sie zu Merics und dann zu Rohdatenzugriff
    1. Laden Sie die Protokolldatei herunter

    Nachdem Sie die Protokolldatei heruntergeladen haben, können Sie die Dateiendung in .csv ändern und sie mit Microsoft Excel oder Google Sheets öffnen. Wie bereits erwähnt, erfordert diese Vorgehensweise jedoch gewisse Fachkenntnisse, um die Protokolldatei richtig auszuwerten.

    Sie können die Protokolldatei auch über einen FTP-Client aufrufen, indem Sie den Pfad zur Protokolldatei eingeben. Ein typischer Protokolldateipfad sieht etwa so aus:

    Servername (z. B. Apache) /var/log/access.log

    Es ist jedoch wesentlich komfortabler, stattdessen ein Log-Analyse-Tool zu verwenden. Sobald Sie die Logdatei in das Tool hochgeladen haben, können Sie die Daten mithilfe verschiedener Filter sortieren. So können Sie beispielsweise sehen, auf welche URLs Googlebot am häufigsten zugegriffen hat.

    Sie können außerdem überprüfen, ob Googlebot auf nicht essentielle oder minderwertige URLs wie beispielsweise Facettennavigations-URLs, doppelte URLs usw. zugegriffen hat. Die Identifizierung dieser URLs ist wichtig, da sie Ihr Crawling-Budget verschwenden.

    Schauen Sie sich den untenstehenden Screenshot an, der aus dem SEO Log File Analyser von Screaming Frog stammt, um zu sehen, was wir meinen.

    Protokolldateianalyse

    2. GSC Crawl-Statistikbericht

    GSC liefert Website-Betreibern umfassende Daten und Einblicke darüber, wie Google ihre Inhalte crawlt. Dazu gehören detaillierte Berichte über:

    • Welche Dateien/Seiten wurden durchsucht und zu welchem ​​Zweck?.
    • Welcher Googlebot-Typ (Nachrichten, Videos, Mobilgeräte usw.) hat das Crawling durchgeführt?.
    • Gesamtzahl der Crawl-Anfragen usw.

    GSC stellt außerdem leicht verständliche Grafiken und Diagramme zur Verfügung, um Website-Betreibern noch mehr Informationen zu bieten. Der folgende Screenshot zeigt, wie ein typischer Crawling-Statistikbericht auf GSC aussieht.

    GSC Crawl-Statistikbericht

    Quelle

    Die Google Search Console (GSC) informiert Sie auch über eventuelle Probleme beim Crawling. Sie prüft auf verschiedene Fehler und weist jedem einen Code zu. Zu den häufigsten Fehlern, auf die die GSC prüft, gehören:

    • Serverfehler [5xx]
    • Umleitungsfehler
    • Die übermittelte URL wurde durch robots.txt blockiert
    • Eingereichte URL mit dem Hinweis „noindex“ gekennzeichnet
    • Die angegebene URL scheint ein Soft-404-Fehler zu sein
    • Die übermittelte URL lieferte den Fehlercode 401 zurück
    • Die angegebene URL wurde nicht gefunden (404)
    • Die angegebene URL lieferte den Fehlercode 403 zurück
    • Die übermittelte URL wurde aufgrund eines anderen 4xx-Fehlers blockiert

    Der GSC-Bericht zeigt außerdem, wie viele Seiten von jedem Fehler betroffen sind und welchen Validierungsstatus dies hat.

    Wie geht es darum

    So greifen Sie auf den GSC-Crawling-Statistikbericht für Ihre Website oder Webseite zu:

    1. Um GSC nutzen zu können, müssen Sie sich anmelden .
    1. Als Nächstes müssen Sie nachweisen, dass Sie Inhaber der Website sind, die Sie der Google Search Console hinzufügen möchten. Dies geschieht durch das Hinzufügen einer sogenannten „Property“. Eine Property ist alles, was in der Google Search Console geprüft werden soll. Das kann eine einzelne Seite oder eine ganze Website sein.
    1. Um die Inhaberschaft einer Website zu überprüfen, wählen Sie „GSC öffnen“, navigieren Sie zu „Property Selector“ und klicken Sie im Property Selector auf „Neue Immobilie hinzufügen“.
    1. Anschließend wird Ihnen eine Liste mit Verifizierungsmethoden angezeigt, mit denen Sie Ihre Inhaberschaft der Website/Seite nachweisen können.

    Diese beinhalten:

    • HTML-Datei-Upload
    • HTML-Tag
    • Google Analytics Tracking-Code
    • Google Tag Manager
    • Domainnamen-Anbieter
    • Google Sites, Blogger oder Domain-Konto.
    1. Wählen Sie Ihre Verifizierungsmethode. Sobald Ihre Immobilie verifiziert wurde, wird sie im Google Search Console (GSC) angezeigt und Sie können detaillierte Analysen zu ihrem Crawling-Budget und ihrer Aktivität einsehen.

    Crawl-Budget optimieren 

    Wir wissen nun, dass das Crawling-Budget eine wertvolle Ressource ist, deren Nutzung für optimale Ergebnisse optimiert werden muss. Hier sind einige Techniken, wie das gelingen kann:

    1. Doppelte Inhalte korrigieren

    Doppelte Inhalte werden möglicherweise separat gecrawlt, was zu einer Verschwendung des Crawling-Budgets führt. Um dies zu vermeiden, sollten Sie entweder doppelte Seiten Ihrer Website zu einer einzigen Seite zusammenfassen oder die doppelten Seiten löschen.

    2. Verwenden Sie die robots.txt-Datei

    Die robots.txt-Datei erfüllt verschiedene Zwecke. Unter anderem weist sie den Googlebot an, bestimmte Seiten oder Seitenabschnitte nicht zu crawlen. Dies ist eine wichtige Strategie, um zu verhindern, dass der Googlebot Inhalte mit geringem Wert oder Inhalte, die nicht gecrawlt werden müssen, erfasst.

    Hier sind einige bewährte Vorgehensweisen für die Verwendung von robots.txt zur Optimierung des Crawl-Budgets:

    • Weisen Sie den Parametern, deren Crawling verhindert werden soll, eine Priorität in der Reihenfolge Ihrer Präferenz zu.
    • Anhand von Protokolldateien können Sie die Roboter, Direktiven und Parameter identifizieren, die zusätzliche Crawls verursachen.
    • Blockieren Sie gängige Pfade, die CMS typischerweise haben, wie z. B. 404-Seiten, Admin-Seiten, Anmeldeseiten usw.

    Wie geht es darum

    Das Erstellen und Ausführen einer robots.txt-Datei zur Einschränkung des Googlebot-Zugriffs erfordert Programmierkenntnisse. Hier sind die notwendigen Schritte:

    1. Eine robots.txt-Datei wird mit einem Texteditor wie Notepad erstellt. Die Datei muss den Namen robots.txt tragen, damit Googlebot sie erkennt.
    1. Sobald eine Datei erstellt wurde, fügen wir ihr Regeln hinzu, das heißt, wir geben eine Reihe von Anweisungen an, die der Datei mitteilen, dass der Zugriff bestimmter Agenten unter bestimmten Bedingungen blockiert werden soll.

    Eine typische robots.txt-Datei enthält folgende Elemente:

    • Ein Benutzeragent, wie beispielsweise Googlebot, dem der Zugriff verweigert werden soll
    • Ein Eintrag zum Verboten oder Zulassen, der eine Datei oder ein Verzeichnis angibt, auf das der Zugriff für den Benutzeragenten eingeschränkt werden soll
    • Eine Sitemap, die Google mitteilt, welche Inhalte gecrawlt werden sollen.

    Nachfolgend sehen Sie, wie eine einfache robots.txt-Datei aussieht.

    Verwende robots.txt

    Quelle 

    Dieser Code bedeutet, dass ein User-Agent – ​​in diesem Fall Googlebot – keine URL crawlen darf, die mit „ http://www.example.com/nogooglebot/ “ beginnt.

    1. Sobald Ihre Datei erstellt und auf Ihrem lokalen Rechner gespeichert ist, muss sie auf Ihre Website hochgeladen werden. Die Vorgehensweise hängt von Ihrem Server und Ihrem Hosting-Anbieter ab. Bitte kontaktieren Sie Ihren Anbieter, um die genauen Schritte zu erfahren.

    Wir empfehlen Ihnen, sich professionelle Hilfe zu suchen, wenn Sie sich beim Erstellen und Hochladen von robots.txt-Dateien nicht wohlfühlen.

    3. Segment-XML-Sitemaps

    Ein Crawler-Bot erreicht eine Website mit einem allgemeinen Budget für die zu durchsuchenden Seiten. Die XML-Sitemap weist den Bot gezielt an, die ausgewählten URLs zu lesen und gewährleistet so die effiziente Nutzung dieses Budgets.

    Beachten Sie, dass die Ranking-Performance einer Seite von verschiedenen Faktoren abhängt, darunter die Inhaltsqualität und interne/externe Links. Erwägen Sie, nur Seiten der obersten Kategorie in die Sitemap aufzunehmen. Bildern kann eine eigene XML-Sitemap zugewiesen werden.

    Befolgen Sie diese Empfehlungen, um eine optimale Implementierung der XML-Sitemap zu gewährleisten:

    • Verweisen Sie auf die XML-Sitemap aus der robots.txt-Datei.
    • Erstellen Sie für eine sehr große Website mehrere Sitemaps. Fügen Sie einer einzelnen XML-Sitemap nicht mehr als 50.000 URLs hinzu.
    • Halten Sie es übersichtlich und fügen Sie nur indexierbare Seiten hinzu.
    • Halten Sie die XML-Sitemap auf dem neuesten Stand.
    • Die Dateigröße sollte unter 50 MB liegen.

    Für einen detaillierteren Einblick in Sitemaps verweisen wir auf unser entsprechendes Modul .

    4. Implementieren Sie eine effiziente interne Verlinkungsstrategie

    Interne Links erfüllen drei wichtige Funktionen:

    • Inhalte werden thematisch gegliedert, was dazu beiträgt, thematische Autorität aufzubauen.
    • Verteilung des Seitenwerts von hochwertigen Seiten auf andere Seiten.
    • Hilft Benutzern und Webcrawlern, die Website leichter zu navigieren.

    Für effizientes Crawling ist daher eine effiziente interne Verlinkungsstrategie wichtig. Weitere Informationen zur internen Verlinkung finden Sie in unserem ausführlichen Kursmodul hier.

    5. Hosting-Upgrade

    Wenn eine Website auf einer Shared-Hosting-Plattform läuft, wird das Crawling-Budget mit anderen Websites auf derselben Plattform geteilt. Für große Publisher kann unabhängiges Hosting eine sinnvolle Alternative darstellen.

    Bevor Sie Ihr Hosting upgraden, um die Überlastung durch Bot-Traffic zu beheben, sollten Sie einige Faktoren berücksichtigen, die sich andernfalls auf die Serverlast auswirken könnten.

    • Die Bildverarbeitung erfolgt über ein separates Content Delivery Network (CDN), das auch für die Verarbeitung von Bildformaten der nächsten Generation wie webp optimiert ist.
    • Berücksichtigen Sie bei der Bereitstellung von CPU und Festplattenspeicher die Funktionen und Anforderungen Ihrer Website.
    • Überwachen Sie die Aktivitäten mithilfe von Lösungen wie New Relic, um übermäßige Nutzung von Plugins und Bots zu erkennen.

    Mehr zu den Vorteilen von CDNs erfahren Sie in unserem Modul zur Seitenoptimierung .

    6. Verwenden Sie Javascript mit Bedacht

    Wenn Googlebot auf eine Webseite gelangt, rendert er alle Ressourcen dieser Seite, einschließlich JavaScript. Während das Crawlen von HTML relativ einfach ist, muss Googlebot JavaScript mehrmals verarbeiten, um es darstellen und seinen Inhalt verstehen zu können.

    Dies kann das Crawling-Budget von Google für eine Website schnell aufbrauchen. Die Lösung besteht darin, das JavaScript-Rendering serverseitig zu implementieren.

    Wie geht es darum

    Die Einbindung von JavaScript in den Quellcode Ihrer Website erfordert Programmierkenntnisse. Wir empfehlen Ihnen daher, einen Webentwickler zu konsultieren, falls Sie solche Änderungen planen. Im Folgenden finden Sie einige Richtlinien, worauf Sie bei der Optimierung der JavaScript-Nutzung achten sollten.

    • Vermeiden Sie das Senden von JavaScript-Ressourcen an den Client zum Rendern, damit Crawler ihre Ressourcen nicht unnötig verbrauchen und effizienter arbeiten können.
    • Verwenden Sie Lazy Loading auf Browserebene anstelle einer Javascript-basierten Lösung.
    • Verwenden Sie serverseitiges Tagging für Analysen und Tagging von Drittanbietern, entweder selbst gehostet oder mithilfe von Lösungen wie stape.io.

    7. CWVs überwachen

    CWVs sind ein Maß für die Seitenleistung, das sich direkt darauf auswirkt, wie Ihre Seite in den Suchergebnissen abschneidet.

    Der CWV-Bericht des GSC unterteilt die URL-Performance in drei Kategorien:

    • Metrischer Typ (LCP, FID und CLS)
    • Status
    • URL-Gruppen

    Crawling-Budgets können sich auch auf Ihre Seitenladezeiten auswirken. Beispielsweise können langsam ladende Seiten Ihr Budget stark belasten, da Google nur begrenzt Zeit für das Crawling hat. Laden Ihre Seiten schnell, kann Google innerhalb der begrenzten Zeit mehr Seiten crawlen. Ebenso können zu viele Fehlerstatusberichte das Crawling verlangsamen und Ihr Budget verschwenden.

    Für eine detailliertere Untersuchung von CWVs siehe unser Modul zum Thema Seitenerfahrung .

    8. Verwenden Sie einen Crawler eines Drittanbieters

    Ein Drittanbieter-Crawler wie Semrush , Sitechecker.pro oder Screaming Frog ermöglicht es Webentwicklern, alle URLs einer Website zu überprüfen und potenzielle Probleme zu identifizieren.

    Zur Identifizierung können Crawler von Drittanbietern verwendet werden:

    • Kaputte Links
    • Doppelte Inhalte
    • Fehlende Seitentitel

    Diese Programme bieten einen Crawling-Statistikbericht, der dazu beiträgt, Probleme aufzuzeigen, die von Googles eigenen Tools möglicherweise nicht erkannt werden.

    Die Verbesserung strukturierter Daten und die Reduzierung von Hygieneproblemen werden die Aufgabe des Googlebots beim Crawlen und Indexieren einer Website optimieren.

    Wir empfehlen folgende Best Practices bei der Verwendung von Crawlern von Drittanbietern:

    • Emulieren Sie Googlebot über die Such-Crawling-Einstellungen, um zu verhindern, dass Sie von Hosting-Anbietern blockiert werden, und um alle technischen Probleme ordnungsgemäß zu identifizieren und zu beheben.
    • Beheben Sie fehlende Seiten beim Crawling mithilfe dieser hervorragenden Anleitung von Screaming Frog .

    9. URL-Parameter überwachen

    URL-Parameter – der Teil der Webadresse, der auf das „?“ folgt – werden auf einer Seite aus verschiedenen Gründen verwendet, unter anderem zum Filtern, zur Paginierung und zur Suche.

    Dies kann zwar die Benutzerfreundlichkeit verbessern, aber auch zu Crawling-Problemen führen, wenn sowohl die Basis-URL als auch die URL mit Parametern denselben Inhalt zurückgeben. Ein Beispiel hierfür wären „http://mysite.com“ und „http://mysite.com?id=3“, die exakt dieselbe Seite anzeigen.

    Parameter ermöglichen einer Website eine nahezu unbegrenzte Anzahl an Links – beispielsweise wenn ein Nutzer in einem Kalender Tage, Monate und Jahre auswählen kann. Wenn der Bot diese Seiten crawlen darf, wird das Crawling-Budget unnötig verbraucht.

    Dies kann insbesondere dann problematisch sein, wenn Ihre Website Facettennavigation oder Sitzungskennungen verwendet, die mehrere doppelte Seiten erzeugen können, was beim Crawling zu einer Verschwendung des Crawling-Budgets führen könnte.

    Doppelte URLs können auch entstehen, wenn Sie lokalisierte Versionen Ihrer Webseite in verschiedenen Sprachen haben und der Inhalt dieser Seiten nicht übersetzt wurde.

    Wir empfehlen zur Behebung dieses Problems Folgendes:

    • Verwenden Sie robots.txt, um zu verhindern, dass Googlebot doppelte Seiten crawlt.
    • Verwenden Sie die<hreflang> Das hreflang-Attribut dient zur Angabe der Sprachvarianten des Inhalts. Es signalisiert dem Crawler, dass es sich um eine regionale Variante des Hauptinhalts handelt und verhindert so, dass die Seite als Duplikat registriert wird, falls sie noch nicht übersetzt wurde.

    So funktioniert ein einfaches<hreflang> Sieht so aus in Ihrem Quellcode:

    https://examplesite.com/news/hreflang-tags”/ >

    Dies signalisiert dem Crawler, dass es sich bei der angegebenen URL um eine spanische (mexikanische) Variante der Haupt-URL handelt und dass sie nicht als Duplikat behandelt werden sollte.

    2.6.5 Wünschenswert

    Wir haben die Grundlagen des Crawl-Budgetmanagements besprochen. Die in diesem Abschnitt aufgeführten Hinweise sind zwar nicht zwingend erforderlich für ein gesundes Crawl-Budgetmanagement, tragen aber wesentlich zur Ergänzung der zuvor besprochenen Techniken bei.

    Umgang mit Notfällen bei kriechenden Tieren

    Ein Crawling-Notfall tritt auf, wenn Googlebot Ihre Website mit mehr Crawling-Anfragen überlastet, als er verarbeiten kann. Es ist wichtig, das Problem so schnell wie möglich zu erkennen. Dies gelingt durch die genaue Überwachung der Serverprotokolle und Crawling-Statistiken in der Google Search Console.

    Wird ein plötzlicher Anstieg des Crawling-Aufkommens nicht rechtzeitig bewältigt, kann dies zu einer Verlangsamung des Servers führen. Eine Verlangsamung des Servers erhöht die durchschnittliche Antwortzeit der Crawler, und Suchmaschinen reduzieren daraufhin automatisch ihre Crawling-Rate. Dies ist problematisch, da eine reduzierte Crawling-Rate zu einem Sichtbarkeitsverlust führt, da neue Artikel nicht sofort gecrawlt werden.

    Falls Sie feststellen, dass übermäßiges Crawling Ihre Server überlastet, können Sie Folgendes tun:

    1. Begrenzen Sie die Kriechgeschwindigkeit

    Google verwendet ausgeklügelte Algorithmen zur Steuerung der Crawling-Rate. Daher sollte man die Crawling-Rate idealerweise nicht verändern. In Notfällen können Sie sich jedoch in Ihr Google Search Console-Konto einloggen und die Crawling-Rate-Einstellungen für Ihre Website aufrufen.

    Wenn die Crawling-Rate dort als „Als optimal berechnet“ angezeigt wird, können Sie sie nicht manuell ändern. Um die Crawling-Rate zu ändern, muss ein spezieller Antrag bei Google gestellt werden.

    Falls dies nicht der Fall ist, können Sie die Kriechrate einfach selbst auf den gewünschten Wert ändern. Dieser Wert bleibt 90 Tage lang gültig.

    Wenn Sie die Crawling-Raten in der Google Search Console nicht beeinflussen möchten, können Sie den Zugriff des Googlebots auf die Seite auch mithilfe der robots.txt-Datei blockieren. Die Vorgehensweise hierfür wurde bereits erläutert.

    2. Überprüfen Sie die Crawling-Rate der Website

    Google benötigt bis zu drei Tage, um die meisten Websites zu crawlen. Ausnahmen bilden lediglich Nachrichtenseiten oder andere Websites mit zeitkritischen Inhalten, die möglicherweise täglich gecrawlt werden.

    Um zu überprüfen, wie häufig Ihre Seiten gecrawlt werden, überwachen Sie Ihr Website-Log. Sollten Sie weiterhin den Eindruck haben, dass Ihre Inhalte nicht so häufig gecrawlt werden, wie sie sollten, befolgen Sie diese Schritte:

    • Reichen Sie Ihre aktualisierte News-Sitemap bei Google ein. Eine News-Sitemap ist eine speziell für Google News erstellte Sitemap.
    • Wenn Sie Änderungen an Ihrer News-Sitemap vorgenommen haben, verwenden Sie das Ping-Tool, um Google darüber zu informieren. Dies kann durch Senden einer GET-Anfrage entweder über die Kommandozeile oder den Browser an die folgende Adresse erfolgen:

    https://www.google.com/ping?sitemap=full_url_of_sitemap

    • Verwenden Sie die<lastmod> Tag in Sitemaps, um anzuzeigen, wann eine indizierte URL zuletzt aktualisiert oder geändert wurde.

    3. Es wird ein 503- oder 429-Fehlercode zurückgegeben

    Bitte beachten Sie: Dieser Schritt sollte als letzte Maßnahme betrachtet werden, da er ein gewisses Risiko birgt. Wenn Googlebot die Fehlercodes 503 und 429 erkennt, verlangsamt er das Crawling und kann es sogar ganz einstellen, was zu einem vorübergehenden Rückgang der indexierten Seiten führt.

    Der Fehlercode 503 bedeutet, dass der Server vorübergehend nicht erreichbar ist, während 429 bedeutet, dass ein Nutzer innerhalb eines bestimmten Zeitraums zu viele Anfragen gesendet hat. Diese Codes signalisieren dem Googlebot, dass das Problem nur vorübergehend ist und er die Seite zu einem späteren Zeitpunkt erneut crawlen soll.

    Auch wenn es sich scheinbar um einen kleinen Schritt handelt, ist dies wichtig, denn wenn der Googlebot die Art des Problems, das eine Webseite hat, nicht kennt, geht er davon aus, dass das Problem von langfristiger Natur ist und kann die Seite als nicht responsiv einstufen, was sich auf die Suchmaschinenoptimierung auswirken kann.

    Die Erstellung von 503-Fehlercodes erfolgt über eine PHP-Datei, die zusammen mit der Fehlermeldung in den bestehenden HTML-Quellcode Ihrer Seite eingefügt wird. Zusätzlich müssen Sie einige Zeilen HTML-Code hinzufügen, die festlegen, wann die Website voraussichtlich wieder erreichbar sein wird.

    So sieht der Code für eine 503-Weiterleitung aus:

    Es wird ein Fehlercode 503 oder 429 zurückgegeben

    Quelle

    Das Einrichten von 503- oder 429-Weiterleitungen erfordert fortgeschrittene HTML-Kenntnisse. Wir empfehlen Ihnen daher, vorab Ihren Webentwickler zu konsultieren.

    2.6.6 Vermeiden Sie diese häufigen Fallstricke

    Wir haben nun ein gutes Verständnis davon, was ein Crawl-Budget ist und wie man es optimiert. Genauso wichtig ist es jedoch zu wissen, was man im Zusammenhang mit Crawl-Budgets vermeiden sollte.

    Hier sind einige häufige Fehler, die Sie vermeiden sollten, um das Crawling-Budget Ihrer Website optimal zu nutzen:

    Der Versuch, die Kriechgeschwindigkeit ohne triftigen Grund zu erhöhen

    Die Häufigkeit, mit der Google Ihre Website durchsucht, wird durch seine Algorithmen bestimmt, die verschiedene Signale berücksichtigen, um eine optimale Durchsuchungsfrequenz zu ermitteln.

    Eine höhere Crawling-Rate führt nicht zwangsläufig zu besseren Platzierungen in den Suchergebnissen. Die Crawling-Frequenz oder das Crawling an sich ist kein Rankingfaktor.

    Wiederholtes Einreichen alter Inhalte zum Crawling 

    Google bevorzugt nicht unbedingt aktuellere Inhalte gegenüber älteren. Google bewertet Seiten anhand der Relevanz und Qualität ihrer Inhalte, unabhängig davon, ob diese alt oder neu sind. Daher ist es nicht notwendig, sie ständig crawlen zu lassen.

    Googlebot mithilfe der Crawl-Delay-Direktive steuern

    Die Crawl-Verzögerungsanweisung dient nicht der Steuerung des Googlebots. Wenn Sie die Crawling-Frequenz aufgrund übermäßigen Crawlings, das Ihre Website überlastet, verlangsamen möchten, beachten Sie die Anweisungen im obigen Abschnitt.

    Eine Website lädt langsam

    Die Ladezeit Ihrer Website kann sich auf Ihr Crawling-Budget auswirken. Eine schnell ladende Seite bedeutet, dass Google mit der gleichen Anzahl an Verbindungen auf mehr Informationen zugreifen kann.

    Tipps zur Optimierung der Ladezeit finden Sie in unserem Modul „Seitenerfahrung“ .

    Verwendung von ausschließlich Nofollow-Links zum Blockieren von Crawlern

    Nofollow-Links können sich dennoch auf Ihr Crawling-Budget auswirken, da sie möglicherweise trotzdem gecrawlt werden. Links, die in der robots.txt-Datei gesperrt sind, haben hingegen keinen Einfluss auf das Crawling-Budget.

    Außerdem können alternative URLs und Javascript-Inhalte gecrawlt werden und Ihr Crawling-Budget aufbrauchen. Daher ist es wichtig, den Zugriff darauf einzuschränken, indem Sie diese entweder entfernen oder robots.txt verwenden.

    2.6.7 Maßnahmen und Erkenntnisse

    Das Crawling-Budget ist eine wertvolle Ressource, die Sie unbedingt optimieren sollten. Probleme beim Crawling und der Indexierung können die Performance Ihrer Inhalte beeinträchtigen, insbesondere bei Websites mit vielen Seiten.

    Die beiden wichtigsten Maßnahmen zur Optimierung des Crawl-Budgets sind die Aktualisierung der Sitemap und die regelmäßige Überwachung von Indexierungsproblemen anhand des GSC-Crawl-Statistikberichts und der Protokolldateien.

    Es ist wichtig zu lernen, wie man die Best Practices für das Crawling-Management sowohl bei der Einführung neuer Website-Funktionen als auch bei einmaligen Fehlern anwendet.

    Vorheriges Modul
    Zurück zum Kapitel
    Nächstes Modul

    Jetzt aktiv

    6

    Crawling-Geschwindigkeit und -Frequenz

    Mehr sehen

    1

    Design und Layout

    2

    Site-Architektur

    3

    Seitenerfahrung

    4

    News-Sitemap

    5

    Schema

    7

    Links zu gesponserten und nutzergenerierten Inhalten

    8

    Google Publisher Center

    9

    Bing News PubHub

    10

    Anzeigen, Popups und Best Practices

    SODP logo

    State of Digital Publishing schafft eine neue Publikation und Community für digitale Medien- und Verlagsfachleute in den Bereichen neue Medien und Technologie.

    • Top-Werkzeuge
    • SEO für Verlage
    • Datenschutz-Bestimmungen
    • Redaktionelle Richtlinien
    • Seitenverzeichnis
    • Suche nach Unternehmen
    Facebook X-Twitter Locker Linkedin

    Stand des digitalen Publizierens – Urheberrecht 2026