Publisher, die daran interessiert sind, ganz oben in den Suchergebnissen von Google zu erscheinen, wissen bereits, wie wichtig SEO ist. Ein wichtiger und möglicherweise übersehener Aspekt von SEO für größere Publisher ist jedoch das Google-Crawling-Budget.
Die Crawling-Budgets von Google helfen dabei, das Ausmaß zu bestimmen, in dem Artikel in den Suchergebnissen erscheinen.
Das Verständnis von Crawl-Budgets ist ein entscheidender Schritt, um sicherzustellen, dass SEO-Ziele erreicht und Inhalte angesehen werden. Wenn Sie überprüfen, ob das technische Backend einer Website in Ordnung ist, bedeutet dies, dass das Frontend diesen Status eher widerspiegelt.
In diesem Artikel erklären wir, was ein Crawl-Budget ist, was sich auf das Budget auswirkt, die Optimierung des Crawl-Budgets, wie Crawl-Budgets überprüft und nachverfolgt werden und warum diese Budgets für das Wohlergehen jeder Online-Site so wichtig sind.
Was ist Crawl-Budget?
Das Crawl-Budget bezieht sich auf die Ressourcen, die Google dem Auffinden und Indexieren neuer und vorhandener Webseiten zuweist.
Der Crawler-Bot von Google – Googlebot – durchsucht Websites, um die Webseiten-Datenbank des Suchgiganten zu aktualisieren und zu erweitern. Es verwendet interne und externe Links, XML-Sitemaps, RSS- und Atom-Feeds sowie robots.txt-Dateien, um Websites so schnell wie möglich zu crawlen und zu indizieren.
Bestimmte Seiten gewinnen im Laufe der Zeit an Autorität, während andere aus einer Reihe von Gründen, die von inhaltlichen bis hin zu technischen Einschränkungen reichen, möglicherweise vollständig ignoriert werden.
Zu wissen, wie man das Crawl-Budget maximiert, ist für jeden Publisher oder jede Organisations-Website von unschätzbarem Wert, der nach Erfolg auf den Ergebnisseiten von Suchmaschinen (SERPs) sucht.
Einschränkungen des Googlebots
Googlebot ist keine endlose Ressource und Google kann es sich nicht leisten, eine endlose Anzahl von Webservern zu durchsuchen. Als solches hat das Unternehmen Domaininhabern Anleitungen zur Maximierung ihres eigenen Crawl-Budgets angeboten 1
Zu verstehen, wie Bots ihre Aktivitäten ausführen, ist grundlegend.
Wenn ein Crawlbot auf eine Website kommt und feststellt, dass die Analyse und Kategorisierung problematisch sein wird, wird er langsamer oder wechselt ganz zu einer anderen Website, je nach Ausmaß und Art der Probleme, mit denen er konfrontiert ist.
Wenn dies geschieht, ist dies ein klares Signal dafür, dass der Website die Optimierung des Crawl-Budgets fehlt.
Das Wissen, dass der Googlebot eine endliche Ressource ist, sollte für jeden Websitebesitzer Grund genug sein, sich Gedanken über das Crawling-Budget zu machen. Allerdings sind nicht alle Websites in gleichem Maße mit diesem Problem konfrontiert.
Wen sollte es interessieren und warum?
Obwohl jeder Websitebesitzer möchte, dass seine Website erfolgreich ist, müssen sich nur mittlere und große Websites, die ihre Inhalte häufig aktualisieren, wirklich Gedanken über das Crawling-Budget machen.
Google definiert mittlere Websites als Websites mit mehr als 10.000 einzelnen Seiten, die täglich aktualisiert werden. Große Websites hingegen haben über 1 Million einzigartige Seiten und werden mindestens einmal pro Woche aktualisiert.
Google stellt die Beziehung zwischen Crawling-Aktivität und größeren Websites fest und sagt: „Die Priorisierung dessen, was wann gecrawlt werden soll und wie viel Ressourcen der Server, auf dem die Website gehostet wird, dem Crawling zuweisen kann, ist wichtiger für größere Websites oder solche, die automatisch Seiten generieren URL-Parameter zum Beispiel.“ 2
Websites mit begrenzten Seitenzahlen müssen sich keine allzu großen Sorgen um das Crawl-Budget machen. Angesichts der Tatsache, dass einige Publisher möglicherweise schnell expandieren, wird das Erlangen eines grundlegenden Verständnisses von Crawling-Statistiken und -Operationen alle Websitebesitzer in eine bessere Position bringen, um die Früchte eines größeren Website-Traffics später zu ernten.
Was beeinflusst das Crawl-Budget von Google?
Das Ausmaß, in dem Google eine Website crawlt, wird durch Crawl-Kapazitätsgrenzen und Crawl-Nachfrage bestimmt.
Um zu verhindern, dass Crawling-Aktivitäten einen Hostserver überlasten, wird die Kapazitätsgrenze berechnet, indem die maximale Anzahl gleichzeitiger, paralleler Verbindungen festgelegt wird, die der Bot zum Crawlen der Website verwenden kann, sowie die Zeitverzögerung zwischen den Datenrückgaben.
Begrenzung der Crawling-Kapazität
Diese Kennzahl, die auch als Limit für die Crawling-Rate bezeichnet wird, ist fließend und bezieht sich auf Änderungen in drei Faktoren:
- Crawl : Wenn die Website ohne Fehler oder Verzögerung antwortet und die Geschwindigkeit der Website gut ist, kann das Limit steigen und umgekehrt.
- GSC-Crawling-Rate : Die Google Search Console (GSC) kann verwendet werden, um die Crawling-Aktivität zu reduzieren , eine Funktion, die bei erweiterter Website-Wartung oder Aktualisierungen nützlich sein kann. 3 Alle Änderungen bleiben 90 Tage lang aktiv . 4
Wenn das Crawl-Rate-Limit als „optimal berechnet“ aufgeführt ist, ist eine Erhöhung keine Option und eine Senkung kann nur auf besonderen Wunsch erfolgen. Wenn eine Website übercrawlt wird, was zu Problemen mit der Websiteverfügbarkeit und/oder Seitenladeproblemen führt, verwenden Sie die robots.txt-Datei, um das Crawling und die Indexierung zu blockieren. Es kann jedoch 24 Stunden dauern, bis diese Option wirksam wird.
Obwohl viele Websites keine Crawling-Limit-Sanktionen verhängen, kann es dennoch ein nützliches Werkzeug sein.
Crawl-Nachfrage
Die Crawl-Nachfrage ist ein Ausdruck dafür, wie groß das Interesse von Google ist, eine Seite zu indexieren. Auch sie wird von drei Faktoren beeinflusst:
- Wahrgenommenes Inventar : Ohne Anleitung durch den Eigentümer der Website – auf die wir später noch eingehen werden – versucht Google, jede URL zu crawlen, einschließlich Duplikate, nicht funktionierende Links und weniger wichtige Seiten. Hier kann die Einschränkung der Suchparameter des Googlebots das Crawling-Budget erhöhen.
- Popularität : Wenn eine Website sehr beliebt ist, werden ihre URLs häufiger gecrawlt.
- Veraltung : Im Allgemeinen zielt das Googlebot-System darauf ab, Seiten erneut zu crawlen, um Änderungen zu erfassen. Dieser Prozess kann unterstützt werden, indem Sie das GSC verwenden und erneute Crawls anfordern, obwohl es keine Garantie dafür gibt, dass die Anfrage sofort bearbeitet wird.
Die Crawling-Aktivität ist im Wesentlichen ein Produkt eines soliden Website-Managements.
CMS-Bedenken
Vahe Arabian , Gründer von State of Digital Publishing (SODP) , sagt, dass Elemente von Content-Management-Systemen (CMS) – wie Plug-ins – das Crawling-Budget beeinflussen können. 5
Er sagte: „Viele Plug-Ins sind stark datenbankgesteuert und verursachen eine Erhöhung der Ressourcenbelastung, die eine Seite verlangsamt oder unnötige Seiten erstellt und ihre Crawlbarkeit beeinträchtigt.“
Das werbegesteuerte Umsatzmodell einer Website kann ähnliche Probleme verursachen, wenn mehrere Websitefunktionen ressourcenintensiv sind.
So überprüfen und verfolgen Sie Crawl-Budgets
Es gibt zwei wichtige Möglichkeiten, Crawl-Budgets zu verfolgen: Google Search Console (GSC) und/oder Serverprotokolle. 6
Google Search Console
Vor der Überprüfung der Crawling-Raten einer Website in der Google Search Console (GSC) muss die Domain-Inhaberschaft verifiziert werden.
Die Konsole verfügt über drei Tools, um Website-Seiten zu überprüfen und zu bestätigen, welche URLs funktionieren und welche nicht indiziert wurden.
Die Konsole sucht nach Domain-Ungenauigkeiten und bietet Vorschläge zur Behebung verschiedener Crawling-Fehler.
GSC gruppiert Statusfehler in seinem Indexabdeckungsbericht in eine Reihe von Kategorien, darunter:
- Serverfehler [5xx]
- Umleitungsfehler
- Eingesendete URL durch robots.txt blockiert
- Eingereichte URL mit der Kennzeichnung „noindex“
- Die übermittelte URL scheint ein Soft 404 zu sein
- Die gesendete URL gibt eine nicht autorisierte Anfrage zurück (401)
- Eingereichte URL nicht gefunden (404)
- Gesendete URL gab 403 zurück:
- Die übermittelte URL wurde aufgrund eines anderen 4xx-Problems blockiert
Der Bericht gibt neben dem Validierungsstatus an, wie viele Seiten von jedem Fehler betroffen sind.
Das URL-Inspektionstool stellt Indizierungsinformationen zu jeder bestimmten Seite bereit, während der Crawl-Statistikbericht verwendet werden kann, um herauszufinden, wie oft Google eine Website durchsucht, die Reaktionsfähigkeit des Website-Servers und alle damit verbundenen Verfügbarkeitsprobleme.
Es gibt einen festen Ansatz zum Identifizieren und Korrigieren jedes Fehlers, der von der Erkennung, dass ein Site-Server zum Zeitpunkt des Crawls möglicherweise ausgefallen oder nicht verfügbar war, bis zur Verwendung einer 301-Umleitung zur Umleitung auf eine andere Seite oder dem Entfernen von Seiten aus der Sitemap reicht .
Wenn sich der Seiteninhalt erheblich geändert hat, kann über die Schaltfläche „Indexierung anfordern“ des URL-Inspektionstools ein Seiten-Crawling initiiert werden.
Auch wenn es möglicherweise nicht notwendig ist, jeden einzelnen Seitenfehler zu „beheben“, ist es definitiv eine bewährte Methode, Probleme zu minimieren, die Crawling-Bots verlangsamen.
Verwenden Sie Serverprotokolle
Alternativ zur Google Search Console (GSC) kann der Crawl Health einer Seite über Server-Logs eingesehen werden, die nicht nur jeden Seitenbesuch, sondern auch jeden Besuch des Googlebots aufzeichnen.
Für diejenigen, die es noch nicht wissen, erstellen und speichern Server automatisch einen Protokolleintrag, wenn der Googlebot oder ein Mensch anfordert, dass eine Seite bereitgestellt wird. Diese Protokolleinträge werden dann in einer Protokolldatei gesammelt.
Sobald auf eine Protokolldatei zugegriffen wurde, muss diese analysiert werden. Angesichts des schieren Umfangs der Protokolleinträge sollte dieses Unterfangen jedoch nicht auf die leichte Schulter genommen werden. Je nach Größe der Seite kann eine Protokolldatei leicht Hunderte Millionen oder sogar Milliarden Einträge enthalten.
Wenn die Entscheidung getroffen wird, die Protokolldatei zu analysieren, müssen die Daten entweder in eine Tabellenkalkulation oder in eine proprietäre Software exportiert werden, um den Analyseprozess zu vereinfachen.
Die Analyse dieser Aufzeichnungen zeigt die Art der Fehler, mit denen ein Bot konfrontiert war, auf welche Seiten am häufigsten zugegriffen wurde und wie oft eine Website gecrawlt wurde.
9 Möglichkeiten zur Optimierung des Crawl-Budgets
Die Optimierung umfasst das Überprüfen und Verfolgen von Website-Zustandsstatistiken, wie oben erwähnt, und das anschließende direkte Beheben von Problembereichen.
Unten haben wir unser Toolkit zur Optimierung des Crawling-Budgets zusammengestellt, mit dem wir Probleme mit der Crawlbarkeit beheben, sobald sie auftreten.
1. Duplicate Content konsolidieren
Crawling-Probleme können auftreten, wenn eine einzelne Seite entweder von mehreren verschiedenen URLs aus zugänglich ist oder Inhalte enthält, die an anderer Stelle auf der Website repliziert werden. Der Bot betrachtet diese Beispiele als Duplikate und wählt einfach eines als kanonische Version aus.
Die restlichen URLs werden als weniger wichtig eingestuft und seltener oder gar nicht gecrawlt. 10 Dies ist in Ordnung, wenn Google die gewünschte kanonische Seite auswählt, ist aber ein ernstes Problem, wenn dies nicht der Fall ist.
Allerdings kann es triftige Gründe für doppelte Seiten geben, z. B. der Wunsch, mehrere Gerätetypen zu unterstützen, Content-Syndication zu ermöglichen oder dynamische URLs für Suchparameter oder Sitzungs-IDs zu verwenden.
Empfehlungen der SODP :
- Beschneiden Sie Website-Inhalte, wo immer dies möglich ist
- Verwenden Sie 301, um URLs zu konsolidieren und Inhalte zusammenzuführen
- Löschen Sie leistungsschwache Inhalte
- Die Verwendung von 301-Adressen nach einer Website-Umstrukturierung wird Benutzer, Bots und andere Crawler dorthin schicken, wo sie hin müssen.
- Verwenden Sie noindex für dünne Seiten, Paginierung (für ältere Archive) und zum Kannibalen von Inhalten.
- In Fällen, in denen doppelter Inhalt zu übermäßigem Crawling führt, passen Sie die Einstellung für die Crawling-Rate in der Google Search Console (GSC) an.
2. Verwenden Sie die Robots.txt-Datei
Diese Datei verhindert, dass Bots eine gesamte Website durchsuchen. Die Verwendung der Datei ermöglicht den Ausschluss einzelner Seiten oder Seitenbereiche.
Diese Option gibt dem Herausgeber die Kontrolle darüber, was indiziert wird, hält bestimmte Inhalte privat und verbessert gleichzeitig die Verwendung des Crawl-Budgets.
Empfehlungen der SODP :
- Ordnen Sie die Präferenz von Parametern an, um die Parameter zu priorisieren, die für das Crawlen gesperrt werden müssen.
- Geben Sie Robots, Anweisungen und Parameter an, die zusätzliches Crawlen mithilfe von Protokolldateien verursachen.
- Blockieren Sie allgemeine Pfade, die CMS normalerweise haben, wie 404, Admin, Anmeldeseiten usw.
- Vermeiden Sie die Verwendung der Crawl-Delay-Anweisung, um den Bot-Traffic für die Serverleistung zu reduzieren. Dies wirkt sich nur auf die Indexierung neuer Inhalte aus.
3. XML-Sitemaps segmentieren, um eine schnellere Inhaltsaufnahme zu gewährleisten
Ein Crawl-Bot erreicht eine Website mit einer allgemeinen Zuordnung, wie viele Seiten er crawlen wird. Die XML-Sitemap weist den Bot effektiv an, ausgewählte URLs zu lesen, und stellt so die effektive Nutzung dieses Budgets sicher.
Beachten Sie, dass die Ranking-Leistung einer Seite von mehreren Faktoren abhängt, darunter Inhaltsqualität und interne/externe Links. Erwägen Sie, nur Seiten der obersten Ebene in die Karte aufzunehmen. Bildern kann eine eigene XML-Sitemap zugeordnet werden.
Empfehlungen der SODP :
- Verweisen Sie auf die XML-Sitemap aus der robots.txt-Datei.
- Erstellen Sie mehrere Sitemaps für eine sehr große Website. Fügen Sie einer einzelnen XML-Sitemap nicht mehr als 50.000 URLs hinzu.
- Halten Sie es sauber und fügen Sie nur indexierbare Seiten hinzu.
- Halten Sie die XML-Sitemap auf dem neuesten Stand.
- Beschränken Sie die Dateigröße auf weniger als 50 MB.
4. Untersuchen Sie die interne Verlinkungsstrategie
Google folgt dem Netzwerk von Links innerhalb einer Website und alle Seiten mit mehreren Links werden als hochwertig angesehen und es lohnt sich, das Crawl-Budget dafür auszugeben.
Es ist jedoch erwähnenswert, dass, während eine begrenzte Anzahl interner Links das Crawl-Budget beeinträchtigen kann, dies auch der Fall ist, wenn die gesamte Website mit Links gespickt wird.
Seiten ohne interne Links erhalten vom Rest der Website kein Link-Equity, was Google dazu veranlasst, sie als von geringerem Wert zu behandeln.
Gleichzeitig teilen hochwertige Seiten, die viele interne Links enthalten, ihre Link-Equity unabhängig von ihrem strategischen Wert zu gleichen Teilen auf andere Seiten auf. Vermeiden Sie es daher, auf Seiten zu verlinken, die den Lesern wenig Wert bieten.
Eine interne Verlinkungsstrategie erfordert eine geschickte Handhabe, um sicherzustellen, dass Seiten mit hohem Wert genügend Links erhalten, während Seiten mit niedrigem Wert Link-Equity nicht kannibalisieren.
5. Aktualisieren Sie das Hosting, wenn gleichzeitiger Datenverkehr ein Engpass ist
Wenn eine Website auf einer gemeinsam genutzten Hosting-Plattform ausgeführt wird, wird das Crawl-Budget mit anderen Websites geteilt, die auf dieser Plattform ausgeführt werden. Für ein großes Unternehmen kann unabhängiges Hosting eine wertvolle Alternative sein.
Weitere Überlegungen beim Upgrade Ihres Hostings oder sogar vor dem Upgrade, um eine Bot-Traffic-Überlastung zu beheben, die sich auf die Serverlast auswirken kann:
- Verarbeiten Sie Bilder mit einem separaten CDN, das auch für das Hosten von Bildformaten der nächsten Generation wie webp optimiert ist
- Erwägen Sie das Hosten von CPU und Speicherplatz basierend auf der Funktion und den Anforderungen Ihrer Website
- Überwachen Sie die Aktivität mit Lösungen wie New Relic, um die übermäßige Nutzung von Plugins und Bots zu überwachen
6. Ausgleich der Javascript-Nutzung
Wenn der Googlebot auf einer Webseite landet, rendert er alle Assets auf dieser Seite, einschließlich Javascript. Während das Crawlen von HTML ziemlich einfach ist, muss der Googlebot Javascript einige Male verarbeiten, um es rendern und seinen Inhalt verstehen zu können.
Dies kann das Crawl-Budget von Google für eine Website schnell aufbrauchen. Die Lösung besteht darin, Javascript-Rendering auf der Serverseite zu implementieren.
Durch das Vermeiden des Sendens von Javascript-Assets an den Client zum Rendern verbrauchen Crawl-Bots ihre Ressourcen nicht und können effizienter arbeiten. 11
Empfehlungen der SODP :
- Verwenden Sie Lazy Loading auf Browserebene, anstatt JS-basiert zu sein
- Bestimmen Sie, ob Elemente
- Verwenden Sie serverseitiges Tagging für Analysen und Tagging von Drittanbietern, entweder selbst gehostet oder mit Lösungen wie https://stape.io/ . 12
7. Aktualisieren Sie Core Web Vitals (CWV), um die Seitenerfahrung zu verbessern
Core Web Vitals (CWV) der Google Search Console (GSC) verwendet das, was der Suchgigant „ Nutzungsdaten aus der realen Welt . 13
Der CWV-Bericht gruppiert die URL-Leistung in drei Kategorien:
- Metriktyp (LCP, FID und CLS)
- Status
- URL-Gruppen
Metrisch
Der CWV-Bericht basiert auf den Metriken „Large Contentful Paint “ (LCP), 14 First Input Delay “ (FID) 15 und Cumulative Layout Shift “ (CLS) 16 .
LCP bezieht sich auf die Zeit, die benötigt wird, um das größte Inhaltselement im sichtbaren Bereich der Webseite sichtbar zu machen.
FID betrifft die Zeit, die eine Seite benötigt, um auf die Interaktion eines Benutzers zu reagieren.
CLS ist ein Maß dafür, wie stark sich das Seitenlayout während der Benutzersitzung ändert, wobei höhere Werte eine schlechtere Benutzererfahrung darstellen.
Status
Nach einer Seitenbewertung wird jeder Metrik einer von drei Statusrängen zugewiesen:
- Gut
- Muss verbessert werden
- Arm
URL-Gruppen
Der Bericht kann Probleme auch einer Gruppe ähnlicher URLs zuweisen, vorausgesetzt, dass Leistungsprobleme, die ähnliche Seiten betreffen, einem gemeinsamen Problem zugeschrieben werden können.
CWV und Crawlfähigkeit
Wie bereits erwähnt, verschwendet der Googlebot sein Crawl-Budget umso mehr, je länger er auf einer Seite verbringt. Daher können Publisher die CWV-Berichte verwenden, um die Seiteneffizienz zu optimieren und die Crawling-Zeit zu verkürzen.
von SODP , mit Fokus auf WordPress:
Hinweise zur Geschwindigkeitsverbesserung | Implementieren über | Bestätigen Sie auf |
Konvertieren Sie Bilder in das WebP-Format | Wenn CDN aktiviert ist, konvertieren Sie es über die CDN-Seite oder installieren Sie das EWWW-Plugin | https://www.cdnplanet.com/tools/cdnfinder/ |
Implementieren Sie SRCSET und überprüfen Sie in https://pagespeed.web.dev/ , ob das Problem mit der richtigen Bildgröße behoben ist | Implementieren Sie, indem Sie Code manuell hinzufügen | Überprüfen Sie im Browsercode, ob alle Bilder den SRCSET-Code haben |
Browser-Caching aktivieren | WP-Rakete | https://www.giftofspeed.com/cache-checker/ |
Bilder faul laden | WP-Rakete | Überprüfen Sie in der Browserkonsole, ob der Lazyload-Code zum Bild hinzugefügt wurde. Bis auf das Beitragsbild. |
Externe Skripte zurückstellen: Nur die Skripte in der aufgeschoben werden kann | WP-Rakete oder eine schnellere Website! (auch bekannt als defer.js)-Plugin | Überprüfen Sie nach dem Hinzufügen des Defer-Tags in https://pagespeed.web.dev/ ob das Problem „Nicht verwendetes JavaScript reduzieren“ behoben ist |
Identifizieren und entfernen Sie unbenutzte JS- und CSS-Dateien | Manuell | |
Aktivieren Sie die Gzip-Komprimierung | Serverseitig, kontaktieren Sie den Hosting-Provider | https://www.giftofspeed.com/gzip-test/ |
Minimieren Sie JS und CSS | WP-Rakete | https://pagespeed.web.dev/ |
Laden Sie Schriftarten lokal oder laden Sie Web-Schriftarten vor | OMG-Schriftart-Plugin oder laden Sie die Schriftartdateien auf den Server hoch und fügen Sie sie über den Code in der Kopfzeile hinzu | |
CDN aktivieren | Cloudflare (jeder andere CDN-Dienst) und konfigurieren Sie ihn für die Site |
8. Verwenden Sie einen Drittanbieter-Crawler
Ein Drittanbieter-Crawler wie Semrush, Sitechecker.pro oder Screaming Frog ermöglicht es Webentwicklern, alle URLs auf einer Website zu prüfen und potenzielle Probleme zu identifizieren.
Crawler können verwendet werden, um Folgendes zu identifizieren:
- Kaputte Links
- Doppelte Inhalte
- Seitentitel fehlen
Diese Programme bieten einen Crawling-Statistikbericht, um Probleme hervorzuheben, die die Google-eigenen Tools möglicherweise nicht aufweisen.
Durch die Verbesserung strukturierter Daten und die Reduzierung von Hygieneproblemen wird die Aufgabe des Googlebots, eine Website zu crawlen und zu indizieren, optimiert.
Empfehlungen der SODP :
- Verwenden Sie SQL-Abfragen, um Batch-Updates für Fehler durchzuführen, anstatt jedes Problem manuell zu beheben.
- Emulieren Sie den Googlebot über Such-Crawling-Einstellungen, um zu verhindern, dass er von Hosting-Providern blockiert wird, und um alle technischen Probleme richtig zu identifizieren und zu beheben.
- Debuggen Sie fehlende Seiten eines Crawls mit dieser großartigen Anleitung von Screaming Frog . 17
9. URL-Parameter
URL-Parameter – der Abschnitt der Webadresse, der auf das „?“ folgt. — werden aus verschiedenen Gründen auf einer Seite verwendet, einschließlich Filterung, Paginierung und Suche.
Dies kann zwar die Benutzererfahrung verbessern, aber auch Crawling-Probleme verursachen, wenn sowohl die Basis-URL als auch eine mit Parametern denselben Inhalt zurückgeben. Ein Beispiel hierfür wäre „http://mysite.com“ und „http://mysite.com?id=3“, die genau dieselbe Seite zurückgeben.
Parameter ermöglichen es einer Website, eine nahezu unbegrenzte Anzahl von Links zu haben – beispielsweise wenn ein Benutzer Tage, Monate und Jahre in einem Kalender auswählen kann. Wenn der Bot diese Seiten crawlen darf, wird das Crawl-Budget unnötig aufgebraucht.
Empfehlungen der SODP :
- Verwenden Sie robots.txt-Regeln. Geben Sie beispielsweise Parameterreihenfolgen in einer Allow-Direktive an.
- Verwenden Sie hreflang, um die Sprachvarianten des Inhalts anzugeben.
Zusammenfassung der Googlebot-Mythen und -Fakten
Es gibt mehrere Missverständnisse in Bezug auf die Macht und den Umfang des Googlebots.
Hier sind fünf, die wir untersucht haben:
1. Googlebot crawlt zeitweise eine Website
Der Googlebot crawlt Websites tatsächlich ziemlich häufig und in manchen Situationen sogar täglich. Die Häufigkeit wird jedoch durch die wahrgenommene Qualität, Neuheit, Relevanz und Popularität der Website bestimmt.
Wie oben erwähnt, kann die Google Search Console (GSC) verwendet werden, um einen Crawl anzufordern.
2. Googlebot trifft Entscheidungen über das Website-Ranking
Während dies früher richtig war, betrachtet Google dies jetzt als separaten Teil des Crawl-, Index- und Rank-Prozesses, so Martin Splitt , WebMaster Trends Analyst bei Google. 18
Es ist jedoch auch wichtig, sich daran zu erinnern, dass der Inhalt einer Website, die Sitemap, die Anzahl der Seiten, Links, URLs usw. Faktoren sind, die ihr Ranking bestimmen.
Im Wesentlichen können kluge SEO-Entscheidungen von Publishern zu einer soliden Positionierung in den SERPs führen.
3. Googlebot dringt in private Bereiche einer Website ein
Der Bot hat kein Konzept von „privaten Inhalten“ und wird einfach damit beauftragt, Websites zu indizieren, sofern der Website-Eigentümer nichts anderes anweist.
Bestimmte Webseiten können nicht indiziert bleiben, solange die notwendigen Schritte innerhalb des GSC unternommen werden, um den Zugriff einzuschränken.
4. Googlebot-Aktivität kann die Funktionsfähigkeit der Website beeinträchtigen
Der Googlebot-Prozess hat seine Grenzen sowohl aufgrund der Ressourcenbeschränkungen von Google als auch, weil Google eine Website nicht stören möchte.
Splitt sagte: „Wir kriechen ein bisschen und fahren dann im Grunde hoch. Und wenn wir anfangen, Fehler zu sehen, fahren wir es ein wenig herunter.“ 15
Die GSC kann Crawls verzögern, und da einige Websites einige hunderttausend Seiten haben, unterbricht der Googlebot sein Crawling über mehrere Besuche.
5. Der Googlebot ist der einzige Bot, um den es sich zu sorgen lohnt
Obwohl der Googlebot der weltweit führende Crawler ist, gehören nicht alle Bots zu Google. Andere Suchmaschinen durchsuchen das Web, während Bots, die sich auf Analysen sowie Daten- und Markensicherheit konzentrieren, ebenfalls aktiv sind.
Gleichzeitig entwickeln Kriminelle immer ausgefeiltere Software, um Werbebetrug , Inhalte zu stehlen, Spam zu posten und vieles mehr. 19
Abschließende Gedanken
Es ist wichtig, sich daran zu erinnern, dass die Optimierung des Crawl-Budgets und erfolgreiche Benutzererlebnisse beide verwaltet werden können, ohne sich gegenseitig zu beeinträchtigen
Die Überprüfung des Crawl-Budgets einer Website sollte ein Element der Wartungsprogramme aller Website-Eigentümer sein, wobei die Häufigkeit dieser Überprüfungen von der Größe und Art der Website selbst abhängt.
– wie das Beheben defekter Links, nicht funktionierender Seiten, duplizierter Inhalte, schlecht formulierter URLs und alter, fehlerbeladener Sitemaps – ist ebenfalls unerlässlich.
- Crawl-Budgetverwaltung für große Websites | Google-Suche-Zentrale | Dokumentation
- Was Crawl-Budget für Googlebot bedeutet | Google Search Central-Blog
- Googlebot-Crawling-Rate reduzieren | Google-Suche-Zentrale | Dokumentation
- Googlebot-Crawling-Rate ändern – Search Console-Hilfe
- Crawl-Budget-Optimierung für Publisher | Zustand des digitalen Publizierens
- Google Search Console
- Indexabdeckungsbericht – Search Console-Hilfe
- URL-Prüftool – Search Console-Hilfe
- Crawling-Statistikbericht – Search Console-Hilfe
- Konsolidieren Sie doppelte URLs mit Canonicals | Google-Suche-Zentrale | Dokumentation
- Rendern im Web | Google-Entwickler
- Stape.io
- Core Web Vitals-Bericht – Search Console-Hilfe
- Größte zufriedene Farbe (LCP)
- Erste Eingangsverzögerung (FID)
- Kumulative Layoutverschiebung (CLS)
- So debuggen Sie fehlende Seiten in einem Crawl – Screaming Frog
- Googlebot: SEO-Mythosbuster
- Anzeigenbetrug: Alles, was Sie wissen müssen | Publift