Tactiques de croissance des éditeurs pour la saison électorale | SÉMINAIRE EN LIGNE

Apprendre encore plus

SODP

SODP Media

  • Education
    • Articles
      • Audience Development
      • Content Strategy
      • Digital Publishing
      • Monetization
      • SEO
      • Digital Platforms & Tools
    • Opinion
    • Podcast
    • Events
      • All Events
  • Top Tools & Reviews
  • Research & Resources
  • Community
    • Slack Channel
    • Newsletter
  • About
    • About Us
    • Contact Us
    • Editorial Policy
  • English
sodp logo
SODP logo
    Recherche
    Fermez ce champ de recherche.
    Connexion
    • Éducation
      • Podcast
      • Des articles
        • Développement du public
        • Stratégie de contenu
        • Édition numérique
        • Monétisation
        • Référencement
        • Plateformes et outils numériques
        • Des articles
        • Avis
        • Baladodiffusions
        • Événements
        • Développement du public
        • Stratégie de contenu
        • Édition numérique
        • Monétisation
        • Référencement
        • Plateformes et outils numériques
        • Voir tout
    • Meilleurs outils et avis
        • Plateformes CMS sans tête
        • Plateformes de publication numérique
        • Logiciel de calendrier éditorial
        • Applications de magazines
        • Plateformes de newsletter par e-mail
        • Plus de listes de meilleurs outils
        • Commentaires
    • Recherche et ressources
    • Communauté
      • Canal mou
      • Heures de travail
      • Bulletin
        • Canal mou
        • Bulletin
    • À propos
      • À propos de nous
      • Contactez-nous
      • Politique éditoriale
        • À propos de nous
        • Contactez-nous
        • Politique éditoriale
    espace réservé
    SODP logo
    Devenez partenaire de marque

    Accueil ▸ SEO ▸ Budget de crawl Google : Guide de l'éditeur

    Budget d'exploration Google : guide de l'éditeur

    Sue PlunkettSue Plunkett
    21 avril 2022
    Fait vérifié par Vahe Arabian
    Vahe Arabian
    Vahe Arabian

    Fondateur et rédacteur en chef d'état de l'édition numérique. Ma vision est de fournir aux professionnels de l'édition numérique et des médias une plate-forme pour collaborer et promouvoir leurs efforts, ma passion est de découvrir des talents et… En savoir plus

    Édité par Andrew Kemp
    Andrew Kemp
    Andrew Kemp

    Andrew a rejoint l'équipe de State of Digital Publishing en 2021, apportant avec lui plus d'une décennie et demie d'expérience éditoriale dans l'édition B2B. Sa carrière a couvert la technologie, les ressources naturelles, la finance… En savoir plus

    Budget d'exploration Google Guide de l'éditeur

    Les éditeurs qui souhaitent apparaître en haut des résultats de recherche Google comprennent déjà l'importance du référencement. Cependant, un aspect important et potentiellement négligé du référencement pour les grands éditeurs est le budget d'exploration de Google.

    Les budgets d'exploration de Google aident à déterminer dans quelle mesure les articles apparaissent dans les résultats de recherche.

    Comprendre les budgets d'exploration est une étape essentielle pour garantir que les objectifs de référencement sont atteints et que le contenu est consulté. Vérifier que le back-end technique d'un site est sain signifie que le front-end est plus susceptible de refléter cet état.

    Dans cet article, nous expliquons ce qu'est un budget de crawl, ce qui affecte le budget, l'optimisation du budget de crawl, comment vérifier et suivre les budgets de crawl et pourquoi ces budgets sont si importants pour le bien-être de tout site en ligne.

    Qu’est-ce que le budget d’exploration ?

    Le budget d'exploration fait référence aux ressources que Google alloue à la recherche et à l'indexation de pages Web nouvelles et existantes.

    Le robot d'exploration de Google – Googlebot – explore les sites pour mettre à jour et étendre la base de données de pages Web du géant de la recherche. Il utilise des liens internes et externes, des plans de site XML, des flux RSS et Atom, ainsi que des fichiers robots.txt pour aider à explorer et indexer les sites le plus rapidement possible.

    Certaines pages gagnent en autorité au fil du temps, tandis que d'autres peuvent être entièrement ignorées pour un certain nombre de raisons allant du contenu aux restrictions techniques.

    Savoir comment maximiser le budget d'exploration est inestimable pour tout éditeur ou site Web d'organisation cherchant à réussir sur les pages de résultats des moteurs de recherche (SERP).

    Limites de Googlebot

    Googlebot n'est pas une ressource infinie et Google ne peut pas se permettre de parcourir un nombre infini de serveurs Web. En tant que telle, la société a proposé des conseils aux propriétaires de domaine pour maximiser leur propre budget d'exploration. 1

    Comprendre comment les robots mènent leur activité est fondamental.

    Si un robot d'exploration arrive sur un site et détermine que son analyse et sa catégorisation seront problématiques, il ralentira ou passera entièrement à un autre site en fonction de l'étendue et du type de problèmes auxquels il est confronté.

    Lorsque cela se produit, c’est un signal clair que le site manque d’optimisation du budget d’exploration.

    Sachant que Googlebot est une ressource limitée devrait être une raison suffisante pour que tout propriétaire de site s'inquiète du budget d'exploration. Cependant, tous les sites ne sont pas confrontés à ce problème au même degré.

    Qui devrait s’en soucier et pourquoi ?

    Bien que chaque propriétaire de site souhaite que son site Web réussisse, seuls les sites de taille moyenne et grande qui mettent fréquemment à jour leur contenu doivent réellement se soucier des budgets d'exploration.

    Google définit les sites moyens comme ceux comportant plus de 10 000 pages uniques mises à jour quotidiennement. Les grands sites, quant à eux, comptent plus d’un million de pages uniques et sont mis à jour au moins une fois par semaine.

    Google note la relation entre l'activité d'exploration et les sites Web plus grands, en déclarant : « Donner la priorité aux éléments à explorer, au moment et à la quantité de ressources que le serveur hébergeant le site Web peut allouer à l'exploration est plus important pour les sites Web plus grands ou ceux qui génèrent automatiquement des pages basées sur l'exploration. Paramètres d’URL, par exemple. 2

    Les sites avec un nombre de pages limité n'ont pas besoin de se soucier outre mesure du budget d'exploration. Cependant, étant donné que certains éditeurs peuvent se développer rapidement, acquérir une compréhension fondamentale des statistiques et des opérations d'exploration mettra tous les propriétaires de sites dans une meilleure position pour récolter les fruits d'un trafic plus important sur le site plus tard.

    Qu'est-ce qui affecte le budget d'exploration de Google ?

    La mesure dans laquelle Google explore un site Web est déterminée par les limites de capacité d'exploration et la demande d'exploration.

    Afin d'éviter que l'activité d'exploration ne surcharge un serveur hôte, la limite de capacité est calculée en établissant le nombre maximum de connexions parallèles simultanées que le bot peut utiliser pour explorer le site ainsi que le délai entre les retours de données.

    Limite de capacité d'exploration

    Cette métrique, également appelée limite de taux d'exploration, est fluide et concerne les changements de trois facteurs :

    • Santé du crawl : Si le site répond sans erreur ni délai, et que la vitesse du site est bonne, la limite peut augmenter et vice-versa.
    • Taux d'exploration GSC : Google Search Console (GSC) peut être utilisé pour réduire l'activité d'exploration , une fonction qui peut être utile lors d'une maintenance prolongée ou de mises à jour du site. 3 Toutes les modifications restent actives pendant 90 jours . 4

    Si la limite de vitesse d'exploration est répertoriée comme « calculée de manière optimale », l'augmenter n'est pas une option et la réduire ne peut se produire que via une demande spéciale. Si un site est surexploité, entraînant des problèmes de disponibilité du site et/ou de chargement des pages, utilisez robots.txt pour bloquer l'exploration et l'indexation. Cette option peut toutefois prendre 24 heures pour entrer en vigueur.

    Même si de nombreux sites n’imposent pas de sanctions liées aux limites d’exploration, cela peut néanmoins s’avérer un outil utile.

    Demande d'exploration

    La demande d’exploration est une expression de l’intérêt de Google pour l’indexation d’un site. Cela dépend également de trois facteurs :

    • Inventaire perçu : sans l'aide du propriétaire du site (que nous aborderons un peu plus tard), Google essaiera d'explorer chaque URL, y compris les doublons, les liens qui ne fonctionnent pas et les pages moins importantes. C'est là que le fait de restreindre les paramètres de recherche de Googlebot peut augmenter le budget d'exploration.
    • Popularité : si un site est extrêmement populaire, ses URL seront explorées plus souvent.
    • Obsolescence : Généralement, le système Googlebot vise à réexplorer les pages afin de récupérer les éventuelles modifications. Ce processus peut être facilité en utilisant le GSC et en demandant des réanalyses, bien qu'il n'y ait aucune garantie que la demande sera immédiatement traitée.

    L’activité d’exploration est, par essence, le produit d’une bonne gestion de site Web.

    Préoccupations du CMS

    Vahe Arabian , fondateur de State of Digital Publishing (SODP) , affirme que les éléments du système de gestion de contenu (CMS) , tels que les plug-ins, peuvent affecter les budgets d'exploration. 5

    Il a déclaré : « De nombreux plug-ins reposent lourdement sur des bases de données et entraînent une augmentation de la charge des ressources, ce qui ralentira une page ou créera des pages inutiles et affectera sa capacité d'exploration. »

    Le modèle de revenus d'un site Web basé sur la publicité peut créer des problèmes similaires si plusieurs fonctionnalités du site nécessitent beaucoup de ressources.

    Comment vérifier et suivre les budgets d'exploration

    Il existe deux manières principales de suivre les budgets d'exploration : Google Search Console (GSC) et/ou les journaux du serveur. 6

    Console de recherche Google

    Avant de vérifier les taux d'exploration d'un site sur Google Search Console (GSC), la propriété du domaine doit être vérifiée.

    La console dispose de trois outils pour vérifier les pages du site Web et confirmer quelles URL sont fonctionnelles et lesquelles n'ont pas été indexées.

    • Le rapport de couverture de l'indice7
    • Outil d'inspection d'URL8
    • Rapport sur les statistiques d'exploration9

    La console vérifie les inexactitudes du domaine et proposera des suggestions sur la façon de résoudre diverses erreurs d'analyse.

    GSC regroupe les erreurs d'état en un certain nombre de catégories dans son rapport de couverture d'index, notamment :

    • Erreur de serveur [5xx]
    • Erreur de redirection
    • URL soumise bloquée par robots.txt
    • URL soumise marquée « noindex »
    • L'URL soumise semble être un soft 404
    • L'URL soumise renvoie une demande non autorisée (401)
    • URL soumise introuvable (404)
    • L'URL soumise a renvoyé 403 : 
    • URL soumise bloquée en raison d'un autre problème 4xx

    Le rapport indique combien de pages ont été affectées par chaque erreur ainsi que l'état de validation.

    L'outil d'inspection d'URL fournit des informations d'indexation sur n'importe quelle page spécifique, tandis que le rapport de statistiques d'exploration peut être utilisé pour savoir à quelle fréquence Google explore un site, la réactivité du serveur du site et tout problème de disponibilité associé.

    Il existe une approche fixe pour identifier et corriger chaque erreur, allant de la reconnaissance qu'un serveur de site peut être en panne ou indisponible au moment de l'exploration à l'utilisation d'une redirection 301 pour rediriger vers une autre page, ou à la suppression de pages du plan du site. .

    Si le contenu de la page a changé de manière significative, le bouton « demander l'indexation » de l'outil d'inspection d'URL peut être utilisé pour lancer une exploration de la page.

    Même s’il n’est peut-être pas nécessaire de « corriger » chaque erreur de page individuelle, minimiser les problèmes qui ralentissent les robots d’exploration est certainement une bonne pratique.

    Utiliser les journaux du serveur

    Comme alternative à la Google Search Console (GSC), la santé de l'exploration d'un site peut être inspectée via des journaux de serveur qui enregistrent non seulement chaque visite du site, mais également chaque visite de Googlebot.

    Pour ceux qui ne le savent pas déjà, les serveurs créent et stockent automatiquement une entrée de journal chaque fois que Googlebot ou un humain demande qu'une page soit servie. Ces entrées de journal sont ensuite collectées dans un fichier journal.

    Une fois qu’un fichier journal a été consulté, il doit être analysé. Cependant, étant donné l'ampleur des entrées de journal, cette entreprise ne doit pas être entreprise à la légère. Selon la taille du site, un fichier journal peut facilement contenir des centaines de millions, voire des milliards d'entrées.

    Si la décision est prise d'analyser le fichier journal, les données doivent être exportées soit vers une feuille de calcul, soit vers un logiciel propriétaire, ce qui facilite plus facilement le processus d'analyse.

    L'analyse de ces enregistrements montrera le type d'erreurs auxquelles un robot a été confronté, les pages les plus consultées et la fréquence à laquelle un site a été exploré.

    9 façons d'optimiser le budget d'exploration

    L'optimisation implique la vérification et le suivi des statistiques sur l'état du site, comme indiqué ci-dessus, puis la résolution directe des problèmes.

    Ci-dessous, nous avons présenté notre boîte à outils d'optimisation du budget d'exploration, que nous utilisons pour résoudre les problèmes d'exploration à mesure qu'ils surviennent.

    1. Consolider le contenu en double

    Des problèmes d'exploration peuvent apparaître lorsqu'une seule page est accessible à partir d'un certain nombre d'URL différentes ou contient du contenu répliqué ailleurs sur le site. Le bot verra ces exemples comme des doublons et en choisira simplement un comme version canonique.

    Les URL restantes seront jugées moins importantes et seront explorées moins souvent , voire pas du tout. 10 C'est bien si Google sélectionne la page canonique souhaitée, mais cela constitue un problème sérieux si ce n'est pas le cas.

    Cela dit, il peut y avoir des raisons valables d'avoir des pages en double, comme le désir de prendre en charge plusieurs types d'appareils, d'activer la syndication de contenu ou d'utiliser des URL dynamiques pour les paramètres de recherche ou les identifiants de session.

    Les recommandations du SODP :

    • Élaguez le contenu du site Web lorsque cela est possible
      • Utilisez les 301 pour consolider les URL et fusionner le contenu
      • Supprimer le contenu peu performant 
    • L’utilisation des 301 suite à la restructuration d’un site Web enverra les utilisateurs, les robots et autres robots d’exploration là où ils doivent aller.
    • Utilisez noindex pour les pages fines, la pagination (pour les archives plus anciennes) et pour cannibaliser le contenu.
    • Dans les cas où le contenu en double entraîne une exploration excessive, ajustez le paramètre de vitesse d'exploration dans Google Search Console (GSC).

    2. Utilisez le fichier Robots.txt 

    Ce fichier aide à empêcher les robots de parcourir un site entier. L'utilisation du fichier permet d'exclure des pages individuelles ou des sections de page.

    Cette option permet à l'éditeur de contrôler ce qui est indexé, en gardant certains contenus privés tout en améliorant la façon dont le budget d'exploration est dépensé.

    Les recommandations du SODP :

    • Triez la préférence des paramètres afin de donner la priorité aux paramètres dont l'exploration doit être bloquée.
    • Spécifiez les robots, les directives et les paramètres qui provoquent une analyse supplémentaire à l'aide de fichiers journaux.
    • Bloquez les chemins courants que les CMS ont généralement, tels que 404, admin, pages de connexion, etc.
    • Évitez d'utiliser la directive crawl-delay pour réduire le trafic des robots afin d'améliorer les performances du serveur. Cela n’impacte que l’indexation des nouveaux contenus.

    3. Segmentez les plans de site XML pour garantir une récupération plus rapide du contenu

    Un robot d'exploration arrive sur un site avec une allocation générale du nombre de pages qu'il va explorer. Le plan du site XML demande efficacement au bot de lire les URL sélectionnées, garantissant ainsi l'utilisation efficace de ce budget.

    Notez que les performances de classement d'une page dépendent de plusieurs facteurs, notamment la qualité du contenu et les liens internes/externes. Pensez à inclure uniquement les pages de niveau supérieur dans la carte. Les images peuvent se voir attribuer leur propre plan de site XML.

    Les recommandations du SODP :

    • Référencez le plan du site XML à partir du fichier robots.txt.
    • Créez plusieurs plans de site pour un très grand site. N'ajoutez pas plus de 50 000 URL à un seul plan de site XML.
    • Gardez-le propre et n’incluez que des pages indexables.
    • Gardez le plan du site XML à jour.
    • Gardez la taille du fichier à moins de 50 Mo.

    4. Examiner la stratégie de liens internes

    Google suit le réseau de liens au sein d'un site et toutes les pages contenant plusieurs liens sont considérées comme de grande valeur et méritent d'y consacrer le budget d'exploration.

    Cependant, il convient de noter que même si un nombre limité de liens internes peuvent nuire au budget d'exploration, le fait de parsemer l'ensemble du site de liens peut également l'être.

    Les pages sans liens internes ne reçoivent aucune équité de lien du reste du site Web, ce qui encourage Google à les traiter comme ayant une valeur inférieure.

    Dans le même temps, les pages de grande valeur qui contiennent de nombreux liens internes finissent par partager leur équité de liens de manière égale entre les autres pages, quelle que soit leur valeur stratégique. En tant que tel, évitez de créer des liens vers des pages qui offrent peu de valeur aux lecteurs.

    Une stratégie de liens internes nécessite une touche habile pour garantir que les pages de grande valeur reçoivent suffisamment de liens, tandis que les pages de faible valeur ne cannibalisent pas l'équité des liens.

    5. Mettez à niveau l'hébergement si le trafic simultané constitue un goulot d'étranglement

    Si un site Web fonctionne sur une plate-forme d'hébergement partagé, le budget d'exploration sera partagé avec d'autres sites Web fonctionnant sur ladite plate-forme. Une grande entreprise peut considérer l’hébergement indépendant comme une alternative intéressante.

    Autres considérations lors de la mise à niveau de votre hébergement ou même avant la mise à niveau pour résoudre la surcharge de trafic de robots pouvant avoir un impact sur les charges du serveur :

    • Traitez les images à l'aide d'un CDN distinct qui est également optimisé pour héberger les formats d'image de nouvelle génération tels que webp
    • Envisagez d'héberger le processeur et l'espace disque en fonction de la fonction et des exigences de votre site Web.
    • Surveillez l'activité à l'aide de solutions telles que New Relic pour surveiller l'utilisation excessive des plugins et des robots.

    6. Équilibrer l'utilisation de Javascript

    Lorsque Googlebot arrive sur une page Web, il affiche tous les éléments de cette page, y compris Javascript. Bien que l'exploration du HTML soit plutôt simple, Googlebot doit traiter Javascript plusieurs fois afin de pouvoir le restituer et comprendre son contenu.

    Cela peut rapidement épuiser le budget d'exploration de Google pour un site Web. La solution consiste à implémenter le rendu Javascript côté serveur.

    En évitant d'envoyer des ressources Javascript au client pour le rendu , les robots d'exploration ne dépensent pas leurs ressources et peuvent travailler plus efficacement. 11

    Les recommandations du SODP :

    • Utilisez le chargement paresseux au niveau du navigateur au lieu d'être basé sur JS
    • Déterminer si les éléments 
    • Utilisez le balisage côté serveur pour l'analyse et le balisage tiers, soit auto-hébergé, soit à l'aide de solutions telles que https://stape.io/ . 12 

    7. Mettez à jour Core Web Vitals (CWV) pour améliorer l'expérience de la page

    Les Core Web Vitals (CWV) de Google Search Console (GSC) utilisent ce que le géant de la recherche appelle les « données d'utilisation du monde réel » pour afficher les performances des pages. 13

    Le rapport CWV regroupe les performances des URL sous trois catégories :

    • Type métrique (LCP, FID et CLS)
    • Statut 
    • Groupes d'URL

    Métrique

    Le rapport CWV est basé sur les mesures du plus grand contenu de peinture (LCP), du premier délai d'entrée (FID) 15 et du décalage de mise en page cumulatif (CLS) 16

    LCP concerne le temps nécessaire pour rendre le plus grand élément de contenu visible dans la zone visible de la page Web.

    Le FID concerne le temps nécessaire à une page pour répondre à l'interaction d'un utilisateur.

    CLS est une mesure de l'ampleur des changements de mise en page au cours de la session utilisateur, les scores plus élevés représentant une expérience utilisateur moins bonne.

     Statut

    Suite à une évaluation de la page, chaque métrique se voit attribuer l'un des trois classements de statut :

    • Bien
    • A besoin d'amélioration
    • Pauvre

    Groupes d'URL

    Le rapport peut également attribuer des problèmes à un groupe d'URL similaires, en supposant que les problèmes de performances affectant des pages similaires peuvent être attribués à un problème partagé.

    CWV et capacité d'exploration

    Comme indiqué précédemment, plus Googlebot passe de temps sur une page, plus il gaspille son budget d'exploration. Ainsi, les éditeurs peuvent utiliser les rapports CWV pour optimiser l'efficacité des pages et réduire le temps d'exploration.

    du SODP , avec un focus sur WordPress :

    Indicateurs d’amélioration de la vitesse Mettre en œuvre via Valider sur
    Convertir les images au format WebP Si CDN est activé, convertissez-le via le côté CDN ou installez le plugin EWWW https://www.cdnplanet.com/tools/cdnfinder/
    Implémentez SRCSET et vérifiez https://pagespeed.web.dev/ si le problème de taille correcte des images est résolu Implémenter en ajoutant du code manuellement Vérifiez dans le code du navigateur si toutes les images ont le code SRCSET
    Activer la mise en cache du navigateur Fusée WP https://www.giftofspeed.com/cache-checker/
    Chargement paresseux des images Fusée WP Vérifiez dans la console du navigateur si le code lazyload est ajouté à l'image. Sauf pour l'image présentée.
    Différer les scripts externes : seuls les scripts du peut être différé WP Rocket ou Un site Web plus rapide ! (alias defer.js) plugin Après avoir ajouté la balise defer, vérifiez dans https://pagespeed.web.dev/ si le problème de réduction du JavaScript inutilisé est résolu.
    Identifiez et supprimez les fichiers JS et CSS inutilisés Manuellement  
    Activer la compression Gzip Côté serveur, contacter l'hébergeur https://www.giftofspeed.com/gzip-test/
    Réduire JS et CSS Fusée WP https://pagespeed.web.dev/
    Charger les polices localement ou précharger les polices Web Plugin de police OMG ou téléchargez les fichiers de polices sur le serveur et ajoutez-les via le code dans l'en-tête  
    Activer le CDN Cloudflare (tout autre service CDN) et configurez-le pour le site  

    8. Utilisez un robot d'exploration tiers

    Un robot d'exploration tiers tel que Semrush, Sitechecker.pro ou Screaming Frog permet aux développeurs Web d'auditer toutes les URL d'un site et d'identifier les problèmes potentiels.

    Les robots d'exploration peuvent être utilisés pour identifier :

    Contenu de nos partenaires

    Construire un guide de réseau publicitaire

    Comment construire votre propre réseau publicitaire: un guide étape par étape

    AI, l'épée de créativité à double tranchant, et pourquoi les éditeurs doivent l'adopter

    AI, l'épée de créativité à double tranchant, et pourquoi les éditeurs doivent l'adopter

    Pourquoi les éditeurs en ligne ont besoin d'un VPN: protection des données, des sources et des revenus

    Pourquoi les éditeurs en ligne ont besoin d'un VPN: protection des données, des sources et des revenus

    • Liens brisés
    • Contenu en double
    • Titres de pages manquants

    Ces programmes proposent un rapport de statistiques d'exploration pour aider à mettre en évidence les problèmes que les outils de Google peuvent ne pas résoudre.

    L'amélioration des données structurées et la réduction des problèmes d'hygiène rationaliseront le travail d'exploration et d'indexation d'un site par Googlebot.

    Les recommandations du SODP :

    • Utilisez des requêtes SQL pour effectuer des mises à jour par lots des erreurs au lieu de résoudre manuellement chaque problème.
    • Émulez Googlebot, via les paramètres d'exploration de recherche, pour éviter d'être bloqué par les fournisseurs d'hébergement et pour identifier et résoudre correctement tous les problèmes techniques.
    • Déboguez les pages manquantes d'une analyse à l'aide de cet excellent guide de Screaming Frog . 17

    9. Paramètres d'URL

    Paramètres d'URL : la section de l'adresse Web qui suit le « ? » - sont utilisés sur une page pour diverses raisons, notamment le filtrage, la pagination et la recherche.  

    Bien que cela puisse améliorer l'expérience utilisateur, cela peut également entraîner des problèmes d'exploration lorsque l'URL de base et celle avec des paramètres renvoient le même contenu. Un exemple de ceci serait « http://mysite.com » et « http://mysite.com?id=3 » renvoyant exactement la même page.

    Les paramètres permettent à un site d'avoir un nombre quasi illimité de liens, par exemple lorsqu'un utilisateur peut sélectionner des jours, des mois et des années sur un calendrier. Si le robot est autorisé à explorer ces pages, le budget d’exploration sera inutilement utilisé.

    Les recommandations du SODP :

    • Utilisez les règles robots.txt. Par exemple, spécifiez les ordres des paramètres dans une directive d'autorisation.
    • Utilisez hreflang pour spécifier les variantes linguistiques du contenu.

    Tour d'horizon des mythes et des faits de Googlebot

    Il existe plusieurs idées fausses concernant le pouvoir et la portée de Googlebot.

    En voici cinq que nous avons explorés :

    1. Googlebot explore un site par intermittence 

    Googlebot explore en fait les sites assez fréquemment et, dans certaines situations, même quotidiennement. Cependant, la fréquence est déterminée par la qualité perçue du site, sa nouveauté, sa pertinence et sa popularité.

    Comme indiqué ci-dessus, la Google Search Console (GSC) peut être utilisée pour demander une exploration.

    2. Googlebot prend des décisions concernant le classement du site

    Même si cela était correct auparavant, Google considère désormais qu'il s'agit d'une partie distincte du processus d'exploration, d'indexation et de classement, selon Martin Splitt , analyste des tendances WebMaster chez Google. 18

    Cependant, il est également important de se rappeler que le contenu d'un site, le plan du site, le nombre de pages, les liens, les URL, etc. sont autant de facteurs déterminant son classement.

    Essentiellement, des choix judicieux en matière de référencement par les éditeurs peuvent conduire à un positionnement solide au sein des SERP.

    3. Googlebot envahit les sections privées d'un site

    Le robot n’a aucune notion de « contenu privé » et est simplement chargé d’indexer les sites, sauf indication contraire du propriétaire du site.

    Certaines pages Web peuvent rester non indexées tant que les mesures nécessaires au sein du SGC sont prises pour en restreindre l'accès.

    4. L'activité de Googlebot peut mettre à rude épreuve la fonctionnalité du site

    Le processus Googlebot a ses limites à la fois en raison des ressources limitées de Google et parce que Google ne veut pas perturber un site.

    Splitt a déclaré : « Nous rampons un peu, puis nous accélérons. Et lorsque nous commençons à voir des erreurs, nous les réduisons un peu. 15

    Le GSC peut retarder les explorations et, étant donné que certains sites peuvent contenir quelques centaines de milliers de pages, Googlebot répartit son exploration sur plusieurs visites.

    5. Googlebot est le seul robot qui mérite de s'inquiéter

    Bien que Googlebot soit le premier robot d'exploration au monde, tous les robots n'appartiennent pas à Google. D'autres moteurs de recherche explorent le Web, tandis que des robots axés sur l'analyse ainsi que sur la sécurité des données et de la marque sont également actifs.

    Dans le même temps, les acteurs malveillants conçoivent des logiciels toujours plus sophistiqués pour se livrer à la fraude publicitaire , voler du contenu, publier du spam, etc. 19

    Dernières pensées

    Il est important de se rappeler que l’optimisation du budget d’exploration et les expériences utilisateur réussies peuvent toutes deux être gérées sans compromettre l’autre. 

    La vérification de la santé du budget d'exploration d'un site devrait être un élément des programmes de maintenance de tous les propriétaires de sites Web, la fréquence de ces vérifications dépendant de la taille et de la nature du site Web lui-même.

    L’entretien technique – comme la réparation des liens brisés, des pages qui ne pas , du contenu dupliqué, des URL mal rédigées et des anciens plans de site chargés d’erreurs – est également essentiel.

    1. Gestion du budget d'exploration pour les grands sites | Centre de recherche Google | Documentation
    2. Que signifie le budget d'exploration pour Googlebot | Blog du centre de recherche Google
    3. Réduire le taux d'exploration de Googlebot | Centre de recherche Google | Documentation
    4. Modifier la vitesse d'exploration de Googlebot – Aide Search Console
    5. Optimisation du budget d'exploration pour les éditeurs | État de l’édition numérique
    6. Console de recherche Google
    7. Rapport de couverture de l'index – Aide Search Console
    8. Outil d'inspection d'URL – Aide Search Console
    9. Rapport de statistiques d'exploration – Aide Search Console
    10. Consolider les URL en double avec les canoniques | Centre de recherche Google | Documentation
    11. Rendu sur le Web | Développeurs Google
    12. Étape.io
    13. Rapport Core Web Vitals – Aide Search Console
    14. La plus grande peinture de contenu (LCP)
    15. Délai de première entrée (FID)
    16. Changement de mise en page cumulatif (CLS)
    17. Comment déboguer les pages manquantes lors d'une exploration – Screaming Frog
    18. Googlebot : démystifier le référencement
    19. Fraude publicitaire : tout ce que vous devez savoir | Publift
    Choix de l'éditeur
    Qu'est-ce qu'un créateur de contenu ? Le quoi, le pourquoi et le comment de l'économie des créateurs
    Stratégie de contenu

    Qu'est-ce qu'un créateur de contenu ?

    Meilleures plateformes de newsletter par e-mail pour les éditeurs
    Plateformes et outils numériques

    8 meilleures plateformes de newsletter par e-mail pour les éditeurs en 2024

    Référencement Google Actualités
    Référencement

    Guide SEO Google Actualités 2024 : meilleures pratiques pour les éditeurs d'actualités

    Articles Similaires

    • Conseils pour les titres SEO pour les éditeurs
      9 conseils sur les titres SEO pour les éditeurs
    • Référencement Google Actualités
      Guide SEO Google Actualités 2024 : meilleures pratiques pour les éditeurs d'actualités
    • Stratégie de contenu pour la recherche basée sur l'IA de Google
      Stratégie de contenu pour la recherche basée sur l'IA de Google
    • scott graham fnmwejtaa unsplash
      Stratégie de référencement Paywall : un guide pour les éditeurs
    SODP logo

    State of Digital Publishing crée une nouvelle publication et une nouvelle communauté pour les professionnels des médias numériques et de l'édition, dans les nouveaux médias et technologies.

    • Meilleurs outils
    • SEO pour les éditeurs
    • Politique de confidentialité
    • Politique éditoriale
    • Plan du site
    • Recherche par entreprise
    Facebook X-twitter Mou Linkedin

    ÉTAT DE L’ÉDITION NUMÉRIQUE – COPYRIGHT 2025