Stratégies de croissance pour les éditeurs en période électorale | WEBINAIRE

Apprendre encore plus

SODP

SODP Media

  • Education
    • Articles
      • Audience Development
      • Content Strategy
      • Digital Publishing
      • Monetization
      • SEO
      • Digital Platforms & Tools
    • Opinion
    • Podcast
    • Events
      • SODP Dinner Event London 2025
      • SODP Dinner Event Dubai 2025
      • SODP Dinner Event California 2025
      • All Events
  • Top Tools & Reviews
  • Research & Resources
  • Community
    • Slack Channel
    • Newsletter
  • About
    • About Us
    • Contact Us
    • Editorial Policy
  • English
sodp logo
SODP logo
    Recherche
    Fermez cette zone de recherche.
    Se connecter
    • Éducation
      • Podcast
      • Articles
        • Développement de l'audience
        • Stratégie de contenu
        • Édition numérique
        • Monétisation
        • SEO
        • Plateformes et outils numériques
        • Articles
        • Avis
        • Podcasts
        • Événements
        • Développement de l'audience
        • Stratégie de contenu
        • Édition numérique
        • Monétisation
        • SEO
        • Plateformes et outils numériques
        • Afficher tout
    • Meilleurs outils et avis
        • Plateformes CMS headless
        • Plateformes de publication numérique
        • Logiciel de calendrier éditorial
        • Applications de magazines
        • Plateformes de newsletters par e-mail
        • Plus de listes des meilleurs outils
        • Avis
    • Recherche et ressources
    • Communauté
      • Canal Slack
      • Heures de bureau
      • Bulletin
        • Canal Slack
        • Bulletin
    • À propos
      • À propos de nous
      • Contactez-nous
      • Politique éditoriale
        • À propos de nous
        • Contactez-nous
        • Politique éditoriale
    espace réservé
    SODP logo
    Devenez partenaire de marque

    Accueil > Formation SEO pour éditeurs > Chapitre 2 : SEO technique > Vitesse et fréquence d’exploration
    6

    Vitesse et fréquence de déplacement en rampant

    Vitesse et fréquence de déplacement en rampant
    Module précédent
    Retour au chapitre
    Module suivant

    Objectif d'apprentissage

    Après avoir suivi ce module, vous devriez comprendre ce qu'est un budget d'exploration, comment il est alloué à un site web et comment l'optimiser.

    Durée de la vidéo

    23:27

    Répondre au quiz

    Répondez au questionnaire du module actuel

    Matériels

    Modèles prêts à l'emploi

    Ressources

    Rapports et ressources

    Limite de temps : 0

    Résumé du quiz

    0 9 questions complétées

    Questions :

    Information

    Vous avez déjà répondu à ce questionnaire. Vous ne pouvez donc pas le recommencer.

    Le quiz est en cours de chargement…

    Vous devez vous connecter ou vous inscrire pour commencer le quiz.

    Vous devez d'abord effectuer les opérations suivantes :

    Résultats

    Quiz terminé. Les résultats sont en cours d'enregistrement.

    Résultats

    0 réponse correcte sur 9

    Votre temps :

    Le temps s'est écoulé

    Vous avez atteint 0 sur 0 point(s), ( 0 )

    Points obtenus : 0 sur 0 , ( 0 )
    0 Dissertation(s) en attente (Points possibles : 0 )

    Catégories

    1. Non catégorisé 0%
    1. 1
    2. 2
    3. 3
    4. 4
    5. 5
    6. 6
    7. 7
    8. 8
    9. 9
    1. Actuel
    2. Revoir
    3. Réponse
    4. Correct
    5. Incorrect
    1. Question 1 sur 9
      1. Question

      Qu'est-ce qu'un budget de crawl ?

      Correct
      Incorrect
    2. Question 2 sur 9
      2. Question

      La fréquence à laquelle Google souhaite explorer à nouveau une page/un site Web particulier est appelée ____.

      Correct
      Incorrect
    3. Question 3 sur 9
      3. Question

      Les budgets d'exploration ne concernent généralement que les éditeurs qui ont plus de combien de pages sur leur site web ?

      Correct
      Incorrect
    4. Question 4 sur 9
      4. Question

      Où peut-on trouver des statistiques sur le crawl ?

      Correct
      Incorrect
    5. Question 5 sur 9
      5. Question

      Qu'est-ce que robots.txt ?

      Correct
      Incorrect
    6. Question 6 sur 9
      6. Question

      Parmi les éléments suivants, lesquels peuvent réduire votre budget d'exploration ?

      Correct
      Incorrect
    7. Question 7 sur 9
      7. Question

      Parmi les tâches suivantes, lesquelles un robot d'exploration tiers comme Semrush ou Screaming Frog ne peut PAS effectuer ?

      Correct
      Incorrect
    8. Question 8 sur 9
      8. Question

      Que signifie le texte suivant L'étiquette communique-t-elle à un robot d'exploration ?

      Correct
      Incorrect
    9. Question 9 sur 9
      9. Question

      Que signifie un code d'erreur 503 ?

      Correct
      Incorrect

    2.6.1 Qu'est-ce qu'un budget d'exploration ?

    Le budget d'exploration correspond au nombre de pages de votre site web qu'un robot d'exploration explorera dans un laps de temps donné.

    Chaque fois que vous cliquez sur le bouton « Publier », Google doit explorer et indexer le contenu pour qu'il apparaisse dans les résultats de recherche. Compte tenu de l'ampleur et du volume du contenu sur Internet, l'exploration devient une ressource précieuse qui doit être budgétisée et utilisée de manière optimale.

    En clair, il est difficile pour Google d'explorer et d'indexer chaque page web chaque jour. C'est pourquoi Google explore chaque site web en fonction du budget qui lui est alloué.

    2.6.2 Comment le budget d'exploration est-il attribué aux sites Web ?

    Le budget d'exploration est attribué aux sites web en fonction de deux facteurs : la limite d'exploration et la demande d'exploration.

    Limite de progression

    Il s'agit de la capacité et/ou de la volonté d'un site web à être indexé.

    Tous les sites web ne sont pas conçus pour être indexés quotidiennement. L'indexation consiste pour Googlebot à envoyer des requêtes au serveur de votre site web, ce qui, si ces requêtes sont trop fréquentes, peut surcharger la capacité du serveur.

    De plus, tous les éditeurs ne souhaitent pas que leur site soit indexé en permanence.

    Demande de crawl

    La demande d'exploration mesure la fréquence à laquelle une page doit être explorée (et réexplorée). Les pages populaires ou fréquemment mises à jour nécessitent une exploration et une réexploration plus fréquentes.

    2.6.3 Pourquoi les éditeurs devraient-ils se soucier du budget d'exploration ?

    Si Google ne peut pas explorer et indexer votre contenu, ce dernier n'apparaîtra tout simplement pas dans les résultats de recherche.

    Cela dit, les budgets d'exploration ne concernent généralement que les éditeurs de taille moyenne à grande dont le site web compte plus de 10 000 pages. Les éditeurs plus petits n'ont pas à s'en préoccuper outre mesure.

    Les éditeurs dont le site web compte 10 000 pages ou plus voudront éviter que Googlebot n'explore des pages non pertinentes. Consacrer tout leur budget d'exploration à du contenu non pertinent ou de moindre importance risque de priver d'exploration des pages à forte valeur ajoutée.

    De plus, les éditeurs de presse devront veiller à ne pas gaspiller leur budget d'exploration, car l'exploration est l'un des trois moyens utilisés par Google Actualités pour découvrir rapidement du contenu récent. Les deux autres sont l'utilisation des sitemaps et de Google Publisher Center, que nous avons détaillés dans nos modules « Sitemap Google Actualités » et « Google Publisher Center ».

    2.6.4 Optimisation pour les robots d'exploration

    Optimiser la fréquence et la vitesse d'exploration de votre site web par Googlebot implique de surveiller plusieurs variables. Nous commençons par lister les facteurs les plus importants pour optimiser le budget et la fréquence d'exploration.

    Exploration du contenu de surveillance

    Les deux tactiques les plus utiles pour surveiller la façon dont votre contenu est exploré consistent à analyser les fichiers journaux et le rapport de statistiques d'exploration de Google Search Console (GSC).

    1. Analyse des fichiers journaux

    Un fichier journal est un document texte qui enregistre toutes les activités sur le serveur de votre site web. Cela inclut toutes les données relatives aux requêtes d'exploration, aux requêtes de pages, aux requêtes d'images, aux requêtes de fichiers JavaScript et à toute autre ressource nécessaire au fonctionnement de votre site web.

    Dans le cadre du référencement technique, l'analyse des fichiers journaux permet de déterminer de nombreuses informations utiles sur l'exploration des URL, notamment :

    • Quelles URL ont été explorées ?.
    • Quelles sont les URL les plus fréquemment explorées ?.
    • Identifier si des URL de faible valeur ou non essentielles sont explorées, ce qui gaspille le budget d'exploration.

    Comment faire cela

    L'analyse des fichiers journaux exige une certaine connaissance technique du fonctionnement interne d'un site web. C'est pourquoi nous recommandons l'utilisation d'un logiciel d'analyse de fichiers journaux. Plusieurs outils d'analyse de journaux, gratuits ou payants, sont disponibles, tels que Graylog , Loggly , Elastic Stack , Screaming Frog Log Analyzer et Nagios, pour n'en citer que quelques-uns.

    Si vous êtes un développeur ou un administrateur système expérimenté, vous pouvez également effectuer manuellement une analyse des fichiers journaux.

    Pour ce faire, suivez ces étapes :

    1. Connectez-vous au cPanel de votre hébergeur
    1. Accédez à Merics puis à Raw Access
    1. Télécharger le fichier journal

    Une fois le fichier journal téléchargé, vous pouvez le convertir au format .csv et l'ouvrir avec Microsoft Excel ou Google Sheets. Toutefois, comme indiqué précédemment, cette méthode requiert une certaine expertise pour interpréter correctement le fichier journal.

    Vous pouvez également accéder au fichier journal à l'aide d'un client FTP en saisissant son chemin d'accès. Un chemin d'accès typique pour un fichier journal ressemble à ceci :

    Nom du serveur (par exemple, Apache) /var/log/access.log

    Il est toutefois bien plus pratique d'utiliser un outil d'analyse de journaux. Une fois le fichier journal importé dans l'outil, vous pouvez trier les données à l'aide de plusieurs filtres. Par exemple, vous pourrez voir quelles URL ont été le plus souvent consultées par Googlebot.

    Vous pourrez également voir si Googlebot a accédé à des URL non essentielles ou de faible valeur, telles que les URL de navigation à facettes, les URL dupliquées, etc. Il est important de les identifier car elles gaspillent votre budget d'exploration.

    Consultez la capture d'écran ci-dessous, extraite de l'outil d'analyse des fichiers journaux SEO de Screaming Frog, pour comprendre ce que nous voulons dire.

    Analyse des fichiers journaux

    2. Rapport statistique GSC Crawl

    La Search Console fournit aux propriétaires de sites web des données et des analyses complètes sur la façon dont Google explore leur contenu. Cela inclut des rapports détaillés sur :

    • Quels fichiers/pages ont été explorés et dans quel but ?.
    • Quel type de Googlebot (actualités, vidéos, mobile, etc.) a effectué l'exploration ?.
    • Nombre total de requêtes d'exploration, etc.

    Google Search Console propose également des graphiques et des tableaux faciles à comprendre afin de fournir aux propriétaires de sites web encore plus d'informations. La capture d'écran ci-dessous illustre un exemple de rapport de statistiques d'exploration sur Search Console.

    Rapport statistique GSC Crawl

    Source

    Le GSC vous informe également en cas de problème d'exploration. Il vérifie plusieurs erreurs et attribue un code à chacune. Les erreurs les plus courantes que le GSC vérifie sont les suivantes :

    • Erreur serveur [5xx]
    • Erreur de redirection
    • URL soumise bloquée par robots.txt
    • URL soumise marquée « noindex »
    • L'URL soumise semble être une erreur 404 logicielle
    • L'URL soumise a renvoyé une erreur 401
    • URL soumise introuvable (404)
    • L'URL soumise a renvoyé une erreur 403
    • L'URL soumise a été bloquée en raison d'une autre erreur 4xx

    Le rapport GSC indique également le nombre de pages affectées par chaque erreur, ainsi que l'état de validation.

    Comment faire cela

    Voici comment accéder au rapport de statistiques d'exploration de la Search Console pour votre site web ou votre page web :

    1. Pour utiliser GSC, vous devez vous inscrire .
    1. Ensuite, vous devrez prouver que vous êtes propriétaire du site web que vous souhaitez ajouter à la Search Console. Pour ce faire, vous devez ajouter ce que Google appelle une « propriété ». Une propriété désigne tout élément devant être examiné par la Search Console, qu'il s'agisse d'une simple page ou d'un site web entier.
    1. Pour vérifier la propriété du site, ouvrez GSC, accédez au sélecteur de propriétés et cliquez sur « Ajouter une nouvelle propriété ».
    1. Vous verrez ensuite une liste de méthodes de vérification qui vous permettront de vérifier que vous êtes bien le propriétaire du site/de la page.

    Cela comprend :

    • Téléchargement de fichier HTML
    • Balise HTML
    • Code de suivi Google Analytics
    • Gestionnaire de balises Google
    • Fournisseur de noms de domaine
    • Google Sites, Blogger ou compte de domaine.
    1. Choisissez votre méthode de vérification. Une fois votre propriété vérifiée, elle apparaîtra sur la Search Console et vous pourrez consulter des analyses détaillées de son budget et de son activité d'exploration.

    Optimisation du budget d'exploration 

    Nous savons désormais que le budget d'exploration est une ressource précieuse dont l'utilisation doit être optimisée pour obtenir les meilleurs résultats. Voici quelques techniques pour y parvenir :

    1. Corriger le contenu dupliqué

    Le contenu dupliqué risque d'être indexé séparément, ce qui entraîne un gaspillage du budget d'exploration. Pour éviter cela, regroupez les pages dupliquées de votre site web en une seule ou supprimez-les.

    2. Utilisez le fichier Robots.txt

    Le fichier robots.txt remplit plusieurs fonctions, notamment celle d'indiquer à Googlebot de ne pas explorer certaines pages ou sections de pages. Il s'agit d'une stratégie importante pour empêcher Googlebot d'explorer du contenu de faible valeur ou qui n'a pas besoin d'être exploré.

    Voici quelques bonnes pratiques pour optimiser le budget d'exploration avec le fichier robots.txt :

    • Attribuez une priorité aux paramètres dont l'exploration doit être bloquée, selon votre ordre de préférence.
    • Spécifiez les robots, les directives et les paramètres qui provoquent une exploration supplémentaire à l'aide des fichiers journaux.
    • Bloquez les chemins d'accès communs que les CMS utilisent généralement, tels que les pages 404, d'administration, de connexion, etc.

    Comment faire cela

    La création et l'exécution d'un fichier robots.txt pour restreindre l'accès à Googlebot nécessitent certaines connaissances en programmation. Voici les étapes à suivre :

    1. Un fichier robots.txt est créé à l'aide d'un éditeur de texte comme le Bloc-notes. Ce fichier doit porter le nom robots.txt pour que Googlebot puisse le reconnaître.
    1. Une fois le fichier créé, nous y ajoutons des règles, c'est-à-dire que nous spécifions un ensemble d'instructions indiquant au fichier de bloquer l'accès à certains agents dans des conditions spécifiques.

    Un fichier robots.txt typique contient les éléments suivants :

    • Un agent utilisateur, tel que Googlebot, auquel l'accès doit être refusé
    • Une entrée d'autorisation ou de refus, spécifiant un fichier ou un répertoire dont l'accès doit être restreint pour l'agent utilisateur
    • Un sitemap pour indiquer à Google quel contenu il doit explorer.

    Voici à quoi ressemble un fichier robots.txt simple.

    Utilisez Robots.txt

    Source 

    Ce code signifie qu'un agent utilisateur — Googlebot dans ce cas précis — n'est pas autorisé à explorer toute URL commençant par « http://www.example.com/nogooglebot/ ».

    1. Une fois votre fichier créé et enregistré sur votre ordinateur, vous devez le transférer sur votre site web. La procédure dépend de votre serveur et de votre hébergeur. Vous devrez contacter ce dernier pour connaître les étapes exactes.

    Nous vous suggérons de faire appel à un expert si vous ne vous sentez pas à l'aise pour créer et télécharger vous-même des fichiers robots.txt.

    3. Segmenter les plans de site XML

    Un robot d'exploration arrive sur un site avec un nombre global de pages à explorer. Le sitemap XML lui indique précisément les URL à consulter, garantissant ainsi une utilisation optimale de ce budget.

    Notez que le classement d'une page dépend de plusieurs facteurs, notamment la qualité du contenu et les liens internes/externes. Il est conseillé d'inclure uniquement les pages de premier niveau dans le sitemap. Les images peuvent avoir leur propre sitemap XML.

    Suivez ces recommandations pour garantir une implémentation optimale du sitemap XML :

    • Référencez le sitemap XML à partir du fichier robots.txt.
    • Créez plusieurs sitemaps pour un site très volumineux. Ne dépassez pas 50 000 URL par sitemap XML.
    • Veillez à la clarté et n'incluez que les pages indexables.
    • Maintenez le plan de site XML à jour.
    • La taille du fichier ne doit pas dépasser 50 Mo.

    Pour une présentation plus détaillée des plans de site, consultez notre module dédié à ce sujet .

    4. Mettre en œuvre une stratégie de liens internes efficace

    Les liens internes remplissent trois fonctions importantes :

    • Organiser le contenu autour de thèmes permet de développer une autorité thématique.
    • Répartir le capital des pages entre les pages à forte valeur ajoutée et les autres pages.
    • Faciliter la navigation sur le site pour les utilisateurs et les robots d'exploration Web.

    Pour un référencement efficace, il est donc important de mettre en œuvre une stratégie de maillage interne performante. Pour en savoir plus sur le maillage interne, consultez notre module de cours détaillé ici.

    5. Mise à niveau de l'hébergement

    Si un site web est hébergé sur une plateforme mutualisée, son budget d'exploration sera partagé avec les autres sites utilisant cette même plateforme. Un éditeur important pourrait trouver qu'un hébergement indépendant représente une alternative intéressante.

    Avant de mettre à niveau votre hébergement pour résoudre le problème de la surcharge liée au trafic des robots, il convient de prendre en compte certains facteurs susceptibles d'affecter la charge du serveur.

    • Traiter les images à l'aide d'un réseau de distribution de contenu (CDN) distinct, également optimisé pour héberger les formats d'image de nouvelle génération tels que webp.
    • Pensez à adapter l'espace processeur et l'espace disque de votre hébergement aux fonctionnalités et aux besoins de votre site web.
    • Surveillez l'activité à l'aide de solutions comme New Relic afin de contrôler l'utilisation excessive des plugins et des bots.

    Pour en savoir plus sur les avantages des CDN, consultez notre module d'expérience utilisateur .

    6. Utilisez Javascript judicieusement

    Lorsque Googlebot arrive sur une page web, il analyse tous les éléments de cette page, y compris le JavaScript. Si l'exploration du HTML est relativement simple, Googlebot doit traiter le JavaScript à plusieurs reprises afin de pouvoir l'interpréter et en comprendre le contenu.

    Cela peut rapidement épuiser le budget d'exploration de Google pour un site web. La solution consiste à implémenter le rendu JavaScript côté serveur.

    Comment faire cela

    L'intégration de JavaScript dans le code source de votre site web requiert des compétences en programmation ; nous vous recommandons donc de consulter un développeur web si vous envisagez d'effectuer de telles modifications. Ceci étant dit, voici quelques conseils pour optimiser l'utilisation de JavaScript.

    • Évitez d'envoyer des ressources JavaScript au client pour le rendu afin que les robots d'exploration ne gaspillent pas leurs ressources et puissent travailler plus efficacement.
    • Utilisez le chargement différé au niveau du navigateur plutôt qu'une solution basée sur Javascript.
    • Utilisez le balisage côté serveur pour l'analyse et le balisage tiers, soit auto-hébergé, soit en utilisant des solutions telles que stape.io.

    7. Surveiller les CWV

    Les CWV (coefficients de variation du contenu) sont une mesure de la performance d'une page qui influe directement sur son classement dans les résultats de recherche.

    Le rapport CWV du GSC classe les performances des URL en trois catégories :

    • Type métrique (LCP, FID et CLS)
    • Statut
    • Groupes d'URL

    Les CWV (Call-Time Values) peuvent également impacter votre budget d'exploration. Par exemple, les pages lentes à charger peuvent consommer votre budget d'exploration, car Google dispose d'un temps limité pour les tâches d'exploration. Si vos pages se chargent rapidement, Google peut en explorer davantage dans le temps imparti. De même, un trop grand nombre de rapports d'erreur peut ralentir l'exploration et gaspiller votre budget.

    Pour un examen plus approfondi des CWV, consultez notre module sur l'expérience de la page .

    8. Utiliser un robot d'exploration tiers

    Un outil d'exploration tiers tel que Semrush , Sitechecker.pro ou Screaming Frog permet aux développeurs web d'auditer toutes les URL d'un site et d'identifier les problèmes potentiels.

    Des robots d'exploration tiers peuvent être utilisés pour identifier :

    • Liens brisés
    • Contenu dupliqué
    • Titres de pages manquants

    Ces programmes proposent un rapport de statistiques d'exploration permettant de mettre en évidence des problèmes que les outils de Google ne détectent pas forcément.

    L'amélioration des données structurées et la réduction des problèmes d'hygiène permettront de simplifier le travail de Googlebot lors de l'exploration et de l'indexation d'un site.

    Nous recommandons les bonnes pratiques suivantes lors de l'utilisation de robots d'exploration tiers :

    • Émulez Googlebot, via les paramètres d'exploration de recherche, pour éviter d'être bloqué par les fournisseurs d'hébergement et pour identifier et corriger correctement tous les problèmes techniques.
    • Déboguer les pages manquantes d'une exploration à l'aide de cet excellent guide de Screaming Frog .

    9. Surveiller les paramètres d'URL

    Les paramètres d'URL — la partie de l'adresse web qui suit le « ? » — sont utilisés sur une page pour diverses raisons, notamment le filtrage, la pagination et la recherche.

    Bien que cela puisse améliorer l'expérience utilisateur, cela peut également engendrer des problèmes d'exploration lorsque l'URL de base et celle avec paramètres renvoient le même contenu. Par exemple, « http://mysite.com » et « http://mysite.com?id=3 » renvoient exactement la même page.

    Les paramètres permettent à un site d'avoir un nombre quasi illimité de liens, par exemple lorsqu'un utilisateur peut sélectionner des jours, des mois et des années sur un calendrier. Si le robot est autorisé à explorer ces pages, le budget d'exploration sera inutilement consommé.

    Cela peut s'avérer particulièrement problématique si votre site web utilise une navigation à facettes ou des identifiants de session susceptibles de générer plusieurs pages dupliquées qui, si elles sont explorées, pourraient entraîner un gaspillage du budget d'exploration.

    Des URL dupliquées peuvent également apparaître si vous avez des versions localisées de votre page Web dans différentes langues et que le contenu de ces pages n'a pas été traduit.

    Nous recommandons les mesures suivantes pour remédier à ce problème :

    • Utilisez le fichier robots.txt pour empêcher Googlebot d'explorer les pages dupliquées.
    • Utilisez le<hreflang> La balise hreflang permet de spécifier les variantes linguistiques du contenu. Elle indique au robot d'exploration que la page est une version régionale du contenu principal, l'empêchant ainsi de la considérer comme un doublon si elle n'a pas encore été traduite.

    Voici comment une simple<hreflang> Voici à quoi cela ressemble dans votre code source :

    https://examplesite.com/news/hreflang-tags”/ >

    Cela indique au robot d'exploration que l'URL spécifiée est une variante espagnole (mexicaine) de l'URL principale et qu'elle ne doit pas être considérée comme un doublon.

    2.6.5 Agréable à avoir

    Nous avons abordé les points essentiels de la gestion du budget d'exploration. Les conseils présentés dans cette section, bien que non indispensables à une gestion efficace de ce budget, complètent avantageusement les techniques précédemment exposées.

    Gestion des urgences liées au déplacement en rampant

    Une urgence d'exploration survient lorsque Googlebot submerge votre site web de requêtes d'exploration, dépassant sa capacité. Il est crucial d'identifier le problème au plus vite, notamment en surveillant attentivement les journaux du serveur et les statistiques d'exploration dans Google Search Console.

    Si une augmentation soudaine du trafic d'exploration n'est pas gérée à temps, le serveur risque de ralentir. Ce ralentissement augmenterait le temps de réponse moyen des robots d'exploration et, par conséquent, les moteurs de recherche réduiraient automatiquement leur fréquence d'exploration. Ceci est problématique car une fréquence d'exploration réduite entraînerait une perte de visibilité, les nouveaux articles n'étant pas indexés immédiatement.

    Si vous constatez qu'un crawl excessif surcharge vos serveurs, voici quelques solutions :

    1. Limiter la vitesse de déplacement au pas de tortue

    Google utilise des algorithmes sophistiqués pour contrôler la fréquence d'exploration. Il est donc préférable de ne pas la modifier. Toutefois, en cas d'urgence, vous pouvez vous connecter à votre compte Google Search Console et accéder aux paramètres de fréquence d'exploration de votre propriété.

    Si la fréquence d'exploration affichée est « Calculée comme optimale », vous ne pourrez pas la modifier manuellement. Une demande spécifique doit être soumise à Google pour la modifier.

    Si ce n'est pas le cas, vous pouvez modifier vous-même la fréquence d'exploration à la valeur souhaitée. Cette valeur restera valable pendant 90 jours.

    Si vous ne souhaitez pas modifier les taux d'exploration dans la Search Console, vous pouvez également bloquer l'accès à la page par Googlebot via le fichier robots.txt. La procédure à suivre a déjà été expliquée.

    2. Vérifiez la vitesse d'exploration du site

    L'indexation de la plupart des sites par Google peut prendre jusqu'à trois jours. Seuls les sites d'actualités ou ceux publiant du contenu urgent font exception et peuvent être indexés quotidiennement.

    Pour vérifier la fréquence d'exploration de vos pages, consultez les journaux de votre site. Si vous pensez que votre contenu n'est toujours pas exploré aussi fréquemment qu'il le devrait, suivez ces étapes :

    • Soumettez votre sitemap d'actualités mis à jour à Google. Un sitemap d'actualités est un sitemap créé spécifiquement à partir de Google Actualités.
    • Si vous avez apporté des modifications à votre sitemap d'actualités, utilisez l'outil ping pour en informer Google. Pour ce faire, envoyez une requête GET depuis votre ligne de commande ou votre navigateur à l'adresse suivante :

    https://www.google.com/ping?sitemap=URL_COMPLÈTE_DU_SITEMAP

    • Utilisez le<lastmod> Balise dans les sitemaps pour indiquer la date de dernière mise à jour ou modification d'une URL indexée.

    3. Renvoyer un code d'erreur 503 ou 429

    Attention : cette étape doit être considérée comme la dernière action à entreprendre, car elle comporte un certain risque. Si Googlebot détecte des erreurs 503 et 429, son exploration ralentira et pourra s'interrompre, ce qui entraînera une baisse temporaire du nombre de pages indexées.

    Un code d'erreur 503 signifie que le serveur est temporairement indisponible, tandis qu'un code 429 indique qu'un utilisateur a envoyé trop de requêtes dans un laps de temps donné. Ces codes informent Googlebot que le problème est temporaire et qu'il reviendra explorer la page ultérieurement.

    Bien qu'il s'agisse d'une étape apparemment mineure, elle est importante car si Googlebot ne connaît pas la nature du problème rencontré par une page Web, il suppose que le problème est de longue durée et peut signaler que la page ne répond pas, ce qui peut affecter le référencement naturel.

    La création de codes d'erreur 503 se fait via un fichier PHP, inséré dans le code source HTML existant de votre page, accompagné d'un message d'erreur. Vous devrez également ajouter quelques lignes de code HTML indiquant quand le site est censé se recharger.

    Voici à quoi ressemble le code d'une redirection 503 :

    Renvoyer un code d&#39;erreur 503 ou 429

    Source

    La mise en place de redirections 503 ou 429 nécessite des compétences avancées en codage HTML et nous vous suggérons de consulter votre développeur web avant de tenter cette opération.

    2.6.6 Évitez ces pièges courants

    Nous comprenons désormais bien ce qu'est un budget d'exploration et comment l'optimiser. Cependant, il est tout aussi important de savoir ce qu'il ne faut pas faire en matière de budget d'exploration.

    Voici quelques pièges courants à éviter pour tirer le meilleur parti du budget d'exploration de votre site web :

    Tentative d'augmentation du taux d'exploration sans raison valable

    La fréquence à laquelle Google explore votre site web est déterminée par ses algorithmes, qui prennent en compte plusieurs signaux pour parvenir à une fréquence d'exploration optimale.

    Augmenter la fréquence d'exploration n'entraîne pas nécessairement un meilleur positionnement dans les résultats de recherche. La fréquence d'exploration, voire l'exploration elle-même, ne constitue pas un facteur de classement en soi.

    Soumission répétée d'ancien contenu pour l'exploration 

    Google ne privilégie pas nécessairement les contenus récents aux contenus plus anciens. Il classe les pages en fonction de la pertinence et de la qualité de leur contenu, qu'il soit récent ou ancien. Il n'est donc pas nécessaire de les faire indexer en permanence.

    Utilisation de la directive Crawl-Delay pour contrôler Googlebot

    La directive crawl-delay ne permet pas de contrôler Googlebot. Si vous souhaitez réduire la fréquence d'exploration en cas d'exploration excessive qui surcharge votre site web, veuillez consulter les instructions de la section précédente.

    Avoir un site web lent à charger

    La vitesse de chargement de votre site web peut avoir un impact sur votre budget d'exploration. Une page qui se charge rapidement permet à Google d'accéder à plus d'informations avec le même nombre de connexions.

    Pour obtenir des conseils sur l'optimisation de la vitesse de chargement, consultez notre expérience avec les modules sur page .

    Utiliser uniquement des liens nofollow pour bloquer les robots d'exploration

    Les liens nofollow peuvent tout de même impacter votre budget d'exploration, car ils peuvent être explorés malgré tout. En revanche, les liens interdits par le fichier robots.txt n'ont aucun impact sur ce budget.

    De plus, les URL alternatives et le contenu Javascript peuvent être explorés, consommant ainsi votre budget d'exploration. Il est donc important d'en restreindre l'accès, soit en les supprimant, soit en utilisant le fichier robots.txt.

    2.6.7 Actions et conclusions

    Le budget d'exploration est une ressource précieuse qu'il est essentiel d'optimiser. Les problèmes d'exploration et d'indexation peuvent impacter les performances de votre contenu, surtout si votre site web comporte un grand nombre de pages.

    Les deux opérations les plus fondamentales pour optimiser le budget d'exploration consistent à maintenir votre sitemap à jour et à surveiller régulièrement les problèmes d'indexation à partir du rapport de statistiques d'exploration et des fichiers journaux de la Search Console.

    Il est important d'apprendre à appliquer les meilleures pratiques de gestion des crawls aussi bien lors du déploiement de nouvelles fonctionnalités de site web que lors d'erreurs ponctuelles.

    Module précédent
    Retour au chapitre
    Module suivant

    Actif maintenant

    6

    Vitesse et fréquence de déplacement en rampant

    Voir plus

    1

    Conception et mise en page

    2

    Architecture du site

    3

    Expérience de page

    4

    Plan du site Actualités

    5

    Schéma

    7

    Liens vers du contenu sponsorisé et généré par les utilisateurs

    8

    Centre de publication Google

    9

    Bing News PubHub

    10

    Publicités, fenêtres contextuelles et bonnes pratiques

    SODP logo

    State of Digital Publishing crée une nouvelle publication et une nouvelle communauté pour les professionnels des médias numériques et de l'édition, dans le domaine des nouveaux médias et des technologies.

    • Outils de pointe
    • Référencement pour les éditeurs
    • Politique de confidentialité
    • Politique éditoriale
    • Plan du site
    • Recherche par entreprise
    Facebook X-twitter Mou LinkedIn

    ÉTAT DE L'ÉDITION NUMÉRIQUE – COPYRIGHT 2026