Tactiques de croissance des éditeurs pour la saison électorale | SÉMINAIRE EN LIGNE

Apprendre encore plus

SODP

SODP Media

  • Education
    • Articles
      • Audience Development
      • Content Strategy
      • Digital Publishing
      • Monetization
      • SEO
      • Digital Platforms & Tools
    • Opinion
    • Podcast
    • Events
      • SODP Dinner Event London 2025
      • SODP Dinner Event Dubai 2025
      • SODP Dinner Event California 2025
      • All Events
  • Top Tools & Reviews
  • Research & Resources
  • Community
    • Slack Channel
    • Newsletter
  • About
    • About Us
    • Contact Us
    • Editorial Policy
  • English
sodp logo
SODP logo
    Recherche
    Fermez ce champ de recherche.
    Connexion
    • Éducation
      • Podcast
      • Des articles
        • Développement du public
        • Stratégie de contenu
        • Édition numérique
        • Monétisation
        • Référencement
        • Plateformes et outils numériques
        • Des articles
        • Avis
        • Baladodiffusions
        • Événements
        • Développement du public
        • Stratégie de contenu
        • Édition numérique
        • Monétisation
        • Référencement
        • Plateformes et outils numériques
        • Dîner événement Californie 2025
        • PUBTECH2025
        • Voir tout
    • Meilleurs outils et avis
        • Plateformes CMS sans tête
        • Plateformes de publication numérique
        • Logiciel de calendrier éditorial
        • Applications de magazines
        • Plateformes de newsletter par e-mail
        • Plus de listes de meilleurs outils
        • Commentaires
    • Recherche et ressources
    • Communauté
      • Canal mou
      • Heures de travail
      • Bulletin
        • Canal mou
        • Bulletin
    • À propos
      • À propos de nous
      • Contactez-nous
      • Politique éditoriale
        • À propos de nous
        • Contactez-nous
        • Politique éditoriale
    espace réservé
    SODP logo
    Devenez partenaire de marque
    Accueil > Cours SEO pour éditeurs > Chapitre 2 : SEO technique > Vitesse et fréquence d'exploration
    6

    Vitesse et fréquence de crawl

    Vitesse et fréquence de crawl
    Module précédent
    Retour au chapitre
    Module suivant

    Objectif d'apprentissage

    Après avoir parcouru ce module, vous devriez comprendre ce qu'est le budget de crawl, comment il est alloué à un site Web et comment l'optimiser.

    Durée de la vidéo

    23:27

    Répondez au questionnaire

    Prenez le quiz sur le module actuel

    Matériaux

    Modèles prêts à l'emploi

    Ressources

    Rapports et ressources

    Limite de temps: 0

    Résumé du questionnaire

    0 de 9 questions complétées

    Des questions:

    Information

    Vous avez déjà répondu au quiz auparavant. Par conséquent, vous ne pouvez pas le redémarrer.

    Le questionnaire est en cours de chargement…

    Vous devez vous connecter ou vous inscrire pour commencer le quiz.

    Vous devez d'abord compléter ce qui suit :

    Résultats

    Quizz terminé. Les résultats sont en cours d'enregistrement.

    Résultats

    0 sur 9 questions répondues correctement

    Ton temps:

    Le temps s'est écoulé

    Vous avez atteint 0 sur 0 point(s), ( 0 )

    Point(s) gagné(s) : 0 sur 0 , ( 0 )
    0 Essai(s) en attente (Point(s) possible(s) : 0 )

    Catégories

    1. Non catégorisé 0%
    1. 1
    2. 2
    3. 3
    4. 4
    5. 5
    6. 6
    7. 7
    8. 8
    9. 9
    1. Actuel
    2. Examen
    3. Répondu
    4. Correct
    5. Incorrect
    1. Question 1 sur 9
      1. Question

      Qu'est-ce qu'un budget d'exploration?

      Correct
      Incorrect
    2. Question 2 sur 9
      2. Question

      Une mesure de la fréquence à laquelle Google veut re-(ramper) une page / site Web particulier s'appelle ____.

      Correct
      Incorrect
    3. Question 3 sur 9
      3. Question

      Les budgets d'exemple ne sont généralement qu'une préoccupation pour les éditeurs qui ont plus que combien de pages sur leur site Web?

      Correct
      Incorrect
    4. Question 4 de 9
      4. Question

      Où pouvez-vous trouver des statistiques d'exploration?

      Correct
      Incorrect
    5. Question 5 sur 9
      5. Question

      Qu'est-ce que Robots.txt?

      Correct
      Incorrect
    6. Question 6 sur 9
      6. Question

      Lequel des éléments suivants peut réduire votre budget d'exploration?

      Correct
      Incorrect
    7. Question 7 de 9
      7. Question

      Laquelle des tâches suivantes, un robot tiers comme Semrush ou Screaming Frog ne peut pas effectuer?

      Correct
      Incorrect
    8. Question 8 sur 9
      8. Question

      Que fait ce qui suit Tag communiquer à un robot?

      Correct
      Incorrect
    9. Question 9 de 9
      9. Question

      Que signifie un code d'erreur 503?

      Correct
      Incorrect

    2.6.1 Qu'est-ce qu'un budget de crawl ?

    Le budget de crawl est le nombre de pages de votre site Web qu'un robot d'indexation parcourra dans un délai donné.

    Chaque fois que vous appuyez sur le bouton de publication, Google doit explorer et indexer le contenu pour qu'il commence à apparaître dans les résultats de recherche. Compte tenu de l'échelle et du volume de contenu sur Internet, l'exploration devient une ressource précieuse qui doit être budgétisée et rationnée pour une utilisation plus efficace.

    Pour le dire simplement, il est difficile pour Google d'explorer et d'indexer chaque page sur Internet tous les jours. Ainsi, Google parcourt chaque site Web en fonction du budget qui lui est attribué.

    2.6.2 Comment le budget de crawl est-il attribué aux sites Web ?

    Le budget de crawl est attribué aux sites Web en fonction de deux facteurs : la limite de crawl et la demande de crawl.

    Limite d'exploration

    Il s'agit de la capacité et/ou de la volonté d'un site Web d'être crawlé.

    Tous les sites Web ne sont pas conçus pour être explorés quotidiennement. L'exploration implique que Googlebot envoie des requêtes au serveur de votre site Web qui, si elles sont effectuées trop fréquemment, peuvent mettre à rude épreuve la capacité du serveur.

    De plus, tous les éditeurs ne souhaitent pas que leur site soit exploré en permanence.

    Demande d'exploration

    La demande d'exploration est une mesure de la fréquence à laquelle une page particulière souhaite être (re)explorée. Les pages populaires ou les pages fréquemment mises à jour doivent être explorées et réexplorées plus fréquemment.

    2.6.3 Pourquoi les éditeurs devraient-ils se soucier du budget d'exploration ?

    Si Google ne peut pas explorer et indexer votre contenu, ce contenu n'apparaîtra tout simplement pas dans les résultats de recherche.

    Cela étant dit, les budgets de crawl ne concernent généralement que les éditeurs de taille moyenne à grande qui ont plus de 10 000 pages sur leur site Web. Les petits éditeurs ne devraient pas avoir à se soucier outre mesure des budgets d'exploration.

    Cependant, les éditeurs avec 10 000 pages ou plus sur leur site Web voudront éviter que Googlebot se rende compte des pages qui n'étaient pas importantes. Épuiser votre budget de rampe sur un contenu non pertinent ou moins important signifie que des pages de valeur plus élevées peuvent ne pas être rampées.

    En outre, les éditeurs de nouvelles voudront faire attention aux budgets de chapelure gaspillés étant donné que la rampe est l'une des trois façons dont Google News découvre un nouveau contenu en temps opportun. Les deux autres sont en utilisant des sitemaps et Google Publisher Center, que nous avons exploré plus loin dans notre site de site de Google News et les modules Google Publisher Center

    2.6.4 Optimisation des robots

    L'optimisation de la fréquence et de la vitesse avec lesquelles Googlebot rampe votre site Web implique de surveiller une gamme de variables. Nous commençons par énumérer les facteurs les plus importants impliqués dans l'optimisation du budget et de la fréquence de la rampe.

    Surveiller le contenu rampant

    Les deux tactiques les plus utiles pour surveiller la façon dont votre contenu est rampé est l'analyse des fichiers journaux et le rapport de statistiques de la console de recherche Google (GSC).

    1. Analyse du fichier journal

    Un fichier journal est un document texte qui enregistre chaque activité sur le serveur de votre site Web. Cela inclut toutes les données sur les demandes Crawls, les demandes de page, les demandes d'image, les demandes de fichiers JavaScript et toute autre ressource nécessaire pour exécuter votre site Web.

    Aux fins du référencement technique, l'analyse des fichiers journaux aide à déterminer de nombreuses informations utiles sur la rampe d'URL, y compris, mais sans s'y limiter:

    • Quelles URL ont été rampantes.
    • Quelles URL sont rampées le plus fréquemment.
    • Identifier si des URL de faible valeur ou non essentielle sont à rampe, gaspillant ainsi le budget de rampe.

    Comment faire ça

    L'analyse des fichiers journaux est une tâche qui nécessite un certain degré de familiarité technique avec le backend d'un site Web. Pour cette raison, nous vous recommandons d'utiliser le logiciel d'analyseur de fichiers journaux. Il existe plusieurs outils d'analyse de journaux gratuits et payants disponibles tels que Graylog , Loggly , Elastic Stack , Screaming Frog Analyzer et Nagios pour n'en nommer que quelques-uns.

    Si vous êtes un développeur expérimenté ou un administrateur système, vous pouvez également effectuer manuellement une analyse des fichiers journaux.

    Pour ce faire, suivez ces étapes:

    1. Connectez-vous au CPanel de votre fournisseur d'hébergement
    1. Accédez à des mériques puis à un accès brut
    1. Télécharger le fichier journal

    Une fois que vous avez téléchargé le fichier journal, vous pouvez modifier l'extension en .csv et l'ouvrir à l'aide de Microsoft Excel ou Google Sheets. Comme nous l'avons dit, cependant, cette approche nécessite un certain niveau d'expertise pour donner un sens au fichier journal.

    Vous pouvez également accéder au fichier journal à l'aide d'un client FTP en entrant le chemin d'accès du fichier journal. Un chemin de fichier journal typique ressemble à ceci:

    Nom du serveur (par exemple, apache) /var/log/access.log

    Cependant, il est beaucoup plus pratique d'utiliser un outil d'analyse des journaux à la place. Une fois que vous avez téléchargé le fichier journal dans l'outil, vous pouvez trier les données à l'aide de plusieurs filtres. Par exemple, vous pourrez voir quelles URL ont été accessibles le plus fréquemment par Googlebot.

    Vous pourrez également voir si Googlebot a accédé à des URL non essentielles ou à faible valeur telles que les URL de navigation à facettes, les URL en double, etc. L'identification de ceux-ci est importante car ils gaspillent votre budget de rampe.

    Regardez la capture d'écran ci-dessous, tirée de Screaming Frog's SEO Log File Analyzer, pour voir ce que nous voulons dire.

    Analyse des fichiers journaux

    2. Rapport de statistiques de Crawl GSC

    GSC fournit aux propriétaires de sites Web des données et des informations complètes sur la façon dont Google explore leur contenu. Cela comprend des rapports détaillés sur:

    • Quels fichiers / pages ont été rampés et dans quel but.
    • Quel type de Googlebot (nouvelles, vidéos, mobile, etc.) a entrepris le rampage.
    • Nombre total de demandes d'exploration, etc.

    GSC rend également disponible des graphiques et des graphiques faciles à comprendre pour fournir aux propriétaires de sites Web encore plus d'informations. La capture d'écran ci-dessous est à quoi ressemble un rapport typique de statistiques de nage sur GSC.

    Rapport de statistiques de Crawl GSC

    Source

    Le GSC vous permet également de savoir s'il y a des problèmes avec la rampe. Il vérifie plusieurs erreurs et attribue à chacun un code. Les erreurs les plus courantes que GSC vérifie les: incluent:

    • Erreur de serveur [5xx]
    • Erreur de redirection
    • URL soumise bloquée par robots.txt
    • URL soumise marquée « noindex »
    • L'URL soumise semble être un soft 404
    • URL soumise renvoyée 401
    • URL soumise introuvable (404)
    • URL soumise renvoyée 403
    • URL soumise bloquée en raison d'un autre problème 4xx

    Le rapport GSC montre également combien de pages ont été affectées par chaque erreur à côté de l'état de validation.

    Comment faire ça

    Voici comment vous pouvez accéder au rapport de statistiques Crawl GSC pour votre site Web ou votre page Web:

    1. Pour utiliser GSC, vous devez vous inscrire .
    1. Ensuite, vous devrez prouver que vous possédez le site Web que vous souhaitez ajouter à GSC. Cela peut être fait en ajoutant ce que Google appelle une «propriété». Une propriété est tout ce qui doit être examinée dans GSC. Il pourrait s'agir d'une seule page ou d'un site Web entier.
    1. Pour vérifier la propriété du site, sélectionnez ouvrir GSC, accédez au sélecteur de propriétés et cliquez sur «Ajouter une nouvelle propriété» dans le sélecteur de propriétés.
    1. Vous verrez ensuite une liste de méthodes de vérification qui vous permettront de vérifier votre propriété du site / de la page.

    Ceux-ci inclus:

    • Téléchargement de fichiers html
    • Tag html
    • Code de suivi Google Analytics
    • Google Tag Manager
    • Fournisseur de noms de domaine
    • Sites Google, blogueur ou compte de domaine.
    1. Sélectionnez votre méthode de vérification. Une fois votre propriété vérifiée, elle apparaîtra sur GSC et vous pouvez afficher des analyses détaillées pour son budget et son activité.

    Optimiser le budget d'exploration 

    Nous savons maintenant que le budget d'exploration est une ressource précieuse dont l'utilisation doit être optimisée pour de meilleurs résultats. Voici quelques techniques pour ce faire:

    1. Correction du contenu en double

    Le contenu en double peut finir par être rampé séparément, conduisant à un gaspillage de budget d'exploration. Pour éviter que cela ne se produise, soit consolider des pages en double sur votre site Web, soit supprimer des pages en double.

    2. Utilisez des robots.txt

    Robots.txt est un fichier qui sert à un certain nombre d'objectifs, dont l'un est de dire à Googlebot de ne pas explorer certaines pages ou sections de pages. Il s'agit d'une stratégie importante qui peut être utilisée pour empêcher Googlebot de ramper le contenu ou le contenu de faible valeur qui n'a pas besoin de ramper.

    Voici quelques meilleures pratiques lorsque vous utilisez des robots.txt pour optimiser le budget de la rampe:

    • Attribuez une priorité aux paramètres qui doivent être empêchés de ramper dans votre ordre de préférence.
    • Spécifiez les robots, les directives et les paramètres qui provoquent une analyse supplémentaire à l'aide de fichiers journaux.
    • Bloquez les chemins courants que les CMS ont généralement, tels que 404, admin, pages de connexion, etc.

    Comment faire ça

    La création et l'exécution d'un fichier robots.txt pour restreindre l'accès Googlebot nécessite certaines connaissances de codage. Voici les étapes impliquées:

    1. Un fichier robots.txt est créé à l'aide d'un éditeur de texte tel qu'un bloc-notes. Le fichier doit être nommé robots.txt pour Googlebot pour le reconnaître.
    1. Une fois qu'un fichier a été créé, nous y ajoutons des règles, c'est-à-dire que nous spécifions un ensemble d'instructions indiquant au fichier de bloquer l'accès à certains agents dans des conditions spécifiques.

    Un fichier robots.txt typique aura les éléments suivants:

    • Un agent utilisateur, comme Googlebot, auquel l'accès doit être refusé
    • Une interdiction ou permettre l'entrée, spécifiant un fichier ou un répertoire dans lequel l'accès doit être restreint pour l'agent utilisateur
    • Un plan du site pour dire à Google quel contenu il devrait ramper.

    Vous trouverez ci-dessous à quoi ressemble un fichier robots.txt simple.

    Utiliser des robots.txt

    Source 

    Ce code signifie qu'un agent utilisateur - Googlebot dans cette instance - n'est pas autorisé à explorer une URL qui commence par « http://www.example.com/nogooglebot/ ».

    1. Une fois votre fichier créé et enregistré sur votre machine locale, il doit être téléchargé sur votre site Web. Cela dépend de votre serveur et de votre fournisseur d'hébergement. Vous devrez contacter votre fournisseur pour déterminer les étapes exactes pour cela.

    Nous vous suggérons de rechercher une aide experte si vous ne vous sentez pas à l'aise de créer et de télécharger des fichiers Robots.txt vous-même.

    3. Sitemaps de segment XML

    Un robot d'exploration arrive sur un site avec une allocation générale du nombre de pages qu'il va explorer. Le plan du site XML demande efficacement au bot de lire les URL sélectionnées, garantissant ainsi l'utilisation efficace de ce budget.

    Notez que les performances de classement d'une page dépendent de plusieurs facteurs, notamment la qualité du contenu et les liens internes/externes. Pensez à inclure uniquement les pages de niveau supérieur dans la carte. Les images peuvent se voir attribuer leur propre plan de site XML.

    Suivez ces recommandations pour assurer la mise en œuvre optimale du plan du site XML:

    • Référencez le plan du site XML à partir du fichier robots.txt.
    • Créez plusieurs plans de site pour un très grand site. N'ajoutez pas plus de 50 000 URL à un seul plan de site XML.
    • Gardez-le propre et n’incluez que des pages indexables.
    • Gardez le plan du site XML à jour.
    • Gardez la taille du fichier à moins de 50 Mo.

    Pour un aperçu plus détaillé de Sitemaps, reportez-vous à notre module dédié sur ce sujet .

    4. Mettre en œuvre une stratégie de liaison interne efficace

    Les liens internes remplissent trois fonctions importantes:

    • Organiser le contenu autour des thèmes, ce qui aide à construire une autorité d'actualité.
    • Écart de la page d'écart entre les pages de grande valeur vers d'autres pages.
    • Aider les utilisateurs et les robots Web à naviguer plus facilement sur le site.

    Ainsi, pour une rampe efficace, il est important de mettre en œuvre une stratégie de liaison interne efficace. Pour en savoir plus sur la liaison interne, reportez-vous à notre module de cours détaillé ici.

    5. Améliorer l'hébergement

    Si un site Web s'exécute sur une plate-forme d'hébergement partagée, le budget Crawl sera partagé avec d'autres sites Web exécutés sur cette plate-forme. Un grand éditeur peut trouver que l'hébergement indépendant est une alternative précieuse.

    Avant de mettre à niveau votre hébergement pour résoudre la surcharge du trafic BOT, certains facteurs méritent d'être considérés qui pourraient avoir un impact sur les charges du serveur autrement.

    • Processus des images à l'aide d'un réseau de distribution de contenu (CDN) distinct qui est également optimisé pour héberger des formats d'image de prochaine génération tels que WebP.
    • Envisagez d'héberger le processeur, l'espace disque en fonction de la fonction et des exigences de votre site Web.
    • Surveillez l'activité à l'aide de solutions comme une nouvelle relique pour surveiller l'utilisation excessive des plugins et des bots.

    Pour en savoir plus sur les avantages des CDN, consultez notre module d'expérience de page .

    6. Utilisez JavaScript judicieusement

    Lorsque Googlebot arrive sur une page Web, il affiche tous les éléments de cette page, y compris Javascript. Bien que l'exploration du HTML soit plutôt simple, Googlebot doit traiter Javascript plusieurs fois afin de pouvoir le restituer et comprendre son contenu.

    Cela peut rapidement épuiser le budget d'exploration de Google pour un site Web. La solution consiste à implémenter le rendu Javascript côté serveur.

    Comment faire ça

    La lutte contre JavaScript dans le code source de votre site Web nécessite une expertise de codage et nous vous recommandons de consulter un développeur Web si vous prévoyez d'apporter de telles modifications. Cela dit, voici quelques lignes directrices sur ce qu'il faut rechercher lorsque vous essayez d'optimiser l'utilisation de JavaScript.

    • Évitez d'envoyer des actifs JavaScript au client pour le rendu afin que les robots Crawl ne dépensent pas leurs ressources et puissent fonctionner plus efficacement
    • Utilisez le chargement paresseux au niveau du navigateur au lieu qu'il soit basé sur JavaScript.
    • Utilisez le balisage côté serveur pour l'analyse et le balisage tiers, soit auto-hébergé ou en utilisant des solutions telles que Stape.io.

    7. Monitor CWVS

    Les CWV sont une mesure des performances de la page qui affectent directement la façon dont votre page fonctionne dans les classements de recherche.

    Les groupes de rapports CWV du GSC URL Performance dans trois catégories:

    • Type métrique (LCP, FID et CLS)
    • Statut
    • Groupes d'URL

    Les CWV peuvent également avoir un impact sur votre budget de rampe. Par exemple, les pages de chargement lente peuvent manger dans votre budget de rampe car Google a un temps limité pour les tâches rampantes. Si vos pages se chargent rapidement, Google peut en raffermir davantage dans le temps limité. De même, trop de rapports d'état d'erreur peuvent ralentir la rampe et gaspiller votre budget de rampe.

    Pour un examen plus approfondi des CWV, consultez notre module sur l'expérience de la page .

    8. Utilisez un robot d'exploration tiers

    Un robot de tiers comme Semrush , Sitechecker.pro ou Screaming Frog permet aux développeurs Web de combler toutes les URL d'un site et d'identifier les problèmes potentiels.

    Des robots tiers peuvent être utilisés pour identifier:

    • Liens brisés
    • Contenu en double
    • Titres de pages manquants

    Ces programmes proposent un rapport de statistiques d'exploration pour aider à mettre en évidence les problèmes que les outils de Google peuvent ne pas résoudre.

    L'amélioration des données structurées et la réduction des problèmes d'hygiène rationaliseront le travail d'exploration et d'indexation d'un site par Googlebot.

    Nous recommandons les meilleures pratiques suivantes lorsque vous utilisez des robots tiers:

    • Émulez Googlebot, via les paramètres d'exploration de recherche, pour éviter d'être bloqué par les fournisseurs d'hébergement et pour identifier et résoudre correctement tous les problèmes techniques.
    • Déboguez les pages manquantes d'un rampe en utilisant ce grand guide de Screaming Frog .

    9. Paramètres URL de surveillance

    Paramètres d'URL : la section de l'adresse Web qui suit le « ? » - sont utilisés sur une page pour diverses raisons, notamment le filtrage, la pagination et la recherche.

    Bien que cela puisse améliorer l'expérience utilisateur, cela peut également entraîner des problèmes d'exploration lorsque l'URL de base et celle avec des paramètres renvoient le même contenu. Un exemple de ceci serait « http://mysite.com » et « http://mysite.com?id=3 » renvoyant exactement la même page.

    Les paramètres permettent à un site d'avoir un nombre quasi illimité de liens, par exemple lorsqu'un utilisateur peut sélectionner des jours, des mois et des années sur un calendrier. Si le robot est autorisé à explorer ces pages, le budget d’exploration sera inutilement utilisé.

    Cela peut être en particulier un problème de préoccupation si votre site Web utilise des identifiants de navigation à facettes ou de session qui peuvent engendrer plusieurs pages en double qui, si elles sont rampantes, pourraient conduire à un gaspillage de budget d'exploration.

    Les URL en double peuvent également en résulter si vous avez des versions localisées de votre page Web dans différentes langues, et le contenu de ces pages n'a pas été traduit.

    Nous recommandons ce qui suit pour résoudre ceci:

    • Utilisez Robots.txt pour interdire Googlebot à partir de pages en double rampe.
    • Utiliser le<hreflang> Tag pour spécifier les variations de langage du contenu. L'onglet Hreflang indique au robot que la page est une variation régionale du contenu principal, empêchant ainsi le robot de son enregistrement de l'enregistrement en double au cas où il n'aurait pas encore été traduit.

    Voici comment un simple<hreflang> On dirait dans votre code source:

    https://example.com/news/hreflang-tags "/>

    Cela indique au robot que l'URL spécifié est une variante espagnole (mexicaine) de l'URL principale, et elle ne doit pas être traitée comme un double.

    2.6.5 agréable à avoir

    Nous avons discuté de l'essentiel de la gestion du budget d'exploration. Les pointeurs énumérés dans cette section, bien que non essentiels à la gestion du budget de rampe sain, contribuent grandement à compléter les techniques discutées précédemment.

    Traiter les urgences rampantes

    Une urgence rampante se produit lorsque Googlebot submerge votre site Web avec plus de demandes de manche qu'elle ne peut en gérer. Il est important d'identifier le problème le plus rapidement possible, ce qui peut être fait en surveillant de près les journaux des serveurs et en rampant les statistiques dans Google Search Console.

    Si une poussée soudaine de rampe n'est pas gérée dans le temps, cela pourrait ralentir le serveur. Le ralentissement du serveur augmenterait le temps de réponse moyen pour les robots des robots et, en raison de ce temps de réponse élevé, les moteurs de recherche réduiront automatiquement leur taux de manche. Ceci est problématique car une baisse des taux d'exploration entraînera une perte de visibilité, les nouveaux articles n'étant pas rampés immédiatement.

    Si vous remarquez que la rampe fascinait vos serveurs, ici, quelques choses que vous pouvez faire:

    1. Limiter le taux d'exploration

    Google a des algorithmes sophistiqués qui contrôlent le taux d'exploration. Donc, idéalement, il ne faut pas falsifier le taux d'exploration. Cependant, dans une situation d'urgence, vous pouvez vous connecter à votre compte GSC et accéder à des paramètres de taux d'exploration pour votre propriété.

    Si vous voyez le taux d'exploration là-bas comme calculé comme optimal, vous ne pourrez pas le changer manuellement. Une demande spéciale doit être déposée auprès de Google pour modifier le taux d'exploration.

    Si ce n'est pas le cas, vous pouvez simplement changer le taux d'exploration vous-même à la valeur souhaitée. Cette valeur restera valide pendant 90 jours.

    Si vous ne souhaitez pas falsifier les taux d'exploration dans le GSC, vous pouvez également bloquer l'accès à la page par Googlebot à l'aide de robots.txt. La procédure pour ce faire a été expliquée précédemment.

    2. Vérifiez le taux d'exploration du site

    Il peut prendre à Google jusqu'à trois jours pour ramper la plupart des sites. Les seules exceptions sont les sites d'actualités ou d'autres sites qui publient un contenu sensible au temps qui peut être rampé quotidiennement.

    Pour vérifier la fréquence à laquelle vos pages sont rampantes, surveillez votre journal de votre site. Si vous sentez toujours que votre contenu n'est pas rampé aussi souvent qu'il devrait l'être, suivez ces étapes:

    • Soumettez votre site de sitemap d'information mis à jour à Google. Un site de News est un plan de site créé spécifiquement à partir de Google News.
    • Si vous avez apporté des modifications à votre site de site, utilisez l'outil Ping pour en informer Google, cela peut être fait en envoyant une demande de GET à partir de votre ligne de commande ou de votre navigateur à l'adresse suivante:

    https://www.google.com/ping?sitemap=full_url_of_sitemap

    • Utiliser le<lastmod> Tag dans du sitemaps pour afficher lorsqu'une URL indexée a été mise à jour pour la dernière fois ou modifiée.

    3. Renvoie un code d'erreur 503 ou 429

    Veuillez noter: Cette étape doit être considérée comme la dernière action que l'on doit entreprendre car elle comporte un certain degré de risque. Si Googlebot voit les erreurs 503 et 429, il commencera à ramper plus lentement et peut arrêter le rampage, conduisant à une baisse temporaire du nombre de pages indexées.

    Un code d'erreur 503 signifie que le serveur est temporairement en baisse, tandis que 429 signifie qu'un utilisateur a envoyé trop de demandes dans un délai spécifique. Ces codes permettent à Googlebot de savoir que le problème est temporaire, et il devrait revenir pour ramper la page plus tard.

    Bien qu'une étape apparemment mineure soit importante car si Googlebot ne connaît pas la nature du problème qu'une page Web connaît, cela suppose que le problème est de nature à long terme et peut marquer la page comme étant insensible, ce qui peut affecter le référencement.

    La création de codes d'erreur 503 est effectué via un fichier PHP, qui est inséré dans le code source HTML existant de votre page ainsi qu'un message d'erreur. Vous devrez également écrire quelques lignes supplémentaires de code HTML mentionnant lorsque le site devrait revenir.

    C'est à quoi ressemble le code pour une redirection 503:

    Renvoie un code d&#39;erreur 503 ou 429

    Source

    Faire des redirections 503 ou 429 nécessite des compétences avancées de codage HTML et nous vous suggérons de consulter votre développeur Web avant de tenter cela.

    2.6.6 Évitez ces pièges communs

    Nous avons maintenant une bonne compréhension de ce qu'est un budget d'exploration et de la façon de l'optimiser. Cependant, savoir quoi ne pas faire en ce qui concerne les budgets d'exploration est tout aussi important.

    Voici quelques pièges courants à éviter pour vous assurer de tirer le meilleur parti du budget de rampe de votre site Web:

    Essayer d'augmenter le taux d'exploration sans une bonne raison

    La fréquence à laquelle Google explore votre site Web est déterminée par ses algorithmes, qui prennent en compte plusieurs signaux pour arriver à une fréquence de manche optimale.

    L'augmentation du taux d'exploration ne conduit pas nécessairement à de meilleures positions dans les résultats de recherche. La fréquence de rampe ou même de ramper elle-même n'est pas un facteur de classement en soi.

    Soumettre à plusieurs reprises un vieux contenu pour ramper 

    Google ne préfère pas nécessairement un contenu plus frais à un contenu plus ancien. Google classe les pages en fonction de la pertinence et de la qualité du contenu, qu'il soit ancien ou nouveau. Donc, il n'est pas nécessaire de continuer à les faire ramper.

    Utilisation de la directive Crawl-Delay pour contrôler Googlebot

    La directive Crawl-Delay n'aide pas à contrôler Googlebot. Si vous souhaitez ralentir la fréquence de rampe en réponse à un rampage excessif qui est écrasant votre site Web, reportez-vous aux instructions fournies dans la section ci-dessus.

    Avoir un site Web de chargement lent

    La vitesse de chargement de votre site Web peut affecter votre budget de rampe. Une page de chargement rapide signifie que Google peut accéder à plus d'informations sur le même nombre de connexions.

    Pour des conseils sur l'optimisation de la vitesse de chargement, consultez notre module sur l'expérience de la page .

    En utilisant uniquement des liens nofollow pour bloquer les robots

    Les liens NOFollow peuvent toujours finir par affecter votre budget de rampe, car ceux-ci peuvent encore finir par être rampés. D'un autre côté, les liens que Robots.txt ont refusé n'ont aucun effet sur le budget d'exploration.

    En outre, des URL alternatives et du contenu JavaScript peuvent finir par être rampés, consommer votre budget de rampe, il est donc important de restreindre l'accès en les supprimant ou en utilisant Robots.txt.

    2.6.7 Actions et plats à emporter

    Le budget de la nageoire est une ressource précieuse et il est essentiel que vous vous optimiez. Les problèmes rampants et d'indexation peuvent affecter les performances de votre contenu, surtout si votre site Web contient un grand nombre de pages.

    Les deux opérations les plus fondamentales impliquées dans l'optimisation du budget d'exploration sont de garder votre plan du site à jour et de surveiller régulièrement les problèmes d'indexation du rapport GSC Crawl Statistiques et des fichiers journaux.

    Il est important d'apprendre à appliquer les meilleures pratiques de gestion de la rampe à la fois lors du déploiement des nouvelles fonctionnalités du site Web et également lorsque des erreurs ponctuelles se produisent.

    Module précédent
    Retour au chapitre
    Module suivant

    Actif maintenant

    6

    Vitesse et fréquence de crawl

    Voir plus

    1

    Conception et mise en page

    2

    Architecture du site

    3

    Expérience de la page

    4

    Plan du site

    5

    Schéma

    7

    Liens vers du contenu sponsorisé et généré par les utilisateurs

    8

    Centre des éditeurs Google

    9

    Bing Actualités PubHub

    10

    Annonces, popups et meilleures pratiques

    SODP logo

    State of Digital Publishing crée une nouvelle publication et une nouvelle communauté pour les professionnels des médias numériques et de l'édition, dans les nouveaux médias et technologies.

    • Meilleurs outils
    • SEO pour les éditeurs
    • Politique de confidentialité
    • Politique éditoriale
    • Plan du site
    • Recherche par entreprise
    Facebook X-twitter Mou Linkedin

    ÉTAT DE L’ÉDITION NUMÉRIQUE – COPYRIGHT 2025