Tactiques de croissance des éditeurs pour la saison électorale | SÉMINAIRE EN LIGNE
Après avoir parcouru ce module, vous devriez comprendre ce qu'est le budget de crawl, comment il est alloué à un site Web et comment l'optimiser.
Durée de la vidéo
23:27
Répondez au questionnaire
Prenez le quiz sur le module actuel
Matériaux
Modèles prêts à l'emploi
Ressources
Rapports et ressources
0 de 9 questions complétées
Des questions:
Vous avez déjà répondu au quiz auparavant. Par conséquent, vous ne pouvez pas le redémarrer.
Le questionnaire est en cours de chargement…
Vous devez vous connecter ou vous inscrire pour commencer le quiz.
Vous devez d'abord compléter ce qui suit :
0 sur 9 questions répondues correctement
Ton temps:
Le temps s'est écoulé
Vous avez atteint 0 sur 0 point(s), ( 0 )
Point(s) gagné(s) : 0 sur 0 , ( 0 )
0 Essai(s) en attente (Point(s) possible(s) : 0 )
Qu'est-ce qu'un budget d'exploration?
Une mesure de la fréquence à laquelle Google veut re-(ramper) une page / site Web particulier s'appelle ____.
Les budgets d'exemple ne sont généralement qu'une préoccupation pour les éditeurs qui ont plus que combien de pages sur leur site Web?
Où pouvez-vous trouver des statistiques d'exploration?
Qu'est-ce que Robots.txt?
Lequel des éléments suivants peut réduire votre budget d'exploration?
Laquelle des tâches suivantes, un robot tiers comme Semrush ou Screaming Frog ne peut pas effectuer?
Que fait ce qui suit
Que signifie un code d'erreur 503?
2.6.1 Qu'est-ce qu'un budget de crawl ?
Le budget de crawl est le nombre de pages de votre site Web qu'un robot d'indexation parcourra dans un délai donné.
Chaque fois que vous appuyez sur le bouton de publication, Google doit explorer et indexer le contenu pour qu'il commence à apparaître dans les résultats de recherche. Compte tenu de l'échelle et du volume de contenu sur Internet, l'exploration devient une ressource précieuse qui doit être budgétisée et rationnée pour une utilisation plus efficace.
Pour le dire simplement, il est difficile pour Google d'explorer et d'indexer chaque page sur Internet tous les jours. Ainsi, Google parcourt chaque site Web en fonction du budget qui lui est attribué.
Le budget de crawl est attribué aux sites Web en fonction de deux facteurs : la limite de crawl et la demande de crawl.
Il s'agit de la capacité et/ou de la volonté d'un site Web d'être crawlé.
Tous les sites Web ne sont pas conçus pour être explorés quotidiennement. L'exploration implique que Googlebot envoie des requêtes au serveur de votre site Web qui, si elles sont effectuées trop fréquemment, peuvent mettre à rude épreuve la capacité du serveur.
De plus, tous les éditeurs ne souhaitent pas que leur site soit exploré en permanence.
La demande d'exploration est une mesure de la fréquence à laquelle une page particulière souhaite être (re)explorée. Les pages populaires ou les pages fréquemment mises à jour doivent être explorées et réexplorées plus fréquemment.
Si Google ne peut pas explorer et indexer votre contenu, ce contenu n'apparaîtra tout simplement pas dans les résultats de recherche.
Cela étant dit, les budgets de crawl ne concernent généralement que les éditeurs de taille moyenne à grande qui ont plus de 10 000 pages sur leur site Web. Les petits éditeurs ne devraient pas avoir à se soucier outre mesure des budgets d'exploration.
Cependant, les éditeurs avec 10 000 pages ou plus sur leur site Web voudront éviter que Googlebot se rende compte des pages qui n'étaient pas importantes. Épuiser votre budget de rampe sur un contenu non pertinent ou moins important signifie que des pages de valeur plus élevées peuvent ne pas être rampées.
En outre, les éditeurs de nouvelles voudront faire attention aux budgets de chapelure gaspillés étant donné que la rampe est l'une des trois façons dont Google News découvre un nouveau contenu en temps opportun. Les deux autres sont en utilisant des sitemaps et Google Publisher Center, que nous avons exploré plus loin dans notre site de site de Google News et les modules Google Publisher Center
L'optimisation de la fréquence et de la vitesse avec lesquelles Googlebot rampe votre site Web implique de surveiller une gamme de variables. Nous commençons par énumérer les facteurs les plus importants impliqués dans l'optimisation du budget et de la fréquence de la rampe.
Les deux tactiques les plus utiles pour surveiller la façon dont votre contenu est rampé est l'analyse des fichiers journaux et le rapport de statistiques de la console de recherche Google (GSC).
Un fichier journal est un document texte qui enregistre chaque activité sur le serveur de votre site Web. Cela inclut toutes les données sur les demandes Crawls, les demandes de page, les demandes d'image, les demandes de fichiers JavaScript et toute autre ressource nécessaire pour exécuter votre site Web.
Aux fins du référencement technique, l'analyse des fichiers journaux aide à déterminer de nombreuses informations utiles sur la rampe d'URL, y compris, mais sans s'y limiter:
Comment faire ça
L'analyse des fichiers journaux est une tâche qui nécessite un certain degré de familiarité technique avec le backend d'un site Web. Pour cette raison, nous vous recommandons d'utiliser le logiciel d'analyseur de fichiers journaux. Il existe plusieurs outils d'analyse de journaux gratuits et payants disponibles tels que Graylog , Loggly , Elastic Stack , Screaming Frog Analyzer et Nagios pour n'en nommer que quelques-uns.
Si vous êtes un développeur expérimenté ou un administrateur système, vous pouvez également effectuer manuellement une analyse des fichiers journaux.
Pour ce faire, suivez ces étapes:
Une fois que vous avez téléchargé le fichier journal, vous pouvez modifier l'extension en .csv et l'ouvrir à l'aide de Microsoft Excel ou Google Sheets. Comme nous l'avons dit, cependant, cette approche nécessite un certain niveau d'expertise pour donner un sens au fichier journal.
Vous pouvez également accéder au fichier journal à l'aide d'un client FTP en entrant le chemin d'accès du fichier journal. Un chemin de fichier journal typique ressemble à ceci:
Nom du serveur (par exemple, apache) /var/log/access.log
Cependant, il est beaucoup plus pratique d'utiliser un outil d'analyse des journaux à la place. Une fois que vous avez téléchargé le fichier journal dans l'outil, vous pouvez trier les données à l'aide de plusieurs filtres. Par exemple, vous pourrez voir quelles URL ont été accessibles le plus fréquemment par Googlebot.
Vous pourrez également voir si Googlebot a accédé à des URL non essentielles ou à faible valeur telles que les URL de navigation à facettes, les URL en double, etc. L'identification de ceux-ci est importante car ils gaspillent votre budget de rampe.
Regardez la capture d'écran ci-dessous, tirée de Screaming Frog's SEO Log File Analyzer, pour voir ce que nous voulons dire.
GSC fournit aux propriétaires de sites Web des données et des informations complètes sur la façon dont Google explore leur contenu. Cela comprend des rapports détaillés sur:
GSC rend également disponible des graphiques et des graphiques faciles à comprendre pour fournir aux propriétaires de sites Web encore plus d'informations. La capture d'écran ci-dessous est à quoi ressemble un rapport typique de statistiques de nage sur GSC.
Le GSC vous permet également de savoir s'il y a des problèmes avec la rampe. Il vérifie plusieurs erreurs et attribue à chacun un code. Les erreurs les plus courantes que GSC vérifie les: incluent:
Le rapport GSC montre également combien de pages ont été affectées par chaque erreur à côté de l'état de validation.
Comment faire ça
Voici comment vous pouvez accéder au rapport de statistiques Crawl GSC pour votre site Web ou votre page Web:
Ceux-ci inclus:
Nous savons maintenant que le budget d'exploration est une ressource précieuse dont l'utilisation doit être optimisée pour de meilleurs résultats. Voici quelques techniques pour ce faire:
Le contenu en double peut finir par être rampé séparément, conduisant à un gaspillage de budget d'exploration. Pour éviter que cela ne se produise, soit consolider des pages en double sur votre site Web, soit supprimer des pages en double.
Robots.txt est un fichier qui sert à un certain nombre d'objectifs, dont l'un est de dire à Googlebot de ne pas explorer certaines pages ou sections de pages. Il s'agit d'une stratégie importante qui peut être utilisée pour empêcher Googlebot de ramper le contenu ou le contenu de faible valeur qui n'a pas besoin de ramper.
Voici quelques meilleures pratiques lorsque vous utilisez des robots.txt pour optimiser le budget de la rampe:
Comment faire ça
La création et l'exécution d'un fichier robots.txt pour restreindre l'accès Googlebot nécessite certaines connaissances de codage. Voici les étapes impliquées:
Un fichier robots.txt typique aura les éléments suivants:
Vous trouverez ci-dessous à quoi ressemble un fichier robots.txt simple.
Ce code signifie qu'un agent utilisateur - Googlebot dans cette instance - n'est pas autorisé à explorer une URL qui commence par « http://www.example.com/nogooglebot/ ».
Nous vous suggérons de rechercher une aide experte si vous ne vous sentez pas à l'aise de créer et de télécharger des fichiers Robots.txt vous-même.
Un robot d'exploration arrive sur un site avec une allocation générale du nombre de pages qu'il va explorer. Le plan du site XML demande efficacement au bot de lire les URL sélectionnées, garantissant ainsi l'utilisation efficace de ce budget.
Notez que les performances de classement d'une page dépendent de plusieurs facteurs, notamment la qualité du contenu et les liens internes/externes. Pensez à inclure uniquement les pages de niveau supérieur dans la carte. Les images peuvent se voir attribuer leur propre plan de site XML.
Suivez ces recommandations pour assurer la mise en œuvre optimale du plan du site XML:
Pour un aperçu plus détaillé de Sitemaps, reportez-vous à notre module dédié sur ce sujet .
Les liens internes remplissent trois fonctions importantes:
Ainsi, pour une rampe efficace, il est important de mettre en œuvre une stratégie de liaison interne efficace. Pour en savoir plus sur la liaison interne, reportez-vous à notre module de cours détaillé ici.
Si un site Web s'exécute sur une plate-forme d'hébergement partagée, le budget Crawl sera partagé avec d'autres sites Web exécutés sur cette plate-forme. Un grand éditeur peut trouver que l'hébergement indépendant est une alternative précieuse.
Avant de mettre à niveau votre hébergement pour résoudre la surcharge du trafic BOT, certains facteurs méritent d'être considérés qui pourraient avoir un impact sur les charges du serveur autrement.
Pour en savoir plus sur les avantages des CDN, consultez notre module d'expérience de page .
Lorsque Googlebot arrive sur une page Web, il affiche tous les éléments de cette page, y compris Javascript. Bien que l'exploration du HTML soit plutôt simple, Googlebot doit traiter Javascript plusieurs fois afin de pouvoir le restituer et comprendre son contenu.
Cela peut rapidement épuiser le budget d'exploration de Google pour un site Web. La solution consiste à implémenter le rendu Javascript côté serveur.
Comment faire ça
La lutte contre JavaScript dans le code source de votre site Web nécessite une expertise de codage et nous vous recommandons de consulter un développeur Web si vous prévoyez d'apporter de telles modifications. Cela dit, voici quelques lignes directrices sur ce qu'il faut rechercher lorsque vous essayez d'optimiser l'utilisation de JavaScript.
Les CWV sont une mesure des performances de la page qui affectent directement la façon dont votre page fonctionne dans les classements de recherche.
Les groupes de rapports CWV du GSC URL Performance dans trois catégories:
Les CWV peuvent également avoir un impact sur votre budget de rampe. Par exemple, les pages de chargement lente peuvent manger dans votre budget de rampe car Google a un temps limité pour les tâches rampantes. Si vos pages se chargent rapidement, Google peut en raffermir davantage dans le temps limité. De même, trop de rapports d'état d'erreur peuvent ralentir la rampe et gaspiller votre budget de rampe.
Pour un examen plus approfondi des CWV, consultez notre module sur l'expérience de la page .
Un robot de tiers comme Semrush , Sitechecker.pro ou Screaming Frog permet aux développeurs Web de combler toutes les URL d'un site et d'identifier les problèmes potentiels.
Des robots tiers peuvent être utilisés pour identifier:
Ces programmes proposent un rapport de statistiques d'exploration pour aider à mettre en évidence les problèmes que les outils de Google peuvent ne pas résoudre.
L'amélioration des données structurées et la réduction des problèmes d'hygiène rationaliseront le travail d'exploration et d'indexation d'un site par Googlebot.
Nous recommandons les meilleures pratiques suivantes lorsque vous utilisez des robots tiers:
Paramètres d'URL : la section de l'adresse Web qui suit le « ? » - sont utilisés sur une page pour diverses raisons, notamment le filtrage, la pagination et la recherche.
Bien que cela puisse améliorer l'expérience utilisateur, cela peut également entraîner des problèmes d'exploration lorsque l'URL de base et celle avec des paramètres renvoient le même contenu. Un exemple de ceci serait « http://mysite.com » et « http://mysite.com?id=3 » renvoyant exactement la même page.
Les paramètres permettent à un site d'avoir un nombre quasi illimité de liens, par exemple lorsqu'un utilisateur peut sélectionner des jours, des mois et des années sur un calendrier. Si le robot est autorisé à explorer ces pages, le budget d’exploration sera inutilement utilisé.
Cela peut être en particulier un problème de préoccupation si votre site Web utilise des identifiants de navigation à facettes ou de session qui peuvent engendrer plusieurs pages en double qui, si elles sont rampantes, pourraient conduire à un gaspillage de budget d'exploration.
Les URL en double peuvent également en résulter si vous avez des versions localisées de votre page Web dans différentes langues, et le contenu de ces pages n'a pas été traduit.
Nous recommandons ce qui suit pour résoudre ceci:
Voici comment un simple<hreflang> On dirait dans votre code source:
https://example.com/news/hreflang-tags "/>
Cela indique au robot que l'URL spécifié est une variante espagnole (mexicaine) de l'URL principale, et elle ne doit pas être traitée comme un double.
Nous avons discuté de l'essentiel de la gestion du budget d'exploration. Les pointeurs énumérés dans cette section, bien que non essentiels à la gestion du budget de rampe sain, contribuent grandement à compléter les techniques discutées précédemment.
Une urgence rampante se produit lorsque Googlebot submerge votre site Web avec plus de demandes de manche qu'elle ne peut en gérer. Il est important d'identifier le problème le plus rapidement possible, ce qui peut être fait en surveillant de près les journaux des serveurs et en rampant les statistiques dans Google Search Console.
Si une poussée soudaine de rampe n'est pas gérée dans le temps, cela pourrait ralentir le serveur. Le ralentissement du serveur augmenterait le temps de réponse moyen pour les robots des robots et, en raison de ce temps de réponse élevé, les moteurs de recherche réduiront automatiquement leur taux de manche. Ceci est problématique car une baisse des taux d'exploration entraînera une perte de visibilité, les nouveaux articles n'étant pas rampés immédiatement.
Si vous remarquez que la rampe fascinait vos serveurs, ici, quelques choses que vous pouvez faire:
Google a des algorithmes sophistiqués qui contrôlent le taux d'exploration. Donc, idéalement, il ne faut pas falsifier le taux d'exploration. Cependant, dans une situation d'urgence, vous pouvez vous connecter à votre compte GSC et accéder à des paramètres de taux d'exploration pour votre propriété.
Si vous voyez le taux d'exploration là-bas comme calculé comme optimal, vous ne pourrez pas le changer manuellement. Une demande spéciale doit être déposée auprès de Google pour modifier le taux d'exploration.
Si ce n'est pas le cas, vous pouvez simplement changer le taux d'exploration vous-même à la valeur souhaitée. Cette valeur restera valide pendant 90 jours.
Si vous ne souhaitez pas falsifier les taux d'exploration dans le GSC, vous pouvez également bloquer l'accès à la page par Googlebot à l'aide de robots.txt. La procédure pour ce faire a été expliquée précédemment.
Il peut prendre à Google jusqu'à trois jours pour ramper la plupart des sites. Les seules exceptions sont les sites d'actualités ou d'autres sites qui publient un contenu sensible au temps qui peut être rampé quotidiennement.
Pour vérifier la fréquence à laquelle vos pages sont rampantes, surveillez votre journal de votre site. Si vous sentez toujours que votre contenu n'est pas rampé aussi souvent qu'il devrait l'être, suivez ces étapes:
https://www.google.com/ping?sitemap=full_url_of_sitemap
Veuillez noter: Cette étape doit être considérée comme la dernière action que l'on doit entreprendre car elle comporte un certain degré de risque. Si Googlebot voit les erreurs 503 et 429, il commencera à ramper plus lentement et peut arrêter le rampage, conduisant à une baisse temporaire du nombre de pages indexées.
Un code d'erreur 503 signifie que le serveur est temporairement en baisse, tandis que 429 signifie qu'un utilisateur a envoyé trop de demandes dans un délai spécifique. Ces codes permettent à Googlebot de savoir que le problème est temporaire, et il devrait revenir pour ramper la page plus tard.
Bien qu'une étape apparemment mineure soit importante car si Googlebot ne connaît pas la nature du problème qu'une page Web connaît, cela suppose que le problème est de nature à long terme et peut marquer la page comme étant insensible, ce qui peut affecter le référencement.
La création de codes d'erreur 503 est effectué via un fichier PHP, qui est inséré dans le code source HTML existant de votre page ainsi qu'un message d'erreur. Vous devrez également écrire quelques lignes supplémentaires de code HTML mentionnant lorsque le site devrait revenir.
C'est à quoi ressemble le code pour une redirection 503:
Faire des redirections 503 ou 429 nécessite des compétences avancées de codage HTML et nous vous suggérons de consulter votre développeur Web avant de tenter cela.
Nous avons maintenant une bonne compréhension de ce qu'est un budget d'exploration et de la façon de l'optimiser. Cependant, savoir quoi ne pas faire en ce qui concerne les budgets d'exploration est tout aussi important.
Voici quelques pièges courants à éviter pour vous assurer de tirer le meilleur parti du budget de rampe de votre site Web:
La fréquence à laquelle Google explore votre site Web est déterminée par ses algorithmes, qui prennent en compte plusieurs signaux pour arriver à une fréquence de manche optimale.
L'augmentation du taux d'exploration ne conduit pas nécessairement à de meilleures positions dans les résultats de recherche. La fréquence de rampe ou même de ramper elle-même n'est pas un facteur de classement en soi.
Google ne préfère pas nécessairement un contenu plus frais à un contenu plus ancien. Google classe les pages en fonction de la pertinence et de la qualité du contenu, qu'il soit ancien ou nouveau. Donc, il n'est pas nécessaire de continuer à les faire ramper.
La directive Crawl-Delay n'aide pas à contrôler Googlebot. Si vous souhaitez ralentir la fréquence de rampe en réponse à un rampage excessif qui est écrasant votre site Web, reportez-vous aux instructions fournies dans la section ci-dessus.
La vitesse de chargement de votre site Web peut affecter votre budget de rampe. Une page de chargement rapide signifie que Google peut accéder à plus d'informations sur le même nombre de connexions.
Pour des conseils sur l'optimisation de la vitesse de chargement, consultez notre module sur l'expérience de la page .
Les liens NOFollow peuvent toujours finir par affecter votre budget de rampe, car ceux-ci peuvent encore finir par être rampés. D'un autre côté, les liens que Robots.txt ont refusé n'ont aucun effet sur le budget d'exploration.
En outre, des URL alternatives et du contenu JavaScript peuvent finir par être rampés, consommer votre budget de rampe, il est donc important de restreindre l'accès en les supprimant ou en utilisant Robots.txt.
Le budget de la nageoire est une ressource précieuse et il est essentiel que vous vous optimiez. Les problèmes rampants et d'indexation peuvent affecter les performances de votre contenu, surtout si votre site Web contient un grand nombre de pages.
Les deux opérations les plus fondamentales impliquées dans l'optimisation du budget d'exploration sont de garder votre plan du site à jour et de surveiller régulièrement les problèmes d'indexation du rapport GSC Crawl Statistiques et des fichiers journaux.
Il est important d'apprendre à appliquer les meilleures pratiques de gestion de la rampe à la fois lors du déploiement des nouvelles fonctionnalités du site Web et également lorsque des erreurs ponctuelles se produisent.
Actif maintenant
Voir plus