Tattiche di crescita degli editori per la stagione elettorale | WEBINAR

Saperne di più

SODP

SODP Media

  • Education
    • Articles
      • Audience Development
      • Content Strategy
      • Digital Publishing
      • Monetization
      • SEO
      • Digital Platforms & Tools
    • Opinion
    • Podcast
    • Events
      • SODP Dinner Event London 2025
      • SODP Dinner Event Dubai 2025
      • SODP Dinner Event California 2025
      • All Events
  • Top Tools & Reviews
  • Research & Resources
  • Community
    • Slack Channel
    • Newsletter
  • About
    • About Us
    • Contact Us
    • Editorial Policy
  • English
sodp logo
SODP logo
    Ricerca
    Chiudi questa casella di ricerca.
    Login
    • Istruzione
      • Podcast
      • Articoli
        • Sviluppo del pubblico
        • Strategia dei contenuti
        • Editoria digitale
        • Monetizzazione
        • SEO
        • Piattaforme e strumenti digitali
        • Articoli
        • Opinione
        • Podcast
        • Eventi
        • Sviluppo del pubblico
        • Strategia dei contenuti
        • Editoria digitale
        • Monetizzazione
        • SEO
        • Piattaforme e strumenti digitali
        • Visualizza tutto
    • Strumenti e recensioni migliori
        • Piattaforme CMS headless
        • Piattaforme di pubblicazione digitale
        • Software per calendario editoriale
        • App per riviste
        • Piattaforme di newsletter via e-mail
        • Altri elenchi dei migliori strumenti
        • Recensioni
    • Ricerca e risorse
    • Comunità
      • Canale Slack
      • Orari di ufficio
      • Notiziario
        • Canale Slack
        • Notiziario
    • Di
      • Chi siamo
      • Contattaci
      • Politica editoriale
        • Chi siamo
        • Contattaci
        • Politica editoriale
    segnaposto
    SODP logo
    Diventa un Brand Partner

    Home > Corso SEO per editori > Capitolo 2: SEO tecnica > Velocità e frequenza di scansione
    6

    Velocità e frequenza di scansione

    Velocità e frequenza di scansione
    Modulo precedente
    Torna al capitolo
    Modulo successivo

    Obiettivo di apprendimento

    Dopo aver completato questo modulo, dovresti aver capito cos'è il crawl budget, come viene assegnato a un sito web e come ottimizzarlo.

    Durata del video

    23:27

    Rispondi al quiz

    Fai il quiz del modulo attuale

    Materiali

    Modelli pronti all'uso

    Risorse

    Rapporti e risorse

    Limite di tempo: 0

    Riepilogo del quiz

    0 di 9 domande completate

    Domande:

    Informazioni

    Hai già completato il quiz in precedenza. Pertanto non puoi ricominciarlo.

    Il quiz si sta caricando..

    Devi effettuare l'accesso o registrarti per iniziare il quiz.

    Per prima cosa devi completare quanto segue:

    Risultati

    Quiz completato. I risultati verranno registrati.

    Risultati

    0 di 9 domande a cui è stata data risposta correttamente

    Il tuo tempo:

    Il tempo è trascorso

    Hai raggiunto 0 di 0 punti, ( 0 )

    Punti guadagnati: 0 di 0 , ( 0 )
    0 Saggio(i) in sospeso (Punti possibili: 0 )

    Categorie

    1. Non categorizzato 0%
    1. 1
    2. 2
    3. 3
    4. 4
    5. 5
    6. 6
    7. 7
    8. 8
    9. 9
    1. Attuale
    2. Revisione
    3. Risposto
    4. Corretto
    5. Sbagliato
    1. Domanda 1 di 9
      1. Domanda

      Cos'è un crawl budget?

      Corretto
      Sbagliato
    2. Domanda 2 di 9
      2. Domanda

      Una misura della frequenza con cui Google desidera riesaminare una determinata pagina/sito web è chiamata ____.

      Corretto
      Sbagliato
    3. Domanda 3 di 9
      3. Domanda

      In genere, i crawl budget sono un problema solo per gli editori che hanno più di quante pagine sul loro sito web?

      Corretto
      Sbagliato
    4. Domanda 4 di 9
      4. Domanda

      Dove puoi trovare le statistiche di scansione?

      Corretto
      Sbagliato
    5. Domanda 5 di 9
      5. Domanda

      Che cos'è robots.txt?

      Corretto
      Sbagliato
    6. Domanda 6 di 9
      6. Domanda

      Quale delle seguenti opzioni può ridurre il budget di scansione?

      Corretto
      Sbagliato
    7. Domanda 7 di 9
      7. Domanda

      Quale delle seguenti attività un crawler di terze parti come Semrush o Screaming Frog NON può eseguire?

      Corretto
      Sbagliato
    8. Domanda 8 di 9
      8. Domanda

      Cosa significa quanto segue? il tag comunica con un crawler?

      Corretto
      Sbagliato
    9. Domanda 9 di 9
      9. Domanda

      Cosa significa il codice di errore 503?

      Corretto
      Sbagliato

    2.6.1 Che cos'è un crawl budget?

    Il budget di scansione è il numero di pagine del tuo sito web che un crawler web analizzerà in un dato intervallo di tempo.

    Ogni volta che si preme il pulsante "Pubblica", Google deve scansionare e indicizzare il contenuto affinché inizi a comparire nei risultati di ricerca. Data la portata e il volume dei contenuti su Internet, la scansione diventa una risorsa preziosa che deve essere preventivata e gestita in modo razionale per un utilizzo ottimale.

    In parole povere, per Google è difficile scansionare e indicizzare ogni singola pagina web ogni giorno. Per questo motivo, Google scansiona ogni sito web in base al budget assegnato.

    2.6.2 Come viene assegnato il crawl budget ai siti web?

    Il budget di scansione viene assegnato ai siti web in base a due fattori: limite di scansione e domanda di scansione.

    Limite di scansione

    Si tratta della capacità e/o della volontà di un sito web di essere scansionato.

    Non tutti i siti web sono progettati per essere scansionati quotidianamente. La scansione comporta l'invio da parte di Googlebot di richieste al server del tuo sito web che, se eseguite troppo frequentemente, potrebbero mettere a dura prova la capacità del server.

    Inoltre, non tutti gli editori desiderano che il loro sito venga scansionato continuamente.

    Domanda di scansione

    La richiesta di scansione è una misura della frequenza con cui una determinata pagina deve essere (nuovamente) scansionata. Le pagine più popolari o quelle che vengono aggiornate frequentemente devono essere scansionate e ripetute più frequentemente.

    2.6.3 Perché gli editori dovrebbero preoccuparsi del crawl budget?

    Se Google non riesce a scansionare e indicizzare i tuoi contenuti, questi semplicemente non verranno visualizzati nei risultati di ricerca.

    Detto questo, i crawl budget sono generalmente un problema solo per gli editori di medie e grandi dimensioni con più di 10.000 pagine sul loro sito web. Gli editori più piccoli non dovrebbero preoccuparsene eccessivamente.

    Tuttavia, gli editori con 10.000 o più pagine sul loro sito web vorranno evitare che Googlebot esegua la scansione di pagine non importanti. Esaurire il budget di scansione su contenuti irrilevanti o meno importanti significa che le pagine di maggior valore potrebbero non essere sottoposte a scansione.

    Inoltre, gli editori di notizie dovranno fare attenzione a non sprecare budget di scansione, dato che la scansione è uno dei tre modi in cui Google News scopre nuovi contenuti in modo tempestivo. Gli altri due sono l'utilizzo delle Sitemap e del Google Publisher Center, che abbiamo approfondito nei nostri moduli Sitemap di Google News e Google Publisher Center.

    2.6.4 Ottimizzazione per i crawler

    Ottimizzare la frequenza e la velocità con cui Googlebot esegue la scansione del tuo sito web implica il monitoraggio di una serie di variabili. Iniziamo elencando i fattori più importanti che contribuiscono all'ottimizzazione del budget e della frequenza di scansione.

    Monitora la scansione dei contenuti

    Le due tattiche più utili per monitorare il modo in cui i tuoi contenuti vengono scansionati sono l'analisi dei file di registro e il report sulle statistiche di scansione di Google Search Console (GSC).

    1. Analisi del file di registro

    Un file di registro è un documento di testo che registra ogni attività sul server del tuo sito web. Include tutti i dati relativi a richieste di scansione, richieste di pagine, richieste di immagini, richieste di file JavaScript e qualsiasi altra risorsa necessaria per il funzionamento del tuo sito web.

    Ai fini della SEO tecnica, l'analisi dei file di registro aiuta a determinare molte informazioni utili sulla scansione degli URL, tra cui, a titolo esemplificativo ma non esaustivo:

    • Quali URL sono stati scansionati.
    • Quali URL vengono scansionati più frequentemente.
    • Identificare se vengono scansionati URL di scarso valore o non essenziali, sprecando così il budget di scansione.

    Come fare questo

    L'analisi dei file di log è un'attività che richiede una certa familiarità tecnica con il backend di un sito web. Per questo motivo, consigliamo di utilizzare un software di analisi dei file di log. Sono disponibili diversi strumenti di analisi dei log gratuiti e a pagamento, come Graylog , Loggly , Elastic Stack , Screaming Frog Log Analyzer e Nagios, solo per citarne alcuni.

    Se sei uno sviluppatore esperto o un amministratore di sistema, puoi anche eseguire manualmente un'analisi del file di registro.

    Per fare ciò, segui questi passaggi:

    1. Accedi al cPanel del tuo provider di hosting
    1. Passare a Merics e quindi a Raw Access
    1. Scarica il file di registro

    Una volta scaricato il file di registro, è possibile modificarne l'estensione in .csv e aprirlo con Microsoft Excel o Google Sheets. Come abbiamo detto, tuttavia, questo approccio richiede un certo livello di competenza per interpretare il file di registro.

    È anche possibile accedere al file di registro tramite un client FTP inserendo il percorso del file di registro. Un tipico percorso di un file di registro è simile al seguente:

    Nome del server (ad esempio, Apache) /var/log/access.log

    Tuttavia, è molto più comodo utilizzare uno strumento di analisi dei log. Una volta caricato il file di log nello strumento, è possibile ordinare i dati utilizzando diversi filtri. Ad esempio, sarà possibile vedere quali URL sono stati consultati più frequentemente da Googlebot.

    Potrai anche vedere se Googlebot ha avuto accesso a URL non essenziali o di scarso valore, come URL di navigazione a faccette, URL duplicati, ecc. Identificarli è importante perché stanno sprecando il tuo budget di scansione.

    Per capire cosa intendiamo, guarda lo screenshot qui sotto, tratto da SEO Log File Analyser di Screaming Frog.

    Analisi del file di registro

    2. Rapporto sulle statistiche di scansione GSC

    GSC fornisce ai proprietari di siti web dati e approfondimenti completi su come Google analizza i loro contenuti. Tra questi, report dettagliati su:

    • Quali file/pagine sono stati scansionati e per quale scopo.
    • Quale tipo di Googlebot (notizie, video, dispositivi mobili, ecc.) ha effettuato la scansione.
    • Numero totale di richieste di scansione, ecc.

    GSC mette inoltre a disposizione grafici e diagrammi di facile comprensione per fornire ai proprietari di siti web ancora più informazioni. Lo screenshot qui sotto mostra l'aspetto di un tipico report sulle statistiche di scansione su GSC.

    Rapporto sulle statistiche di scansione GSC

    Fonte

    Il GSC ti informa anche se ci sono problemi con la scansione. Verifica diversi errori e assegna a ciascuno un codice. Gli errori più comuni che il GSC verifica includono:

    • Errore del server [5xx]
    • Errore di reindirizzamento
    • URL inviato bloccato da robots.txt
    • URL inviato contrassegnato come 'noindex'
    • L'URL inviato sembra essere un soft 404
    • L'URL inviato ha restituito 401
    • URL inviato non trovato (404)
    • L'URL inviato ha restituito 403
    • URL inviato bloccato a causa di un altro problema 4xx

    Il report GSC mostra anche quante pagine sono state interessate da ciascun errore, insieme allo stato di convalida.

    Come fare questo

    Ecco come puoi accedere al report delle statistiche di scansione GSC per il tuo sito web o la tua pagina web:

    1. Per utilizzare GSC è necessario registrarsi .
    1. Successivamente, dovrai dimostrare di essere il proprietario del sito web che desideri aggiungere a GSC. Questo può essere fatto aggiungendo quella che Google chiama una "proprietà". Una proprietà è tutto ciò che deve essere esaminato in GSC. Può trattarsi di una singola pagina o di un intero sito web.
    1. Per verificare la proprietà del sito, seleziona Apri GSC, vai su Selettore proprietà e clicca su "Aggiungi nuova proprietà" dal selettore proprietà.
    1. Verrà quindi visualizzato un elenco di metodi di verifica che ti consentiranno di verificare la tua proprietà del sito/pagina.

    Tra questi:

    • Caricamento file HTML
    • Tag HTML
    • Codice di monitoraggio di Google Analytics
    • Google Tag Manager
    • Fornitore di nomi di dominio
    • Account Google Sites, Blogger o dominio.
    1. Seleziona il metodo di verifica. Una volta verificata la tua proprietà, questa apparirà su GSC e potrai visualizzare analisi dettagliate sul suo crawl budget e sulle sue attività.

    Ottimizza il budget di scansione 

    Ora sappiamo che il crawl budget è una risorsa preziosa il cui utilizzo deve essere ottimizzato per ottenere i migliori risultati. Ecco alcune tecniche per farlo:

    1. Correggi i contenuti duplicati

    I contenuti duplicati potrebbero finire per essere scansionati separatamente, con conseguente spreco di budget di scansione. Per evitare che ciò accada, puoi consolidare le pagine duplicate del tuo sito web in una sola, oppure eliminarle.

    2. Utilizzare Robots.txt

    Robots.txt è un file che ha diverse funzioni, una delle quali è quella di indicare a Googlebot di non eseguire la scansione di determinate pagine o sezioni di pagine. Questa è una strategia importante che può essere utilizzata per impedire a Googlebot di eseguire la scansione di contenuti di scarso valore o di contenuti che non necessitano di scansione.

    Ecco alcune best practice da seguire quando si utilizza robots.txt per ottimizzare il budget di scansione:

    • Assegna la priorità ai parametri di cui è necessario bloccare la scansione, in base al tuo ordine di preferenza.
    • Specificare robot, direttive e parametri che causano ulteriori scansioni utilizzando i file di registro.
    • Blocca i percorsi comuni che solitamente hanno i CMS, come 404, admin, pagine di accesso, ecc.

    Come fare questo

    Creare ed eseguire un file robots.txt per limitare l'accesso a Googlebot richiede una certa conoscenza di programmazione. Ecco i passaggi necessari:

    1. Un file robots.txt viene creato utilizzando un editor di testo come Blocco note. Il file deve essere denominato robots.txt affinché Googlebot possa riconoscerlo.
    1. Una volta creato un file, aggiungiamo delle regole, ovvero specifichiamo una serie di istruzioni che indicano al file di bloccare l'accesso a determinati agenti in determinate condizioni.

    Un tipico file robots.txt conterrà i seguenti elementi:

    • Un user-agent, come Googlebot, a cui si desidera negare l'accesso
    • Una voce di autorizzazione o di divieto, che specifica un file o una directory a cui l'accesso deve essere limitato per l'agente utente
    • Una mappa del sito per indicare a Google quali contenuti deve analizzare.

    Di seguito è riportato l'aspetto di un semplice file robots.txt.

    Utilizzare Robots.txt

    Fonte 

    Questo codice significa che a un agente utente, in questo caso Googlebot, non è consentito eseguire la scansione di alcun URL che inizia con " http://www.example.com/nogooglebot/ ".

    1. Una volta creato e salvato il file sul computer locale, è necessario caricarlo sul sito web. La procedura dipende dal server e dal provider di hosting. È necessario contattare il provider per conoscere i passaggi esatti da seguire.

    Se non ti senti a tuo agio nel creare e caricare autonomamente i file robots.txt, ti consigliamo di rivolgerti a un esperto.

    3. Segmentare le mappe dei siti XML

    Un crawler bot arriva su un sito con un'assegnazione generica del numero di pagine da analizzare. La mappa del sito XML indirizza efficacemente il crawler a leggere gli URL selezionati, garantendo l'utilizzo efficace di tale budget.

    Tieni presente che le prestazioni di posizionamento di una pagina dipendono da diversi fattori, tra cui la qualità dei contenuti e i link interni/esterni. Valuta di includere solo le pagine di livello superiore nella mappa. Alle immagini può essere assegnata una propria sitemap XML.

    Per garantire un'implementazione ottimale della mappa del sito XML, segui questi consigli:

    • Fare riferimento alla mappa del sito XML dal file robots.txt.
    • Crea più sitemap per un sito molto grande. Non aggiungere più di 50.000 URL a una singola sitemap XML.
    • Mantienilo pulito e includi solo pagine indicizzabili.
    • Mantenere aggiornata la mappa del sito XML.
    • Mantieni la dimensione del file inferiore a 50 MB.

    Per un'analisi più dettagliata delle mappe dei siti, consulta il nostro modulo dedicato a questo argomento .

    4. Implementare una strategia di collegamento interno efficiente

    I link interni svolgono tre funzioni importanti:

    • Organizzare i contenuti in base a temi, aiutando a creare autorevolezza tematica.
    • Distribuire il valore della pagina tra pagine di alto valore e altre pagine.
    • Aiutare gli utenti e i web crawler a navigare più facilmente nel sito.

    Pertanto, per un crawling efficiente, è importante implementare un'efficace strategia di linking interno. Per maggiori informazioni sui linking interni, consulta il nostro modulo didattico dettagliato qui.

    5. Aggiorna l'hosting

    Se un sito web utilizza una piattaforma di hosting condivisa, il crawl budget sarà condiviso con altri siti web che utilizzano la stessa piattaforma. Un grande editore potrebbe trovare nell'hosting indipendente una valida alternativa.

    Prima di aggiornare il tuo hosting per risolvere il sovraccarico del traffico dei bot, ci sono alcuni fattori che vale la pena considerare che potrebbero altrimenti influire sul carico del server.

    • Elabora le immagini utilizzando una rete di distribuzione dei contenuti (CDN) separata, ottimizzata anche per ospitare formati di immagini di nuova generazione come webp.
    • Valuta l'hosting della CPU e dello spazio su disco in base alle funzioni e ai requisiti del tuo sito web.
    • Monitorare l'attività utilizzando soluzioni come New Relic per monitorare l'utilizzo eccessivo di plugin e bot.

    Per maggiori informazioni sui vantaggi dei CDN, consulta la nostra pagina dedicata al modulo esperienza .

    6. Utilizzare Javascript con giudizio

    Quando Googlebot atterra su una pagina web, ne visualizza tutte le risorse, incluso Javascript. Sebbene la scansione dell'HTML sia piuttosto semplice, Googlebot deve elaborare Javascript più volte per poterlo visualizzare e comprenderne il contenuto.

    Questo può rapidamente prosciugare il budget di scansione di Google per un sito web. La soluzione è implementare il rendering Javascript lato server.

    Come fare questo

    Integrare Javascript nel codice sorgente del tuo sito web richiede competenze di programmazione e ti consigliamo di consultare uno sviluppatore web se prevedi di apportare tali modifiche. Detto questo, ecco alcune linee guida su cosa cercare quando si cerca di ottimizzare l'uso di Javascript.

    • Evitare di inviare risorse Javascript al client per il rendering in modo che i crawler non consumino le loro risorse e possano lavorare in modo più efficiente
    • Utilizzare il caricamento differito a livello di browser anziché basato su Javascript.
    • Utilizzare il tagging lato server per l'analisi e il tagging di terze parti, sia self-hosted che tramite soluzioni come stape.io.

    7. Monitorare i CWV

    I CWV sono una misura delle prestazioni della pagina che influiscono direttamente sul suo rendimento nei posizionamenti nei risultati di ricerca.

    Il rapporto CWV del GSC raggruppa le prestazioni degli URL in tre categorie:

    • Tipo di metrica (LCP, FID e CLS)
    • Stato
    • gruppi URL

    I CWV possono anche influire sul budget di scansione. Ad esempio, le pagine che si caricano lentamente possono incidere negativamente sul budget di scansione, poiché Google ha un tempo limitato per le attività di scansione. Se le pagine si caricano velocemente, Google può scansionarne un numero maggiore entro il tempo limitato a sua disposizione. Allo stesso modo, troppi report sullo stato di errore possono rallentare la scansione e sprecare il budget di scansione.

    Per un esame più approfondito dei CWV, consultare il nostro modulo sulla pagina esperienza .

    8. Utilizzare un crawler di terze parti

    Un crawler di terze parti come Semrush , Sitechecker.pro o Screaming Frog consente agli sviluppatori web di controllare tutti gli URL di un sito e di identificare potenziali problemi.

    I crawler di terze parti possono essere utilizzati per identificare:

    • Link non funzionanti
    • Contenuto duplicato
    • Titoli di pagina mancanti

    Questi programmi offrono un report sulle statistiche di scansione per aiutare a evidenziare problemi che gli strumenti di Google potrebbero non rilevare.

    Migliorando i dati strutturati e riducendo i problemi di igiene, si semplificherà il lavoro di scansione e indicizzazione di un sito da parte di Googlebot.

    Quando si utilizzano crawler di terze parti, consigliamo di seguire le seguenti best practice:

    • Emula Googlebot tramite le impostazioni di scansione della ricerca per evitare di essere bloccato dai provider di hosting e per identificare e risolvere correttamente tutti i problemi tecnici.
    • Esegui il debug delle pagine mancanti durante una scansione utilizzando questa fantastica guida di Screaming Frog .

    9. Monitorare i parametri URL

    I parametri URL, ovvero la sezione dell'indirizzo web che segue il punto esclamativo, vengono utilizzati in una pagina per vari motivi, tra cui il filtraggio, la paginazione e la ricerca.

    Sebbene questo possa migliorare l'esperienza utente, può anche causare problemi di scansione quando sia l'URL di base che quello con parametri restituiscono lo stesso contenuto. Un esempio di questo potrebbe essere "http://mysite.com" e "http://mysite.com?id=3" che restituiscono esattamente la stessa pagina.

    I parametri consentono a un sito di avere un numero pressoché illimitato di link, ad esempio quando un utente può selezionare giorni, mesi e anni su un calendario. Se al bot viene consentito di scansionare queste pagine, il budget di scansione verrà utilizzato inutilmente.

    Ciò può rappresentare un problema particolarmente preoccupante se il tuo sito web utilizza la navigazione sfaccettata o identificatori di sessione che possono generare più pagine duplicate che, se scansionate, potrebbero comportare uno spreco di budget di scansione.

    Gli URL duplicati possono verificarsi anche se hai versioni localizzate della tua pagina web in lingue diverse e il contenuto di queste pagine non è stato tradotto.

    Per risolvere questo problema, consigliamo quanto segue:

    • Utilizza robots.txt per impedire a Googlebot di eseguire la scansione delle pagine duplicate.
    • Utilizzare il<hreflang> Tag per specificare le varianti linguistiche del contenuto. La scheda hreflang indica al crawler che la pagina è una variante regionale del contenuto principale, impedendogli così di registrarla come duplicata nel caso in cui non sia ancora stata tradotta.

    Ecco come un semplice<hreflang> sembra come nel tuo codice sorgente:

    https://examplesite.com/news/hreflang-tags” />

    Ciò indica al crawler che l'URL specificato è una variante spagnola (messicana) dell'URL principale e non deve essere trattato come duplicato.

    2.6.5 Bello da avere

    Abbiamo discusso gli elementi essenziali della gestione del crawl budget. I suggerimenti elencati in questa sezione, sebbene non siano essenziali per una sana gestione del crawl budget, integrano ampiamente le tecniche discusse in precedenza.

    Gestire le emergenze dovute al gattonamento

    Un'emergenza di scansione si verifica quando Googlebot sovraccarica il tuo sito web con più richieste di scansione di quante ne possa gestire. È importante identificare il problema il più rapidamente possibile, monitorando attentamente i log del server e le statistiche di scansione in Google Search Console.

    Se un improvviso aumento delle scansioni non viene gestito in tempo, potrebbe causare un rallentamento del server. Il rallentamento del server aumenterebbe il tempo medio di risposta dei crawler e, di conseguenza, i motori di ricerca ridurrebbero automaticamente la loro velocità di scansione. Questo è problematico perché una velocità di scansione ridotta porterebbe a una perdita di visibilità, con i nuovi articoli che non verrebbero scansionati immediatamente.

    Se noti che l'over crawling sta mettendo a dura prova i tuoi server, ecco alcune cose che puoi fare:

    1. Limitare la velocità di scansione

    Google utilizza algoritmi sofisticati che controllano la velocità di scansione. Pertanto, idealmente, non si dovrebbe manomettere la velocità di scansione. Tuttavia, in caso di emergenza, è possibile accedere al proprio account GSC e accedere alle Impostazioni della velocità di scansione per la propria proprietà.

    Se vedi la velocità di scansione come Calcolata come Ottimale, non potrai modificarla manualmente. Per modificare la velocità di scansione, è necessario inviare una richiesta specifica a Google.

    In caso contrario, puoi semplicemente modificare la velocità di scansione impostandola sul valore desiderato. Questo valore rimarrà valido per 90 giorni.

    Se non si desidera alterare la velocità di scansione in GSC, è anche possibile bloccare l'accesso alla pagina da parte di Googlebot utilizzando robots.txt. La procedura per farlo è stata spiegata in precedenza.

    2. Controlla la velocità di scansione del sito

    Google può impiegare fino a tre giorni per analizzare la maggior parte dei siti. Le uniche eccezioni sono i siti di notizie o altri siti che pubblicano contenuti sensibili al fattore tempo, che potrebbero essere analizzati quotidianamente.

    Per verificare la frequenza con cui le tue pagine vengono scansionate, monitora il log del tuo sito. Se ritieni che i tuoi contenuti non vengano scansionati con la frequenza necessaria, segui questi passaggi:

    • Invia la tua mappa del sito di notizie aggiornata a Google. Una mappa del sito di notizie è una mappa del sito creata appositamente da Google News.
    • Se hai apportato modifiche alla mappa del tuo sito di notizie, utilizza lo strumento ping per informare Google. Puoi farlo inviando una richiesta GET dalla riga di comando o dal browser al seguente indirizzo:

    https://www.google.com/ping?sitemap=URL_COMPLETO_DELLA_MAPPA_DEL_SITO

    • Utilizzare il<lastmod> tag nelle mappe dei siti per mostrare quando un URL indicizzato è stato aggiornato o modificato l'ultima volta.

    3. Restituisci un codice di errore 503 o 429

    Nota: questo passaggio dovrebbe essere considerato l'ultima azione da intraprendere, poiché comporta un certo grado di rischio. Se Googlebot rileva errori 503 e 429, inizierà a scansionare più lentamente e potrebbe interromperla, causando un calo temporaneo del numero di pagine indicizzate.

    Un codice di errore 503 indica che il server è temporaneamente inattivo, mentre 429 indica che un utente ha inviato troppe richieste in un determinato lasso di tempo. Questi codici comunicano a Googlebot che il problema è temporaneo e che dovrebbe tornare a scansionare la pagina in un secondo momento.

    Sebbene possa sembrare un passaggio di poco conto, è importante perché se Googlebot non conosce la natura del problema riscontrato da una pagina web, presume che il problema sia di natura a lungo termine e potrebbe contrassegnare la pagina come non reattiva, il che può influire sulla SEO.

    La creazione di codici di errore 503 avviene tramite un file PHP, che viene inserito nel codice sorgente HTML esistente della pagina insieme a un messaggio di errore. Dovrai anche scrivere alcune righe di codice HTML aggiuntive che specifichino quando è previsto il ritorno del sito.

    Ecco come appare il codice per un reindirizzamento 503:

    Restituisce un codice di errore 503 o 429

    Fonte

    Per eseguire reindirizzamenti 503 o 429 sono necessarie competenze avanzate di programmazione HTML. Ti consigliamo di consultare il tuo sviluppatore web prima di tentare questa operazione.

    2.6.6 Evitare queste insidie ​​comuni

    Ora abbiamo una buona comprensione di cosa sia un crawl budget e come ottimizzarlo. Tuttavia, è altrettanto importante sapere cosa non fare quando si tratta di crawl budget.

    Ecco alcuni errori comuni da evitare per assicurarti di sfruttare al meglio il budget di scansione del tuo sito web:

    Cercare di aumentare la velocità di scansione senza una buona ragione

    La frequenza con cui Google esegue la scansione del tuo sito web è determinata dai suoi algoritmi, che prendono in considerazione diversi segnali per arrivare a una frequenza di scansione ottimale.

    Aumentare la frequenza di scansione non porta necessariamente a un posizionamento migliore nei risultati di ricerca. La frequenza di scansione, o la scansione stessa, non è di per sé un fattore di ranking.

    Invio ripetuto di vecchi contenuti per la scansione 

    Google non preferisce necessariamente i contenuti più recenti rispetto a quelli più vecchi. Google classifica le pagine in base alla pertinenza e alla qualità dei contenuti, indipendentemente dal fatto che siano vecchi o nuovi. Quindi, non è necessario sottoporli a scansione continua.

    Utilizzo della direttiva Crawl-Delay per controllare Googlebot

    La direttiva crawl-delay non aiuta a controllare Googlebot. Se desideri rallentare la frequenza di scansione in risposta a un'eccessiva scansione che sta sovraccaricando il tuo sito web, consulta le istruzioni fornite nella sezione precedente.

    Avere un sito web che si carica lentamente

    La velocità di caricamento del tuo sito web può influire sul tuo crawl budget. Una pagina che si carica velocemente significa che Google può accedere a più informazioni con lo stesso numero di connessioni.

    Per suggerimenti sull'ottimizzazione della velocità di caricamento, consulta il nostro modulo sull'esperienza della pagina .

    Utilizzare solo link nofollow per bloccare i crawler

    I link nofollow potrebbero comunque influire sul crawl budget, in quanto potrebbero comunque essere scansionati. D'altra parte, i link che robots.txt ha disabilitato non hanno alcun effetto sul crawl budget.

    Inoltre, URL alternativi e contenuti Javascript potrebbero finire per essere scansionati, consumando il budget di scansione, quindi è importante limitarne l'accesso rimuovendoli o utilizzando robots.txt.

    2.6.7 Azioni e conclusioni

    Il crawl budget è una risorsa preziosa ed è fondamentale ottimizzarlo. Problemi di crawling e indicizzazione possono influire sulle prestazioni dei tuoi contenuti, soprattutto se il tuo sito web ha un numero elevato di pagine.

    Le due operazioni più fondamentali per ottimizzare il budget di scansione sono mantenere aggiornata la mappa del sito e monitorare regolarmente i problemi di indicizzazione tramite il report delle statistiche di scansione e i file di registro di GSC.

    È importante imparare ad applicare le migliori pratiche di gestione della scansione sia durante il lancio di nuove funzionalità del sito web sia quando si verificano errori isolati.

    Modulo precedente
    Torna al capitolo
    Modulo successivo

    Attivo ora

    6

    Velocità e frequenza di scansione

    Vedi altro

    1

    Progettazione e layout

    2

    Architettura del sito

    3

    Esperienza di pagina

    4

    Mappa del sito delle notizie

    5

    Schema

    7

    Link a contenuti sponsorizzati e generati dagli utenti

    8

    Centro editori di Google

    9

    Bing News PubHub

    10

    Annunci, popup e best practice

    SODP logo

    State of Digital Publishing sta creando una nuova pubblicazione e una nuova community per i professionisti dei media digitali e dell'editoria, nei nuovi media e nella tecnologia.

    • Strumenti principali
    • SEO per gli editori
    • Politica sulla riservatezza
    • Politica editoriale
    • Mappa del sito
    • Cerca per azienda
    Facebook X-twitter Allentamento Linkedin

    STATO DELL'EDITORIA DIGITALE – COPYRIGHT 2026