Tattiche di crescita degli editori per la stagione elettorale | SEMINARIO WEB

Saperne di più

SODP

SODP Media

  • Education
    • Articles
      • Audience Development
      • Content Strategy
      • Digital Publishing
      • Monetization
      • SEO
      • Digital Platforms & Tools
    • Opinion
    • Podcast
    • Events
      • SODP Dinner Event London 2025
      • SODP Dinner Event Dubai 2025
      • SODP Dinner Event California 2025
      • All Events
  • Top Tools & Reviews
  • Research & Resources
  • Community
    • Slack Channel
    • Newsletter
  • About
    • About Us
    • Contact Us
    • Editorial Policy
  • English
sodp logo
SODP logo
    Ricerca
    Chiudi questa casella di ricerca.
    Login
    • Istruzione
      • Podcast
      • Articoli
        • Sviluppo del pubblico
        • Strategia dei contenuti
        • Editoria digitale
        • Monetizzazione
        • SEO
        • Piattaforme e strumenti digitali
        • Articoli
        • Opinione
        • Podcast
        • Eventi
        • Sviluppo del pubblico
        • Strategia dei contenuti
        • Editoria digitale
        • Monetizzazione
        • SEO
        • Piattaforme e strumenti digitali
        • Cena Evento California 2025
        • PUBTECH2025
        • Visualizza tutto
    • Strumenti e recensioni migliori
        • Piattaforme CMS senza testa
        • Piattaforme di editoria digitale
        • Software per calendari editoriali
        • App per riviste
        • Piattaforme di newsletter via e-mail
        • Altri elenchi dei migliori strumenti
        • Recensioni
    • Ricerca e risorse
    • Comunità
      • Canale lento
      • Orari d'ufficio
      • Notiziario
        • Canale lento
        • Notiziario
    • Di
      • Chi siamo
      • Contattaci
      • Politica editoriale
        • Chi siamo
        • Contattaci
        • Politica editoriale
    segnaposto
    SODP logo
    Diventa un marchio partner
    Home > Corso SEO per editori > Capitolo 2: SEO tecnico > Velocità e frequenza di scansione
    6

    Velocità e frequenza di scansione

    Velocità e frequenza di scansione
    Modulo precedente
    Torniamo al capitolo
    Modulo successivo

    Obiettivo di apprendimento

    Dopo aver esaminato questo modulo, dovresti capire cos'è il crawl budget, come viene assegnato a un sito Web e come ottimizzarlo.

    Durata del video

    23:27

    Rispondi al quiz

    Prendi il quiz del modulo corrente

    Materiali

    Modelli pronti all'uso

    Risorse

    Rapporti e risorse

    Limite di tempo: 0

    Riepilogo del quiz

    0 di 9 domande completate

    Domande:

    Informazioni

    Hai già completato il quiz in precedenza. Quindi non è possibile riavviarlo.

    Il quiz è in fase di caricamento...

    Devi accedere o registrarti per iniziare il quiz.

    È necessario prima completare quanto segue:

    Risultati

    Quiz completato. I risultati sono in fase di registrazione.

    Risultati

    0 di 9 Domande con risposta corretta

    Il tuo tempo:

    Il tempo è trascorso

    Hai raggiunto 0 di 0 punto(i), ( 0 )

    Punti guadagnati: 0 di 0 , ( 0 )
    0 Saggio(i) in sospeso (Punti possibili: 0 )

    Categorie

    1. Non classificato 0%
    1. 1
    2. 2
    3. 3
    4. 4
    5. 5
    6. 6
    7. 7
    8. 8
    9. 9
    1. Attuale
    2. Revisione
    3. Risposto
    4. Corretto
    5. Errato
    1. Domanda 1 di 9
      1. Domanda

      Cos'è un budget di scansione?

      Corretto
      Errato
    2. Domanda 2 di 9
      2. Domanda

      Una misura della frequenza con cui Google vuole (striscia) una particolare pagina/sito Web è chiamata ____.

      Corretto
      Errato
    3. Domanda 3 di 9
      3. Domanda

      I budget di scansione sono generalmente solo una preoccupazione per gli editori che hanno più di quante pagine sul loro sito Web?

      Corretto
      Errato
    4. Domanda 4 di 9
      4. Domanda

      Dove puoi trovare le statistiche crawl?

      Corretto
      Errato
    5. Domanda 5 di 9
      5. Domanda

      Cos'è Robots.txt?

      Corretto
      Errato
    6. Domanda 6 di 9
      6. Domanda

      Quale dei seguenti può ridurre il budget di scansione?

      Corretto
      Errato
    7. Domanda 7 di 9
      7. Domanda

      Quale dei seguenti compiti non può eseguire un crawler di terze parti come Semrush o Screaming Frog?

      Corretto
      Errato
    8. Domanda 8 di 9
      8. Domanda

      Cosa fa quanto segue tag comunicare a un crawler?

      Corretto
      Errato
    9. Domanda 9 di 9
      9. Domanda

      Cosa significa un codice di errore 503?

      Corretto
      Errato

    2.6.1 Che cos'è un budget di scansione?

    Il budget di scansione è il numero di pagine del tuo sito web che un web crawler scansionerà entro un determinato periodo di tempo.

    Ogni volta che premi il pulsante di pubblicazione, Google deve eseguire la scansione e l'indicizzazione del contenuto affinché inizi a comparire nei risultati di ricerca. Data la portata e il volume dei contenuti su Internet, la scansione diventa una risorsa preziosa che deve essere preventivata e razionata per un utilizzo più efficiente.

    Per dirla semplicemente, è difficile per Google eseguire la scansione e l'indicizzazione di ogni singola pagina su Internet ogni giorno. Pertanto, Google esegue la scansione di ciascun sito Web in base al budget assegnato.

    2.6.2 Come viene assegnato il budget di scansione ai siti web?

    Il budget di scansione viene assegnato ai siti Web in base a due fattori: limite di scansione e domanda di scansione.

    Limite di scansione

    Si tratta della capacità e/o della volontà di un sito Web di essere sottoposto a scansione.

    Non tutti i siti web sono progettati per essere scansionati ogni giorno. La scansione implica che Googlebot invii richieste al server del tuo sito web che, se eseguite troppo frequentemente, potrebbero mettere a dura prova la capacità del server.

    Inoltre, non tutti gli editori desiderano che il proprio sito venga sottoposto a scansione continua.

    Domanda di scansione

    La domanda di scansione misura la frequenza con cui una determinata pagina desidera essere (ri)scansionata. Le pagine più popolari o le pagine aggiornate frequentemente devono essere scansionate e ripetute più frequentemente.

    2.6.3 Perché gli editori dovrebbero preoccuparsi del crawl budget?

    Se Google non riesce a eseguire la scansione e l'indicizzazione dei tuoi contenuti, tali contenuti semplicemente non verranno visualizzati nei risultati di ricerca.

    Detto questo, i budget di scansione sono generalmente una preoccupazione solo per gli editori medio-grandi che hanno più di 10.000 pagine sul proprio sito web. Gli editori più piccoli non dovrebbero preoccuparsi eccessivamente dei budget di scansione.

    Gli editori con 10.000 o più pagine sul loro sito Web, tuttavia, vorranno evitare pagine di gattonare Googlebot che non erano importanti. Impostarsi il budget di scansione su contenuti irrilevanti o meno importanti significa che le pagine di valore più elevato potrebbero non essere strisciate.

    Inoltre, gli editori di notizie vorranno stare attenti al budget di scansione sprecato dato che la scansione è uno dei tre modi in cui Google News scopre nuovi contenuti in modo tempestivo. Gli altri due sono utilizzando Sitemaps e Google Publisher Center, che abbiamo esplorato ulteriormente nei nostri moduli di Google News Sitemap e Google Publisher Center

    2.6.4 Ottimizzazione per i crawler

    Ottimizzazione della frequenza e della velocità con cui Googlebot striscia il tuo sito Web prevede il monitoraggio di una gamma di variabili. Iniziamo elencando i fattori più importanti coinvolti nell'ottimizzazione del budget e della frequenza di scansione.

    Monitorare i contenuti Crawl

    Le due tattiche più utili per monitorare il modo in cui i contenuti vengono scansionati stanno analizzando i file di registro e il rapporto di crawl di Google Search Console (GSC).

    1. Analisi del file di registro

    Un file di registro è un documento di testo che registra ogni attività sul server del tuo sito Web. Ciò include tutti i dati sulle richieste di Crawls, le richieste di pagina, le richieste di immagini, le richieste per i file JavaScript e qualsiasi altra risorsa necessaria per eseguire il tuo sito Web.

    Ai fini del SEO tecnico, l'analisi dei file di registro aiuta a determinare molte informazioni utili sulla creazione di URL, incluso ma non limitato a:

    • Quali URL sono stati strisciati.
    • Quali URL vengono strisciati più frequentemente.
    • Identificazione se vengono strisciati gli URL di basso valore o non essenziali, sprecando così il budget di scansione.

    Come farlo

    L'analisi dei file di registro è un'attività che richiede un certo grado di familiarità tecnica con il backend di un sito Web. Per questo motivo, si consiglia di utilizzare il software di analizzatore di file di registro. Esistono diversi strumenti di analisi dei registri gratuiti e a pagamento disponibili come Graylog , Loggly , Elastic Stack , Screaming Frog Log Analyzer e Nagios per citarne alcuni.

    Se sei uno sviluppatore esperto o un amministratore di sistema, è possibile eseguire manualmente anche un'analisi del file di registro.

    Per fare questo, segui questi passaggi:

    1. Accedi al cpanel del tuo provider di hosting
    1. Naviga a MERICS e poi Accesso grezzo
    1. Scarica il file di registro

    Dopo aver scaricato il file di registro, è possibile modificare l'estensione in .CSV e aprirla utilizzando Microsoft Excel o fogli Google. Come abbiamo detto, tuttavia, questo approccio richiede un certo livello di competenza per dare un senso al file di registro.

    È inoltre possibile accedere al file di registro utilizzando un client FTP inserendo il percorso del file di registro. Un tipico percorso del file di registro assomiglia a questo:

    Nome server (ad esempio, apache) /var/log/access.log

    Tuttavia, è invece molto più conveniente utilizzare uno strumento di analisi del registro. Dopo aver caricato il file di registro nello strumento, è possibile ordinare i dati utilizzando più filtri. Ad esempio, sarai in grado di vedere a quali URL sono stati accessibili più frequentemente da Googlebot.

    Sarai inoltre in grado di vedere se Googlebot ha accettato URL non essenziali o di basso valore come URL di navigazione sfaccettati, URL duplicati, ecc. L'identificazione di questi è importante in quanto stanno sprecando il budget di scansione.

    Guarda lo screenshot seguente, tratto dall'analizzatore del file di registro SEO di Urlo Frog, per vedere cosa intendiamo.

    Analisi dei file di registro

    2. Rapporto sulle statistiche di gattoni GSC

    GSC fornisce ai proprietari di siti Web dati completi e approfondimenti su come Google striscia i loro contenuti. Ciò include rapporti dettagliati su:

    • Quali file/pagine sono stati strisciati e per quale scopo.
    • Quale tipo di GoogleBot (notizie, video, mobili, ecc.) Ha intrapreso il gattonare.
    • Numero totale di richieste di scansione, ecc.

    GSC rende anche disponibile i grafici e i grafici facili da comprendere per fornire ai proprietari di siti Web ancora più informazioni. Lo screenshot di seguito è come appare un tipico rapporto di crawl statistiche su GSC.

    Rapporto sulle statistiche di Crawl GSC

    Fonte

    Il GSC ti consente anche di sapere se ci sono problemi con lo striscio. Controlla diversi errori e assegna ciascuno un codice. Gli errori più comuni che GSC controlla includono:

    • Errore del server [5xx]
    • Errore di reindirizzamento
    • URL inviato bloccato da robots.txt
    • URL inviato contrassegnato come "noindex"
    • L'URL inviato sembra essere un soft 404
    • URL inviato restituito 401
    • URL inviato non trovato (404)
    • URL inviato restituito 403
    • URL inviato bloccato a causa di un altro problema 4xx

    Il rapporto GSC mostra anche quante pagine sono state interessate da ogni errore insieme allo stato di convalida.

    Come farlo

    Ecco come puoi accedere al rapporto su statistiche di crawl GSC per il tuo sito Web o pagina Web:

    1. Per usare GSC, devi iscriverti .
    1. Successivamente, dovrai dimostrare di possedere il sito Web che desideri aggiungere a GSC. Questo può essere fatto aggiungendo ciò che Google chiama una "proprietà". Una proprietà è tutto ciò che deve essere esaminato in GSC. Potrebbe essere una singola pagina o un intero sito Web.
    1. Per verificare la proprietà del sito, selezionare Apri GSC, passare al selettore delle proprietà e fare clic su "Aggiungi nuova proprietà" dal selettore delle proprietà.
    1. Vedrai quindi un elenco di metodi di verifica che ti consentirà di verificare la tua proprietà del sito/pagina.

    Questi includono:

    • Caricamento file HTML
    • Tag HTML
    • Codice di tracciamento di Google Analytics
    • Google Tag Manager
    • Fornitore di nomi di dominio
    • Google siti, blogger o account di dominio.
    1. Seleziona il tuo metodo di verifica. Una volta verificata la tua proprietà, apparirà su GSC e puoi visualizzare analisi dettagliate per il suo budget e attività di scansione.

    Ottimizza il budget di scansione 

    Ora sappiamo che il budget di Crawl è una risorsa preziosa il cui uso deve essere ottimizzato per i migliori risultati. Ecco alcune tecniche per farlo:

    1. Correggi il contenuto duplicato

    Il contenuto duplicato può finire per essere strisciati separatamente, portando a un spreco di budget di scansione. Per evitare che ciò accada, consolida pagine duplicate sul tuo sito Web in una o elimina pagine duplicate.

    2. Usa robot.txt

    Robots.txt è un file che ha una serie di scopi, uno dei quali è quello di dire a Googlebot di non strisciare determinate pagine o sezioni di pagine. Questa è una strategia importante che può essere utilizzata per impedire a Googlebot di strisciare contenuti o contenuti di basso valore che non necessitano di striscianti.

    Ecco alcune migliori pratiche quando si utilizzano robot.txt per ottimizzare il budget di scansione:

    • Assegna la priorità ai parametri che devono essere bloccati dal gattonare nell'ordine di preferenza.
    • Specifica robot, direttive e parametri che causano un'ulteriore scansione utilizzando i file di registro.
    • Blocca i percorsi comuni tipicamente utilizzati dai CMS, ad esempio 404, amministrazione, pagine di accesso, ecc.

    Come farlo

    La creazione e l'esecuzione di un file robots.txt per limitare l'accesso a GoogleBot richiede alcune conoscenze di codifica. Ecco i passaggi coinvolti:

    1. Un file robots.txt viene creato utilizzando un editor di testo come un blocco note. Il file deve essere nominato robots.txt affinché GoogleBot lo riconosca.
    1. Una volta creato un file, aggiungiamo regole ad esso, vale a dire che specifichiamo una serie di istruzioni che dicono al file per bloccare l'accesso a determinati agenti in condizioni specifiche.

    Un tipico file robots.txt avrà i seguenti elementi:

    • Un agente utente, come Googlebot, a cui deve essere negato l'accesso
    • Un danno o consentire l'ingresso, specificando un file o una directory a cui l'accesso deve essere limitato per l'agente utente
    • Una sitemap per dire a Google quale contenuto dovrebbe strisciare.

    Di seguito è riportato come appare un semplice file robots.txt.

    Usa robot.txt

    Fonte 

    Questo codice significa che un agente utente - Googlebot in questa istanza - non è autorizzato a strisciare alcun URL che inizi con " http://www.example.com/nogooglebot/ ".

    1. Una volta che il tuo file è stato creato e salvato sulla macchina locale, deve essere caricato sul tuo sito Web. In questo modo dipende dal tuo server e dal provider di hosting. Dovrai contattare il tuo provider per accertare i passaggi esatti per questo.

    Suggeriamo di cercare un aiuto esperto se non ti senti a tuo agio nel creare e caricare da soli i file robots.txt.

    3. Segment XML Sitemaps

    Un bot di scansione arriva a un sito con un'allocazione generale di quante pagine sottoporrà a scansione. La mappa del sito XML indirizza in modo efficace il bot a leggere gli URL selezionati, garantendo l'uso efficace di tale budget.

    Tieni presente che il rendimento in classifica di una pagina dipende da diversi fattori, tra cui la qualità dei contenuti e i collegamenti interni/esterni. Valuta la possibilità di includere nella mappa solo le pagine di livello superiore. Alle immagini può essere assegnata la propria mappa del sito XML.

    Seguire queste raccomandazioni per garantire un'implementazione ottimale di Sitemap XML:

    • Fai riferimento alla mappa del sito XML dal file robots.txt.
    • Crea più Sitemap per un sito molto grande. Non aggiungere più di 50.000 URL a una singola mappa del sito XML.
    • Mantienilo pulito e includi solo pagine indicizzabili.
    • Mantieni aggiornata la mappa del sito XML.
    • Mantieni la dimensione del file inferiore a 50 MB.

    Per uno sguardo più dettagliato su Sitemaps, consultare il nostro modulo dedicato su questo argomento .

    4. Implementare un'efficace strategia di collegamento interno

    I collegamenti interni svolgono tre funzioni importanti:

    • Organizzare i contenuti attorno a temi, che aiuta a costruire l'autorità topica.
    • Equità della pagina di diffusione tra pagine di alto valore ad altre pagine.
    • Aiutare gli utenti e i crawler Web per navigare più facilmente nel sito.

    Pertanto, per una scansione efficiente, è importante implementare un'efficace strategia di collegamento interno. Per ulteriori informazioni sul collegamento interno, consultare il nostro modulo di corso dettagliato qui.

    5. Hosting di aggiornamento

    Se un sito Web si esegue su una piattaforma di hosting condivisa, il budget di Crawl verrà condiviso con altri siti Web in esecuzione su detto piattaforma. Un grande editore potrebbe trovare l'hosting indipendente per essere un'alternativa preziosa.

    Prima di aggiornare l'hosting per risolvere il sovraccarico del traffico di bot, ci sono alcuni fattori che vale la pena considerare che altrimenti potrebbero influire sui carichi del server.

    • Elabora immagini utilizzando una rete di distribuzione dei contenuti separata (CDN) che è anche ottimizzata per ospitare formati di immagini di prossima generazione come WebP.
    • Prendi in considerazione l'hosting di CPU, lo spazio su disco in base alla funzione e ai requisiti del tuo sito Web.
    • Monitorare l'attività utilizzando soluzioni come New Relic per monitorare l'utilizzo in eccesso di plugin e bot.

    Per ulteriori informazioni sui vantaggi dei CDN, dai un'occhiata al nostro modulo di esperienza di pagina .

    6. Usa javascript con giudizio

    Quando Googlebot arriva su una pagina web, esegue il rendering di tutte le risorse su detta pagina, incluso Javascript. Sebbene la scansione dell'HTML sia piuttosto semplice, Googlebot deve elaborare Javascript più volte per poterlo visualizzare e comprenderne il contenuto.

    Ciò può rapidamente esaurire il budget di scansione di Google per un sito web. La soluzione è implementare il rendering Javascript sul lato server.

    Come farlo

    Affrontare JavaScript nel codice sorgente del tuo sito Web richiede competenze di codifica e ti consigliamo di consultare uno sviluppatore Web se si prevede di apportare tali modifiche. Detto questo, ecco alcune linee guida su cosa cercare quando si cerca di ottimizzare l'uso di JavaScript.

    • Evita di inviare risorse JavaScript al cliente per il rendering in modo che i robot scansionali non spontino le proprie risorse e possano funzionare in modo più efficiente
    • Usa il caricamento pigro a livello del browser invece di essere basato su JavaScript.
    • Utilizzare l'etichettatura lato server per l'analisi e l'etichettatura di terze parti, sia autosufficiente che utilizzando soluzioni come Stape.io.

    7. Monitorare i CWV

    I CWV sono una misura delle prestazioni della pagina che influisce direttamente sul funzionamento della tua pagina nelle classifiche di ricerca.

    Le prestazioni URL dei gruppi di report CWV del GSC in tre categorie:

    • Tipo metrico (LCP, FID e CLS)
    • Stato
    • Gruppi di URL

    I CWV possono anche avere un impatto sul budget di scansione. Ad esempio, le pagine di caricamento lento possono consumare nel budget di scansione poiché Google ha un periodo di tempo limitato per lo strisciare attività. Se le tue pagine si caricano rapidamente, Google può strisciare di più nel tempo limitato. Allo stesso modo, troppi rapporti sullo stato degli errori possono rallentare la scansione e sprecare il budget di scansione.

    Per un esame più approfondito dei CWV, consultare l'esperienza del nostro modulo nella pagina .

    8. Utilizza un crawler di terze parti

    Un crawler di terze parti come Semrush , SiteChecker.Pro o Screaming Frog consente agli sviluppatori Web di controllare tutti gli URL di un sito e identificare potenziali problemi.

    I crawler di terze parti possono essere utilizzati per identificare:

    • Collegamenti interrotti
    • Contenuti duplicati
    • Titoli delle pagine mancanti

    Questi programmi offrono un rapporto sulle statistiche di scansione per aiutare a evidenziare i problemi che gli strumenti di Google potrebbero non evidenziare.

    Migliorare i dati strutturati e ridurre i problemi di igiene semplificherà il lavoro di Googlebot di scansione e indicizzazione di un sito.

    Raccomandiamo le seguenti migliori pratiche quando si utilizzano crawler di terze parti:

    • Emula Googlebot, tramite le impostazioni di scansione della ricerca, per evitare di essere bloccato dai provider di hosting e per identificare e risolvere correttamente tutti i problemi tecnici.
    • DEBUG Pagine mancanti da una scansione che utilizza questa grande guida da Screaming Frog .

    9. Monitorare i parametri dell'URL

    Parametri URL: la sezione dell'indirizzo web che segue il "?" - vengono utilizzati su una pagina per una serie di motivi, tra cui il filtraggio, l'impaginazione e la ricerca.

    Sebbene ciò possa migliorare l'esperienza dell'utente, può anche causare problemi di scansione quando sia l'URL di base che quello con parametri restituiscono lo stesso contenuto. Un esempio di ciò potrebbe essere "http://miosito.com" e "http://miosito.com?id=3" che restituiscono esattamente la stessa pagina.

    I parametri consentono a un sito di avere un numero quasi illimitato di collegamenti, ad esempio quando un utente può selezionare giorni, mesi e anni su un calendario. Se al bot è consentito eseguire la scansione di queste pagine, il budget di scansione verrà utilizzato inutilmente.

    Questo può essere in particolare un problema per preoccupazione se il tuo sito Web utilizza identificatori di navigazione o sessione sfaccettati che possono generare più pagine duplicate che, se strisciate, potrebbero portare a un spreco di budget di scansione.

    Gli URL duplicati possono anche derivare se hai versioni localizzate della tua pagina web in diverse lingue e il contenuto di queste pagine non è stato tradotto.

    Raccomandiamo quanto segue per affrontare questo:

    • Usa robot.txt per non consentire Googlebot dalle pagine duplicate scanellate.
    • Usare il<hreflang> Tag per specificare le variazioni linguistiche del contenuto. La scheda Hreflang indica al crawler che la pagina è una variazione regionale del contenuto principale, impedendo così al crawler di registrarlo come duplicato nel caso in cui non sia stato ancora tradotto.

    Ecco come un semplice<hreflang> Sembra come nel tuo codice sorgente:

    https://exampsite.com/news/hreflang-tagsing/ >

    Ciò dice al crawler che l'URL specificato è una variante spagnola (messicana) dell'URL principale e non dovrebbe essere trattata come un duplicato.

    2.6.5 bello da avere

    Abbiamo discusso degli elementi essenziali della gestione del budget crawl. I puntatori elencati in questa sezione, sebbene non critici per una sana gestione del budget di scansione, fanno molto per integrare le tecniche discusse in precedenza.

    Gestione delle emergenze striscianti

    Un'emergenza strisciante si verifica quando Googlebot sopraffà il tuo sito Web con più richieste di scansione di quelle che possono gestire. È importante identificare il problema il più rapidamente possibile, che può essere fatto monitorando da vicino i registri dei server e strisciando le statistiche nella console di ricerca di Google.

    Se un'improvvisa ondata di strisciamento non viene gestita in tempo, potrebbe far rallentare il server. Il rallentamento del server aumenterebbe il tempo medio di risposta per i crawler e, a seguito di questo elevato tempo di risposta, i motori di ricerca ridurranno automaticamente il loro tasso di scansione. Ciò è problematico perché i tassi di scansione ridotti porteranno a una perdita di visibilità, con nuovi articoli che non vengono strisciati immediatamente.

    Se noti che lo scansione è tassare i tuoi server, ecco alcune cose che puoi fare:

    1. Limitare la velocità di scansione

    Google ha sofisticati algoritmi che controllano la frequenza di scansione. Quindi, idealmente, non si dovrebbe manomettere la frequenza di scansione. Tuttavia, in una situazione di emergenza, è possibile accedere al tuo account GSC e navigare verso le impostazioni della frequenza di gattoni per la tua proprietà.

    Se vedi la velocità di scansione lì come calcolata come ottimale, non sarai in grado di cambiarlo manualmente. È necessario presentare una richiesta speciale con Google per modificare la frequenza di scansione.

    Se non è così, puoi semplicemente cambiare la velocità di scansione da soli al valore desiderato. Questo valore rimarrà valido per 90 giorni.

    Se non si desidera manomettere le tariffe di scansione nel GSC, puoi anche bloccare l'accesso alla pagina di GoogleBot utilizzando Robots.txt. La procedura per farlo è stata spiegata in precedenza.

    2. Controlla la tariffa di scansione del sito

    Possono impiegare Google fino a tre giorni per strisciare la maggior parte dei siti. Le uniche eccezioni sono i siti di notizie o altri siti che pubblicano contenuti sensibili al tempo che possono essere strisciati quotidianamente.

    Per verificare la frequenza con cui vengono strisciate le tue pagine, monitorare il registro del sito. Se ritieni ancora che i tuoi contenuti non vengano strisciati con la stessa frequenza, segui questi passaggi:

    • Invia il tuo sito di notizie aggiornato a Google. Una sitemap di notizie è una sitemap creata specificamente da Google News.
    • Se hai apportato modifiche al tuo sito di notizie, usa lo strumento ping per informare Google dello stesso, questo può essere fatto inviando una richiesta GET dalla riga di comando o dal browser al seguente indirizzo:

    https://www.google.com/ping?sitemap=full_url_of_sitemap

    • Usare il<lastmod> Tag in Sitemaps da mostrare quando un URL indicizzato è stato aggiornato o modificato l'ultima volta.

    3. Restituisci un codice di errore 503 o 429

    Nota: questo passaggio dovrebbe essere visto come l'ultima azione che chiunque dovrebbe intraprendere in quanto comporta un certo grado di rischio. Se Googlebot vede errori 503 e 429, inizierà a strisciare più lentamente e potrebbe fermare il gattonare, portando a un calo temporaneo del numero di pagine indicizzate.

    Un codice di errore 503 significa che il server è temporaneamente abbassato, mentre 429 significa che un utente ha inviato troppe richieste in un periodo di tempo specifico. Questi codici consentono a GoogleBot di sapere che il problema è temporaneo e dovrebbe tornare a strisciare la pagina in un secondo momento.

    Sebbene un passaggio apparentemente minore, questo è importante perché se Googlebot non conosce la natura del problema che una pagina web sta vivendo, si presume che il problema sia di natura a lungo termine e può contrassegnare la pagina come non rispondente, il che può influenzare la SEO.

    La creazione di 503 codici di errore viene eseguita tramite un file PHP, che viene inserito all'interno del codice sorgente HTML esistente della tua pagina insieme a un messaggio di errore. Dovrai anche scrivere alcune linee aggiuntive di codice HTML che menzionano quando il sito dovrebbe tornare.

    Ecco come appare il codice per un reindirizzamento 503:

    Restituisci un codice di errore 503 o 429

    Fonte

    Fare 503 o 429 reindirizzamenti richiede capacità di codifica HTML avanzate e suggeriamo di consultare il tuo sviluppatore web prima di tentare questo.

    2.6.6 Evita queste insidie comuni

    Ora abbiamo una buona comprensione di cosa sia un budget di scansione e come ottimizzarlo. Tuttavia, sapere cosa non fare quando si tratta di budget striscianti è altrettanto importante.

    Ecco alcune insidie comuni da evitare di assicurarti di ottenere il massimo dal budget di scansione del tuo sito Web:

    Cercare di aumentare il tasso di scansione senza una buona ragione

    La frequenza con cui Google striscia il tuo sito Web è determinata dai suoi algoritmi, che tengono conto di diversi segnali per arrivare a una frequenza di scansione ottimale.

    L'aumento del tasso di scansione non porta necessariamente a posizioni migliori nei risultati di ricerca. La frequenza di scansione o persino lo strisciare non è un fattore di classificazione in sé e per sé.

    Invio ripetutamente vecchi contenuti per la scansione 

    Google non preferisce necessariamente contenuti più freschi rispetto ai contenuti più vecchi. Google classifica le pagine in base alla rilevanza e alla qualità del contenuto indipendentemente dal fatto che sia vecchio o nuovo. Quindi, non è necessario continuare a farli strisciare.

    Utilizzo della direttiva di crawl-delay per controllare Googlebot

    La direttiva di crawl-delay non aiuta a controllare Googlebot. Se desideri rallentare la frequenza di scansione in risposta a una scansione eccessiva che sta schiacciando il tuo sito Web, fare riferimento alle istruzioni fornite nella sezione sopra.

    Avere un sito web di caricamento lento

    La velocità di caricamento del tuo sito Web può influire sul budget di scansione. Una pagina di caricamento rapido significa che Google può accedere a maggiori informazioni rispetto allo stesso numero di connessioni.

    Per suggerimenti sull'ottimizzazione della velocità di caricamento, consultare l'esperienza del nostro modulo a pagina .

    Usando solo collegamenti Nofollow per bloccare i crawler

    I link Nofollow possono ancora finire per influire sul budget di scansione poiché potrebbero ancora essere strisciati. D'altra parte, i collegamenti che Robots.txt non hanno escluso non hanno alcun effetto sul budget di scansione.

    Inoltre, gli URL alternativi e il contenuto di JavaScript possono finire per essere strisciati, consumando il budget di scansione, quindi è importante limitare l'accesso a loro rimuovendoli o usando robot.txt.

    2.6.7 Azioni e takeaway

    Il budget di scansione è una risorsa preziosa ed è fondamentale ottimizzare per questo. I problemi di scansione e indicizzazione possono influire sulle prestazioni dei contenuti, soprattutto se il tuo sito Web ha un gran numero di pagine.

    Le due operazioni più fondamentali coinvolte nell'ottimizzazione del budget di Crawl stanno mantenendo aggiornate la Sitemap e il monitoraggio regolarmente dei problemi di indicizzazione dal rapporto delle statistiche di crawl GSC e dei file di registro.

    È importante imparare ad applicare le migliori pratiche di Crawl Management sia durante il lancio delle nuove funzionalità del sito Web sia anche quando si verificano errori una tantum.

    Modulo precedente
    Torniamo al capitolo
    Modulo successivo

    Attivo adesso

    6

    Velocità e frequenza di scansione

    Vedi di più

    1

    Progettazione e impaginazione

    2

    Architettura del sito

    3

    Esperienza di pagina

    4

    Mappa del sito di notizie

    5

    Schema

    7

    Collegamenti a contenuti sponsorizzati e generati dagli utenti

    8

    Centro editori di Google

    9

    Bing Notizie PubHub

    10

    Annunci, popup e best practice

    SODP logo

    State of Digital Publishing sta creando una nuova pubblicazione e comunità per i media digitali e i professionisti dell'editoria, nei nuovi media e nella tecnologia.

    • I migliori strumenti
    • SEO per gli editori
    • Politica sulla riservatezza
    • Politica editoriale
    • Mappa del sito
    • Cerca per azienda
    Facebook X-twitter Lento Linkedin

    STATO DELL’EDITORIA DIGITALE – COPYRIGHT 2025