Velocità e frequenza di scansione

Obiettivo di apprendimento

Dopo aver esaminato questo modulo, dovresti capire cos'è il crawl budget, come viene assegnato a un sito Web e come ottimizzarlo.

Durata del video

23:27

Rispondi al quiz

Prendi il quiz del modulo corrente

Materiali

Modelli pronti all'uso

Risorse

Rapporti e risorse

2.6.1 Che cos'è un budget di scansione?

Il budget di scansione è il numero di pagine del tuo sito web che un web crawler scansionerà entro un determinato periodo di tempo.

Ogni volta che premi il pulsante di pubblicazione, Google deve eseguire la scansione e l'indicizzazione del contenuto affinché inizi a comparire nei risultati di ricerca. Data la portata e il volume dei contenuti su Internet, la scansione diventa una risorsa preziosa che deve essere preventivata e razionata per un utilizzo più efficiente.

Per dirla semplicemente, è difficile per Google eseguire la scansione e l'indicizzazione di ogni singola pagina su Internet ogni giorno. Pertanto, Google esegue la scansione di ciascun sito Web in base al budget assegnato.

2.6.2 Come viene assegnato il budget di scansione ai siti web?

Il budget di scansione viene assegnato ai siti Web in base a due fattori: limite di scansione e domanda di scansione.

Limite di scansione

Si tratta della capacità e/o della volontà di un sito Web di essere sottoposto a scansione.

Non tutti i siti web sono progettati per essere scansionati ogni giorno. La scansione implica che Googlebot invii richieste al server del tuo sito web che, se eseguite troppo frequentemente, potrebbero mettere a dura prova la capacità del server.

Inoltre, non tutti gli editori desiderano che il proprio sito venga sottoposto a scansione continua.

Domanda di scansione

La domanda di scansione misura la frequenza con cui una determinata pagina desidera essere (ri)scansionata. Le pagine più popolari o le pagine aggiornate frequentemente devono essere scansionate e ripetute più frequentemente.

2.6.3 Perché gli editori dovrebbero preoccuparsi del crawl budget?

Se Google non riesce a eseguire la scansione e l'indicizzazione dei tuoi contenuti, tali contenuti semplicemente non verranno visualizzati nei risultati di ricerca.

Detto questo, i budget di scansione sono generalmente una preoccupazione solo per gli editori medio-grandi che hanno più di 10.000 pagine sul proprio sito web. Gli editori più piccoli non dovrebbero preoccuparsi eccessivamente dei budget di scansione.

Gli editori con 10.000 o più pagine sul loro sito Web, tuttavia, vorranno evitare pagine di gattonare Googlebot che non erano importanti. Impostarsi il budget di scansione su contenuti irrilevanti o meno importanti significa che le pagine di valore più elevato potrebbero non essere strisciate.

Inoltre, gli editori di notizie vorranno stare attenti al budget di scansione sprecato dato che la scansione è uno dei tre modi in cui Google News scopre nuovi contenuti in modo tempestivo. Gli altri due sono utilizzando Sitemaps e Google Publisher Center, che abbiamo esplorato ulteriormente nei nostri moduli di Google News Sitemap e Google Publisher Center

2.6.4 Ottimizzazione per i crawler

Ottimizzazione della frequenza e della velocità con cui Googlebot striscia il tuo sito Web prevede il monitoraggio di una gamma di variabili. Iniziamo elencando i fattori più importanti coinvolti nell'ottimizzazione del budget e della frequenza di scansione.

Monitorare i contenuti Crawl

Le due tattiche più utili per monitorare il modo in cui i contenuti vengono scansionati stanno analizzando i file di registro e il rapporto di crawl di Google Search Console (GSC).

1. Analisi del file di registro

Un file di registro è un documento di testo che registra ogni attività sul server del tuo sito Web. Ciò include tutti i dati sulle richieste di Crawls, le richieste di pagina, le richieste di immagini, le richieste per i file JavaScript e qualsiasi altra risorsa necessaria per eseguire il tuo sito Web.

Ai fini del SEO tecnico, l'analisi dei file di registro aiuta a determinare molte informazioni utili sulla creazione di URL, incluso ma non limitato a:

Quali URL sono stati strisciati.

Quali URL vengono strisciati più frequentemente.

Identificazione se vengono strisciati gli URL di basso valore o non essenziali, sprecando così il budget di scansione.

Come farlo

L'analisi dei file di registro è un'attività che richiede un certo grado di familiarità tecnica con il backend di un sito Web. Per questo motivo, si consiglia di utilizzare il software di analizzatore di file di registro. Esistono diversi strumenti di analisi dei registri gratuiti e a pagamento disponibili come Graylog , Loggly , Elastic Stack , Screaming Frog Log Analyzer e Nagios per citarne alcuni.

Se sei uno sviluppatore esperto o un amministratore di sistema, è possibile eseguire manualmente anche un'analisi del file di registro.

Per fare questo, segui questi passaggi:

Accedi al cpanel del tuo provider di hosting

Naviga a MERICS e poi Accesso grezzo

Scarica il file di registro

Dopo aver scaricato il file di registro, è possibile modificare l'estensione in .CSV e aprirla utilizzando Microsoft Excel o fogli Google. Come abbiamo detto, tuttavia, questo approccio richiede un certo livello di competenza per dare un senso al file di registro.

È inoltre possibile accedere al file di registro utilizzando un client FTP inserendo il percorso del file di registro. Un tipico percorso del file di registro assomiglia a questo:

Nome server (ad esempio, apache) /var/log/access.log

Tuttavia, è invece molto più conveniente utilizzare uno strumento di analisi del registro. Dopo aver caricato il file di registro nello strumento, è possibile ordinare i dati utilizzando più filtri. Ad esempio, sarai in grado di vedere a quali URL sono stati accessibili più frequentemente da Googlebot.

Sarai inoltre in grado di vedere se Googlebot ha accettato URL non essenziali o di basso valore come URL di navigazione sfaccettati, URL duplicati, ecc. L'identificazione di questi è importante in quanto stanno sprecando il budget di scansione.

Guarda lo screenshot seguente, tratto dall'analizzatore del file di registro SEO di Urlo Frog, per vedere cosa intendiamo.

2. Rapporto sulle statistiche di gattoni GSC

GSC fornisce ai proprietari di siti Web dati completi e approfondimenti su come Google striscia i loro contenuti. Ciò include rapporti dettagliati su:

Quali file/pagine sono stati strisciati e per quale scopo.

Quale tipo di GoogleBot (notizie, video, mobili, ecc.) Ha intrapreso il gattonare.

Numero totale di richieste di scansione, ecc.

GSC rende anche disponibile i grafici e i grafici facili da comprendere per fornire ai proprietari di siti Web ancora più informazioni. Lo screenshot di seguito è come appare un tipico rapporto di crawl statistiche su GSC.

Fonte

Il GSC ti consente anche di sapere se ci sono problemi con lo striscio. Controlla diversi errori e assegna ciascuno un codice. Gli errori più comuni che GSC controlla includono:

Errore del server [5xx]

Errore di reindirizzamento

URL inviato bloccato da robots.txt

URL inviato contrassegnato come "noindex"

L'URL inviato sembra essere un soft 404

URL inviato restituito 401

URL inviato non trovato (404)

URL inviato restituito 403

URL inviato bloccato a causa di un altro problema 4xx

Il rapporto GSC mostra anche quante pagine sono state interessate da ogni errore insieme allo stato di convalida.

Come farlo

Ecco come puoi accedere al rapporto su statistiche di crawl GSC per il tuo sito Web o pagina Web:

Per usare GSC, devi iscriverti .

Successivamente, dovrai dimostrare di possedere il sito Web che desideri aggiungere a GSC. Questo può essere fatto aggiungendo ciò che Google chiama una "proprietà". Una proprietà è tutto ciò che deve essere esaminato in GSC. Potrebbe essere una singola pagina o un intero sito Web.

Per verificare la proprietà del sito, selezionare Apri GSC, passare al selettore delle proprietà e fare clic su "Aggiungi nuova proprietà" dal selettore delle proprietà.

Vedrai quindi un elenco di metodi di verifica che ti consentirà di verificare la tua proprietà del sito/pagina.

Questi includono:

Caricamento file HTML
Tag HTML
Codice di tracciamento di Google Analytics
Google Tag Manager
Fornitore di nomi di dominio
Google siti, blogger o account di dominio.

Seleziona il tuo metodo di verifica. Una volta verificata la tua proprietà, apparirà su GSC e puoi visualizzare analisi dettagliate per il suo budget e attività di scansione.

Ottimizza il budget di scansione

Ora sappiamo che il budget di Crawl è una risorsa preziosa il cui uso deve essere ottimizzato per i migliori risultati. Ecco alcune tecniche per farlo:

1. Correggi il contenuto duplicato

Il contenuto duplicato può finire per essere strisciati separatamente, portando a un spreco di budget di scansione. Per evitare che ciò accada, consolida pagine duplicate sul tuo sito Web in una o elimina pagine duplicate.

2. Usa robot.txt

Robots.txt è un file che ha una serie di scopi, uno dei quali è quello di dire a Googlebot di non strisciare determinate pagine o sezioni di pagine. Questa è una strategia importante che può essere utilizzata per impedire a Googlebot di strisciare contenuti o contenuti di basso valore che non necessitano di striscianti.

Ecco alcune migliori pratiche quando si utilizzano robot.txt per ottimizzare il budget di scansione:

Assegna la priorità ai parametri che devono essere bloccati dal gattonare nell'ordine di preferenza.

Specifica robot, direttive e parametri che causano un'ulteriore scansione utilizzando i file di registro.

Blocca i percorsi comuni tipicamente utilizzati dai CMS, ad esempio 404, amministrazione, pagine di accesso, ecc.

Come farlo

La creazione e l'esecuzione di un file robots.txt per limitare l'accesso a GoogleBot richiede alcune conoscenze di codifica. Ecco i passaggi coinvolti:

Un file robots.txt viene creato utilizzando un editor di testo come un blocco note. Il file deve essere nominato robots.txt affinché GoogleBot lo riconosca.

Una volta creato un file, aggiungiamo regole ad esso, vale a dire che specifichiamo una serie di istruzioni che dicono al file per bloccare l'accesso a determinati agenti in condizioni specifiche.

Un tipico file robots.txt avrà i seguenti elementi:

Un agente utente, come Googlebot, a cui deve essere negato l'accesso
Un danno o consentire l'ingresso, specificando un file o una directory a cui l'accesso deve essere limitato per l'agente utente
Una sitemap per dire a Google quale contenuto dovrebbe strisciare.

Di seguito è riportato come appare un semplice file robots.txt.

Fonte

Questo codice significa che un agente utente - Googlebot in questa istanza - non è autorizzato a strisciare alcun URL che inizi con " http://www.example.com/nogooglebot/ ".

Una volta che il tuo file è stato creato e salvato sulla macchina locale, deve essere caricato sul tuo sito Web. In questo modo dipende dal tuo server e dal provider di hosting. Dovrai contattare il tuo provider per accertare i passaggi esatti per questo.

Suggeriamo di cercare un aiuto esperto se non ti senti a tuo agio nel creare e caricare da soli i file robots.txt.

3. Segment XML Sitemaps

Un bot di scansione arriva a un sito con un'allocazione generale di quante pagine sottoporrà a scansione. La mappa del sito XML indirizza in modo efficace il bot a leggere gli URL selezionati, garantendo l'uso efficace di tale budget.

Tieni presente che il rendimento in classifica di una pagina dipende da diversi fattori, tra cui la qualità dei contenuti e i collegamenti interni/esterni. Valuta la possibilità di includere nella mappa solo le pagine di livello superiore. Alle immagini può essere assegnata la propria mappa del sito XML.

Seguire queste raccomandazioni per garantire un'implementazione ottimale di Sitemap XML:

Fai riferimento alla mappa del sito XML dal file robots.txt.

Crea più Sitemap per un sito molto grande. Non aggiungere più di 50.000 URL a una singola mappa del sito XML.

Mantienilo pulito e includi solo pagine indicizzabili.

Mantieni aggiornata la mappa del sito XML.

Mantieni la dimensione del file inferiore a 50 MB.

Per uno sguardo più dettagliato su Sitemaps, consultare il nostro modulo dedicato su questo argomento .

4. Implementare un'efficace strategia di collegamento interno

I collegamenti interni svolgono tre funzioni importanti:

Organizzare i contenuti attorno a temi, che aiuta a costruire l'autorità topica.

Equità della pagina di diffusione tra pagine di alto valore ad altre pagine.

Aiutare gli utenti e i crawler Web per navigare più facilmente nel sito.

Pertanto, per una scansione efficiente, è importante implementare un'efficace strategia di collegamento interno. Per ulteriori informazioni sul collegamento interno, consultare il nostro modulo di corso dettagliato qui.

5. Hosting di aggiornamento

Se un sito Web si esegue su una piattaforma di hosting condivisa, il budget di Crawl verrà condiviso con altri siti Web in esecuzione su detto piattaforma. Un grande editore potrebbe trovare l'hosting indipendente per essere un'alternativa preziosa.

Prima di aggiornare l'hosting per risolvere il sovraccarico del traffico di bot, ci sono alcuni fattori che vale la pena considerare che altrimenti potrebbero influire sui carichi del server.

Elabora immagini utilizzando una rete di distribuzione dei contenuti separata (CDN) che è anche ottimizzata per ospitare formati di immagini di prossima generazione come WebP.

Prendi in considerazione l'hosting di CPU, lo spazio su disco in base alla funzione e ai requisiti del tuo sito Web.

Monitorare l'attività utilizzando soluzioni come New Relic per monitorare l'utilizzo in eccesso di plugin e bot.

Per ulteriori informazioni sui vantaggi dei CDN, dai un'occhiata al nostro modulo di esperienza di pagina .

6. Usa javascript con giudizio

Quando Googlebot arriva su una pagina web, esegue il rendering di tutte le risorse su detta pagina, incluso Javascript. Sebbene la scansione dell'HTML sia piuttosto semplice, Googlebot deve elaborare Javascript più volte per poterlo visualizzare e comprenderne il contenuto.

Ciò può rapidamente esaurire il budget di scansione di Google per un sito web. La soluzione è implementare il rendering Javascript sul lato server.

Come farlo

Affrontare JavaScript nel codice sorgente del tuo sito Web richiede competenze di codifica e ti consigliamo di consultare uno sviluppatore Web se si prevede di apportare tali modifiche. Detto questo, ecco alcune linee guida su cosa cercare quando si cerca di ottimizzare l'uso di JavaScript.

Evita di inviare risorse JavaScript al cliente per il rendering in modo che i robot scansionali non spontino le proprie risorse e possano funzionare in modo più efficiente

Usa il caricamento pigro a livello del browser invece di essere basato su JavaScript.

Utilizzare l'etichettatura lato server per l'analisi e l'etichettatura di terze parti, sia autosufficiente che utilizzando soluzioni come Stape.io.

7. Monitorare i CWV

I CWV sono una misura delle prestazioni della pagina che influisce direttamente sul funzionamento della tua pagina nelle classifiche di ricerca.

Le prestazioni URL dei gruppi di report CWV del GSC in tre categorie:

Tipo metrico (LCP, FID e CLS)

Stato

Gruppi di URL

I CWV possono anche avere un impatto sul budget di scansione. Ad esempio, le pagine di caricamento lento possono consumare nel budget di scansione poiché Google ha un periodo di tempo limitato per lo strisciare attività. Se le tue pagine si caricano rapidamente, Google può strisciare di più nel tempo limitato. Allo stesso modo, troppi rapporti sullo stato degli errori possono rallentare la scansione e sprecare il budget di scansione.

Per un esame più approfondito dei CWV, consultare l'esperienza del nostro modulo nella pagina .

8. Utilizza un crawler di terze parti

Un crawler di terze parti come Semrush , SiteChecker.Pro o Screaming Frog consente agli sviluppatori Web di controllare tutti gli URL di un sito e identificare potenziali problemi.

I crawler di terze parti possono essere utilizzati per identificare:

Collegamenti interrotti

Contenuti duplicati

Titoli delle pagine mancanti

Questi programmi offrono un rapporto sulle statistiche di scansione per aiutare a evidenziare i problemi che gli strumenti di Google potrebbero non evidenziare.

Migliorare i dati strutturati e ridurre i problemi di igiene semplificherà il lavoro di Googlebot di scansione e indicizzazione di un sito.

Raccomandiamo le seguenti migliori pratiche quando si utilizzano crawler di terze parti:

Emula Googlebot, tramite le impostazioni di scansione della ricerca, per evitare di essere bloccato dai provider di hosting e per identificare e risolvere correttamente tutti i problemi tecnici.

DEBUG Pagine mancanti da una scansione che utilizza questa grande guida da Screaming Frog .

9. Monitorare i parametri dell'URL

Parametri URL: la sezione dell'indirizzo web che segue il "?" - vengono utilizzati su una pagina per una serie di motivi, tra cui il filtraggio, l'impaginazione e la ricerca.

Sebbene ciò possa migliorare l'esperienza dell'utente, può anche causare problemi di scansione quando sia l'URL di base che quello con parametri restituiscono lo stesso contenuto. Un esempio di ciò potrebbe essere "http://miosito.com" e "http://miosito.com?id=3" che restituiscono esattamente la stessa pagina.

I parametri consentono a un sito di avere un numero quasi illimitato di collegamenti, ad esempio quando un utente può selezionare giorni, mesi e anni su un calendario. Se al bot è consentito eseguire la scansione di queste pagine, il budget di scansione verrà utilizzato inutilmente.

Questo può essere in particolare un problema per preoccupazione se il tuo sito Web utilizza identificatori di navigazione o sessione sfaccettati che possono generare più pagine duplicate che, se strisciate, potrebbero portare a un spreco di budget di scansione.

Gli URL duplicati possono anche derivare se hai versioni localizzate della tua pagina web in diverse lingue e il contenuto di queste pagine non è stato tradotto.

Raccomandiamo quanto segue per affrontare questo:

Usa robot.txt per non consentire Googlebot dalle pagine duplicate scanellate.

Usare il<hreflang> Tag per specificare le variazioni linguistiche del contenuto. La scheda Hreflang indica al crawler che la pagina è una variazione regionale del contenuto principale, impedendo così al crawler di registrarlo come duplicato nel caso in cui non sia stato ancora tradotto.

Ecco come un semplice<hreflang> Sembra come nel tuo codice sorgente:

https://exampsite.com/news/hreflang-tagsing/ >

Ciò dice al crawler che l'URL specificato è una variante spagnola (messicana) dell'URL principale e non dovrebbe essere trattata come un duplicato.

2.6.5 bello da avere

Abbiamo discusso degli elementi essenziali della gestione del budget crawl. I puntatori elencati in questa sezione, sebbene non critici per una sana gestione del budget di scansione, fanno molto per integrare le tecniche discusse in precedenza.

Gestione delle emergenze striscianti

Un'emergenza strisciante si verifica quando Googlebot sopraffà il tuo sito Web con più richieste di scansione di quelle che possono gestire. È importante identificare il problema il più rapidamente possibile, che può essere fatto monitorando da vicino i registri dei server e strisciando le statistiche nella console di ricerca di Google.

Se un'improvvisa ondata di strisciamento non viene gestita in tempo, potrebbe far rallentare il server. Il rallentamento del server aumenterebbe il tempo medio di risposta per i crawler e, a seguito di questo elevato tempo di risposta, i motori di ricerca ridurranno automaticamente il loro tasso di scansione. Ciò è problematico perché i tassi di scansione ridotti porteranno a una perdita di visibilità, con nuovi articoli che non vengono strisciati immediatamente.

Se noti che lo scansione è tassare i tuoi server, ecco alcune cose che puoi fare:

1. Limitare la velocità di scansione

Google ha sofisticati algoritmi che controllano la frequenza di scansione. Quindi, idealmente, non si dovrebbe manomettere la frequenza di scansione. Tuttavia, in una situazione di emergenza, è possibile accedere al tuo account GSC e navigare verso le impostazioni della frequenza di gattoni per la tua proprietà.

Se vedi la velocità di scansione lì come calcolata come ottimale, non sarai in grado di cambiarlo manualmente. È necessario presentare una richiesta speciale con Google per modificare la frequenza di scansione.

Se non è così, puoi semplicemente cambiare la velocità di scansione da soli al valore desiderato. Questo valore rimarrà valido per 90 giorni.

Se non si desidera manomettere le tariffe di scansione nel GSC, puoi anche bloccare l'accesso alla pagina di GoogleBot utilizzando Robots.txt. La procedura per farlo è stata spiegata in precedenza.

2. Controlla la tariffa di scansione del sito

Possono impiegare Google fino a tre giorni per strisciare la maggior parte dei siti. Le uniche eccezioni sono i siti di notizie o altri siti che pubblicano contenuti sensibili al tempo che possono essere strisciati quotidianamente.

Per verificare la frequenza con cui vengono strisciate le tue pagine, monitorare il registro del sito. Se ritieni ancora che i tuoi contenuti non vengano strisciati con la stessa frequenza, segui questi passaggi:

Invia il tuo sito di notizie aggiornato a Google. Una sitemap di notizie è una sitemap creata specificamente da Google News.

Se hai apportato modifiche al tuo sito di notizie, usa lo strumento ping per informare Google dello stesso, questo può essere fatto inviando una richiesta GET dalla riga di comando o dal browser al seguente indirizzo:

https://www.google.com/ping?sitemap=full_url_of_sitemap

Usare il<lastmod> Tag in Sitemaps da mostrare quando un URL indicizzato è stato aggiornato o modificato l'ultima volta.

3. Restituisci un codice di errore 503 o 429

Nota: questo passaggio dovrebbe essere visto come l'ultima azione che chiunque dovrebbe intraprendere in quanto comporta un certo grado di rischio. Se Googlebot vede errori 503 e 429, inizierà a strisciare più lentamente e potrebbe fermare il gattonare, portando a un calo temporaneo del numero di pagine indicizzate.

Un codice di errore 503 significa che il server è temporaneamente abbassato, mentre 429 significa che un utente ha inviato troppe richieste in un periodo di tempo specifico. Questi codici consentono a GoogleBot di sapere che il problema è temporaneo e dovrebbe tornare a strisciare la pagina in un secondo momento.

Sebbene un passaggio apparentemente minore, questo è importante perché se Googlebot non conosce la natura del problema che una pagina web sta vivendo, si presume che il problema sia di natura a lungo termine e può contrassegnare la pagina come non rispondente, il che può influenzare la SEO.

La creazione di 503 codici di errore viene eseguita tramite un file PHP, che viene inserito all'interno del codice sorgente HTML esistente della tua pagina insieme a un messaggio di errore. Dovrai anche scrivere alcune linee aggiuntive di codice HTML che menzionano quando il sito dovrebbe tornare.

Ecco come appare il codice per un reindirizzamento 503:

Fonte

Fare 503 o 429 reindirizzamenti richiede capacità di codifica HTML avanzate e suggeriamo di consultare il tuo sviluppatore web prima di tentare questo.

2.6.6 Evita queste insidie comuni

Ora abbiamo una buona comprensione di cosa sia un budget di scansione e come ottimizzarlo. Tuttavia, sapere cosa non fare quando si tratta di budget striscianti è altrettanto importante.

Ecco alcune insidie comuni da evitare di assicurarti di ottenere il massimo dal budget di scansione del tuo sito Web:

Cercare di aumentare il tasso di scansione senza una buona ragione

La frequenza con cui Google striscia il tuo sito Web è determinata dai suoi algoritmi, che tengono conto di diversi segnali per arrivare a una frequenza di scansione ottimale.

L'aumento del tasso di scansione non porta necessariamente a posizioni migliori nei risultati di ricerca. La frequenza di scansione o persino lo strisciare non è un fattore di classificazione in sé e per sé.

Invio ripetutamente vecchi contenuti per la scansione

Google non preferisce necessariamente contenuti più freschi rispetto ai contenuti più vecchi. Google classifica le pagine in base alla rilevanza e alla qualità del contenuto indipendentemente dal fatto che sia vecchio o nuovo. Quindi, non è necessario continuare a farli strisciare.

Utilizzo della direttiva di crawl-delay per controllare Googlebot

La direttiva di crawl-delay non aiuta a controllare Googlebot. Se desideri rallentare la frequenza di scansione in risposta a una scansione eccessiva che sta schiacciando il tuo sito Web, fare riferimento alle istruzioni fornite nella sezione sopra.

Avere un sito web di caricamento lento

La velocità di caricamento del tuo sito Web può influire sul budget di scansione. Una pagina di caricamento rapido significa che Google può accedere a maggiori informazioni rispetto allo stesso numero di connessioni.

Per suggerimenti sull'ottimizzazione della velocità di caricamento, consultare l'esperienza del nostro modulo a pagina .

Usando solo collegamenti Nofollow per bloccare i crawler

I link Nofollow possono ancora finire per influire sul budget di scansione poiché potrebbero ancora essere strisciati. D'altra parte, i collegamenti che Robots.txt non hanno escluso non hanno alcun effetto sul budget di scansione.

Inoltre, gli URL alternativi e il contenuto di JavaScript possono finire per essere strisciati, consumando il budget di scansione, quindi è importante limitare l'accesso a loro rimuovendoli o usando robot.txt.

2.6.7 Azioni e takeaway

Il budget di scansione è una risorsa preziosa ed è fondamentale ottimizzare per questo. I problemi di scansione e indicizzazione possono influire sulle prestazioni dei contenuti, soprattutto se il tuo sito Web ha un gran numero di pagine.

Le due operazioni più fondamentali coinvolte nell'ottimizzazione del budget di Crawl stanno mantenendo aggiornate la Sitemap e il monitoraggio regolarmente dei problemi di indicizzazione dal rapporto delle statistiche di crawl GSC e dei file di registro.

È importante imparare ad applicare le migliori pratiche di Crawl Management sia durante il lancio delle nuove funzionalità del sito Web sia anche quando si verificano errori una tantum.

Modulo precedente

Torniamo al capitolo

Modulo successivo

Attivo adesso

6

Velocità e frequenza di scansione

Vedi di più

1

Progettazione e impaginazione