Tattiche di crescita degli editori per la stagione elettorale | SEMINARIO WEB
Dopo aver esaminato questo modulo, dovresti capire cos'è il crawl budget, come viene assegnato a un sito Web e come ottimizzarlo.
Durata del video
23:27
Rispondi al quiz
Prendi il quiz del modulo corrente
Materiali
Modelli pronti all'uso
Risorse
Rapporti e risorse
0 di 9 domande completate
Domande:
Hai già completato il quiz in precedenza. Quindi non è possibile riavviarlo.
Il quiz è in fase di caricamento...
Devi accedere o registrarti per iniziare il quiz.
È necessario prima completare quanto segue:
0 di 9 Domande con risposta corretta
Il tuo tempo:
Il tempo è trascorso
Hai raggiunto 0 di 0 punto(i), ( 0 )
Punti guadagnati: 0 di 0 , ( 0 )
0 Saggio(i) in sospeso (Punti possibili: 0 )
Cos'è un budget di scansione?
Una misura della frequenza con cui Google vuole (striscia) una particolare pagina/sito Web è chiamata ____.
I budget di scansione sono generalmente solo una preoccupazione per gli editori che hanno più di quante pagine sul loro sito Web?
Dove puoi trovare le statistiche crawl?
Cos'è Robots.txt?
Quale dei seguenti può ridurre il budget di scansione?
Quale dei seguenti compiti non può eseguire un crawler di terze parti come Semrush o Screaming Frog?
Cosa fa quanto segue
Cosa significa un codice di errore 503?
2.6.1 Che cos'è un budget di scansione?
Il budget di scansione è il numero di pagine del tuo sito web che un web crawler scansionerà entro un determinato periodo di tempo.
Ogni volta che premi il pulsante di pubblicazione, Google deve eseguire la scansione e l'indicizzazione del contenuto affinché inizi a comparire nei risultati di ricerca. Data la portata e il volume dei contenuti su Internet, la scansione diventa una risorsa preziosa che deve essere preventivata e razionata per un utilizzo più efficiente.
Per dirla semplicemente, è difficile per Google eseguire la scansione e l'indicizzazione di ogni singola pagina su Internet ogni giorno. Pertanto, Google esegue la scansione di ciascun sito Web in base al budget assegnato.
Il budget di scansione viene assegnato ai siti Web in base a due fattori: limite di scansione e domanda di scansione.
Si tratta della capacità e/o della volontà di un sito Web di essere sottoposto a scansione.
Non tutti i siti web sono progettati per essere scansionati ogni giorno. La scansione implica che Googlebot invii richieste al server del tuo sito web che, se eseguite troppo frequentemente, potrebbero mettere a dura prova la capacità del server.
Inoltre, non tutti gli editori desiderano che il proprio sito venga sottoposto a scansione continua.
La domanda di scansione misura la frequenza con cui una determinata pagina desidera essere (ri)scansionata. Le pagine più popolari o le pagine aggiornate frequentemente devono essere scansionate e ripetute più frequentemente.
Se Google non riesce a eseguire la scansione e l'indicizzazione dei tuoi contenuti, tali contenuti semplicemente non verranno visualizzati nei risultati di ricerca.
Detto questo, i budget di scansione sono generalmente una preoccupazione solo per gli editori medio-grandi che hanno più di 10.000 pagine sul proprio sito web. Gli editori più piccoli non dovrebbero preoccuparsi eccessivamente dei budget di scansione.
Gli editori con 10.000 o più pagine sul loro sito Web, tuttavia, vorranno evitare pagine di gattonare Googlebot che non erano importanti. Impostarsi il budget di scansione su contenuti irrilevanti o meno importanti significa che le pagine di valore più elevato potrebbero non essere strisciate.
Inoltre, gli editori di notizie vorranno stare attenti al budget di scansione sprecato dato che la scansione è uno dei tre modi in cui Google News scopre nuovi contenuti in modo tempestivo. Gli altri due sono utilizzando Sitemaps e Google Publisher Center, che abbiamo esplorato ulteriormente nei nostri moduli di Google News Sitemap e Google Publisher Center
Ottimizzazione della frequenza e della velocità con cui Googlebot striscia il tuo sito Web prevede il monitoraggio di una gamma di variabili. Iniziamo elencando i fattori più importanti coinvolti nell'ottimizzazione del budget e della frequenza di scansione.
Le due tattiche più utili per monitorare il modo in cui i contenuti vengono scansionati stanno analizzando i file di registro e il rapporto di crawl di Google Search Console (GSC).
Un file di registro è un documento di testo che registra ogni attività sul server del tuo sito Web. Ciò include tutti i dati sulle richieste di Crawls, le richieste di pagina, le richieste di immagini, le richieste per i file JavaScript e qualsiasi altra risorsa necessaria per eseguire il tuo sito Web.
Ai fini del SEO tecnico, l'analisi dei file di registro aiuta a determinare molte informazioni utili sulla creazione di URL, incluso ma non limitato a:
Come farlo
L'analisi dei file di registro è un'attività che richiede un certo grado di familiarità tecnica con il backend di un sito Web. Per questo motivo, si consiglia di utilizzare il software di analizzatore di file di registro. Esistono diversi strumenti di analisi dei registri gratuiti e a pagamento disponibili come Graylog , Loggly , Elastic Stack , Screaming Frog Log Analyzer e Nagios per citarne alcuni.
Se sei uno sviluppatore esperto o un amministratore di sistema, è possibile eseguire manualmente anche un'analisi del file di registro.
Per fare questo, segui questi passaggi:
Dopo aver scaricato il file di registro, è possibile modificare l'estensione in .CSV e aprirla utilizzando Microsoft Excel o fogli Google. Come abbiamo detto, tuttavia, questo approccio richiede un certo livello di competenza per dare un senso al file di registro.
È inoltre possibile accedere al file di registro utilizzando un client FTP inserendo il percorso del file di registro. Un tipico percorso del file di registro assomiglia a questo:
Nome server (ad esempio, apache) /var/log/access.log
Tuttavia, è invece molto più conveniente utilizzare uno strumento di analisi del registro. Dopo aver caricato il file di registro nello strumento, è possibile ordinare i dati utilizzando più filtri. Ad esempio, sarai in grado di vedere a quali URL sono stati accessibili più frequentemente da Googlebot.
Sarai inoltre in grado di vedere se Googlebot ha accettato URL non essenziali o di basso valore come URL di navigazione sfaccettati, URL duplicati, ecc. L'identificazione di questi è importante in quanto stanno sprecando il budget di scansione.
Guarda lo screenshot seguente, tratto dall'analizzatore del file di registro SEO di Urlo Frog, per vedere cosa intendiamo.
GSC fornisce ai proprietari di siti Web dati completi e approfondimenti su come Google striscia i loro contenuti. Ciò include rapporti dettagliati su:
GSC rende anche disponibile i grafici e i grafici facili da comprendere per fornire ai proprietari di siti Web ancora più informazioni. Lo screenshot di seguito è come appare un tipico rapporto di crawl statistiche su GSC.
Il GSC ti consente anche di sapere se ci sono problemi con lo striscio. Controlla diversi errori e assegna ciascuno un codice. Gli errori più comuni che GSC controlla includono:
Il rapporto GSC mostra anche quante pagine sono state interessate da ogni errore insieme allo stato di convalida.
Come farlo
Ecco come puoi accedere al rapporto su statistiche di crawl GSC per il tuo sito Web o pagina Web:
Questi includono:
Ora sappiamo che il budget di Crawl è una risorsa preziosa il cui uso deve essere ottimizzato per i migliori risultati. Ecco alcune tecniche per farlo:
Il contenuto duplicato può finire per essere strisciati separatamente, portando a un spreco di budget di scansione. Per evitare che ciò accada, consolida pagine duplicate sul tuo sito Web in una o elimina pagine duplicate.
Robots.txt è un file che ha una serie di scopi, uno dei quali è quello di dire a Googlebot di non strisciare determinate pagine o sezioni di pagine. Questa è una strategia importante che può essere utilizzata per impedire a Googlebot di strisciare contenuti o contenuti di basso valore che non necessitano di striscianti.
Ecco alcune migliori pratiche quando si utilizzano robot.txt per ottimizzare il budget di scansione:
Come farlo
La creazione e l'esecuzione di un file robots.txt per limitare l'accesso a GoogleBot richiede alcune conoscenze di codifica. Ecco i passaggi coinvolti:
Un tipico file robots.txt avrà i seguenti elementi:
Di seguito è riportato come appare un semplice file robots.txt.
Questo codice significa che un agente utente - Googlebot in questa istanza - non è autorizzato a strisciare alcun URL che inizi con " http://www.example.com/nogooglebot/ ".
Suggeriamo di cercare un aiuto esperto se non ti senti a tuo agio nel creare e caricare da soli i file robots.txt.
Un bot di scansione arriva a un sito con un'allocazione generale di quante pagine sottoporrà a scansione. La mappa del sito XML indirizza in modo efficace il bot a leggere gli URL selezionati, garantendo l'uso efficace di tale budget.
Tieni presente che il rendimento in classifica di una pagina dipende da diversi fattori, tra cui la qualità dei contenuti e i collegamenti interni/esterni. Valuta la possibilità di includere nella mappa solo le pagine di livello superiore. Alle immagini può essere assegnata la propria mappa del sito XML.
Seguire queste raccomandazioni per garantire un'implementazione ottimale di Sitemap XML:
Per uno sguardo più dettagliato su Sitemaps, consultare il nostro modulo dedicato su questo argomento .
I collegamenti interni svolgono tre funzioni importanti:
Pertanto, per una scansione efficiente, è importante implementare un'efficace strategia di collegamento interno. Per ulteriori informazioni sul collegamento interno, consultare il nostro modulo di corso dettagliato qui.
Se un sito Web si esegue su una piattaforma di hosting condivisa, il budget di Crawl verrà condiviso con altri siti Web in esecuzione su detto piattaforma. Un grande editore potrebbe trovare l'hosting indipendente per essere un'alternativa preziosa.
Prima di aggiornare l'hosting per risolvere il sovraccarico del traffico di bot, ci sono alcuni fattori che vale la pena considerare che altrimenti potrebbero influire sui carichi del server.
Per ulteriori informazioni sui vantaggi dei CDN, dai un'occhiata al nostro modulo di esperienza di pagina .
Quando Googlebot arriva su una pagina web, esegue il rendering di tutte le risorse su detta pagina, incluso Javascript. Sebbene la scansione dell'HTML sia piuttosto semplice, Googlebot deve elaborare Javascript più volte per poterlo visualizzare e comprenderne il contenuto.
Ciò può rapidamente esaurire il budget di scansione di Google per un sito web. La soluzione è implementare il rendering Javascript sul lato server.
Come farlo
Affrontare JavaScript nel codice sorgente del tuo sito Web richiede competenze di codifica e ti consigliamo di consultare uno sviluppatore Web se si prevede di apportare tali modifiche. Detto questo, ecco alcune linee guida su cosa cercare quando si cerca di ottimizzare l'uso di JavaScript.
I CWV sono una misura delle prestazioni della pagina che influisce direttamente sul funzionamento della tua pagina nelle classifiche di ricerca.
Le prestazioni URL dei gruppi di report CWV del GSC in tre categorie:
I CWV possono anche avere un impatto sul budget di scansione. Ad esempio, le pagine di caricamento lento possono consumare nel budget di scansione poiché Google ha un periodo di tempo limitato per lo strisciare attività. Se le tue pagine si caricano rapidamente, Google può strisciare di più nel tempo limitato. Allo stesso modo, troppi rapporti sullo stato degli errori possono rallentare la scansione e sprecare il budget di scansione.
Per un esame più approfondito dei CWV, consultare l'esperienza del nostro modulo nella pagina .
Un crawler di terze parti come Semrush , SiteChecker.Pro o Screaming Frog consente agli sviluppatori Web di controllare tutti gli URL di un sito e identificare potenziali problemi.
I crawler di terze parti possono essere utilizzati per identificare:
Questi programmi offrono un rapporto sulle statistiche di scansione per aiutare a evidenziare i problemi che gli strumenti di Google potrebbero non evidenziare.
Migliorare i dati strutturati e ridurre i problemi di igiene semplificherà il lavoro di Googlebot di scansione e indicizzazione di un sito.
Raccomandiamo le seguenti migliori pratiche quando si utilizzano crawler di terze parti:
Parametri URL: la sezione dell'indirizzo web che segue il "?" - vengono utilizzati su una pagina per una serie di motivi, tra cui il filtraggio, l'impaginazione e la ricerca.
Sebbene ciò possa migliorare l'esperienza dell'utente, può anche causare problemi di scansione quando sia l'URL di base che quello con parametri restituiscono lo stesso contenuto. Un esempio di ciò potrebbe essere "http://miosito.com" e "http://miosito.com?id=3" che restituiscono esattamente la stessa pagina.
I parametri consentono a un sito di avere un numero quasi illimitato di collegamenti, ad esempio quando un utente può selezionare giorni, mesi e anni su un calendario. Se al bot è consentito eseguire la scansione di queste pagine, il budget di scansione verrà utilizzato inutilmente.
Questo può essere in particolare un problema per preoccupazione se il tuo sito Web utilizza identificatori di navigazione o sessione sfaccettati che possono generare più pagine duplicate che, se strisciate, potrebbero portare a un spreco di budget di scansione.
Gli URL duplicati possono anche derivare se hai versioni localizzate della tua pagina web in diverse lingue e il contenuto di queste pagine non è stato tradotto.
Raccomandiamo quanto segue per affrontare questo:
Ecco come un semplice<hreflang> Sembra come nel tuo codice sorgente:
https://exampsite.com/news/hreflang-tagsing/ >
Ciò dice al crawler che l'URL specificato è una variante spagnola (messicana) dell'URL principale e non dovrebbe essere trattata come un duplicato.
Abbiamo discusso degli elementi essenziali della gestione del budget crawl. I puntatori elencati in questa sezione, sebbene non critici per una sana gestione del budget di scansione, fanno molto per integrare le tecniche discusse in precedenza.
Un'emergenza strisciante si verifica quando Googlebot sopraffà il tuo sito Web con più richieste di scansione di quelle che possono gestire. È importante identificare il problema il più rapidamente possibile, che può essere fatto monitorando da vicino i registri dei server e strisciando le statistiche nella console di ricerca di Google.
Se un'improvvisa ondata di strisciamento non viene gestita in tempo, potrebbe far rallentare il server. Il rallentamento del server aumenterebbe il tempo medio di risposta per i crawler e, a seguito di questo elevato tempo di risposta, i motori di ricerca ridurranno automaticamente il loro tasso di scansione. Ciò è problematico perché i tassi di scansione ridotti porteranno a una perdita di visibilità, con nuovi articoli che non vengono strisciati immediatamente.
Se noti che lo scansione è tassare i tuoi server, ecco alcune cose che puoi fare:
Google ha sofisticati algoritmi che controllano la frequenza di scansione. Quindi, idealmente, non si dovrebbe manomettere la frequenza di scansione. Tuttavia, in una situazione di emergenza, è possibile accedere al tuo account GSC e navigare verso le impostazioni della frequenza di gattoni per la tua proprietà.
Se vedi la velocità di scansione lì come calcolata come ottimale, non sarai in grado di cambiarlo manualmente. È necessario presentare una richiesta speciale con Google per modificare la frequenza di scansione.
Se non è così, puoi semplicemente cambiare la velocità di scansione da soli al valore desiderato. Questo valore rimarrà valido per 90 giorni.
Se non si desidera manomettere le tariffe di scansione nel GSC, puoi anche bloccare l'accesso alla pagina di GoogleBot utilizzando Robots.txt. La procedura per farlo è stata spiegata in precedenza.
Possono impiegare Google fino a tre giorni per strisciare la maggior parte dei siti. Le uniche eccezioni sono i siti di notizie o altri siti che pubblicano contenuti sensibili al tempo che possono essere strisciati quotidianamente.
Per verificare la frequenza con cui vengono strisciate le tue pagine, monitorare il registro del sito. Se ritieni ancora che i tuoi contenuti non vengano strisciati con la stessa frequenza, segui questi passaggi:
https://www.google.com/ping?sitemap=full_url_of_sitemap
Nota: questo passaggio dovrebbe essere visto come l'ultima azione che chiunque dovrebbe intraprendere in quanto comporta un certo grado di rischio. Se Googlebot vede errori 503 e 429, inizierà a strisciare più lentamente e potrebbe fermare il gattonare, portando a un calo temporaneo del numero di pagine indicizzate.
Un codice di errore 503 significa che il server è temporaneamente abbassato, mentre 429 significa che un utente ha inviato troppe richieste in un periodo di tempo specifico. Questi codici consentono a GoogleBot di sapere che il problema è temporaneo e dovrebbe tornare a strisciare la pagina in un secondo momento.
Sebbene un passaggio apparentemente minore, questo è importante perché se Googlebot non conosce la natura del problema che una pagina web sta vivendo, si presume che il problema sia di natura a lungo termine e può contrassegnare la pagina come non rispondente, il che può influenzare la SEO.
La creazione di 503 codici di errore viene eseguita tramite un file PHP, che viene inserito all'interno del codice sorgente HTML esistente della tua pagina insieme a un messaggio di errore. Dovrai anche scrivere alcune linee aggiuntive di codice HTML che menzionano quando il sito dovrebbe tornare.
Ecco come appare il codice per un reindirizzamento 503:
Fare 503 o 429 reindirizzamenti richiede capacità di codifica HTML avanzate e suggeriamo di consultare il tuo sviluppatore web prima di tentare questo.
Ora abbiamo una buona comprensione di cosa sia un budget di scansione e come ottimizzarlo. Tuttavia, sapere cosa non fare quando si tratta di budget striscianti è altrettanto importante.
Ecco alcune insidie comuni da evitare di assicurarti di ottenere il massimo dal budget di scansione del tuo sito Web:
La frequenza con cui Google striscia il tuo sito Web è determinata dai suoi algoritmi, che tengono conto di diversi segnali per arrivare a una frequenza di scansione ottimale.
L'aumento del tasso di scansione non porta necessariamente a posizioni migliori nei risultati di ricerca. La frequenza di scansione o persino lo strisciare non è un fattore di classificazione in sé e per sé.
Google non preferisce necessariamente contenuti più freschi rispetto ai contenuti più vecchi. Google classifica le pagine in base alla rilevanza e alla qualità del contenuto indipendentemente dal fatto che sia vecchio o nuovo. Quindi, non è necessario continuare a farli strisciare.
La direttiva di crawl-delay non aiuta a controllare Googlebot. Se desideri rallentare la frequenza di scansione in risposta a una scansione eccessiva che sta schiacciando il tuo sito Web, fare riferimento alle istruzioni fornite nella sezione sopra.
La velocità di caricamento del tuo sito Web può influire sul budget di scansione. Una pagina di caricamento rapido significa che Google può accedere a maggiori informazioni rispetto allo stesso numero di connessioni.
Per suggerimenti sull'ottimizzazione della velocità di caricamento, consultare l'esperienza del nostro modulo a pagina .
I link Nofollow possono ancora finire per influire sul budget di scansione poiché potrebbero ancora essere strisciati. D'altra parte, i collegamenti che Robots.txt non hanno escluso non hanno alcun effetto sul budget di scansione.
Inoltre, gli URL alternativi e il contenuto di JavaScript possono finire per essere strisciati, consumando il budget di scansione, quindi è importante limitare l'accesso a loro rimuovendoli o usando robot.txt.
Il budget di scansione è una risorsa preziosa ed è fondamentale ottimizzare per questo. I problemi di scansione e indicizzazione possono influire sulle prestazioni dei contenuti, soprattutto se il tuo sito Web ha un gran numero di pagine.
Le due operazioni più fondamentali coinvolte nell'ottimizzazione del budget di Crawl stanno mantenendo aggiornate la Sitemap e il monitoraggio regolarmente dei problemi di indicizzazione dal rapporto delle statistiche di crawl GSC e dei file di registro.
È importante imparare ad applicare le migliori pratiche di Crawl Management sia durante il lancio delle nuove funzionalità del sito Web sia anche quando si verificano errori una tantum.
Attivo adesso
Vedi di più