Estratégias de crescimento para editoras em época de eleições | WEBINAR
Após concluir este módulo, você deverá entender o que é orçamento de rastreamento, como ele é alocado a um site e como otimizá-lo.
Duração do vídeo
23:27
Responda ao questionário
Faça o teste do módulo atual
Materiais
Modelos prontos para usar
Recursos
Relatórios e Recursos
0 de 9 perguntas concluídas
Questões:
Você já concluiu o questionário anteriormente. Portanto, não pode iniciá-lo novamente.
O questionário está carregando…
Você precisa fazer login ou se cadastrar para iniciar o questionário.
Primeiro você deve concluir o seguinte:
0 de 9 perguntas respondidas corretamente
Seu tempo:
O tempo decorreu
Você alcançou 0 de 0 ponto(s), ( 0 )
Pontuação obtida: 0 de 0 , ( 0 )
0 Redação(ões) pendente(s) (Pontuação possível: 0 )
O que é um orçamento de rastejamento?
Uma medida de com que frequência o Google deseja rastrear novamente uma página/site específico é chamada de ____.
Os orçamentos de indexação geralmente só são uma preocupação para editores que têm mais de quantas páginas em seus sites?
Onde posso encontrar as estatísticas de rastreamento?
O que é o arquivo robots.txt?
Qual das seguintes opções pode reduzir seu orçamento para obras no porão?
Qual das seguintes tarefas um rastreador de terceiros, como o Semrush ou o Screaming Frog, NÃO pode executar?
O que significa o seguinte?
O que significa o código de erro 503?
2.6.1 O que é um orçamento de rastejamento?
O orçamento de rastreamento é o número de páginas do seu site que um rastreador da web irá rastrear dentro de um determinado período de tempo.
Cada vez que você clica no botão "Publicar", o Google precisa rastrear e indexar o conteúdo para que ele comece a aparecer nos resultados de pesquisa. Dada a escala e o volume de conteúdo na internet, o rastreamento se torna um recurso valioso que precisa ser orçado e gerenciado para o uso mais eficiente.
Simplificando, é difícil para o Google rastrear e indexar todas as páginas da internet todos os dias. Portanto, o Google rastreia cada site de acordo com o orçamento que lhe foi atribuído.
O orçamento de rastreamento é atribuído aos sites com base em dois fatores: limite de rastreamento e demanda de rastreamento.
Isso se refere à capacidade e/ou disposição de um site em ser rastreado.
Nem todos os sites são projetados para serem rastreados diariamente. O rastreamento envolve o Googlebot enviando solicitações ao servidor do seu site, o que, se feito com muita frequência, pode sobrecarregar a capacidade do servidor.
Além disso, nem todos os editores desejam que seus sites sejam rastreados continuamente.
A demanda de rastreamento é uma medida da frequência com que uma página específica precisa ser rastreada (e rerastreada). Páginas populares ou páginas que são atualizadas com frequência precisam ser rastreadas e rerastreadas com mais frequência.
Se o Google não conseguir rastrear e indexar seu conteúdo, esse conteúdo simplesmente não aparecerá nos resultados de pesquisa.
Dito isso, os orçamentos de indexação geralmente só são uma preocupação para editoras de médio a grande porte que possuem mais de 10.000 páginas em seus sites. Editoras menores não precisam se preocupar muito com esses orçamentos.
No entanto, editores com 10.000 páginas ou mais em seus sites devem evitar que o Googlebot rastreie páginas que não sejam importantes. Esgotar seu orçamento de rastreamento em conteúdo irrelevante ou menos importante significa que páginas de maior valor podem não ser rastreadas.
Além disso, os editores de notícias devem ter cuidado com o desperdício de verbas de rastreamento, visto que o rastreamento é uma das três maneiras pelas quais o Google Notícias descobre conteúdo novo em tempo hábil. As outras duas são o uso de sitemaps e o Google Publisher Center, que exploramos mais detalhadamente em nossos módulos sobre Sitemap do Google Notícias e Google Publisher Center.
Otimizar a frequência e a velocidade com que o Googlebot rastreia seu site envolve o monitoramento de uma série de variáveis. Começaremos listando os fatores mais importantes para otimizar o orçamento e a frequência de rastreamento.
As duas táticas mais úteis para monitorar como seu conteúdo está sendo rastreado são a análise de arquivos de log e o relatório de estatísticas de rastreamento do Google Search Console (GSC).
Um arquivo de log é um documento de texto que registra todas as atividades no servidor do seu site. Isso inclui todos os dados sobre solicitações de rastreamento, solicitações de páginas, solicitações de imagens, solicitações de arquivos JavaScript e qualquer outro recurso necessário para o funcionamento do seu site.
Para fins de SEO técnico, a análise de arquivos de log ajuda a determinar muitas informações úteis sobre o rastreamento de URLs, incluindo, entre outras:
Como fazer isso
A análise de arquivos de log é uma tarefa que exige certo conhecimento técnico do backend de um site. Por isso, recomendamos o uso de um software analisador de arquivos de log. Existem diversas ferramentas gratuitas e pagas disponíveis para análise de logs, como Graylog , Loggly , Elastic Stack , Screaming Frog Log Analyzer e Nagios , entre outras.
Se você for um desenvolvedor ou administrador de sistemas experiente, também poderá realizar uma análise manual do arquivo de log.
Para fazer isso, siga estes passos:
Após baixar o arquivo de log, você pode alterar a extensão para .csv e abri-lo usando o Microsoft Excel ou o Google Sheets. Como já mencionamos, porém, essa abordagem exige um certo nível de conhecimento técnico para interpretar o arquivo de log.
Você também pode acessar o arquivo de log usando um cliente FTP, digitando o caminho do arquivo. Um caminho típico de arquivo de log se parece com isto:
Nome do servidor (por exemplo, Apache) /var/log/access.log
No entanto, é muito mais conveniente usar uma ferramenta de análise de logs. Depois de carregar o arquivo de log na ferramenta, você pode classificar os dados usando vários filtros. Por exemplo, você poderá ver quais URLs foram acessadas com mais frequência pelo Googlebot.
Você também poderá ver se o Googlebot acessou URLs não essenciais ou de baixo valor, como URLs de navegação facetada, URLs duplicadas etc. Identificar esses URLs é importante, pois eles desperdiçam seu orçamento de rastreamento.
Veja a captura de tela abaixo, retirada do Analisador de Arquivos de Log de SEO da Screaming Frog, para entender o que queremos dizer.
O GSC fornece aos proprietários de sites dados e informações abrangentes sobre como o Google rastreia seu conteúdo. Isso inclui relatórios detalhados sobre:
O GSC também disponibiliza gráficos e tabelas fáceis de entender para fornecer aos proprietários de sites ainda mais informações. A captura de tela abaixo mostra como é um relatório típico de estatísticas de rastreamento no GSC.
O GSC também informa se há algum problema com o rastreamento. Ele verifica diversos erros e atribui um código a cada um. Os erros mais comuns que o GSC verifica incluem:
O relatório do GSC também mostra quantas páginas foram afetadas por cada erro, juntamente com o status de validação.
Como fazer isso
Veja como você pode acessar o relatório de estatísticas de rastreamento do Google Search Console (GSC) para seu site ou página da web:
Isso inclui:
Agora sabemos que o orçamento para escavação é um recurso valioso cujo uso deve ser otimizado para obter os melhores resultados. Aqui estão algumas técnicas para fazer isso:
Conteúdo duplicado pode acabar sendo rastreado separadamente, resultando em desperdício do orçamento de rastreamento. Para evitar que isso aconteça, consolide as páginas duplicadas do seu site em uma só ou exclua-as.
O arquivo robots.txt serve a vários propósitos, um dos quais é instruir o Googlebot a não rastrear determinadas páginas ou seções de páginas. Essa é uma estratégia importante que pode ser usada para impedir que o Googlebot rastreie conteúdo de baixo valor ou conteúdo que não precisa ser rastreado.
Aqui estão algumas práticas recomendadas para usar o robots.txt a fim de otimizar o orçamento de rastreamento:
Como fazer isso
Criar e executar um arquivo robots.txt para restringir o acesso do Googlebot requer algum conhecimento de programação. Aqui estão os passos envolvidos:
Um arquivo robots.txt típico terá os seguintes elementos:
Abaixo, você pode ver como é um arquivo robots.txt simples.
Este código significa que um agente de usuário — o Googlebot neste caso — não tem permissão para rastrear qualquer URL que comece com “ http://www.example.com/nogooglebot/ ”.
Recomendamos que procure ajuda especializada se não se sentir à vontade para criar e carregar arquivos robots.txt por conta própria.
Um robô de rastreamento chega a um site com uma alocação geral de quantas páginas ele irá rastrear. O sitemap XML direciona o robô para ler URLs selecionadas, garantindo o uso eficiente desse orçamento.
Observe que o desempenho de classificação de uma página depende de vários fatores, incluindo a qualidade do conteúdo e os links internos/externos. Considere incluir apenas as páginas de maior relevância no mapa. As imagens podem ter seu próprio sitemap XML.
Siga estas recomendações para garantir a implementação ideal do sitemap XML:
Para uma análise mais detalhada dos mapas do site, consulte nosso módulo dedicado a este tópico .
Os links internos desempenham três funções importantes:
Assim, para uma indexação eficiente, é importante implementar uma estratégia eficaz de links internos. Para mais informações sobre links internos, consulte nosso módulo detalhado do curso aqui.
Se um site estiver hospedado em uma plataforma de hospedagem compartilhada, o orçamento de rastreamento será compartilhado com outros sites que utilizam a mesma plataforma. Para grandes editoras, a hospedagem independente pode ser uma alternativa vantajosa.
Antes de atualizar sua hospedagem para resolver a sobrecarga de tráfego de bots, é importante considerar alguns fatores que podem afetar a carga do servidor.
Para saber mais sobre as vantagens das CDNs, confira nosso módulo de experiência do usuário .
Quando o Googlebot acessa uma página da web, ele renderiza todos os recursos dessa página, incluindo o JavaScript. Embora rastrear o HTML seja relativamente simples, o Googlebot precisa processar o JavaScript diversas vezes para conseguir renderizá-lo e compreender seu conteúdo.
Isso pode esgotar rapidamente o orçamento de rastreamento do Google para um site. A solução é implementar a renderização em Javascript no lado do servidor.
Como fazer isso
Lidar com o Javascript no código-fonte do seu site exige conhecimento de programação e recomendamos consultar um desenvolvedor web caso planeje fazer alguma alteração desse tipo. Dito isso, aqui estão algumas diretrizes sobre o que observar ao tentar otimizar o uso do Javascript.
CWVs são uma medida do desempenho da página que afeta diretamente o seu posicionamento nos resultados de busca.
O relatório CWV do GSC agrupa o desempenho de URLs em três categorias:
Os CWVs também podem afetar seu orçamento de rastreamento. Por exemplo, páginas com carregamento lento podem consumir seu orçamento de rastreamento, já que o Google tem um tempo limitado para realizar tarefas de rastreamento. Se suas páginas carregarem rapidamente, o Google poderá rastrear mais páginas dentro desse tempo limitado. Da mesma forma, muitos relatórios de status de erro podem tornar o rastreamento mais lento e desperdiçar seu orçamento.
Para uma análise mais detalhada dos CWVs, consulte nosso módulo sobre experiência na página .
Um rastreador de terceiros, como o Semrush , o Sitechecker.pro ou o Screaming Frog, permite que os desenvolvedores da web auditem todos os URLs de um site e identifiquem possíveis problemas.
Ferramentas de rastreamento de terceiros podem ser usadas para identificar:
Esses programas oferecem um relatório de estatísticas de rastreamento para ajudar a destacar problemas que as próprias ferramentas do Google podem não identificar.
A melhoria dos dados estruturados e a redução dos problemas de higiene simplificarão o trabalho do Googlebot de rastrear e indexar um site.
Recomendamos as seguintes boas práticas ao usar rastreadores de terceiros:
Os parâmetros de URL — a parte do endereço da web que segue o “?” — são usados em uma página por diversos motivos, incluindo filtragem, paginação e pesquisa.
Embora isso possa melhorar a experiência do usuário, também pode causar problemas de rastreamento quando a URL base e uma URL com parâmetros retornam o mesmo conteúdo. Um exemplo disso seria “http://mysite.com” e “http://mysite.com?id=3” retornando exatamente a mesma página.
Os parâmetros permitem que um site tenha um número quase ilimitado de links — como quando um usuário pode selecionar dias, meses e anos em um calendário. Se o bot tiver permissão para rastrear essas páginas, o orçamento de rastreamento será consumido desnecessariamente.
Isso pode ser especialmente problemático se o seu site utiliza navegação facetada ou identificadores de sessão que podem gerar várias páginas duplicadas, as quais, se rastreadas, podem levar a um desperdício do orçamento de rastreamento.
URLs duplicadas também podem ocorrer se você tiver versões localizadas da sua página web em diferentes idiomas e o conteúdo dessas páginas não tiver sido traduzido.
Recomendamos o seguinte para resolver este problema:
Eis como um simples<hreflang> Parece que está no seu código-fonte:
https://examplesite.com/news/hreflang-tags”/ >
Isso indica ao rastreador que o URL especificado é uma variante em espanhol (mexicano) do URL principal e que não deve ser tratado como duplicado.
Já discutimos os pontos essenciais da gestão do orçamento do porão. As dicas listadas nesta seção, embora não sejam cruciais para uma gestão adequada do orçamento do porão, complementam de forma significativa as técnicas discutidas anteriormente.
Uma emergência de rastreamento ocorre quando o Googlebot sobrecarrega seu site com mais solicitações de rastreamento do que consegue processar. É importante identificar o problema o mais rápido possível, o que pode ser feito monitorando atentamente os registros do servidor e as estatísticas de rastreamento no Google Search Console.
Se um aumento repentino no tráfego de indexação não for gerenciado a tempo, poderá causar lentidão no servidor. Essa lentidão aumentaria o tempo médio de resposta dos indexadores e, como resultado, os mecanismos de busca reduziriam automaticamente a taxa de indexação. Isso é problemático porque a redução na taxa de indexação leva à perda de visibilidade, já que novos artigos não são indexados imediatamente.
Se você perceber que o excesso de rastreamento está sobrecarregando seus servidores, aqui estão algumas coisas que você pode fazer:
O Google possui algoritmos sofisticados que controlam a taxa de rastreamento. Portanto, o ideal é não alterar essa taxa. No entanto, em caso de emergência, você pode acessar sua conta do Google Search Console e navegar até as Configurações de Taxa de Rastreamento da sua propriedade.
Se você vir a taxa de rastreamento como "Calculada como ideal", não poderá alterá-la manualmente. É necessário enviar uma solicitação especial ao Google para alterar a taxa de rastreamento.
Caso contrário, você pode simplesmente alterar a taxa de rastreamento para o valor desejado. Esse valor permanecerá válido por 90 dias.
Se você não deseja interferir nas taxas de rastreamento do GSC, também pode bloquear o acesso do Googlebot à página usando o arquivo robots.txt. O procedimento para isso já foi explicado anteriormente.
O Google pode levar até três dias para rastrear a maioria dos sites. As únicas exceções são sites de notícias ou outros sites que publicam conteúdo sensível ao tempo, os quais podem ser rastreados diariamente.
Para verificar a frequência com que suas páginas estão sendo rastreadas, monitore o registro de logs do seu site. Se você ainda achar que seu conteúdo não está sendo rastreado com a frequência necessária, siga estas etapas:
https://www.google.com/ping?sitemap=FULL_URL_OF_SITEMAP
Atenção: Esta etapa deve ser considerada como a última ação a ser tomada, pois envolve um certo grau de risco. Se o Googlebot detectar erros 503 e 429, ele começará a rastrear as páginas mais lentamente e poderá até mesmo interromper o rastreamento, levando a uma queda temporária no número de páginas indexadas.
O código de erro 503 significa que o servidor está temporariamente inativo, enquanto o 429 significa que um usuário enviou muitas solicitações em um determinado período. Esses códigos informam ao Googlebot que o problema é temporário e que ele deve retornar para rastrear a página mais tarde.
Embora pareça um passo pequeno, isso é importante porque, se o Googlebot não souber a natureza do problema que uma página da web está enfrentando, ele presume que o problema seja de longo prazo e pode marcar a página como não responsiva, o que pode afetar o SEO.
A criação de códigos de erro 503 é feita por meio de um arquivo PHP, que é inserido no código-fonte HTML existente da sua página, juntamente com uma mensagem de erro. Você também precisará escrever algumas linhas adicionais de código HTML indicando quando o site deverá retornar ao estado original.
Este é o aspecto do código para um redirecionamento 503:
Fazer redirecionamentos 503 ou 429 exige conhecimentos avançados de programação HTML e sugerimos que consulte o seu desenvolvedor web antes de tentar fazê-lo.
Agora temos uma boa compreensão do que é um orçamento para obras em um espaço rastejante e como otimizá-lo. No entanto, saber o que não fazer em relação a orçamentos para obras em espaços rastejantes é igualmente importante.
Aqui estão algumas armadilhas comuns a evitar para garantir que você aproveite ao máximo o orçamento de rastreamento do seu site:
A frequência com que o Google rastreia seu site é determinada por seus algoritmos, que levam em consideração diversos sinais para chegar a uma frequência de rastreamento ideal.
Aumentar a frequência de rastreamento não leva necessariamente a melhores posições nos resultados de busca. A frequência de rastreamento, ou mesmo o próprio rastreamento, não é um fator de ranqueamento por si só.
O Google não prioriza necessariamente conteúdo mais recente em detrimento de conteúdo mais antigo. O Google classifica as páginas com base na relevância e na qualidade do conteúdo, independentemente de ser antigo ou novo. Portanto, não é necessário que elas sejam indexadas constantemente.
A diretiva crawl-delay não ajuda a controlar o Googlebot. Se você deseja diminuir a frequência de rastreamento em resposta ao rastreamento excessivo que está sobrecarregando seu site, consulte as instruções fornecidas na seção acima.
A velocidade de carregamento do seu site pode afetar seu orçamento de rastreamento. Uma página com carregamento rápido significa que o Google pode acessar mais informações com o mesmo número de conexões.
Para dicas sobre otimização da velocidade de carregamento, confira nosso módulo sobre experiência da página .
Links com o atributo nofollow ainda podem afetar seu orçamento de rastreamento, pois podem acabar sendo rastreados mesmo assim. Por outro lado, links bloqueados pelo robots.txt não afetam o orçamento de rastreamento.
Além disso, URLs alternativas e conteúdo em Javascript podem acabar sendo rastreados, consumindo seu orçamento de rastreamento, portanto, é importante restringir o acesso a eles, seja removendo-os ou usando o arquivo robots.txt.
O orçamento de rastreamento é um recurso valioso e é fundamental otimizá-lo. Problemas de rastreamento e indexação podem afetar o desempenho do seu conteúdo, principalmente se o seu site tiver um grande número de páginas.
As duas operações mais fundamentais para otimizar o orçamento de rastreamento são manter o sitemap atualizado e monitorar regularmente os problemas de indexação a partir do relatório de estatísticas de rastreamento do GSC e dos arquivos de log.
É importante aprender a aplicar as melhores práticas de gerenciamento de rastreamento tanto durante a implementação de novos recursos do site quanto quando erros pontuais ocorrem.
Ativo agora
Veja mais