Tácticas de crecimiento editorial para la temporada electoral | WEBINAR
Después de completar este módulo, debería comprender qué es el presupuesto de rastreo, cómo se asigna a un sitio web y cómo optimizarlo.
Duración del vídeo
23:27
Responder cuestionario
Realizar la prueba del módulo actual
Materiales
Plantillas listas para usar
Recursos
Informes y recursos
0 de 9 preguntas completadas
Preguntas:
Ya has completado el cuestionario. Por lo tanto, no puedes volver a empezarlo.
El cuestionario se está cargando…
Debes iniciar sesión o registrarte para comenzar el cuestionario.
Primero debes completar lo siguiente:
0 de 9 preguntas respondidas correctamente
Tu tiempo:
El tiempo ha transcurrido
Has alcanzado 0 de 0 puntos, ( 0 )
Puntos obtenidos: 0 de 0 , ( 0 )
0 Ensayos pendientes (Puntos posibles: 0 )
¿Qué es un presupuesto de rastreo?
Una medida de la frecuencia con la que Google quiere volver a rastrear una página o sitio web en particular se denomina ____.
Los presupuestos de rastreo generalmente solo son una preocupación para los editores que tienen más de una página en su sitio web
¿Dónde puedo encontrar estadísticas de rastreo?
¿Qué es robots.txt?
¿Cuál de las siguientes opciones puede reducir su presupuesto de rastreo?
¿Cuál de las siguientes tareas un rastreador de terceros como Semrush o Screaming Frog NO puede realizar?
¿Qué significa lo siguiente?
¿Qué significa un código de error 503?
2.6.1 ¿Qué es un presupuesto de rastreo?
El presupuesto de rastreo es la cantidad de páginas de su sitio web que un rastreador web rastreará dentro de un período de tiempo determinado.
Cada vez que pulsas el botón de publicación, Google necesita rastrear e indexar el contenido para que empiece a aparecer en los resultados de búsqueda. Dada la escala y el volumen del contenido en internet, el rastreo se convierte en un recurso valioso que debe presupuestarse y racionarse para un uso más eficiente.
En resumen, a Google le resulta difícil rastrear e indexar cada página de internet a diario. Por ello, rastrea cada sitio web según su presupuesto asignado.
El presupuesto de rastreo se asigna a los sitios web en función de dos factores: el límite de rastreo y la demanda de rastreo.
Se trata de la capacidad y/o voluntad de un sitio web para ser rastreado.
No todos los sitios web están diseñados para rastrearse a diario. El rastreo implica que Googlebot envíe solicitudes al servidor de tu sitio web que, si se realizan con demasiada frecuencia, pueden sobrecargar su capacidad.
Además, no todos los editores quieren que su sitio sea rastreado continuamente.
La demanda de rastreo mide la frecuencia con la que una página en particular desea ser rastreada (o re-rastreada). Las páginas populares o las que se actualizan con frecuencia necesitan ser rastreadas y re-rastreadas con mayor frecuencia.
Si Google no puede rastrear e indexar su contenido, ese contenido simplemente no aparecerá en los resultados de búsqueda.
Dicho esto, los presupuestos de rastreo generalmente solo preocupan a los editores medianos y grandes con más de 10 000 páginas en su sitio web. Los editores más pequeños no deberían preocuparse demasiado por ellos.
Sin embargo, los editores con 10 000 páginas o más en su sitio web querrán evitar que Googlebot rastree páginas sin importancia. Agotar el presupuesto de rastreo en contenido irrelevante o menos importante significa que es posible que no se rastreen páginas de mayor valor.
Además, los editores de noticias deberán tener cuidado con el desperdicio de presupuestos de rastreo, ya que el rastreo es una de las tres maneras en que Google Noticias descubre contenido nuevo de forma oportuna. Las otras dos son mediante mapas de sitio y el Centro de editores de Google, que hemos explorado con más detalle en nuestros módulos Mapa del sitio de Google Noticias y Centro de editores de Google.
Optimizar la frecuencia y velocidad con la que Googlebot rastrea tu sitio web implica monitorear diversas variables. Empecemos enumerando los factores más importantes para optimizar el presupuesto y la frecuencia de rastreo.
Las dos tácticas más útiles para monitorear cómo se rastrea su contenido son analizar los archivos de registro y el informe de estadísticas de rastreo de Google Search Console (GSC).
Un archivo de registro es un documento de texto que registra toda la actividad en el servidor de su sitio web. Esto incluye todos los datos sobre solicitudes de rastreo, solicitudes de páginas, solicitudes de imágenes, solicitudes de archivos JavaScript y cualquier otro recurso necesario para el funcionamiento de su sitio web.
A los efectos del SEO técnico, el análisis de archivos de registro ayuda a determinar mucha información útil sobre el rastreo de URL, que incluye, entre otros:
Cómo hacer esto
El análisis de archivos de registro es una tarea que requiere cierta familiaridad técnica con el backend de un sitio web. Por ello, recomendamos usar un software de análisis de archivos de registro. Existen varias herramientas de análisis de registros, tanto gratuitas como de pago, como Graylog , Loggly , Elastic Stack , Screaming Frog Log Analyzer y Nagios , entre otras.
Si es un desarrollador o administrador de sistemas experimentado, también puede realizar manualmente un análisis del archivo de registro.
Para ello siga estos pasos:
Una vez descargado el archivo de registro, puede cambiar la extensión a .csv y abrirlo con Microsoft Excel o Hojas de cálculo de Google. Sin embargo, como ya mencionamos, este método requiere cierta experiencia para comprender el archivo de registro.
También puede acceder al archivo de registro mediante un cliente FTP introduciendo su ruta. Una ruta típica de archivo de registro se parece a esta:
Nombre del servidor (por ejemplo, Apache) /var/log/access.log
Sin embargo, es mucho más práctico usar una herramienta de análisis de registros. Una vez cargado el archivo de registro, puede ordenar los datos con varios filtros. Por ejemplo, podrá ver las URL a las que Googlebot ha accedido con más frecuencia.
También podrás ver si Googlebot ha estado accediendo a URL no esenciales o de bajo valor, como URL de navegación por facetas, URL duplicadas, etc. Identificarlas es importante ya que están desperdiciando tu presupuesto de rastreo.
Mire la siguiente captura de pantalla, tomada del Analizador de archivos de registro SEO de Screaming Frog, para ver qué queremos decir.
GSC proporciona a los propietarios de sitios web datos e información completa sobre cómo Google rastrea su contenido. Esto incluye informes detallados sobre:
GSC también ofrece gráficos y tablas fáciles de entender para proporcionar a los propietarios de sitios web aún más información. La captura de pantalla a continuación muestra el aspecto de un informe típico de estadísticas de rastreo en GSC.
El GSC también le avisa si hay algún problema con el rastreo. Comprueba varios errores y asigna un código a cada uno. Los errores más comunes que GSC comprueba incluyen:
El informe de GSC también muestra cuántas páginas se vieron afectadas por cada error junto con el estado de validación.
Cómo hacer esto
A continuación le indicamos cómo puede acceder al informe de estadísticas de rastreo de GSC para su sitio web o página web:
Estos incluyen:
Ahora sabemos que el presupuesto de rastreo es un recurso valioso cuyo uso debe optimizarse para obtener los mejores resultados. Aquí hay algunas técnicas para lograrlo:
El contenido duplicado puede rastrearse por separado, lo que supone un desperdicio del presupuesto de rastreo. Para evitarlo, consolida las páginas duplicadas de tu sitio web en una sola o elimínalas.
Robots.txt es un archivo que cumple varias funciones, una de las cuales es indicarle a Googlebot que no rastree ciertas páginas o secciones de páginas. Esta es una estrategia importante que puede utilizarse para evitar que Googlebot rastree contenido de poco valor o que no necesita ser rastreado.
A continuación se presentan algunas prácticas recomendadas al usar robots.txt para optimizar el presupuesto de rastreo:
Cómo hacer esto
Crear y ejecutar un archivo robots.txt para restringir el acceso del robot de Google requiere conocimientos de programación. Estos son los pasos:
Un archivo robots.txt típico tendrá los siguientes elementos:
A continuación se muestra el aspecto que tiene un archivo robots.txt simple.
Este código significa que un agente de usuario (Googlebot en este caso) no puede rastrear ninguna URL que comience con “ http://www.example.com/nogooglebot/ ”.
Le sugerimos que busque ayuda de un experto si no se siente cómodo creando y cargando archivos robots.txt usted mismo.
Un bot de rastreo llega a un sitio con una asignación general de páginas que rastreará. El mapa del sitio XML le indica al bot que lea las URL seleccionadas, lo que garantiza el uso eficiente de ese presupuesto.
Tenga en cuenta que el posicionamiento de una página depende de varios factores, como la calidad del contenido y los enlaces internos y externos. Considere incluir solo las páginas de mayor calidad en el mapa. A las imágenes se les puede asignar su propio mapa del sitio XML.
Siga estas recomendaciones para garantizar una implementación óptima del mapa del sitio XML:
Para obtener una visión más detallada de los mapas del sitio, consulte nuestro módulo dedicado a este tema .
Los enlaces internos cumplen tres funciones importantes:
Por lo tanto, para un rastreo eficiente, es importante implementar una estrategia de enlaces internos eficaz. Para más información sobre enlaces internos, consulta nuestro módulo de curso detallado aquí.
Si un sitio web se ejecuta en una plataforma de alojamiento compartido, el presupuesto de rastreo se compartirá con otros sitios web que se ejecuten en dicha plataforma. Un gran editor podría considerar el alojamiento independiente como una alternativa valiosa.
Antes de actualizar su alojamiento para resolver la sobrecarga de tráfico de bots, hay algunos factores que vale la pena considerar y que de lo contrario podrían afectar las cargas del servidor.
Para obtener más información sobre las ventajas de las CDN, consulte nuestro módulo de experiencia de página .
Cuando el robot de Google llega a una página web, procesa todos los recursos de dicha página, incluido Javascript. Si bien rastrear HTML es bastante sencillo, el robot de Google debe procesar Javascript varias veces para poder procesarlo y comprender su contenido.
Esto puede agotar rápidamente el presupuesto de rastreo de Google para un sitio web. La solución es implementar la renderización de Javascript en el servidor.
Cómo hacer esto
Incorporar Javascript en el código fuente de tu sitio web requiere experiencia en programación, por lo que te recomendamos consultar con un desarrollador web si planeas realizar dichos cambios. Dicho esto, aquí tienes algunas pautas sobre qué buscar al optimizar el uso de Javascript.
Los CWV son una medida del rendimiento de la página que afecta directamente el desempeño de su página en los rankings de búsqueda.
El informe CWV del GSC agrupa el rendimiento de las URL en tres categorías:
Las CWV también pueden afectar tu presupuesto de rastreo. Por ejemplo, las páginas que cargan lentamente pueden consumir tu presupuesto de rastreo, ya que Google tiene un tiempo limitado para las tareas de rastreo. Si tus páginas cargan rápido, Google puede rastrear más páginas en ese tiempo limitado. De igual forma, demasiados informes de estado de error pueden ralentizar el rastreo y desperdiciar tu presupuesto de rastreo.
Para un análisis más exhaustivo de las CWV, consulte nuestro módulo en la página de experiencia .
Un rastreador de terceros como Semrush , Sitechecker.pro o Screaming Frog permite a los desarrolladores web auditar todas las URL de un sitio e identificar posibles problemas.
Los rastreadores de terceros se pueden utilizar para identificar:
Estos programas ofrecen un informe de estadísticas de rastreo para ayudar a resaltar problemas que las propias herramientas de Google no pueden detectar.
Mejorar los datos estructurados y reducir los problemas de higiene agilizarán el trabajo de Googlebot de rastrear e indexar un sitio.
Recomendamos las siguientes prácticas recomendadas al utilizar rastreadores de terceros:
Los parámetros de URL (la sección de la dirección web que sigue al “?”) se utilizan en una página por diversos motivos, entre ellos el filtrado, la paginación y la búsqueda.
Si bien esto puede mejorar la experiencia del usuario, también puede causar problemas de rastreo cuando tanto la URL base como una con parámetros devuelven el mismo contenido. Un ejemplo sería que "http://mysite.com" y "http://mysite.com?id=3" devuelven exactamente la misma página.
Los parámetros permiten que un sitio tenga un número casi ilimitado de enlaces, por ejemplo, cuando un usuario puede seleccionar días, meses y años en un calendario. Si se permite que el bot rastree estas páginas, el presupuesto de rastreo se consumirá innecesariamente.
Esto puede ser un problema especialmente preocupante si su sitio web utiliza navegación por facetas o identificadores de sesión que pueden generar múltiples páginas duplicadas que, si se rastrean, podrían generar un desperdicio del presupuesto de rastreo.
También pueden aparecer URL duplicadas si tiene versiones localizadas de su página web en diferentes idiomas y el contenido de esas páginas no ha sido traducido.
Para abordar esto, recomendamos lo siguiente:
Aquí te mostramos cómo hacerlo de forma sencilla<hreflang> Se ve así en tu código fuente:
https://ejemplo.com/noticias/etiquetas-hreflang ”/>
Esto le dice al rastreador que la URL especificada es una variante en español (mexicana) de la URL principal y no debe tratarse como un duplicado.
Hemos analizado los aspectos esenciales de la gestión del presupuesto de rastreo. Los consejos de esta sección, si bien no son fundamentales para una gestión adecuada del presupuesto de rastreo, complementan en gran medida las técnicas descritas anteriormente.
Una emergencia de rastreo ocurre cuando Googlebot sobrecarga tu sitio web con más solicitudes de rastreo de las que puede gestionar. Es importante identificar el problema lo antes posible, lo que puede hacerse supervisando de cerca los registros del servidor y las estadísticas de rastreo en Google Search Console.
Si un aumento repentino del rastreo no se gestiona a tiempo, podría ralentizar el servidor. Esto aumentaría el tiempo de respuesta promedio de los rastreadores y, como resultado, los motores de búsqueda reducirían automáticamente su tasa de rastreo. Esto es problemático, ya que una tasa de rastreo reducida conlleva una pérdida de visibilidad, ya que los nuevos artículos no se rastrean inmediatamente.
Si nota que el rastreo excesivo está sobrecargando sus servidores, aquí hay algunas cosas que puede hacer:
Google cuenta con sofisticados algoritmos que controlan la frecuencia de rastreo. Por lo tanto, lo ideal es no manipularla. Sin embargo, en caso de emergencia, puede iniciar sesión en su cuenta de GSC y acceder a la configuración de frecuencia de rastreo de su propiedad.
Si la frecuencia de rastreo aparece como "Calculada como óptima", no podrá cambiarla manualmente. Debe enviar una solicitud especial a Google para cambiarla.
Si no es así, puede ajustar la frecuencia de rastreo al valor deseado. Este valor será válido durante 90 días.
Si no desea alterar las tasas de rastreo en GSC, también puede bloquear el acceso del robot de Google a la página mediante robots.txt. El procedimiento para ello se explicó anteriormente.
Google puede tardar hasta tres días en rastrear la mayoría de los sitios. Las únicas excepciones son los sitios de noticias u otros sitios que publican contenido con plazos de entrega limitados, que pueden rastrearse a diario.
Para comprobar la frecuencia con la que se rastrean tus páginas, revisa el registro de tu sitio. Si sigues pensando que tu contenido no se rastrea con la frecuencia necesaria, sigue estos pasos:
https://www.google.com/ping?sitemap=URL_COMPLETA_DEL_MAPA_DEL_SITIO
Nota: Este paso debe considerarse la última acción, ya que conlleva cierto riesgo. Si Googlebot detecta errores 503 y 429, el rastreo se ralentizará y podría detenerse, lo que provocará una disminución temporal del número de páginas indexadas.
Un código de error 503 significa que el servidor está temporalmente inactivo, mientras que el 429 indica que un usuario ha enviado demasiadas solicitudes en un tiempo determinado. Estos códigos indican a Googlebot que el problema es temporal y que debería volver a rastrear la página más tarde.
Aunque parezca un paso menor, esto es importante porque si Googlebot no conoce la naturaleza del problema que experimenta una página web, asume que el problema es de naturaleza a largo plazo y puede marcar la página como que no responde, lo que puede afectar el SEO.
La creación de códigos de error 503 se realiza mediante un archivo PHP, que se inserta en el código fuente HTML de la página junto con un mensaje de error. También deberá escribir algunas líneas adicionales de código HTML que indiquen cuándo se espera que el sitio regrese.
Así es como se ve el código para una redirección 503:
Realizar redirecciones 503 o 429 requiere habilidades avanzadas de codificación HTML y le sugerimos consultar con su desarrollador web antes de intentar esto.
Ahora comprendemos bien qué es un presupuesto de rastreo y cómo optimizarlo. Sin embargo, es igualmente importante saber qué no hacer con respecto a los presupuestos de rastreo.
A continuación se presentan algunos errores comunes que se deben evitar para asegurarse de aprovechar al máximo el presupuesto de rastreo de su sitio web:
La frecuencia con la que Google rastrea su sitio web está determinada por sus algoritmos, que tienen en cuenta varias señales para llegar a una frecuencia de rastreo óptima.
Aumentar la tasa de rastreo no implica necesariamente mejores posiciones en los resultados de búsqueda. La frecuencia de rastreo, o incluso el rastreo en sí mismo, no es un factor de posicionamiento en sí mismo.
Google no siempre prefiere el contenido más reciente al antiguo. Google clasifica las páginas según la relevancia y la calidad del contenido, independientemente de si es antiguo o nuevo. Por lo tanto, no es necesario seguir rastreándolas.
La directiva crawl-delay no ayuda a controlar el robot de Google. Si desea reducir la frecuencia de rastreo debido a un rastreo excesivo que sobrecarga su sitio web, consulte las instrucciones de la sección anterior.
La velocidad de carga de tu sitio web puede afectar tu presupuesto de rastreo. Una página que carga rápido significa que Google puede acceder a más información con el mismo número de conexiones.
Para obtener consejos sobre cómo optimizar la velocidad de carga, consulte nuestro módulo sobre experiencia de página .
Los enlaces nofollow pueden afectar tu presupuesto de rastreo, ya que podrían rastrearse. Por otro lado, los enlaces que robots.txt ha deshabilitado no afectan el presupuesto de rastreo.
Además, es posible que se terminen rastreando URL alternativas y contenido Javascript, lo que consumiría su presupuesto de rastreo, por lo que es importante restringir el acceso a ellos eliminándolos o utilizando robots.txt.
El presupuesto de rastreo es un recurso valioso y es fundamental optimizarlo. Los problemas de rastreo e indexación pueden afectar el rendimiento de su contenido, especialmente si su sitio web tiene muchas páginas.
Las dos operaciones más fundamentales involucradas en la optimización del presupuesto de rastreo son mantener el mapa del sitio actualizado y monitorear regularmente los problemas de indexación desde el informe de estadísticas de rastreo de GSC y los archivos de registro.
Es importante aprender a aplicar las mejores prácticas de gestión de rastreo tanto durante la implementación de nuevas funciones del sitio web como cuando ocurren errores puntuales.
Activo ahora
Ver más