爬行速度和频率

上一个模块

返回章节

下一个模块

学习目标

完成本模块后，您应该了解什么是抓取预算、如何将其分配给网站以及如何对其进行优化。

视频时长

23:27

回答测验

进行当前模块测验

材料

即用型模板

资源

报告和资源

2.6.1 什么是抓取预算？

抓取预算是网络抓取工具在给定时间范围内抓取您网站上的页面数量。

每次您点击发布按钮时，Google 都需要抓取内容并为其建立索引，才能开始出现在搜索结果中。鉴于互联网上内容的规模和数量，爬行成为一种宝贵的资源，需要进行预算和配给才能最有效地使用。

简而言之，谷歌很难每天抓取互联网上的每个页面并为其建立索引。因此，谷歌会根据分配的预算来抓取每个网站。

2.6.2 抓取预算如何分配给网站？

抓取预算根据两个因素分配给网站：抓取限制和抓取需求。

抓取限制

这是网站的容量和/或被抓取的意愿。

并非每个网站都是为了每天被抓取而构建的。抓取涉及 Googlebot 向您网站的服务器发送请求，如果操作过于频繁，可能会对服务器的容量造成压力。

此外，并不是每个发布商都希望他们的网站不断被抓取。

抓取需求

抓取需求是衡量特定页面需要（重新）抓取的频率的指标。热门页面或更新频繁的页面需要更频繁地抓取和重新抓取。

2.6.3 为什么发布商应该关心抓取预算？

如果 Google 无法抓取您的内容并为其编制索引，该内容将不会显示在搜索结果中。

话虽这么说，抓取预算通常只是网站上页面超过 10,000 个的中型到大型发布商所关心的问题。小型发布商无需过度担心抓取预算。

但是，在其网站上拥有10,000页或更多页面的出版商将希望避免Googlebot爬行页面并不重要。在无关紧要或不太重要的内容上耗尽您的爬网预算意味着更高的价值页面可能不会被爬走。

此外，鉴于Google新闻及时发现新鲜内容的三种方式之一，新闻发布者将要小心浪费的爬网预算。另外两个是使用Sitemaps和Google Publisher Center，我们在Google News Sitemap和Google Publisher Center Center模块

2.6.4优化爬网

优化GoogleBot爬网的频率和速度涉及监视一系列变量。我们首先列出优化爬网预算和频率的最重要因素。

监视内容爬网

监视您的内容的爬行方式的两个最有用的策略是分析日志文件和Google Search Console的（GSC）爬网统计报告。

1。日志文件分析

日志文件是一个文本文档，可记录网站服务器上的每个活动。这包括有关爬网请求，页面请求，图像请求，JavaScript文件的请求以及运行您网站所需的任何其他资源的所有数据。

出于技术SEO的目的，日志文件分析有助于确定有关URL爬网的许多有用信息，包括但不限于：

哪些URL已被爬行。

哪些URL最常被爬行。

确定是否爬行任何低价值或非必需的URL，从而浪费爬网预算。

如何做

日志文件分析是一项任务，需要对网站的后端进行一定程度的技术熟悉。因此，我们建议使用日志文件分析仪软件。有几种免费的和付费的日志分析工具，例如Graylog ， Loggly ， Elastic Stack ，Screaming Frog Log Analyzer和Nagios等。

如果您是经验丰富的开发人员或系统管理员，则可以手动执行日志文件分析。

为此，请执行以下步骤：

登录您的托管提供商的CPANEL

导航到merics，然后访问原始访问

下载日志文件

下载日志文件后，您可以将扩展名更改为.csv，并使用Microsoft Excel或Google表格将其更改。但是，正如我们所说，这种方法需要一定水平的专业知识来理解日志文件。

您还可以通过输入日志文件的路径来使用FTP客户端访问日志文件。典型的日志文件路径看起来像这样：

服务器名称（例如Apache） /var/log/access.log

但是，使用日志分析工具更加方便。将日志文件上传到工具中后，您可以使用多个过滤器对数据进行排序。例如，您可以查看Googlebot最常访问哪些URL。

您还可以查看GoogleBot是否一直在访问非必需的或低价值的URL，例如刻面导航URL，重复的URL等。确定这些网址很重要，因为它们浪费了您的爬网预算。

查看以下屏幕截图，从尖叫的青蛙的SEO日志文件分析仪中获取，以了解我们的意思。

2。GSC爬网统计报告

GSC为网站所有者提供了有关Google如何抓取其内容的全面数据和见解。这包括有关：

哪些文件/页面被爬行以及出于什么目的。

哪种类型的Googlebot（新闻，视频，手机等）进行了爬行。

爬网请求的总数等。

GSC还使易于理解的图形和图表可为网站所有者提供更多信息。下面的屏幕截图是GSC上的典型爬网统计报告。

来源

GSC还让您知道爬行是否有任何问题。它检查几个错误并分配每个代码。 GSC检查的最常见错误包括：

服务器错误 [5xx]

重定向错误

提交的网址被 robots.txt 阻止

提交的网址标记为“noindex”

提交的 URL 似乎是软 404

提交的URL返回401

找不到提交的 URL (404)

提交的URL返回403

提交的 URL 由于其他 4xx 问题而被阻止

GSC报告还显示了在验证状态以及验证状态以及验证状态以及验证状态以及验证状态并影响了多少页。

如何做

这是您可以访问网站或网页的GSC爬网统计报告：

要使用GSC，您需要注册。

接下来，您需要证明自己拥有要添加到GSC的网站。这可以通过添加Google称为“属性”来完成。属性是需要在GSC中检查的任何东西。它可能是一个页面或整个网站。

要验证站点所有权，请选择“ Open GSC”，导航到属性选择器，然后单击属性选择器中的“添加新属性”。

然后，您将看到验证方法列表，该验证方法将允许您验证网站/页面的所有权。

这些包括：

HTML文件上传
HTML标签
Google Analytics（分析跟踪代码）
Google标签管理器
域名提供商
Google网站，博客作者或域帐户。

选择您的验证方法。一旦您的财产得到验证，它将出现在GSC上，您可以查看有关其爬网预算和活动的详细分析。

优化爬网预算

我们现在知道，爬网预算是一种宝贵的资源，必须优化其使用以获得最佳结果。这里有一些技术可以做到这一点：

1。修复重复内容

重复的内容可能最终被分开爬行，从而导致爬行预算的浪费。为了避免这种情况的发生，要么将网站上的重复页面合并为一个，要么删除重复页面。

2。使用robots.txt

Robots.txt是一个用于多种目的的文件，其中之一是告诉GoogleBot不要爬网某些页面或页面。这是一种重要的策略，可用于防止Googlebot爬行不需要爬行的低价值内容或内容。

以下是使用robots.txt优化爬网预算时的一些最佳实践：

将优先级分配给需要阻止您的优先顺序爬行的参数。

使用日志文件指定导致额外爬网的机器人、指令和参数。

阻止 CMS 通常具有的常见路径，例如 404、管理、登录页面等。

如何做

创建和执行一个robots.txt文件以限制GoogleBot访问需要一些编码知识。这是涉及的步骤：

abots.txt文件是使用文本编辑器（例如记事本）创建的。该文件需要命名为robots.txt才能使GoogleBot识别它。

一旦创建文件，我们就会向其添加规则，也就是说，我们指定了一组说明，告诉文件以阻止在特定条件下对某些代理的访问。

一个典型的机器人.txt文件将具有以下元素：

用户代理，例如Googlebot，将被拒绝访问
禁止或允许输入，指定要限制用户代理的文件或目录
一个站点地图，可以告诉Google它应该爬网的内容。

以下是一个简单的robots.txt文件的样子。

来源

此代码意味着在这种情况下，用户代理 - GoogleBot - 不允许以“ http://www.example.com/nogooglebot/ ”开头的任何URL爬网。

创建文件并保存在本地计算机上后，需要将其上传到您的网站。这样做取决于您的服务器和托管提供商。您将需要联系您的提供商，以确定此的确切步骤。

如果您自己不舒服地创建和上传机器人，请寻求专家帮助。

3。段XML站点地图

爬行机器人到达站点时，会对其爬行的页面数量进行一般分配。 XML 站点地图有效地引导机器人读取选定的 URL，确保有效利用该预算。

请注意，页面的排名性能取决于多个因素，包括内容质量和内部/外部链接。考虑在地图中仅包含顶级页面。图像可以分配自己的 XML 站点地图。

请遵循以下建议，以确保最佳XML站点地图实施：

引用 robots.txt 文件中的 XML 站点地图。

为非常大的网站创建多个站点地图。请勿向单个 XML 站点地图添加超过 50,000 个 URL。

保持干净并且仅包含可索引页面。

保持 XML 站点地图最新。

将文件大小保持在 50MB 以下。

有关站点地点的更详细信息，请参阅我们有关此主题的专用模块。

4.实施有效的内部链接策略

内部链接执行三个重要功能：

组织主题周围的内容，这有助于建立主题权威。

在高价值页面之间传播页面公平到其他页面。

更轻松地帮助用户和网络爬行者浏览该网站。

因此，为了有效的爬行，重要的是要实施有效的内部联系策略。有关内部链接的更多信息，请参阅此处的详细课程模块。

5。升级托管

如果网站在共享托管平台上运行，则将与在上述平台上运行的其他网站共享爬网预算。大型出版商可能会发现独立托管是有价值的选择。

在升级托管以解决机器人流量过载之前，有一些值得考虑的因素可能会影响服务器负载。

使用单独的内容分布网络（CDN）处理图像，该网络也被优化，可托管下一个加内的图像格式，例如WebP。

考虑根据您的网站功能和要求托管CPU，磁盘空间。

使用新遗物等解决方案监视活动，以监视插件和机器人的过多使用。

有关CDN的优势的更多信息，请查看我们的页面体验模块。

6。明智地使用JavaScript

当 Googlebot 登陆某个网页时，它会呈现该页面上的所有资源，包括 Javascript。虽然抓取 HTML 相当简单，但 Googlebot 必须多次处理 Javascript，以便能够呈现它并理解其内容。

这会很快耗尽 Google 对网站的抓取预算。解决方案是在服务器端实现Javascript渲染。

如何做

在您的网站源代码中探讨JavaScript需要编码专业知识，如果您打算进行任何此类更改，我们建议您咨询Web开发人员。也就是说，这里有一些指南，以优化使用JavaScript的使用时要寻找什么。

避免将JavaScript资产发送给客户端以进行渲染，以便爬网机器人不消耗其资源并可以更有效地工作

使用浏览器级懒惰加载，而不是基于JavaScript。

使用服务器侧标记进行分析和第三方标记，无论是自托管还是使用stape.io之类的解决方案。

7。监控CWV

CWV是对页面性能的衡量标准，它直接影响您的页面在搜索排名中的表现。

GSC的CWV报告将URL性能分为三类：

公制类型（LCP、FID 和 CLS）

地位

URL组

CWV还会影响您的爬网预算。例如，由于Google的爬行任务时间有限，因此加载缓慢的页面可能会吞噬您的爬网预算。如果您的页面加载迅速，则Google可以在有限的时间内爬网。同样，过多的错误状态报告可能会减慢爬行并浪费您的爬网预算。

要对CWV进行更彻底的检查，请参阅我们的页面体验模块。

8.使用第三方爬虫

Semrush ， Sitechecker.pro或Screaming Frog等第三方横梁允许Web开发人员审核所有网站的URL并确定潜在的问题。

第三方爬虫可以用于识别：

损坏的链接

重复内容

缺少页面标题

这些程序提供抓取统计报告，以帮助突出显示 Google 自己的工具可能无法显示的问题。

改进结构化数据并减少卫生问题将简化 Googlebot 对网站的抓取和索引工作。

我们建议使用第三方爬网时采用以下最佳实践：

通过搜索抓取设置模拟 Googlebot，以防止被托管提供商阻止并正确识别和修复所有技术问题。

尖叫青蛙的精彩指南从爬网中丢失页面。

9。监视器参数

URL 参数 — 网址中“?”后面的部分— 出于多种原因在页面上使用，包括过滤、分页和搜索。

虽然这可以提升用户体验，但当基本 URL 和带有参数的 URL 返回相同的内容时，也可能会导致抓取问题。例如，“http://mysite.com”和“http://mysite.com?id=3”返回完全相同的页面。

参数允许网站拥有几乎无限数量的链接，例如用户可以在日历上选择日期、月份和年份。如果允许机器人抓取这些页面，则抓取预算将被不必要地用完。

如果您的网站使用刻面导航或会话标识符，这可能是一个问题，因为这些导航或会话标识符可以产生多个重复页面，如果爬行，可能会导致浪费爬网预算。

如果您使用不同语言的网页进行本地化版本，并且这些页面上的内容尚未翻译。

我们建议以下来解决以下内容：

使用robots.txt禁止Googlebot避免爬行重复页面。

使用<hreflang>标记以指定内容的语言变化。 Hreflang Tab告诉爬网程序，该页面是主要内容的区域变化，因此阻止了轨道将其注册为重复，以防其尚未翻译。

这是一个简单的<hreflang>在您的源代码中看起来像：

https://examplesite.com/news/hreflang-tags "/>

这告诉爬虫者，指定的URL是主要网址的西班牙（墨西哥）变体，不应将其视为重复。

2.6.5很高兴有

我们已经讨论了抓取预算管理的基本要素。本节中列出的指针虽然对健康的爬网预算管理并不重要，但在补充上讨论的技术方面大有帮助。

处理紧急情况

当Googlebot的网站上的爬网请求超过其处理能力时，就会发生紧急情况。重要的是要尽快确定问题，可以通过密切监视Google搜索控制台中的服务器日志和爬网统计来完成。

如果没有及时管理爬行的突然激增，则可能导致服务器放慢速度。服务器放缓将增加爬虫的平均响应时间，并且由于此较高的响应时间，搜索引擎将自动降低其爬网率。这是有问题的，因为降低的爬网率将导致可见度丧失，新文章不会立即爬行。

如果您注意到爬行的服务器对服务器征税，那么您可以做一些事情：

1。限制爬网率

Google具有控制爬网率的复杂算法。因此，理想情况下，一个人不应篡改爬网率。但是，在紧急情况下，您可以登录您的GSC帐户并导航到您物业的爬网费用设置。

如果您认为那里的爬网速率是最佳的，则无法手动更改它。需要向Google提出一个特殊的请求，以更改爬网率。

如果不是这种情况，您可以简单地将爬网速率更改为所需的价值。该值将保持90天的有效性。

如果您不希望在GSC中篡改爬网费率，也可以使用robots.txt通过GoogleBot阻止对该页面的访问。以前已经解释了这样做的程序。

2。检查网站的爬行率

最多需要三天的时间才能爬大多数网站。唯一的例外是新闻网站或其他网站发布时间敏感内容，这些内容可能每天爬行。

要检查您的页面被爬的频率，请监视您的网站日志。如果您仍然觉得自己的内容没有应有的频率，请执行以下步骤：

将更新的新闻站点地图提交给Google。新闻站点地图是专门从Google News创建的站点地图。

如果您对新闻站点地图进行了任何更改，请使用ping工具将其告知Google，这可以通过从您的命令行或浏览器发送到以下地址来完成此操作：

https://www.google.com/ping?sitemap=full_url_of_sitemap

使用<lastmod>在站点地图中标记以显示何时进行最后更新或修改的索引URL。

3。返回503或429错误代码

请注意：应该将此步骤视为任何人都应该采取的最后一项行动，因为它具有一定程度的风险。如果Googlebot看到503和429错误，那么它将开始爬行较慢并可能停止爬行，从而导致索引页面数量暂时下降。

503错误代码表示服务器暂时下降，而429表示用户在特定时间内发送了太多请求。这些代码使GoogleBot知道问题是暂时的，并且应该在以后返回到页面。

尽管看似较小的步骤，但这很重要，因为如果GoogleBot不知道网页正在遇到的问题的性质，则假定问题是长期的，并且可能会将页面标记为无响应性，这可能会影响SEO。

创建503错误代码是通过PHP文件完成的，PHP文件将在页面的现有HTML源代码中插入以及错误消息。您还需要编写一些额外的HTML代码行，以提及该网站何时返回。

这就是503重定向的代码：

来源

进行503或429的重定向需要高级HTML编码技能，我们建议您在尝试之前咨询您的网络开发人员。

2.6.6避免这些常见的陷阱

现在，我们对爬网预算是什么以及如何优化它有很好的了解。但是，知道在爬网预算方面不做什么也同样重要。

以下是一些常见的陷阱，以避免确保您充分利用网站的爬网预算：

试图在没有充分理由的情况下提高爬行率

Google爬网的频率由其算法确定，这些算法考虑了几个信号以达到最佳爬网频率。

提高爬网率并不一定会在搜索结果中提高更好的位置。爬行频率甚至爬行本身并不是排名的因素。

反复提交旧内容以爬行

Google不一定比旧内容更喜欢新鲜的内容。 Google根据内容的相关性和质量对内容进行排名，而不论其是旧的还是新的。因此，没有必要让他们爬行。

使用爬网号指令控制Googlebot

爬网指令无助于控制Googlebot。如果您希望响应压倒您网站的过度爬行而放慢爬行频率，请参阅上面提供的说明。

加载缓慢的网站

您的网站的加载速度可能会影响您的爬网预算。快速加载页面意味着Google可以通过相同数量的连接访问更多信息。

在页面体验上查看我们的。

仅使用nofollow链接来阻止爬虫

Nofollow链接可能仍然会影响您的爬网预算，因为这些链接可能仍会被爬行。另一方面，Robots.txt不允许的链接对爬网预算没有影响。

此外，替代URL和JavaScript内容可能最终会被爬走，消耗您的爬网预算，因此，通过删除它们或使用Robots.txt来限制对它们的访问权很重要。

2.6.7动作和外卖

爬网预算是一种宝贵的资源，对其进行优化至关重要。爬行和索引问题可能会影响您的内容的性能，尤其是如果您的网站有大量页面。

优化爬网预算涉及的两个最基本的操作是使您的站点地图更新，并定期监视GSC爬网统计报告和日志文件中的索引问题。

在推出新网站功能以及一次性错误时，学习如何应用爬网管理最佳实践非常重要。

上一个模块

返回章节

下一个模块

现在活跃

6

爬行速度和频率

1

2

3

4

5

7

8

9

10

爬行速度和频率

学习目标

测验摘要

信息

结果

结果

类别

1。问题

2。问题

3。问题

4。问题

5。问题

6。问题

7。问题

8。问题

9。问题

2.6.2 抓取预算如何分配给网站？

抓取限制

抓取需求

2.6.3 为什么发布商应该关心抓取预算？

2.6.4优化爬网

监视内容爬网

1。日志文件分析

2。GSC爬网统计报告

优化爬网预算

1。修复重复内容

2。使用robots.txt

3。段XML站点地图

4.实施有效的内部链接策略

5。升级托管

6。明智地使用JavaScript

7。监控CWV

8.使用第三方爬虫

9。监视器参数

2.6.5很高兴有

处理紧急情况

1。限制爬网率

2。检查网站的爬行率

3。返回503或429错误代码

2.6.6避免这些常见的陷阱

试图在没有充分理由的情况下提高爬行率

反复提交旧内容以爬行

使用爬网号指令控制Googlebot

加载缓慢的网站

仅使用nofollow链接来阻止爬虫

2.6.7动作和外卖