谷歌抓取预算：出版商指南

致力于在谷歌搜索结果中名列前茅的出版商早已深谙搜索引擎优化 (SEO) 的重要性。然而，对于规模较大的出版商而言，SEO 中一个重要且可能被忽视的方面是谷歌抓取预算。.

Google 的抓取预算有助于决定文章在搜索结果中的显示程度。.

了解抓取预算是确保实现 SEO 目标和内容被浏览的关键步骤。检查网站的技术后端是否健康，意味着前端更有可能反映出同样的良好状态。.

在本文中，我们将解释什么是抓取预算、什么会影响预算、抓取预算优化、如何检查和跟踪抓取预算，以及为什么这些预算对任何在线网站的健康都如此重要。.

什么是爬网预算？

抓取预算是指谷歌分配给查找和索引新旧网页的资源。.

谷歌的爬虫机器人——Googlebot——会抓取网站内容，以更新和扩展这家搜索巨头的网页数据库。它利用内部和外部链接、XML 站点地图、RSS 和 Atom 源，以及 robots.txt 文件，尽可能快速地抓取和索引网站。.

随着时间的推移，某些页面会获得更高的权威性，而其他页面则可能由于内容相关或技术限制等多种原因而被完全忽略。.

对于任何希望在搜索引擎结果页面 (SERP) 上取得成功的发布商或组织网站而言，了解如何最大限度地利用抓取预算至关重要。.

Googlebot 的局限性

Googlebot 的资源并非取之不尽用之不竭，谷歌也无法承担抓取无限多的网络服务器的成本。因此，该公司^已向提供指导，帮助他们最大限度地利用自身的抓取预算。

了解机器人如何开展活动是基础。.

如果爬虫机器人访问某个网站后发现分析和分类该网站会遇到问题，它会减慢速度或完全转向另一个网站，具体取决于遇到的问题的程度和类型。.

出现这种情况时，就清楚地表明该网站缺乏抓取预算优化。.

任何网站所有者都应该意识到 Googlebot 的资源有限，并因此重视抓取预算。然而，并非所有网站都面临同等程度的这个问题。.

谁应该关心？为什么？

虽然每个网站所有者都希望自己的网站获得成功，但只有经常更新内容的中型和大型网站才真正需要担心抓取预算。.

谷歌将拥有超过1万个独立页面且每日更新的网站定义为中型网站。而大型网站则拥有超过100万个独立页面，且至少每周更新一次。.

谷歌指出抓取活动与网站规模之间的关系，并表示：“对于规模较大的网站，或者例如那些根据URL参数自动生成页面的网站来说，优先抓取哪些内容、何时抓取以及网站服务器可以分配给抓取的资源量就显得更为重要。” ^²

页面数量有限的网站无需过分担心抓取预算。然而，考虑到一些发布商可能会迅速扩张，掌握抓取统计数据和操作的基础知识将使所有网站所有者更好地从未来的网站流量增长中获益。.

哪些因素会影响谷歌的抓取预算？

Google 对网站的抓取程度取决于抓取能力限制和抓取需求。.

为了防止爬虫活动使主机服务器不堪重负，容量限制是通过确定机器人可用于爬取网站的最大并发并行连接数以及数据返回之间的延迟时间来计算的。.

爬行能力限制

该指标（也称为爬取速率限制）是动态变化的，与以下三个因素的变化有关：

爬虫健康状况：如果网站响应无误或无延迟，且网站速度良好，则限制可以提高，反之亦然。
GSC 抓取频率 ^Search Console (GSC) 可用于减少抓取活动，此功能在网站长时间维护或更新期间非常有用。3^所有更改将保留 90 天。4

如果抓取速率限制显示为“已计算为最佳值”，则无法提高此限制，降低限制只能通过特殊请求实现。如果网站被过度抓取，导致网站可用性下降和/或页面加载问题，请使用 robots.txt 文件阻止抓取和索引。但是，此选项可能需要 24 小时才能生效。.

虽然许多网站不会实施抓取限制处罚，但这仍然是一个有用的工具。.

爬行需求

抓取需求反映了谷歌对索引某个网站的兴趣程度。它也受以下三个因素影响：

感知库存：如果没有网站所有者的指导（我们稍后会详细介绍），Google 会尝试抓取每个 URL，包括重复的 URL、失效的链接和不太重要的页面。这时，缩小 Googlebot 的搜索参数可以增加抓取预算。
受欢迎程度：如果一个网站非常受欢迎，那么它的网址就会被更频繁地抓取。
更新不及时：通常情况下，Googlebot 系统会定期重新抓取页面以检测任何更改。虽然可以通过使用 Google Search Console (GSC) 请求重新抓取来加快这一过程，但并不能保证请求会立即得到响应。

从本质上讲，爬虫活动是良好网站管理的结果。.

CMS关注的问题

State of Digital Publishing (SODP)的创始人Vahe Arabian表示，内容管理系统 (CMS) 的某些元素（例如插件）会影响抓取预算^。5

他说：“许多插件都是数据库驱动的，会导致资源负载增加，从而减慢页面加载速度或创建不必要的页面，并影响网站的抓取能力。”

如果网站的多个功能都非常消耗资源，那么以广告为驱动的收入模式也会产生类似的问题。.

如何检查和跟踪爬虫预算

追踪抓取预算主要有两种方法： Google Search Console (GSC) 和/或服务器日志^。6

Google 搜索控制台

在 Google Search Console (GSC) 上查看网站的抓取率之前，必须先验证域名所有权。.

该控制台有三个工具，用于检查网站页面，并确认哪些 URL 可以正常工作，哪些 URL 尚未被索引。.

控制台会检查域名是否准确，并提供有关如何解决各种爬取错误的建议。.

GSC在其指数覆盖率报告中将状态错误分为若干类别，包括：

服务器错误 [5xx]
重定向错误
提交的 URL 已被 robots.txt 屏蔽。
提交的网址已标记为“noindex”
提交的 URL 似乎是软 404 错误。
提交的 URL 返回未授权请求 (401)
提交的网址未找到（404）
提交的 URL 返回 403：
提交的 URL 因其他 4xx 问题而被阻止。

该报告除了显示验证状态外，还显示了每个错误影响的页面数量。.

URL 检查工具提供任何特定页面的索引信息，而抓取统计报告可用于了解 Google 抓取网站的频率、网站服务器的响应速度以及任何相关的可用性问题。.

识别和纠正每个错误都有固定的方法，这些方法包括识别网站服务器在抓取时可能已关闭或不可用，使用 301 重定向到另一个页面，或从站点地图中删除页面。.

如果页面内容发生了重大变化，可以使用 URL 检查工具的“请求索引”按钮来启动页面抓取。.

虽然可能没有必要“修复”每个页面错误，但尽量减少会减慢爬虫速度的问题绝对是最佳实践。.

使用服务器日志

除了使用 Google Search Console (GSC) 之外，还可以通过服务器日志来检查网站的抓取健康状况，服务器日志不仅记录每次网站访问，还记录每次 Googlebot 访问。.

对于不了解的人来说，服务器会在 Googlebot 或用户请求页面加载时自动创建并存储一条日志条目。这些日志条目随后会被收集到日志文件中。.

一旦访问了日志文件，就需要对其进行分析。然而，鉴于日志条目的数量庞大，这项工作绝不能掉以轻心。根据网站规模的大小，一个日志文件很容易包含数亿甚至数十亿条条目。.

如果决定分析日志文件，则需要将数据导出到电子表格或专有软件中，以便更轻松地进行分析。.

对这些记录的分析将显示机器人遇到的错误类型、访问次数最多的页面以及网站的抓取频率。.

优化爬虫预算的 9 种方法

如上所述，优化包括检查和跟踪网站健康统计数据，然后直接解决问题领域。.

下面我们列出了我们的爬取预算优化工具包，我们用它来解决出现的爬取问题。.

1. 合并重复内容

当同一个页面可以通过多个不同的URL访问，或者包含网站其他位置已重复出现的内容时，就可能出现抓取问题。搜索引擎机器人会将这些情况视为重复项，并简单地选择其中一个作为规范版本。.

其余网址将被视为次要，抓取频率会降低，甚至可能完全不抓取 ^<sup>10 </sup> 如果谷歌选择了所需的规范页面，这无妨；但如果谷歌没有选择，则会造成严重问题。

也就是说，存在重复页面可能也有合理的理由，例如希望支持多种设备类型、启用内容联合发布或使用动态 URL 作为搜索参数或会话 ID。.

SODP的建议：

尽可能精简网站内容
- 使用 301 重定向来合并 URL 和内容
- 删除低效内容
在网站结构调整后使用 301 重定向，可以将用户、机器人和其他爬虫程序引导到它们需要去的地方。.
对于内容较少的页面、分页（用于较旧的存档）以及内容拆分，请使用 noindex。.
如果重复内容导致过度抓取，请在 Google Search Console (GSC) 中调整抓取频率设置。.

2. 使用 robots.txt 文件

此文件有助于防止机器人抓取整个网站。使用此文件可以排除特定页面或页面部分。.

此选项允许发布商控制索引的内容，在保持某些内容私密性的同时，还能改善抓取预算的使用方式。.

SODP的建议：

对参数的优先级进行排序，以便优先阻止爬取参数。.
使用日志文件指定导致额外爬取的机器人、指令和参数。.
屏蔽内容管理系统 (CMS) 中常见的路径，例如 404 页面、管理员页面、登录页面等。.
避免使用 crawl-delay 指令来减少机器人流量以提升服务器性能。这只会影响新内容的索引。.

3. 对 XML 站点地图进行分段，以确保更快地获取内容

爬虫机器人到达网站时，会预先分配一个大致的页面抓取数量。XML 站点地图有效地引导机器人读取选定的 URL，确保有效利用分配的资源。.

请注意，页面排名取决于多种因素，包括内容质量和内部/外部链接。建议仅在站点地图中包含顶级页面。图片可以单独创建 XML 站点地图。.

SODP的建议：

请参考 robots.txt 文件中的 XML 站点地图。.
对于非常大的网站，请创建多个站点地图。单个 XML 站点地图中的 URL 数量不要超过 50,000 个。.
保持内容简洁，只包含可索引的页面。.
保持 XML 站点地图的更新。.
文件大小请控制在50MB以下。.

4. 审视内部链接策略

Google 会跟踪网站内的链接网络，任何拥有多个链接的页面都会被视为高价值内容，值得投入抓取预算。.

但是值得注意的是，虽然有限数量的内部链接可能会影响抓取预算，但在整个网站上散布链接也会造成同样的问题。.

没有内部链接的页面无法从网站的其他部分获得链接权重，这促使谷歌认为它们的价值较低。.

同时，包含大量内部链接的高价值页面最终会将其链接权重平均分配给其他页面，而忽略了这些页面本身的战略价值。因此，应避免链接到对读者价值甚微的页面。.

内部链接策略需要巧妙运用，以确保高价值页面获得足够的链接，同时避免低价值页面蚕食链接价值。.

5. 如果并发流量成为瓶颈，请升级主机

如果网站运行在共享主机平台上，抓取预算将与其他运行在该平台上的网站共享。对于大型公司而言，独立主机可能是一个不错的选择。.

升级主机时，甚至在升级之前，还需要考虑其他一些因素，例如解决可能影响服务器负载的机器人流量过载问题：

使用独立的 CDN 处理图像，该 CDN 也针对托管下一代图像格式（例如 webp）进行了优化。
根据网站功能和需求考虑主机CPU和磁盘空间。
使用 New Relic 等解决方案监控活动，以监控插件和机器人的过度使用情况。

6. 平衡 JavaScript 使用

当 Googlebot 访问网页时，它会渲染该页面上的所有资源，包括 JavaScript。虽然抓取 HTML 相对简单，但 Googlebot 必须多次处理 JavaScript 才能渲染并理解其内容。.

这会迅速耗尽谷歌对网站的抓取预算。解决方案是在服务器端实现 JavaScript 渲染。.

通过避免向客户端发送用于渲染的，爬虫机器人不会消耗资源，从而可以更高效地工作^。11

SODP的建议：

使用浏览器级别的懒加载，而不是基于 JavaScript 的懒加载。
确定元素
^支持第三方标签，既可以自行托管，也可以使用诸如https://stape.io/。12

7. 更新核心网页指标 (CWV) 以改善页面体验

Google 搜索控制台 (GSC) 的核心网页指标 (CWV) 使用这家搜索巨头所谓的“真实世界使用数据”来显示页面性能^。13

CWV报告将URL性能分为三类：

指标类型（LCP、FID 和 CLS）
地位
URL 组

指标

CWV 报告基于最大内容绘制(LCP)、^首次^输入延迟(FID)和累积布局偏移(CLS)^指标。

LCP 指的是渲染网页可见区域内最大内容元素所需的时间。.

FID 指的是页面响应用户交互所需的时间。.

CLS 衡量的是用户会话期间页面布局的偏移量，分数越高表示用户体验越差。.

地位

页面评估完成后，每个指标都会被赋予以下三个等级之一：

好的
需要改进
贫穷的

URL 组

该报告还可以将问题分配给一组相似的 URL，假设影响相似页面的性能问题可以归因于共同的问题。.

CWV 和爬行能力

如前所述，Googlebot 在页面上停留的时间越长，其抓取预算的浪费就越多。因此，发布商可以利用 CWV 报告来优化页面效率并缩短抓取时间。.

SODP的建议，重点关注WordPress：

提升速度的要点	通过以下方式实现	验证
将图像转换为 WebP 格式	如果启用了 CDN，则通过 CDN 端进行转换，或者安装 EWWW 插件。	https://www.cdnplanet.com/tools/cdnfinder/
实施 SRCSET 并检查https://pagespeed.web.dev/是否解决了图片尺寸不正确的问题。	通过手动添加代码来实现	检查浏览器代码，确认所有图像是否都包含 SRCSET 代码。
启用浏览器缓存	WP火箭	https://www.giftofspeed.com/cache-checker/
图片延迟加载	WP火箭	请检查浏览器控制台，确认是否已将懒加载代码添加到图片中（特色图片除外）。.
延迟执行外部脚本：仅执行以下脚本：<body>可以推迟	WP Rocket 或更快的网站！（又名 defer.js）插件	添加 defer 标签后，请在 https://pagespeed.web.dev/“减少未使用的 JavaScript”问题是否已解决。
识别并删除未使用的 JS 和 CSS 文件	手动
启用 Gzip 压缩	服务器端，请联系主机提供商	https://www.giftofspeed.com/gzip-test/
压缩 JS 和 CSS	WP火箭	https://pagespeed.web.dev/
本地加载字体或预加载网络字体	OMG字体插件，或者将字体文件上传到服务器并通过代码将其添加到头部。
启用 CDN	使用 Cloudflare（或其他任何 CDN 服务）并为网站进行配置

8. 使用第三方爬虫

第三方爬虫工具，例如 Semrush、Sitechecker.pro 或 Screaming Frog，可以让网站开发人员审核网站上的所有 URL，并识别潜在问题。.

爬虫可用于识别：

失效链接
重复内容
缺少页面标题

这些程序提供抓取统计报告，以帮助突出显示谷歌自身工具可能无法发现的问题。.

改进结构化数据并减少卫生问题将简化 Googlebot 抓取和索引网站的工作。.

SODP的建议：

使用 SQL 查询对错误进行批量更新，而不是手动修复每个问题。.
通过搜索抓取设置模拟 Googlebot，以防止被主机提供商屏蔽，并正确识别和修复所有技术问题。.
Screaming Frog^，调试爬取过程中缺失的页面。17

9. URL 参数

URL 参数（即网址中“？”后面的部分）在网页上用于各种用途，包括筛选、分页和搜索。.

虽然这可以提升用户体验，但当基本 URL 和带参数的 URL 返回相同的内容时，也可能导致抓取问题。例如，“http://mysite.com” 和 “http://mysite.com?id=3” 返回完全相同的页面。.

参数设置允许网站拥有近乎无限数量的链接——例如，用户可以在日历上选择日期、月份和年份。如果允许机器人抓取这些页面，抓取预算就会被不必要地消耗掉。.

SODP的建议：

使用 robots.txt 规则。例如，在 allow 指令中指定参数顺序。.
使用 hreflang 指定内容的语言变体。.

关于谷歌机器人的神话与事实汇总

关于 Googlebot 的功能和范围，存在一些误解。.

以下是我们探讨过的五种：

1. Googlebot 间歇性地抓取网站

Googlebot 实际上会相当频繁地抓取网站，在某些情况下甚至每天都会抓取。但是，抓取频率取决于网站的质量、新颖性、相关性和受欢迎程度。.

如上所述，可以使用 Google Search Console (GSC) 请求抓取。.

2. Googlebot 决定网站排名

虽然过去这种说法是正确的，但谷歌网站管理员趋势分析师马丁·斯普利特 (Martin Splitt) 称^。18

但是，同样重要的是要记住，网站的内容、站点地图、页面数量、链接、URL 等都是决定其排名的因素。.

从本质上讲，出版商精明的 SEO 选择可以帮助他们在搜索引擎结果页面 (SERP) 中获得稳固的排名。.

3. Googlebot 入侵网站的私密区域

该机器人没有“私有内容”的概念，其任务只是索引网站，除非网站所有者另有指示。.

只要在 GSC 中采取必要的步骤来限制访问，某些网页就可以保持不被索引的状态。.

4. Googlebot 活动可能会影响网站的正常运行

Googlebot 过程存在局限性，这既是因为 Google 的资源有限，也是因为 Google 不想干扰网站。.

斯普利特说：“我们先缓慢推进，然后逐渐加快速度。一旦出现错误，我们就稍微放慢速度。”¹⁵

GSC 可能会延迟抓取，考虑到有些网站可能有几十万个页面，Googlebot 会将其抓取过程分成多次访问。.

5. Googlebot 是唯一值得关注的机器人

虽然Googlebot是全球领先的网络爬虫，但并非所有爬虫都属于谷歌。其他搜索引擎也会抓取网络，同时，专注于分析、数据和品牌安全的爬虫也十分活跃。.

与此同时，不法分子正在设计越来越复杂的软件，用于进行广告欺诈、窃取内容、发布垃圾邮件等等^。19

最后想说的话

需要注意的是，爬虫预算优化和良好的用户体验可以兼顾，而不会相互影响。

检查网站的抓取预算健康状况应该是所有网站所有者维护计划的一部分，这些检查的频率取决于网站本身的大小和性质。.

技术维护工作（例如修复失效链接、无法访问的页面、重复内容、措辞不当的 URL 以及过时且错误百出的站点地图）也至关重要。

SODP

Google 抓取预算：出版商指南

创建者

事实核查

编辑

目录

订阅人工智能洞察

作者： Vahe Arabian

什么是爬网预算？

Googlebot 的局限性

谁应该关心？为什么？

哪些因素会影响谷歌的抓取预算？

爬行能力限制

爬行需求

CMS关注的问题

如何检查和跟踪爬虫预算

Google 搜索控制台

使用服务器日志

优化爬虫预算的 9 种方法

1. 合并重复内容

2. 使用 robots.txt 文件

3. 对 XML 站点地图进行分段，以确保更快地获取内容

4. 审视内部链接策略

5. 如果并发流量成为瓶颈，请升级主机

6. 平衡 JavaScript 使用

7. 更新核心网页指标 (CWV) 以改善页面体验

指标

地位

URL 组

CWV 和爬行能力

8. 使用第三方爬虫

9. URL 参数

关于谷歌机器人的神话与事实汇总

1. Googlebot 间歇性地抓取网站

2. Googlebot 决定网站排名

3. Googlebot 入侵网站的私密区域

4. Googlebot 活动可能会影响网站的正常运行

5. Googlebot 是唯一值得关注的机器人

最后想说的话

相关文章

实用链接

专题文章