选举季出版商增长策略

了解更多

SODP

SODP Media

  • Education
    • Articles
      • Audience Development
      • Content Strategy
      • Digital Publishing
      • Monetization
      • SEO
      • Digital Platforms & Tools
    • Opinion
    • Podcast
    • Events
      • SODP Dinner Event London 2025
      • SODP Dinner Event Dubai 2025
      • SODP Dinner Event California 2025
      • All Events
  • Top Tools & Reviews
  • Research & Resources
  • Community
    • Slack Channel
    • Newsletter
  • About
    • About Us
    • Contact Us
    • Editorial Policy
  • English
sodp logo
SODP logo
    搜索
    关闭此搜索框。.
    登录
    • 教育
      • 播客
      • 文章
        • 受众拓展
        • 内容策略
        • 数字出版
        • 货币化
        • SEO
        • 数字平台和工具
        • 文章
        • 观点
        • 播客
        • 活动
        • 受众拓展
        • 内容策略
        • 数字出版
        • 货币化
        • SEO
        • 数字平台和工具
        • 查看全部
    • 热门工具及评测
        • 无头CMS平台
        • 数字出版平台
        • 编辑日历软件
        • 杂志应用
        • 电子邮件新闻通讯平台
        • 更多最佳工具列表
        • 评论
    • 研究与资源
    • 社区
      • Slack频道
      • 办公时间
      • 通讯
        • Slack频道
        • 通讯
    • 关于
      • 关于我们
      • 联系我们
      • 编辑政策
        • 关于我们
        • 联系我们
        • 编辑政策
    占位符
    SODP logo
    成为品牌合作伙伴

    首页>出版商 SEO 课程>第二章:技术 SEO >抓取速度和频率
    6

    爬行速度和频率

    爬行速度和频率
    上一模块
    返回章节
    下一模块

    学习目标

    学完本模块后,你应该了解什么是抓取预算,它是如何分配给网站的,以及如何针对它进行优化。.

    视频时长

    23:27

    回答测验

    参加当前模块测验

    材料

    即用型模板

    资源

    报告和资源

    时限: 0

    测验总结

    0 已完成9个问题

    问题:

    信息

    您之前已经完成过该测验,因此无法再次开始。.

    测验正在加载……

    您必须登录或注册才能开始测验。.

    您必须首先完成以下步骤:

    结果

    测验结束。结果正在记录中。.

    结果

    9道题中,0道题回答正确

    您的时间:

    时间已逝

    您已获得0分0分),( 0 )

    得分数: 0/0 ,( 0 ) 0
    篇论文待审(可能得分: 0 )

    类别

    1. 未分类 0%
    1. 1
    2. 2
    3. 3
    4. 4
    5. 5
    6. 6
    7. 7
    8. 8
    9. 9
    1. 当前的
    2. 审查
    3. 已回答
    4. 正确的
    5. 错误
    1. 问题1/9​​
      1。 问题

      什么是滚动预算?

      正确的
      错误
    2. 第 2题(共9
      2。 问题

      衡量谷歌想要重新抓取特定页面/网站的频率的指标称为____。.

      正确的
      错误
    3. 第 3题(共9
      3。 问题

      爬虫预算通常只对网站页面数量超过一定数量的出版商而言才需要考虑?

      正确的
      错误
    4. 第 4题(共9
      4。 问题

      在哪里可以找到爬虫统计数据?

      正确的
      错误
    5. 第 5题(共9
      5。 问题

      robots.txt 是什么?

      正确的
      错误
    6. 第 6题(共9
      6。 问题

      以下哪些措施可以降低您的爬虫预算?

      正确的
      错误
    7. 第 7题(共9
      7。 问题

      以下哪些任务是像 Semrush 或 Screaming Frog 这样的第三方爬虫无法执行的?

      正确的
      错误
    8. 第 8题(共9
      8。 问题

      以下哪项是什么意思?标签是否与爬虫通信?

      正确的
      错误
    9. 9题(共9
      9。 问题

      503错误代码是什么意思?

      正确的
      错误

    2.6.1 什么是爬行预算?

    抓取预算是指网络爬虫在给定时间范围内将抓取您网站上的页面数量。.

    每次点击发布按钮,谷歌都需要抓取并索引内容,才能使其出现在搜索结果中。鉴于互联网内容的规模和数量,抓取成为一项宝贵的资源,需要合理分配和优化,才能实现最有效的利用。.

    简而言之,谷歌很难每天抓取并索引互联网上的每一页。因此,谷歌会根据分配的预算抓取每个网站。.

    2.6.2 如何为网站分配抓取预算?

    网站的抓取预算是根据两个因素分配的——抓取限制和抓取需求。.

    爬行限制

    这是网站被抓取的能力和/或意愿。.

    并非所有网站都适合每天被抓取。抓取是指 Googlebot 向网站服务器发送请求,如果过于频繁,可能会给服务器造成压力。.

    此外,并非所有出版商都希望自己的网站被持续抓取。.

    爬行需求

    抓取需求衡量的是特定页面需要被抓取(重新)抓取的频率。热门页面或更新频繁的页面需要更频繁地被抓取和重新抓取。.

    2.6.3 为什么出版商应该关注爬虫预算?

    如果谷歌无法抓取和索引您的内容,那么这些内容就不会出现在搜索结果中。.

    也就是说,抓取预算通常只对网站页面超过 10,000 页的中大型出版商才是需要考虑的问题。小型出版商则无需过分担心抓取预算。.

    然而,对于网站页面数量达到或超过 10,000 页的发布商来说,他们需要避免 Googlebot 抓取那些不重要的页面。如果将抓取预算浪费在无关或不太重要的内容上,那么更有价值的页面可能就无法被抓取。.

    此外,新闻出版商需要谨慎对待抓取预算的浪费,因为抓取是谷歌新闻及时发现新鲜内容的三种方式之一。另外两种方式是使用站点地图和谷歌发布商中心,我们在“谷歌新闻站点地图”和“谷歌发布商中心”模块

    2.6.4 针对爬虫进行优化

    优化 Googlebot 抓取网站的频率和速度需要监控一系列变量。我们首先列出影响抓取预算和频率优化的最重要因素。.

    监控内容爬取

    监控内容抓取情况的两种最有效策略是分析日志文件和 Google Search Console (GSC) 的抓取统计报告。.

    1. 日志文件分析

    日志文件是一个文本文件,它记录了网站服务器上的所有活动。这包括所有关于抓取请求、页面请求、图像请求、JavaScript 文件请求以及运行网站所需的任何其他资源的数据。.

    就技术SEO而言,日志文件分析有助于确定许多有关URL抓取的有用信息,包括但不限于:

    • 已抓取哪些网址?.
    • 哪些网址被抓取的频率最高?.
    • 识别是否存在正在抓取低价值或非必要 URL 的情况,从而浪费抓取预算。.

    如何做到这一点

    日志文件分析需要对网站后端有一定的技术了解。因此,我们建议使用日志文件分析软件。目前有很多免费和付费的日志分析工具可供选择,例如Graylog 、 Loggly 、 Elastic Stack 、Screaming Frog Log Analyzer 和Nagios等等。

    如果您是一位经验丰富的开发人员或系统管理员,您也可以手动执行日志文件分析。.

    为此,请按照以下步骤操作:

    1. 登录您的主机提供商的 cPanel 控制面板。
    1. 导航至 Merics,然后选择 Raw Access
    1. 下载日志文件

    下载日志文件后,您可以将其扩展名更改为 .csv,然后使用 Microsoft Excel 或 Google Sheets 打开。但是,正如我们所说,这种方法需要一定的专业知识才能理解日志文件的内容。.

    您还可以通过 FTP 客户端访问日志文件,只需输入日志文件的路径即可。典型的日志文件路径如下所示:

    服务器名称(例如,Apache) /var/log/access.log

    不过,使用日志分析工具要方便得多。将日志文件上传到工具后,您可以使用多种筛选条件对数据进行排序。例如,您可以查看 Googlebot 访问频率最高的 URL。.

    您还可以查看 Googlebot 是否访问了非必要或低价值的网址,例如分面导航网址、重复网址等。识别这些网址非常重要,因为它们会浪费您的抓取预算。.

    请查看下方截图(取自 Screaming Frog 的 SEO 日志文件分析器),以了解我们的意思。.

    日志文件分析

    2. GSC 爬取统计报告

    Google Search Console 为网站所有者提供关于 Google 如何抓取其内容的全面数据和分析。这包括以下方面的详细报告:

    • 抓取了哪些文件/页面以及抓取目的是什么。.
    • 是哪种类型的 Googlebot(新闻、视频、移动等)执行了抓取操作?.
    • 抓取请求总数等。.

    GSC 还提供易于理解的图表,为网站所有者提供更多信息。以下截图展示了 GSC 上典型的抓取统计报告。.

    GSC 爬取统计报告

    来源

    GSC 还会告知您爬取过程中是否存在任何问题。它会检查多种错误,并为每个错误分配一个代码。GSC 检查的最常见错误包括:

    • 服务器错误 [5xx]
    • 重定向错误
    • 提交的 URL 已被 robots.txt 屏蔽。
    • 提交的网址已标记为“noindex”
    • 提交的 URL 似乎是软 404 错误。
    • 提交的 URL 返回 401
    • 提交的网址未找到(404)
    • 提交的 URL 返回 403
    • 提交的 URL 因其他 4xx 问题而被阻止。

    GSC 报告还会显示每个错误影响的页面数量以及验证状态。.

    如何做到这一点

    以下是如何访问您网站或网页的 Google Search Console (GSC) 抓取统计报告的方法:

    1. 要使用GSC,您需要注册。
    1. 接下来,您需要证明您拥有想要添加到 Google Search Console (GSC) 的网站。这可以通过添加 Google 所谓的“资源”来实现。资源是指需要在 GSC 中进行审核的任何内容,它可以是单个页面,也可以是整个网站。.
    1. 要验证网站所有权,请选择打开 GSC,导航至“物业选择器”,然后从物业选择器中单击“添加新物业”。.
    1. 然后您将看到一系列验证方法,您可以通过这些方法验证您对该网站/页面的所有权。.

    其中包括:

    • HTML 文件上传
    • HTML 标签
    • Google Analytics(分析)跟踪代码
    • Google Tag Manager
    • 域名提供商
    • Google Sites、Blogger 或域名帐户。.
    1. 选择您的验证方式。验证通过后,您的房源将显示在 Google Search Console (GSC) 上,您可以查看其抓取预算和活动等详细分析数据。.

    优化爬虫预算 

    我们现在知道,爬虫预算是一项宝贵的资源,必须对其进行优化利用才能获得最佳效果。以下是一些优化方法:

    1. 修复重复内容

    重复内容可能会被单独抓取,导致抓取预算浪费。为避免这种情况,请将网站上的重复页面合并为一个页面,或删除重复页面。.

    2. 使用 Robots.txt

    robots.txt 文件用途广泛,其中之一是告知 Googlebot 不要抓取某些页面或页面的特定部分。这是一种重要的策略,可以用来防止 Googlebot 抓取低价值内容或无需抓取的内容。.

    以下是使用 robots.txt 优化抓取预算的一些最佳实践:

    • 按优先顺序为需要阻止爬取的参数分配优先级。.
    • 使用日志文件指定导致额外爬取的机器人、指令和参数。.
    • 屏蔽内容管理系统 (CMS) 中常见的路径,例如 404 页面、管理员页面、登录页面等。.

    如何做到这一点

    创建并执行 robots.txt 文件以限制 Googlebot 访问需要一定的编程知识。以下是具体步骤:

    1. robots.txt 文件可以使用文本编辑器(例如记事本)创建。该文件必须命名为 robots.txt,以便 Googlebot 能够识别它。.
    1. 文件创建完成后,我们会向其中添加规则,也就是说,我们会指定一组指令,告诉该文件在特定条件下阻止对某些代理的访问。.

    一个典型的 robots.txt 文件将包含以下元素:

    • 要拒绝访问的用户代理,例如 Googlebot。
    • 禁止或允许访问,指定要限制用户代理访问的文件或目录。
    • 网站地图,用于告诉谷歌应该抓取哪些内容。.

    下面展示的是一个简单的 robots.txt 文件示例。.

    请使用 Robots.txt 文件

    来源 

    这段代码表示用户代理(在本例中为 Googlebot)不允许抓取任何以“ http://www.example.com/nogooglebot/ ”开头的网址。

    1. 文件创建并保存到本地计算机后,需要将其上传到您的网站。具体操作取决于您的服务器和主机提供商。您需要联系您的提供商以确定具体步骤。.

    如果您不熟悉如何创建和上传 robots.txt 文件,我们建议您寻求专家帮助。.

    3. 分段 XML 站点地图

    爬虫机器人到达网站时,会预先分配一个大致的页面抓取数量。XML 站点地图有效地引导机器人读取选定的 URL,确保有效利用分配的资源。.

    请注意,页面排名取决于多种因素,包括内容质量和内部/外部链接。建议仅在站点地图中包含顶级页面。图片可以单独创建 XML 站点地图。.

    请遵循以下建议,以确保 XML 站点地图的最佳实施:

    • 请参考 robots.txt 文件中的 XML 站点地图。.
    • 对于非常大的网站,请创建多个站点地图。单个 XML 站点地图中的 URL 数量不要超过 50,000 个。.
    • 保持内容简洁,只包含可索引的页面。.
    • 保持 XML 站点地图的更新。.
    • 文件大小请控制在50MB以下。.

    如需更详细地了解站点地图,请参阅我们关于此主题的专门模块。

    4.实施高效的内部链接策略

    内部链接具有三个重要功能:

    • 围绕主题组织内容,有助于建立主题权威性。.
    • 将高价值页面之间的页面权重分散到其他页面。.
    • 帮助用户和网络爬虫更轻松地浏览网站。.

    因此,为了实现高效的爬虫,实施高效的内部链接策略至关重要。有关内部链接的更多信息,请参阅我们详细的课程模块(点击此处)。

    5. 升级主机

    如果网站运行在共享主机平台上,抓取预算将与其他运行在该平台上的网站共享。对于大型出版商而言,独立主机可能是一个不错的选择。.

    在升级主机以解决机器人流量过载问题之前,有一些因素值得考虑,否则这些因素可能会影响服务器负载。.

    • 使用独立的 CDN 处理图像,该 CDN 也针对托管下一代图像格式(如 webp)进行了优化。.
    • 根据网站功能和需求,考虑主机CPU和磁盘空间。.
    • 使用 New Relic 等解决方案监控活动,以监控插件和机器人的过度使用情况。.

    想了解更多 CDN 的优势,请查看我们的页面体验模块。

    6. 谨慎使用 JavaScript

    当 Googlebot 访问网页时,它会渲染该页面上的所有资源,包括 JavaScript。虽然抓取 HTML 相对简单,但 Googlebot 必须多次处理 JavaScript 才能渲染并理解其内容。.

    这会迅速耗尽谷歌对网站的抓取预算。解决方案是在服务器端实现 JavaScript 渲染。.

    如何做到这一点

    在网站源代码中处理 JavaScript 需要一定的编程知识,如果您计划进行任何此类更改,我们建议您咨询网站开发人员。话虽如此,以下是一些关于如何优化 JavaScript 使用的一些指导原则。.

    • 避免向客户端发送 JavaScript 资源进行渲染,这样可以节省爬虫的资源,提高其工作效率。
    • 使用浏览器级别的懒加载,而不是基于 Javascript 的懒加载。.
    • 使用服务器端标签进行分析和第三方标签,可以是自托管的,也可以使用stape.io 等解决方案。

    7. 监测CWV

    CWV 是衡量页面性能的指标,它直接影响您的页面在搜索排名中的表现。.

    GSC 的 CWV 报告将 URL 性能分为三类:

    • 指标类型(LCP、FID 和 CLS)
    • 地位
    • URL 组

    内容访问量 (CWV) 也会影响您的抓取预算。例如,页面加载速度慢会消耗您的抓取预算,因为 Google 执行抓取任务的时间有限。如果您的页面加载速度快,Google 就能在有限的时间内抓取更多页面。同样,过多的错误状态报告也会减慢抓取速度并浪费您的抓取预算。.

    要更深入地了解 CWV,请参阅我们关于页面体验的模块。

    8. 使用第三方爬虫

    第三方爬虫工具(例如Semrush 、 Sitechecker.pro或Screaming Frog)允许网站开发人员审核网站的所有 URL 并识别潜在问题。

    第三方爬虫可用于识别:

    • 失效链接
    • 重复内容
    • 缺少页面标题

    这些程序提供抓取统计报告,以帮助突出显示谷歌自身工具可能无法发现的问题。.

    改进结构化数据并减少卫生问题将简化 Googlebot 抓取和索引网站的工作。.

    我们建议在使用第三方爬虫时遵循以下最佳实践:

    • 通过搜索抓取设置模拟 Googlebot,以防止被主机提供商屏蔽,并正确识别和修复所有技术问题。.
    • Screaming Frog提供的这篇优秀指南来调试爬取过程中缺失的页面。

    9. 监控 URL 参数

    URL 参数(即网址中“?”后面的部分)在网页上用于各种用途,包括筛选、分页和搜索。.

    虽然这可以提升用户体验,但当基本 URL 和带参数的 URL 返回相同的内容时,也可能导致抓取问题。例如,“http://mysite.com” 和 “http://mysite.com?id=3” 返回完全相同的页面。.

    参数设置允许网站拥有近乎无限数量的链接——例如,用户可以在日历上选择日期、月份和年份。如果允许机器人抓取这些页面,抓取预算就会被不必要地消耗掉。.

    如果您的网站使用分面导航或会话标识符,可能会生成多个重复页面,如果抓取这些页面,则可能会浪费抓取预算,因此这可能是一个需要关注的问题。.

    如果您有不同语言的网页本地化版本,但这些页面上的内容尚未翻译,则也会出现重复的 URL。.

    我们建议采取以下措施来解决这个问题:

    • 使用 robots.txt 文件禁止 Googlebot 抓取重复页面。.
    • 使用<hreflang>标签用于指定内容的语言变体。hreflang 标签会告诉爬虫程序,该页面是主内容的区域变体,从而防止爬虫程序将其识别为重复页面(如果该页面尚未翻译)。.

    以下是一个简单的<hreflang>看起来像是在你的源代码中:

    https://examplesite.com/news/hreflang-tags”/ >

    这告诉爬虫程序,指定的 URL 是主 URL 的西班牙语(墨西哥)变体,不应将其视为重复项。.

    2.6.5 锦上添花

    我们已经讨论了爬虫预算管理的基本要素。本节列出的要点虽然并非健康爬虫预算管理的必要条件,但能极大地补充之前讨论的技术。.

    处理爬行紧急情况

    当 Googlebot 向您的网站发送的抓取请求过多,超出其处理能力时,就会发生抓取紧急情况。尽快找出问题所在至关重要,这可以通过密切监控服务器日志和 Google Search Console 中的抓取统计信息来实现。.

    如果抓取请求的突然激增不能及时处理,可能会导致服务器速度变慢。服务器速度变慢会增加爬虫的平均响应时间,而响应时间过长会导致搜索引擎自动降低抓取频率。这会造成问题,因为抓取频率降低会导致新文章无法立即被抓取,从而降低文章的可见度。.

    如果您发现过度抓取导致服务器负担过重,可以尝试以下几种方法:

    1. 限制爬行速度

    谷歌拥有复杂的算法来控制抓取频率。因此,理想情况下,用户不应随意更改抓取频率。但是,在紧急情况下,您可以登录 Google Search Console (GSC) 帐户,并导航至您媒体资源的“抓取频率设置”。.

    如果抓取频率显示为“已计算为最佳”,则无法手动更改。需要向 Google 提交特殊请求才能更改抓取频率。.

    如果不是这种情况,您可以自行将抓取频率更改为所需值。此值将保持有效 90 天。.

    如果您不想修改 Google Search Console 中的抓取频率,您也可以使用 robots.txt 文件阻止 Googlebot 访问该页面。具体操作步骤已在之前说明过。.

    2. 检查网站的抓取率

    谷歌抓取大多数网站最多可能需要三天时间。唯一的例外是新闻网站或其他发布时效性内容的网站,这些网站可能每天都会被抓取。.

    要查看网页的抓取频率,请监控您的网站日志。如果您仍然觉得网页的抓取频率不够高,请按照以下步骤操作:

    • 请将更新后的新闻站点地图提交给 Google。新闻站点地图是专门根据 Google 新闻创建的站点地图。.
    • 如果您对新闻站点地图进行了任何更改,请使用 ping 工具通知 Google。您可以通过命令行或浏览器向以下地址发送 GET 请求来完成此操作:

    https://www.google.com/ping?sitemap=FULL_URL_OF_SITEMAP

    • 使用<lastmod>在站点地图中添加标签,以显示已索引 URL 的最后更新或修改时间。.

    3. 返回 503 或 429 错误代码

    请注意:此步骤应被视为最后的操作,因为它存在一定的风险。如果 Googlebot 检测到 503 和 429 错误,其抓取速度将会减慢,甚至可能停止抓取,导致索引页面数量暂时下降。

    503 错误代码表示服务器暂时宕机,而 429 错误代码表示用户在特定时间内发送的请求过多。这些代码会告知 Googlebot 问题是暂时的,稍后会再次尝试抓取页面。.

    虽然这看似微不足道的一步,但却很重要,因为如果 Googlebot 不知道网页遇到的问题的性质,它就会假定问题是长期存在的,并可能将网页标记为无响应,这会影响 SEO。.

    创建 503 错误代码需要通过一个 PHP 文件,该文件连同错误信息一起插入到页面现有的 HTML 源代码中。您还需要编写几行额外的 HTML 代码,说明网站预计何时恢复正常。.

    这是 503 重定向的代码示例:

    返回 503 或 429 错误代码

    来源

    进行 503 或 429 重定向需要高级 HTML 编码技能,我们建议您在尝试此操作之前咨询您的网站开发人员。.

    2.6.6 避免这些常见陷阱

    我们现在已经很好地理解了爬取预算的概念以及如何优化它。然而,了解在爬取预算方面哪些事情不应该做同样重要。.

    以下是一些常见的陷阱,应避免这些陷阱,以确保您充分利用网站的抓取预算:

    无正当理由地试图提高爬行速度

    Google 抓取您网站的频率由其算法决定,该算法会考虑多个信号以得出最佳抓取频率。.

    提高抓取频率并不一定能提升搜索排名。抓取频率甚至抓取本身都不是排名因素。.

    重复提交旧内容进行抓取 

    谷歌并非一定偏爱新内容而非旧内容。谷歌会根据内容的关联性和质量对页面进行排名,而与内容的新旧无关。因此,没有必要持续抓取旧内容。.

    使用 Crawl-Delay 指令控制 Googlebot

    延迟抓取指令无法控制 Googlebot。如果您希望降低抓取频率以应对网站抓取过多导致的访问量过大问题,请参考上文提供的说明。.

    网站加载速度慢

    网站加载速度会影响抓取预算。页面加载速度快意味着谷歌可以在相同连接数下获取更多信息。.

    有关优化加载速度的技巧,请查看我们的页面体验模块。

    仅使用 nofollow 链接来阻止爬虫

    即使链接被标记为 nofollow,仍然可能会影响您的抓取预算,因为这些链接最终仍有可能被抓取。另一方面,robots.txt 文件中禁止的链接则不会影响抓取预算。.

    此外,备用 URL 和 Javascript 内容最终可能会被抓取,从而消耗您的抓取预算,因此必须通过删除它们或使用 robots.txt 来限制对它们的访问。.

    2.6.7 行动与要点

    抓取预算是一项宝贵的资源,对其进行优化至关重要。抓取和索引问题会影响内容的性能,尤其是在网站页面数量庞大的情况下。.

    优化抓取预算涉及的两个最基本操作是保持站点地图更新,并定期从 GSC 抓取统计报告和日志文件中监控索引问题。.

    学习如何应用爬虫管理最佳实践非常重要,无论是在推出新的网站功能期间,还是在发生一次性错误时。.

    上一模块
    返回章节
    下一模块

    现在生效

    6

    爬行速度和频率

    查看更多

    1

    设计与布局

    2

    网站架构

    3

    页面体验

    4

    新闻网站地图

    5

    模式

    7

    指向赞助内容和用户生成内容的链接

    8

    Google 发布商中心

    9

    必应新闻 PubHub

    10

    广告、弹窗和最佳实践

    SODP logo

    《数字出版现状》是为数字媒体和出版专业人士,以及新媒体和技术领域,创建一个新的出版物和社区。.

    • 热门工具
    • 出版商的SEO
    • 隐私政策
    • 编辑政策
    • 网站地图
    • 按公司搜索
    Facebook X-twitter 松弛 领英

    数字出版现状 – 版权所有 2026