6
选举季出版商增长策略
视频时长
23:27
回答测验
参加当前模块测验
材料
即用型模板
资源
报告和资源
0 已完成9个问题
问题:
您之前已经完成过该测验,因此无法再次开始。.
测验正在加载……
您必须登录或注册才能开始测验。.
您必须首先完成以下步骤:
9道题中,0道题回答正确
您的时间:
时间已逝
您已获得0分0分),( 0 )
得分数: 0/0 ,( 0 ) 0
篇论文待审(可能得分: 0 )
什么是滚动预算?
衡量谷歌想要重新抓取特定页面/网站的频率的指标称为____。.
爬虫预算通常只对网站页面数量超过一定数量的出版商而言才需要考虑?
在哪里可以找到爬虫统计数据?
robots.txt 是什么?
以下哪些措施可以降低您的爬虫预算?
以下哪些任务是像 Semrush 或 Screaming Frog 这样的第三方爬虫无法执行的?
以下哪项是什么意思?
503错误代码是什么意思?
2.6.1 什么是爬行预算?
抓取预算是指网络爬虫在给定时间范围内将抓取您网站上的页面数量。.
每次点击发布按钮,谷歌都需要抓取并索引内容,才能使其出现在搜索结果中。鉴于互联网内容的规模和数量,抓取成为一项宝贵的资源,需要合理分配和优化,才能实现最有效的利用。.
简而言之,谷歌很难每天抓取并索引互联网上的每一页。因此,谷歌会根据分配的预算抓取每个网站。.
网站的抓取预算是根据两个因素分配的——抓取限制和抓取需求。.
这是网站被抓取的能力和/或意愿。.
并非所有网站都适合每天被抓取。抓取是指 Googlebot 向网站服务器发送请求,如果过于频繁,可能会给服务器造成压力。.
此外,并非所有出版商都希望自己的网站被持续抓取。.
抓取需求衡量的是特定页面需要被抓取(重新)抓取的频率。热门页面或更新频繁的页面需要更频繁地被抓取和重新抓取。.
如果谷歌无法抓取和索引您的内容,那么这些内容就不会出现在搜索结果中。.
也就是说,抓取预算通常只对网站页面超过 10,000 页的中大型出版商才是需要考虑的问题。小型出版商则无需过分担心抓取预算。.
然而,对于网站页面数量达到或超过 10,000 页的发布商来说,他们需要避免 Googlebot 抓取那些不重要的页面。如果将抓取预算浪费在无关或不太重要的内容上,那么更有价值的页面可能就无法被抓取。.
此外,新闻出版商需要谨慎对待抓取预算的浪费,因为抓取是谷歌新闻及时发现新鲜内容的三种方式之一。另外两种方式是使用站点地图和谷歌发布商中心,我们在“谷歌新闻站点地图”和“谷歌发布商中心”模块
优化 Googlebot 抓取网站的频率和速度需要监控一系列变量。我们首先列出影响抓取预算和频率优化的最重要因素。.
监控内容抓取情况的两种最有效策略是分析日志文件和 Google Search Console (GSC) 的抓取统计报告。.
日志文件是一个文本文件,它记录了网站服务器上的所有活动。这包括所有关于抓取请求、页面请求、图像请求、JavaScript 文件请求以及运行网站所需的任何其他资源的数据。.
就技术SEO而言,日志文件分析有助于确定许多有关URL抓取的有用信息,包括但不限于:
如何做到这一点
日志文件分析需要对网站后端有一定的技术了解。因此,我们建议使用日志文件分析软件。目前有很多免费和付费的日志分析工具可供选择,例如Graylog 、 Loggly 、 Elastic Stack 、Screaming Frog Log Analyzer 和Nagios等等。
如果您是一位经验丰富的开发人员或系统管理员,您也可以手动执行日志文件分析。.
为此,请按照以下步骤操作:
下载日志文件后,您可以将其扩展名更改为 .csv,然后使用 Microsoft Excel 或 Google Sheets 打开。但是,正如我们所说,这种方法需要一定的专业知识才能理解日志文件的内容。.
您还可以通过 FTP 客户端访问日志文件,只需输入日志文件的路径即可。典型的日志文件路径如下所示:
服务器名称(例如,Apache) /var/log/access.log
不过,使用日志分析工具要方便得多。将日志文件上传到工具后,您可以使用多种筛选条件对数据进行排序。例如,您可以查看 Googlebot 访问频率最高的 URL。.
您还可以查看 Googlebot 是否访问了非必要或低价值的网址,例如分面导航网址、重复网址等。识别这些网址非常重要,因为它们会浪费您的抓取预算。.
请查看下方截图(取自 Screaming Frog 的 SEO 日志文件分析器),以了解我们的意思。.
Google Search Console 为网站所有者提供关于 Google 如何抓取其内容的全面数据和分析。这包括以下方面的详细报告:
GSC 还提供易于理解的图表,为网站所有者提供更多信息。以下截图展示了 GSC 上典型的抓取统计报告。.
GSC 还会告知您爬取过程中是否存在任何问题。它会检查多种错误,并为每个错误分配一个代码。GSC 检查的最常见错误包括:
GSC 报告还会显示每个错误影响的页面数量以及验证状态。.
如何做到这一点
以下是如何访问您网站或网页的 Google Search Console (GSC) 抓取统计报告的方法:
其中包括:
我们现在知道,爬虫预算是一项宝贵的资源,必须对其进行优化利用才能获得最佳效果。以下是一些优化方法:
重复内容可能会被单独抓取,导致抓取预算浪费。为避免这种情况,请将网站上的重复页面合并为一个页面,或删除重复页面。.
robots.txt 文件用途广泛,其中之一是告知 Googlebot 不要抓取某些页面或页面的特定部分。这是一种重要的策略,可以用来防止 Googlebot 抓取低价值内容或无需抓取的内容。.
以下是使用 robots.txt 优化抓取预算的一些最佳实践:
如何做到这一点
创建并执行 robots.txt 文件以限制 Googlebot 访问需要一定的编程知识。以下是具体步骤:
一个典型的 robots.txt 文件将包含以下元素:
下面展示的是一个简单的 robots.txt 文件示例。.
这段代码表示用户代理(在本例中为 Googlebot)不允许抓取任何以“ http://www.example.com/nogooglebot/ ”开头的网址。
如果您不熟悉如何创建和上传 robots.txt 文件,我们建议您寻求专家帮助。.
爬虫机器人到达网站时,会预先分配一个大致的页面抓取数量。XML 站点地图有效地引导机器人读取选定的 URL,确保有效利用分配的资源。.
请注意,页面排名取决于多种因素,包括内容质量和内部/外部链接。建议仅在站点地图中包含顶级页面。图片可以单独创建 XML 站点地图。.
请遵循以下建议,以确保 XML 站点地图的最佳实施:
如需更详细地了解站点地图,请参阅我们关于此主题的专门模块。
内部链接具有三个重要功能:
因此,为了实现高效的爬虫,实施高效的内部链接策略至关重要。有关内部链接的更多信息,请参阅我们详细的课程模块(点击此处)。
如果网站运行在共享主机平台上,抓取预算将与其他运行在该平台上的网站共享。对于大型出版商而言,独立主机可能是一个不错的选择。.
在升级主机以解决机器人流量过载问题之前,有一些因素值得考虑,否则这些因素可能会影响服务器负载。.
想了解更多 CDN 的优势,请查看我们的页面体验模块。
当 Googlebot 访问网页时,它会渲染该页面上的所有资源,包括 JavaScript。虽然抓取 HTML 相对简单,但 Googlebot 必须多次处理 JavaScript 才能渲染并理解其内容。.
这会迅速耗尽谷歌对网站的抓取预算。解决方案是在服务器端实现 JavaScript 渲染。.
如何做到这一点
在网站源代码中处理 JavaScript 需要一定的编程知识,如果您计划进行任何此类更改,我们建议您咨询网站开发人员。话虽如此,以下是一些关于如何优化 JavaScript 使用的一些指导原则。.
CWV 是衡量页面性能的指标,它直接影响您的页面在搜索排名中的表现。.
GSC 的 CWV 报告将 URL 性能分为三类:
内容访问量 (CWV) 也会影响您的抓取预算。例如,页面加载速度慢会消耗您的抓取预算,因为 Google 执行抓取任务的时间有限。如果您的页面加载速度快,Google 就能在有限的时间内抓取更多页面。同样,过多的错误状态报告也会减慢抓取速度并浪费您的抓取预算。.
要更深入地了解 CWV,请参阅我们关于页面体验的模块。
第三方爬虫工具(例如Semrush 、 Sitechecker.pro或Screaming Frog)允许网站开发人员审核网站的所有 URL 并识别潜在问题。
第三方爬虫可用于识别:
这些程序提供抓取统计报告,以帮助突出显示谷歌自身工具可能无法发现的问题。.
改进结构化数据并减少卫生问题将简化 Googlebot 抓取和索引网站的工作。.
我们建议在使用第三方爬虫时遵循以下最佳实践:
URL 参数(即网址中“?”后面的部分)在网页上用于各种用途,包括筛选、分页和搜索。.
虽然这可以提升用户体验,但当基本 URL 和带参数的 URL 返回相同的内容时,也可能导致抓取问题。例如,“http://mysite.com” 和 “http://mysite.com?id=3” 返回完全相同的页面。.
参数设置允许网站拥有近乎无限数量的链接——例如,用户可以在日历上选择日期、月份和年份。如果允许机器人抓取这些页面,抓取预算就会被不必要地消耗掉。.
如果您的网站使用分面导航或会话标识符,可能会生成多个重复页面,如果抓取这些页面,则可能会浪费抓取预算,因此这可能是一个需要关注的问题。.
如果您有不同语言的网页本地化版本,但这些页面上的内容尚未翻译,则也会出现重复的 URL。.
我们建议采取以下措施来解决这个问题:
以下是一个简单的<hreflang>看起来像是在你的源代码中:
https://examplesite.com/news/hreflang-tags”/ >
这告诉爬虫程序,指定的 URL 是主 URL 的西班牙语(墨西哥)变体,不应将其视为重复项。.
我们已经讨论了爬虫预算管理的基本要素。本节列出的要点虽然并非健康爬虫预算管理的必要条件,但能极大地补充之前讨论的技术。.
当 Googlebot 向您的网站发送的抓取请求过多,超出其处理能力时,就会发生抓取紧急情况。尽快找出问题所在至关重要,这可以通过密切监控服务器日志和 Google Search Console 中的抓取统计信息来实现。.
如果抓取请求的突然激增不能及时处理,可能会导致服务器速度变慢。服务器速度变慢会增加爬虫的平均响应时间,而响应时间过长会导致搜索引擎自动降低抓取频率。这会造成问题,因为抓取频率降低会导致新文章无法立即被抓取,从而降低文章的可见度。.
如果您发现过度抓取导致服务器负担过重,可以尝试以下几种方法:
谷歌拥有复杂的算法来控制抓取频率。因此,理想情况下,用户不应随意更改抓取频率。但是,在紧急情况下,您可以登录 Google Search Console (GSC) 帐户,并导航至您媒体资源的“抓取频率设置”。.
如果抓取频率显示为“已计算为最佳”,则无法手动更改。需要向 Google 提交特殊请求才能更改抓取频率。.
如果不是这种情况,您可以自行将抓取频率更改为所需值。此值将保持有效 90 天。.
如果您不想修改 Google Search Console 中的抓取频率,您也可以使用 robots.txt 文件阻止 Googlebot 访问该页面。具体操作步骤已在之前说明过。.
谷歌抓取大多数网站最多可能需要三天时间。唯一的例外是新闻网站或其他发布时效性内容的网站,这些网站可能每天都会被抓取。.
要查看网页的抓取频率,请监控您的网站日志。如果您仍然觉得网页的抓取频率不够高,请按照以下步骤操作:
https://www.google.com/ping?sitemap=FULL_URL_OF_SITEMAP
请注意:此步骤应被视为最后的操作,因为它存在一定的风险。如果 Googlebot 检测到 503 和 429 错误,其抓取速度将会减慢,甚至可能停止抓取,导致索引页面数量暂时下降。
503 错误代码表示服务器暂时宕机,而 429 错误代码表示用户在特定时间内发送的请求过多。这些代码会告知 Googlebot 问题是暂时的,稍后会再次尝试抓取页面。.
虽然这看似微不足道的一步,但却很重要,因为如果 Googlebot 不知道网页遇到的问题的性质,它就会假定问题是长期存在的,并可能将网页标记为无响应,这会影响 SEO。.
创建 503 错误代码需要通过一个 PHP 文件,该文件连同错误信息一起插入到页面现有的 HTML 源代码中。您还需要编写几行额外的 HTML 代码,说明网站预计何时恢复正常。.
这是 503 重定向的代码示例:
进行 503 或 429 重定向需要高级 HTML 编码技能,我们建议您在尝试此操作之前咨询您的网站开发人员。.
我们现在已经很好地理解了爬取预算的概念以及如何优化它。然而,了解在爬取预算方面哪些事情不应该做同样重要。.
以下是一些常见的陷阱,应避免这些陷阱,以确保您充分利用网站的抓取预算:
Google 抓取您网站的频率由其算法决定,该算法会考虑多个信号以得出最佳抓取频率。.
提高抓取频率并不一定能提升搜索排名。抓取频率甚至抓取本身都不是排名因素。.
谷歌并非一定偏爱新内容而非旧内容。谷歌会根据内容的关联性和质量对页面进行排名,而与内容的新旧无关。因此,没有必要持续抓取旧内容。.
延迟抓取指令无法控制 Googlebot。如果您希望降低抓取频率以应对网站抓取过多导致的访问量过大问题,请参考上文提供的说明。.
网站加载速度会影响抓取预算。页面加载速度快意味着谷歌可以在相同连接数下获取更多信息。.
有关优化加载速度的技巧,请查看我们的页面体验模块。
即使链接被标记为 nofollow,仍然可能会影响您的抓取预算,因为这些链接最终仍有可能被抓取。另一方面,robots.txt 文件中禁止的链接则不会影响抓取预算。.
此外,备用 URL 和 Javascript 内容最终可能会被抓取,从而消耗您的抓取预算,因此必须通过删除它们或使用 robots.txt 来限制对它们的访问。.
抓取预算是一项宝贵的资源,对其进行优化至关重要。抓取和索引问题会影响内容的性能,尤其是在网站页面数量庞大的情况下。.
优化抓取预算涉及的两个最基本操作是保持站点地图更新,并定期从 GSC 抓取统计报告和日志文件中监控索引问题。.
学习如何应用爬虫管理最佳实践非常重要,无论是在推出新的网站功能期间,还是在发生一次性错误时。.
现在生效
查看更多