6
选举季的出版商增长策略网络研讨会
视频时长
23:27
回答测验
进行当前模块测验
材料
即用型模板
资源
报告和资源
0 已完成 9 个问题
问题:
您之前已经完成了测验。因此您无法再次启动它。
测验正在加载...
您必须登录或注册才能开始测验。
您必须首先完成以下操作:
正确回答了0 个(共9 个
您的时间:
时间已过
您已达到0分0分),( 0 )
获得积分: 0 分共0 ,( 0 )
0 篇论文待处理(可能得分: 0 )
什么是爬网预算?
Google想要重新(爬网)特定页面/网站的量度的量度称为____。
对于那些网站上有多少页的出版商来说,爬网预算通常只是一个关注点?
您在哪里可以找到爬网统计?
什么是robots.txt?
以下哪项可以减少您的爬网预算?
以下哪项任务是Semrush或Screaming Frog无法执行的第三方爬行者?
以下是什么
503错误代码是什么意思?
2.6.1 什么是抓取预算?
抓取预算是网络抓取工具在给定时间范围内抓取您网站上的页面数量。
每次您点击发布按钮时,Google 都需要抓取内容并为其建立索引,才能开始出现在搜索结果中。鉴于互联网上内容的规模和数量,爬行成为一种宝贵的资源,需要进行预算和配给才能最有效地使用。
简而言之,谷歌很难每天抓取互联网上的每个页面并为其建立索引。因此,谷歌会根据分配的预算来抓取每个网站。
抓取预算根据两个因素分配给网站:抓取限制和抓取需求。
这是网站的容量和/或被抓取的意愿。
并非每个网站都是为了每天被抓取而构建的。抓取涉及 Googlebot 向您网站的服务器发送请求,如果操作过于频繁,可能会对服务器的容量造成压力。
此外,并不是每个发布商都希望他们的网站不断被抓取。
抓取需求是衡量特定页面需要(重新)抓取的频率的指标。热门页面或更新频繁的页面需要更频繁地抓取和重新抓取。
如果 Google 无法抓取您的内容并为其编制索引,该内容将不会显示在搜索结果中。
话虽这么说,抓取预算通常只是网站上页面超过 10,000 个的中型到大型发布商所关心的问题。小型发布商无需过度担心抓取预算。
但是,在其网站上拥有10,000页或更多页面的出版商将希望避免Googlebot爬行页面并不重要。在无关紧要或不太重要的内容上耗尽您的爬网预算意味着更高的价值页面可能不会被爬走。
此外,鉴于Google新闻及时发现新鲜内容的三种方式之一,新闻发布者将要小心浪费的爬网预算。另外两个是使用Sitemaps和Google Publisher Center,我们在Google News Sitemap和Google Publisher Center Center模块
优化GoogleBot爬网的频率和速度涉及监视一系列变量。我们首先列出优化爬网预算和频率的最重要因素。
监视您的内容的爬行方式的两个最有用的策略是分析日志文件和Google Search Console的(GSC)爬网统计报告。
日志文件是一个文本文档,可记录网站服务器上的每个活动。这包括有关爬网请求,页面请求,图像请求,JavaScript文件的请求以及运行您网站所需的任何其他资源的所有数据。
出于技术SEO的目的,日志文件分析有助于确定有关URL爬网的许多有用信息,包括但不限于:
如何做
日志文件分析是一项任务,需要对网站的后端进行一定程度的技术熟悉。因此,我们建议使用日志文件分析仪软件。有几种免费的和付费的日志分析工具,例如Graylog , Loggly , Elastic Stack ,Screaming Frog Log Analyzer和Nagios等。
如果您是经验丰富的开发人员或系统管理员,则可以手动执行日志文件分析。
为此,请执行以下步骤:
下载日志文件后,您可以将扩展名更改为.csv,并使用Microsoft Excel或Google表格将其更改。但是,正如我们所说,这种方法需要一定水平的专业知识来理解日志文件。
您还可以通过输入日志文件的路径来使用FTP客户端访问日志文件。典型的日志文件路径看起来像这样:
服务器名称(例如Apache) /var/log/access.log
但是,使用日志分析工具更加方便。将日志文件上传到工具中后,您可以使用多个过滤器对数据进行排序。例如,您可以查看Googlebot最常访问哪些URL。
您还可以查看GoogleBot是否一直在访问非必需的或低价值的URL,例如刻面导航URL,重复的URL等。确定这些网址很重要,因为它们浪费了您的爬网预算。
查看以下屏幕截图,从尖叫的青蛙的SEO日志文件分析仪中获取,以了解我们的意思。
GSC为网站所有者提供了有关Google如何抓取其内容的全面数据和见解。这包括有关:
GSC还使易于理解的图形和图表可为网站所有者提供更多信息。下面的屏幕截图是GSC上的典型爬网统计报告。
GSC还让您知道爬行是否有任何问题。它检查几个错误并分配每个代码。 GSC检查的最常见错误包括:
GSC报告还显示了在验证状态以及验证状态以及验证状态以及验证状态以及验证状态并影响了多少页。
如何做
这是您可以访问网站或网页的GSC爬网统计报告:
这些包括:
我们现在知道,爬网预算是一种宝贵的资源,必须优化其使用以获得最佳结果。这里有一些技术可以做到这一点:
重复的内容可能最终被分开爬行,从而导致爬行预算的浪费。为了避免这种情况的发生,要么将网站上的重复页面合并为一个,要么删除重复页面。
Robots.txt是一个用于多种目的的文件,其中之一是告诉GoogleBot不要爬网某些页面或页面。这是一种重要的策略,可用于防止Googlebot爬行不需要爬行的低价值内容或内容。
以下是使用robots.txt优化爬网预算时的一些最佳实践:
如何做
创建和执行一个robots.txt文件以限制GoogleBot访问需要一些编码知识。这是涉及的步骤:
一个典型的机器人.txt文件将具有以下元素:
以下是一个简单的robots.txt文件的样子。
此代码意味着在这种情况下,用户代理 - GoogleBot - 不允许以“ http://www.example.com/nogooglebot/ ”开头的任何URL爬网。
如果您自己不舒服地创建和上传机器人,请寻求专家帮助。
爬行机器人到达站点时,会对其爬行的页面数量进行一般分配。 XML 站点地图有效地引导机器人读取选定的 URL,确保有效利用该预算。
请注意,页面的排名性能取决于多个因素,包括内容质量和内部/外部链接。考虑在地图中仅包含顶级页面。图像可以分配自己的 XML 站点地图。
请遵循以下建议,以确保最佳XML站点地图实施:
有关站点地点的更详细信息,请参阅我们有关此主题的专用模块。
内部链接执行三个重要功能:
因此,为了有效的爬行,重要的是要实施有效的内部联系策略。有关内部链接的更多信息,请参阅此处的详细课程模块。
如果网站在共享托管平台上运行,则将与在上述平台上运行的其他网站共享爬网预算。大型出版商可能会发现独立托管是有价值的选择。
在升级托管以解决机器人流量过载之前,有一些值得考虑的因素可能会影响服务器负载。
有关CDN的优势的更多信息,请查看我们的页面体验模块。
当 Googlebot 登陆某个网页时,它会呈现该页面上的所有资源,包括 Javascript。虽然抓取 HTML 相当简单,但 Googlebot 必须多次处理 Javascript,以便能够呈现它并理解其内容。
这会很快耗尽 Google 对网站的抓取预算。解决方案是在服务器端实现Javascript渲染。
如何做
在您的网站源代码中探讨JavaScript需要编码专业知识,如果您打算进行任何此类更改,我们建议您咨询Web开发人员。也就是说,这里有一些指南,以优化使用JavaScript的使用时要寻找什么。
CWV是对页面性能的衡量标准,它直接影响您的页面在搜索排名中的表现。
GSC的CWV报告将URL性能分为三类:
CWV还会影响您的爬网预算。例如,由于Google的爬行任务时间有限,因此加载缓慢的页面可能会吞噬您的爬网预算。如果您的页面加载迅速,则Google可以在有限的时间内爬网。同样,过多的错误状态报告可能会减慢爬行并浪费您的爬网预算。
要对CWV进行更彻底的检查,请参阅我们的页面体验模块。
Semrush , Sitechecker.pro或Screaming Frog等第三方横梁允许Web开发人员审核所有网站的URL并确定潜在的问题。
第三方爬虫可以用于识别:
这些程序提供抓取统计报告,以帮助突出显示 Google 自己的工具可能无法显示的问题。
改进结构化数据并减少卫生问题将简化 Googlebot 对网站的抓取和索引工作。
我们建议使用第三方爬网时采用以下最佳实践:
URL 参数 — 网址中“?”后面的部分— 出于多种原因在页面上使用,包括过滤、分页和搜索。
虽然这可以提升用户体验,但当基本 URL 和带有参数的 URL 返回相同的内容时,也可能会导致抓取问题。例如,“http://mysite.com”和“http://mysite.com?id=3”返回完全相同的页面。
参数允许网站拥有几乎无限数量的链接,例如用户可以在日历上选择日期、月份和年份。如果允许机器人抓取这些页面,则抓取预算将被不必要地用完。
如果您的网站使用刻面导航或会话标识符,这可能是一个问题,因为这些导航或会话标识符可以产生多个重复页面,如果爬行,可能会导致浪费爬网预算。
如果您使用不同语言的网页进行本地化版本,并且这些页面上的内容尚未翻译。
我们建议以下来解决以下内容:
这是一个简单的<hreflang>在您的源代码中看起来像:
https://examplesite.com/news/hreflang-tags "/>
这告诉爬虫者,指定的URL是主要网址的西班牙(墨西哥)变体,不应将其视为重复。
我们已经讨论了抓取预算管理的基本要素。本节中列出的指针虽然对健康的爬网预算管理并不重要,但在补充上讨论的技术方面大有帮助。
当Googlebot的网站上的爬网请求超过其处理能力时,就会发生紧急情况。重要的是要尽快确定问题,可以通过密切监视Google搜索控制台中的服务器日志和爬网统计来完成。
如果没有及时管理爬行的突然激增,则可能导致服务器放慢速度。服务器放缓将增加爬虫的平均响应时间,并且由于此较高的响应时间,搜索引擎将自动降低其爬网率。这是有问题的,因为降低的爬网率将导致可见度丧失,新文章不会立即爬行。
如果您注意到爬行的服务器对服务器征税,那么您可以做一些事情:
Google具有控制爬网率的复杂算法。因此,理想情况下,一个人不应篡改爬网率。但是,在紧急情况下,您可以登录您的GSC帐户并导航到您物业的爬网费用设置。
如果您认为那里的爬网速率是最佳的,则无法手动更改它。需要向Google提出一个特殊的请求,以更改爬网率。
如果不是这种情况,您可以简单地将爬网速率更改为所需的价值。该值将保持90天的有效性。
如果您不希望在GSC中篡改爬网费率,也可以使用robots.txt通过GoogleBot阻止对该页面的访问。以前已经解释了这样做的程序。
最多需要三天的时间才能爬大多数网站。唯一的例外是新闻网站或其他网站发布时间敏感内容,这些内容可能每天爬行。
要检查您的页面被爬的频率,请监视您的网站日志。如果您仍然觉得自己的内容没有应有的频率,请执行以下步骤:
https://www.google.com/ping?sitemap=full_url_of_sitemap
请注意:应该将此步骤视为任何人都应该采取的最后一项行动,因为它具有一定程度的风险。如果Googlebot看到503和429错误,那么它将开始爬行较慢并可能停止爬行,从而导致索引页面数量暂时下降。
503错误代码表示服务器暂时下降,而429表示用户在特定时间内发送了太多请求。这些代码使GoogleBot知道问题是暂时的,并且应该在以后返回到页面。
尽管看似较小的步骤,但这很重要,因为如果GoogleBot不知道网页正在遇到的问题的性质,则假定问题是长期的,并且可能会将页面标记为无响应性,这可能会影响SEO。
创建503错误代码是通过PHP文件完成的,PHP文件将在页面的现有HTML源代码中插入以及错误消息。您还需要编写一些额外的HTML代码行,以提及该网站何时返回。
这就是503重定向的代码:
进行503或429的重定向需要高级HTML编码技能,我们建议您在尝试之前咨询您的网络开发人员。
现在,我们对爬网预算是什么以及如何优化它有很好的了解。但是,知道在爬网预算方面不做什么也同样重要。
以下是一些常见的陷阱,以避免确保您充分利用网站的爬网预算:
Google爬网的频率由其算法确定,这些算法考虑了几个信号以达到最佳爬网频率。
提高爬网率并不一定会在搜索结果中提高更好的位置。爬行频率甚至爬行本身并不是排名的因素。
Google不一定比旧内容更喜欢新鲜的内容。 Google根据内容的相关性和质量对内容进行排名,而不论其是旧的还是新的。因此,没有必要让他们爬行。
爬网指令无助于控制Googlebot。如果您希望响应压倒您网站的过度爬行而放慢爬行频率,请参阅上面提供的说明。
您的网站的加载速度可能会影响您的爬网预算。快速加载页面意味着Google可以通过相同数量的连接访问更多信息。
在页面体验上查看我们的。
Nofollow链接可能仍然会影响您的爬网预算,因为这些链接可能仍会被爬行。另一方面,Robots.txt不允许的链接对爬网预算没有影响。
此外,替代URL和JavaScript内容可能最终会被爬走,消耗您的爬网预算,因此,通过删除它们或使用Robots.txt来限制对它们的访问权很重要。
爬网预算是一种宝贵的资源,对其进行优化至关重要。爬行和索引问题可能会影响您的内容的性能,尤其是如果您的网站有大量页面。
优化爬网预算涉及的两个最基本的操作是使您的站点地图更新,并定期监视GSC爬网统计报告和日志文件中的索引问题。
在推出新网站功能以及一次性错误时,学习如何应用爬网管理最佳实践非常重要。
现在活跃
查看更多