Bilis at Dalas ng Pag-crawl

Layunin ng Pagkatuto

Pagkatapos ng module na ito, dapat mong maunawaan kung ano ang crawl budget, kung paano ito inilalaan sa isang website at kung paano mag-optimize para dito.

Tagal ng Video

23:27

Sagutin ang Pagsusulit

Kumuha ng kasalukuyang pagsusulit sa module

Mga materyales

Mga template na handa nang gamitin

Mga mapagkukunan

Mga Ulat at Mapagkukunan

2.6.1 Ano ang Crawl Budget?

Ang badyet sa pag-crawl ay ang bilang ng mga pahina sa iyong website na iko-crawl ng isang web crawler sa loob ng isang takdang panahon.

Sa bawat oras na pinindot mo ang button na i-publish, kailangang i-crawl at i-index ng Google ang nilalaman para magsimula itong lumitaw sa mga resulta ng paghahanap. Dahil sa laki at dami ng content sa internet, ang pag-crawl ay nagiging isang mahalagang mapagkukunan na kailangang i-budget at rasyon para sa pinakamabisang paggamit.

Sa madaling salita, mahirap para sa Google na i-crawl at i-index ang bawat pahina sa internet araw-araw. Kaya, kino-crawl ng Google ang bawat website ayon sa nakatalagang badyet nito.

2.6.2 Paano Nakatalaga ang Crawl Budget sa mga Website?

Ang badyet sa pag-crawl ay itinalaga sa mga website batay sa dalawang salik — limitasyon sa pag-crawl at pangangailangan sa pag-crawl.

Limitasyon sa Pag-crawl

Ito ay kapasidad at/o pagpayag na ma-crawl ng isang website.

Hindi lahat ng website ay ginawa para i-crawl araw-araw. Kasama sa pag-crawl ang Googlebot sa pagpapadala ng mga kahilingan sa server ng iyong website na, kung gagawin nang masyadong madalas, ay maaaring bigyang diin ang kapasidad ng server.

Gayundin, hindi lahat ng publisher ay gustong patuloy na ma-crawl ang kanilang site.

Crawl Demand

Ang crawl demand ay isang sukatan kung gaano kadalas gustong (muling) i-crawl ang isang partikular na page. Ang mga sikat na page o page na madalas na ina-update ay kailangang i-crawl at muling i-crawl nang mas madalas.

2.6.3 Bakit Dapat Pangalagaan ng Mga Publisher ang Badyet sa Pag-crawl?

Kung hindi ma-crawl at ma-index ng Google ang iyong content, hindi lang lalabas ang content na iyon sa mga resulta ng paghahanap.

Iyon ay sinabi, ang mga badyet sa pag-crawl ay karaniwang alalahanin lamang para sa mga medium hanggang malalaking publisher na mayroong higit sa 10,000 mga pahina sa kanilang website. Ang mga mas maliliit na publisher ay hindi dapat mag-alala nang labis tungkol sa mga badyet sa pag-crawl.

Ang mga publisher na may 10,000 o higit pang mga pahina sa kanilang website, gayunpaman, ay nais na maiwasan ang mga pahina ng pag -crawl ng Googlebot na hindi mahalaga. Ang pagkapagod sa iyong pag -crawl na badyet sa hindi nauugnay o hindi gaanong mahalagang nilalaman ay nangangahulugang mas mataas na mga pahina ng halaga ay maaaring hindi gumapang.

Bukod dito, ang mga publisher ng balita ay nais na maging maingat tungkol sa nasayang na mga badyet ng pag -crawl na ibinigay na ang pag -crawl ay isa sa tatlong mga paraan na natuklasan ng Google News ang sariwang nilalaman sa isang napapanahong paraan. Ang iba pang dalawa ay sa pamamagitan ng paggamit ng Sitemaps at Google Publisher Center, na na -explore pa namin sa aming Google News Sitemap at Google Publisher Center Modules

2.6.4 Pag -optimize para sa mga Crawler

Ang pag -optimize ng dalas at bilis na kung saan ang Googlebot ay nag -crawl ng iyong website ay nagsasangkot sa pagsubaybay sa isang hanay ng mga variable. Nagsisimula kami sa pamamagitan ng paglista ng pinakamahalagang mga kadahilanan na kasangkot sa pag -optimize ng badyet ng pag -crawl at dalas.

Subaybayan ang pag -crawl ng nilalaman

Ang dalawang pinaka -kapaki -pakinabang na taktika para sa pagsubaybay kung paano ang pag -crawl ng iyong nilalaman ay sinusuri ang mga file ng log at ulat ng Google Search Console's (GSC).

1. Pagtatasa ng Log File

Ang isang log file ay isang dokumento ng teksto na nagtatala ng bawat aktibidad sa server ng iyong website. Kasama dito ang lahat ng data tungkol sa mga kahilingan sa pag -crawl, mga kahilingan sa pahina, mga kahilingan sa imahe, mga kahilingan para sa mga file ng JavaScript at anumang iba pang mapagkukunan na kinakailangan upang patakbuhin ang iyong website.

Para sa mga layunin ng teknikal na SEO, ang pagsusuri ng file ng log ay tumutulong na matukoy ang maraming kapaki -pakinabang na impormasyon tungkol sa pag -crawl ng URL, kabilang ang ngunit hindi limitado sa:

Aling mga URL ang na -crawl.

Aling mga URL ang madalas na gumapang.

Ang pagkilala kung ang anumang mababang halaga o hindi kinakailangang mga URL ay na-crawl, sa gayon ay nag-aaksaya ng badyet ng pag-crawl.

Paano ito gawin

Ang pagtatasa ng log file ay isang gawain na nangangailangan ng ilang antas ng pamilyar na teknikal sa backend ng isang website. Para sa kadahilanang ito, inirerekumenda namin ang paggamit ng software ng Log File Analyzer. Mayroong maraming mga libre at bayad na mga tool sa pagsusuri ng log na magagamit tulad ng Greylog , Loggly , Elastic Stack , Screaming Frog Log Analyzer at Nagios upang pangalanan ang iilan.

Kung ikaw ay isang bihasang developer o administrator ng system, maaari mo ring manu -manong magsagawa ng isang pagtatasa ng log file.

Upang gawin ito, sundin ang mga hakbang na ito:

Mag -log in sa cpanel ng iyong hosting provider

Mag -navigate sa mga merics at pagkatapos ay hilaw na pag -access

I -download ang log file

Kapag na -download mo ang log file, maaari mong baguhin ang extension sa .csv at buksan ito gamit ang Microsoft Excel o Google Sheets. Tulad ng sinabi namin, gayunpaman, ang pamamaraang ito ay nangangailangan ng isang tiyak na antas ng kadalubhasaan upang magkaroon ng kahulugan ng log file.

Maaari mo ring i -access ang log file gamit ang isang kliyente ng FTP sa pamamagitan ng pagpasok sa landas ng log file. Ang isang tipikal na landas ng log file ay mukhang katulad nito:

Pangalan ng server (halimbawa, Apache) /var/log/access.log

Gayunpaman, mas maginhawa na gumamit ng isang tool sa pagsusuri ng log sa halip. Kapag na -upload mo ang log file sa tool, maaari mong pag -uri -uriin ang data gamit ang maraming mga filter. Halimbawa, makikita mo kung aling mga URL ang madalas na na -access ng Googlebot.

Makikita mo rin kung ang GoogleBot ay naka-access sa mga hindi mahahalagang o mababang-halaga na mga URL tulad ng mga faceted na mga URL ng nabigasyon, mga duplicate na URL, atbp.

Tumingin sa screenshot sa ibaba, na kinuha mula sa SEO Log File Analyzer ng Frog, upang makita kung ano ang ibig sabihin namin.

2. Ulat ng GSC Crawl Stats

Nagbibigay ang GSC ng mga may -ari ng website ng komprehensibong data at pananaw tungkol sa kung paano gumapang ang Google ng kanilang nilalaman. Kasama dito ang detalyadong mga ulat sa:

Aling mga file/pahina ang na -crawl at para sa anong layunin.

Aling uri ng Googlebot (balita, video, mobile, atbp) ang sumailalim sa pag -crawl.

Kabuuang bilang ng mga kahilingan sa pag -crawl, atbp.

Ginagawa din ng GSC na madaling maunawaan ang mga graph at tsart upang magbigay ng mga may -ari ng website ng mas maraming impormasyon. Ang screenshot sa ibaba ay kung ano ang hitsura ng isang tipikal na ulat ng pag -crawl stats sa GSC.

Pinagmulan

Pinapayagan ka rin ng GSC na malaman kung mayroong anumang mga isyu sa pag -crawl. Sinusuri nito ang maraming mga pagkakamali at nagtalaga ng bawat isang code. Ang pinaka -karaniwang mga error na sinuri ng mga tseke ng GSC:

Error sa server [5xx]

Error sa pag-redirect

Na-block ng robots.txt ang isinumiteng URL

Ang isinumiteng URL ay may markang 'noindex'

Ang isinumiteng URL ay tila isang malambot na 404

Ang isinumite na URL ay bumalik sa 401

Hindi nakita ang isinumiteng URL (404)

Ang isinumite na URL ay bumalik sa 403

Na-block ang isinumiteng URL dahil sa iba pang isyu sa 4xx

Ipinapakita rin ng ulat ng GSC kung gaano karaming mga pahina ang naapektuhan ng bawat error sa tabi ng katayuan sa pagpapatunay.

Paano ito gawin

Narito kung paano mo mai -access ang ulat ng GSC Crawl Stats para sa iyong website o web page:

Upang magamit ang GSC, kailangan mong mag -sign up .

Susunod, kailangan mong patunayan na pagmamay -ari mo ang website na nais mong idagdag sa GSC. Magagawa ito sa pamamagitan ng pagdaragdag ng tinatawag ng Google na isang "pag -aari". Ang isang pag -aari ay anumang bagay na kailangang suriin sa GSC. Maaari itong maging isang solong pahina o isang buong website.

Upang mapatunayan ang pagmamay -ari ng site, piliin ang Buksan ang GSC, mag -navigate sa tagapili ng ari -arian at i -click ang "Magdagdag ng Bagong Ari -arian" mula sa tagapili ng ari -arian.

Pagkatapos ay makikita mo ang isang listahan ng mga pamamaraan ng pag -verify na magbibigay -daan sa iyo upang mapatunayan ang iyong pagmamay -ari ng site/pahina.

Kabilang dito ang:

Pag -upload ng file ng HTML
Html tag
Google Code ng Pagsubaybay sa Google
Google Tag Manager
Provider ng pangalan ng domain
Google Site, Blogger o Domain Account.

Piliin ang iyong paraan ng pag -verify. Kapag na -verify ang iyong pag -aari, lilitaw ito sa GSC at maaari mong tingnan ang detalyadong analytics para sa pag -crawl ng badyet at aktibidad nito.

I -optimize ang pag -crawl ng badyet

Alam natin ngayon na ang badyet ng pag -crawl ay isang mahalagang mapagkukunan na ang paggamit ay dapat na -optimize para sa pinakamahusay na mga resulta. Narito ang ilang mga pamamaraan upang gawin ito:

1. Ayusin ang dobleng nilalaman

Ang duplicate na nilalaman ay maaaring magtapos ng pag -crawl nang hiwalay, na humahantong sa isang pag -aaksaya ng badyet ng pag -crawl. Upang maiwasan ito mula sa nangyari, alinman sa pagsamahin ang mga dobleng pahina sa iyong website sa isa, o tanggalin ang mga dobleng pahina.

2. Gumamit ng mga robot.txt

Ang Robots.txt ay isang file na nagsisilbi ng isang bilang ng mga layunin, isa sa mga ito ay upang sabihin sa Googlebot na huwag mag -crawl ng ilang mga pahina o mga seksyon ng mga pahina. Ito ay isang mahalagang diskarte na maaaring magamit upang maiwasan ang Googlebot mula sa pag-crawl ng mababang halaga ng nilalaman o nilalaman na hindi nangangailangan ng pag-crawl.

Narito ang ilang mga pinakamahusay na kasanayan kapag gumagamit ng mga robot.txt upang ma -optimize ang badyet ng pag -crawl:

Magtalaga ng priyoridad sa mga parameter na kailangang mai -block mula sa pag -crawl sa iyong pagkakasunud -sunod ng kagustuhan.

Tukuyin ang mga robot, direktiba at parameter na nagdudulot ng karagdagang pag-crawl gamit ang mga log file.

I-block ang mga karaniwang path na karaniwang mayroon ang CMS gaya ng 404, admin, login page, atbp.

Paano ito gawin

Ang paglikha at pagpapatupad ng isang file ng robots.txt upang paghigpitan ang pag -access sa Googlebot ay nangangailangan ng ilang kaalaman sa pag -coding. Narito ang mga hakbang na kasangkot:

Ang isang file ng robots.txt ay nilikha gamit ang isang text editor tulad ng isang notepad. Ang file ay kailangang pangalanan ng robots.txt para makilala ito ng Googlebot.

Kapag nilikha ang isang file, nagdaragdag kami ng mga patakaran dito, na kung saan ay sasabihin namin na tinukoy namin ang isang hanay ng mga tagubilin na nagsasabi sa file na harangan ang pag -access sa ilang mga ahente sa ilalim ng mga tiyak na kondisyon.

Ang isang karaniwang file ng robots.txt ay magkakaroon ng mga sumusunod na elemento:

Isang gumagamit-ahente, tulad ng Googlebot, kung saan ang pag-access ay dapat tanggihan
Isang hindi papayag o payagan ang pagpasok, na tinukoy ang isang file o direktoryo kung saan ang pag-access ay dapat na limitahan para sa ahente ng gumagamit
Isang sitemap upang sabihin sa Google kung aling nilalaman ang dapat itong gumapang.

Nasa ibaba ang hitsura ng isang simpleng robots.txt file.

Pinagmulan

Ang code na ito ay nangangahulugan na ang isang ahente ng gumagamit - ang Googlebot sa pagkakataong ito - ay hindi pinapayagan na mag -crawl ng anumang URL na nagsisimula sa " http://www.example.com/nogooglebot/ ".

Kapag nilikha at nai -save ang iyong file sa iyong lokal na makina, kailangan itong mai -upload sa iyong website. Ang paggawa nito ay nakasalalay sa iyong server at sa iyong tagapagbigay ng hosting. Kailangan mong makipag -ugnay sa iyong tagapagbigay ng serbisyo upang matiyak ang eksaktong mga hakbang para dito.

Iminumungkahi namin na humingi ng tulong sa dalubhasa kung hindi ka komportable sa paglikha at pag -upload ng mga robot.txt file ang iyong sarili.

3. Segment XML Sitemaps

Dumating ang isang crawl bot sa isang site na may pangkalahatang alokasyon kung gaano karaming mga page ang iko-crawl nito. Ang XML sitemap ay epektibong nagtuturo sa bot na basahin ang mga napiling URL, na tinitiyak ang epektibong paggamit ng badyet na iyon.

Tandaan na ang pagganap ng pagraranggo ng pahina ay nakasalalay sa ilang mga salik kabilang ang kalidad ng nilalaman at panloob/panlabas na mga link. Isaalang-alang ang pagsasama lamang ng mga top-tier na pahina sa mapa. Maaaring ilaan ang mga imahe ng sarili nilang XML sitemap.

Sundin ang mga rekomendasyong ito upang matiyak ang pinakamainam na pagpapatupad ng sitemap ng XML:

Sumangguni sa XML sitemap mula sa robots.txt file.

Lumikha ng maramihang mga sitemap para sa isang napakalaking site. Huwag magdagdag ng higit sa 50,000 URL sa isang XML sitemap.

Panatilihin itong malinis at isama lamang ang mga na-index na pahina.

Panatilihing napapanahon ang XML sitemap.

Panatilihin ang laki ng file sa mas mababa sa 50MB.

Para sa isang mas detalyadong pagtingin sa mga sitemaps, sumangguni sa aming nakalaang module sa paksang ito .

4. Ipatupad ang isang mahusay na diskarte sa panloob na pag -link

Ang mga panloob na link ay nagsasagawa ng tatlong mahahalagang pag -andar:

Pag -aayos ng nilalaman sa paligid ng mga tema, na tumutulong sa pagbuo ng pangkasalukuyan na awtoridad.

Ang pagkalat ng equity ng pahina sa pagitan ng mga pahina ng mataas na halaga sa iba pang mga pahina.

Ang pagtulong sa mga gumagamit at web crawler ay mas madaling mag -navigate sa site.

Kaya para sa mahusay na pag -crawl, mahalaga na ipatupad ang isang mahusay na diskarte sa panloob na pag -uugnay. Para sa higit pa sa panloob na pag -uugnay, sumangguni sa aming detalyadong module ng kurso dito.

5. Pag -upgrade ng hosting

Kung ang isang website ay tumatakbo sa isang nakabahaging platform ng pagho -host, ibabahagi ang badyet ng pag -crawl sa iba pang mga website na tumatakbo sa nasabing platform. Ang isang malaking publisher ay maaaring makahanap ng independiyenteng pagho -host upang maging isang mahalagang alternatibo.

Bago i -upgrade ang iyong pagho -host upang malutas ang labis na trapiko ng trapiko, mayroong ilang mga kadahilanan na nagkakahalaga ng pagsasaalang -alang na maaaring makaapekto sa mga naglo -load ng server kung hindi man.

Proseso ng mga imahe gamit ang isang hiwalay na network ng pamamahagi ng nilalaman (CDN) na na -optimize din upang mag -host ng mga susunod na format ng imahe ng gen tulad ng Webp.

Isaalang -alang ang pagho -host ng CPU, puwang sa disk batay sa pag -andar at mga kinakailangan ng iyong website.

Subaybayan ang aktibidad gamit ang mga solusyon tulad ng bagong relic upang masubaybayan ang labis na paggamit ng mga plugin at bot.

Para sa higit pa sa mga pakinabang ng mga CDN, tingnan ang aming module ng karanasan sa pahina .

6. Gumamit ng JavaScript nang makatarungan

Kapag napunta ang Googlebot sa isang web page, ire-render nito ang lahat ng asset sa nasabing page, kabilang ang Javascript. Bagama't medyo diretso ang pag-crawl sa HTML, kailangang iproseso ng Googlebot ang Javascript nang ilang beses upang mai-render ito at maunawaan ang nilalaman nito.

Mabilis nitong maubos ang badyet sa pag-crawl ng Google para sa isang website. Ang solusyon ay ang ipatupad ang pag-render ng Javascript sa gilid ng server.

Paano ito gawin

Ang pagtugon sa JavaScript sa source code ng iyong website ay nangangailangan ng kadalubhasaan sa coding at inirerekumenda namin ang pagkonsulta sa isang web developer kung plano mong gumawa ng anumang mga pagbabago. Iyon ay sinabi, narito ang ilang mga alituntunin sa kung ano ang hahanapin kapag sinusubukan na ma -optimize ang paggamit ng JavaScript.

Iwasan ang pagpapadala ng mga assets ng javascript sa kliyente para sa pag -render upang ang mga crawl bot

Gumamit ng browser-level na tamad na pag-load sa halip na ito ay batay sa JavaScript.

Gumamit ng server side tagging para sa analytics at third-party na pag-tag, alinman sa self-host o paggamit ng mga solusyon tulad ng stape.io.

7. Subaybayan ang mga CWV

Ang mga CWV ay isang sukatan ng pagganap ng pahina na direktang nakakaapekto kung paano gumaganap ang iyong pahina sa mga ranggo ng paghahanap.

Ang GSC's CWV Report Group Proups URL pagganap sa ilalim ng tatlong kategorya:

Uri ng sukatan ( LCP, FID at CLS)

Katayuan

Mga pangkat ng URL

Maaari ring makaapekto ang mga CWV sa iyong badyet sa pag -crawl. Halimbawa, ang mabagal na pag -load ng mga pahina ay maaaring kumain sa iyong badyet ng pag -crawl dahil ang Google ay may isang limitadong oras para sa mga gawain ng pag -crawl. Kung mabilis ang pag -load ng iyong mga pahina, ang Google ay maaaring mag -crawl ng higit sa mga ito sa loob ng limitadong oras na mayroon ito. Katulad nito, napakaraming mga ulat ng katayuan ng error ay maaaring mabagal ang pag -crawl at basura ang iyong badyet sa pag -crawl.

Para sa mas masusing pagsusuri ng mga CWV, tingnan ang aming module sa karanasan sa pahina .

8. Gumamit ng Third-Party Crawler

Ang isang third-party crawler tulad ng Semrush , SiteChecker.pro o Screaming Frog ay nagbibigay-daan sa mga web developer na i-audit ang lahat ng mga URL ng isang site at makilala ang mga potensyal na isyu.

Ang mga third-party na crawler ay maaaring magamit upang makilala:

Sirang mga link

Dobleng nilalaman

Nawawala ang mga pamagat ng pahina

Nag-aalok ang mga program na ito ng ulat sa istatistika ng pag-crawl upang makatulong na i-highlight ang mga problema na maaaring hindi ng sariling mga tool ng Google.

Ang pagpapabuti ng structured data at pagbabawas sa mga isyu sa kalinisan ay mag-streamline sa trabaho ng Googlebot sa pag-crawl at pag-index ng isang site.

Inirerekumenda namin ang mga sumusunod na pinakamahusay na kasanayan kapag gumagamit ng mga third-party crawler:

Tularan ang Googlebot, sa pamamagitan ng mga setting ng pag-crawl sa paghahanap, upang maiwasang ma-block mula sa mga provider ng pagho-host at upang maayos na matukoy at ayusin ang lahat ng teknikal na isyu.

Debug nawawalang mga pahina mula sa isang pag -crawl gamit ang mahusay na gabay na ito mula sa pagsisigaw ng palaka .

9. Monitor ang mga parameter ng URL

Mga parameter ng URL — ang seksyon ng web address na sumusunod sa “?” — ay ginagamit sa isang pahina para sa iba't ibang dahilan, kabilang ang pag-filter, pagination at paghahanap.

Bagama't mapapalakas nito ang karanasan ng user, maaari rin itong magdulot ng mga isyu sa pag-crawl kapag parehong ibinalik ng base URL at ng isa na may mga parameter ang parehong nilalaman. Ang isang halimbawa nito ay ang "http://mysite.com" at "http://mysite.com?id=3" na nagbabalik sa eksaktong parehong pahina.

Ang mga parameter ay nagbibigay-daan sa isang site na magkaroon ng halos walang limitasyong bilang ng mga link — tulad ng kapag ang isang user ay maaaring pumili ng mga araw, buwan at taon sa isang kalendaryo. Kung pinapayagan ang bot na i-crawl ang mga pahinang ito, ang badyet sa pag-crawl ay mauubos nang walang pangangailangan.

Maaari itong maging isang isyu para sa pag -aalala kung ang iyong website ay gumagamit ng faceted navigation o session identifier na maaaring mag -spaw ng maraming mga dobleng pahina na, kung gumapang, ay maaaring humantong sa isang pag -aaksaya ng badyet ng pag -crawl.

Maaari ring magresulta ang mga dobleng URL kung mayroon kang mga naisalokal na bersyon ng iyong webpage sa iba't ibang wika, at ang nilalaman sa mga pahinang ito ay hindi isinalin.

Inirerekumenda namin ang sumusunod upang matugunan ito:

Gumamit ng mga robot.txt upang hindi payagan ang Googlebot mula sa pag -crawl ng mga dobleng pahina.

Gamitin ang<hreflang> Tag upang tukuyin ang mga pagkakaiba -iba ng wika ng nilalaman. Ang tab na Hreflang ay nagsasabi sa crawler na ang pahina ay isang pagkakaiba -iba ng rehiyon ng pangunahing nilalaman, sa gayon pinipigilan ang crawler mula sa pagrehistro nito bilang isang dobleng kung sakaling hindi pa ito isinalin.

Narito kung paano ang isang simple<hreflang> Mukhang sa iyong source code:

https://examplesite.com/news/hreflang-tags masigi />

Sinasabi nito sa crawler na ang tinukoy na URL ay isang variant ng Espanyol (Mexican) ng pangunahing URL, at hindi ito dapat tratuhin bilang isang dobleng.

2.6.5 Masarap magkaroon

Napag -usapan namin ang mga mahahalagang bagay ng pamamahala sa badyet ng pag -crawl. Ang mga payo na nakalista sa seksyong ito, kahit na hindi kritikal sa malusog na pamamahala ng badyet sa pag -crawl, pumunta sa isang mahabang paraan upang madagdagan ang mga pamamaraan na tinalakay dati.

Paghahawak ng mga emergency na pag -crawl

Ang isang pag -crawl ng emerhensiya ay nangyayari kapag ang Googlebot ay sumasakop sa iyong website na may higit pang mga kahilingan sa pag -crawl kaysa sa mahawakan nito. Mahalagang kilalanin ang isyu nang mabilis hangga't maaari, na maaaring gawin sa pamamagitan ng malapit na pagsubaybay sa mga log ng server at pag -crawl stats sa Google Search Console.

Kung ang isang biglaang pagsulong sa pag -crawl ay hindi pinamamahalaan sa oras, maaari itong maging sanhi ng pagbagal ng server. Ang pagbagal ng server ay tataas ang average na oras ng pagtugon para sa mga crawler at, bilang isang resulta ng mataas na oras ng pagtugon na ito, ang mga search engine ay awtomatikong mabawasan ang kanilang rate ng pag -crawl. Ito ay may problema dahil ang nabawasan na mga rate ng pag -crawl ay hahantong sa isang pagkawala sa kakayahang makita, na may mga bagong artikulo na hindi agad na gumapang.

Kung napansin mo ang pag -crawl ay ang pagbubuwis sa iyong mga server, narito ang ilang mga bagay na maaari mong gawin:

1. Limitahan ang rate ng pag -crawl

Ang Google ay may sopistikadong algorithm na kumokontrol sa rate ng pag -crawl. Kaya sa isip, ang isang tao ay hindi dapat makipag -ugnay sa rate ng pag -crawl. Gayunpaman, sa isang emergency na sitwasyon, maaari kang mag -log in sa iyong GSC account at mag -navigate sa mga setting ng rate ng pag -crawl para sa iyong pag -aari.

Kung nakikita mo ang rate ng pag -crawl doon bilang kinakalkula bilang pinakamainam, hindi mo mababago ito nang manu -mano. Ang isang espesyal na kahilingan ay kailangang isampa sa Google upang mabago ang rate ng pag -crawl.

Kung hindi ito ang kaso, maaari mo lamang baguhin ang rate ng pag -crawl sa iyong nais na halaga. Ang halagang ito ay mananatiling wasto sa loob ng 90 araw.

Kung hindi mo nais na mag -tamper sa mga rate ng pag -crawl sa GSC, maaari mo ring hadlangan ang pag -access sa pahina ng Googlebot gamit ang mga robots.txt. Ang pamamaraan na gawin ito ay ipinaliwanag dati.

2. Suriin ang rate ng pag -crawl ng site

Maaari itong tumagal ng Google hanggang sa tatlong araw upang mag -crawl sa karamihan ng mga site. Ang tanging mga pagbubukod ay ang mga site ng balita o iba pang mga site na naglalathala ng nilalaman na sensitibo sa oras na maaaring gumapang araw-araw.

Upang suriin kung gaano kadalas ang iyong mga pahina ay gumapang, subaybayan ang iyong log ng site. Kung naramdaman mo pa rin ang iyong nilalaman ay hindi gumapang nang madalas hangga't dapat, sundin ang mga hakbang na ito:

Isumite ang iyong na -update na sitemap ng balita sa Google. Ang isang sitemap ng balita ay isang sitemap na nilikha partikular mula sa Google News.

Kung nakagawa ka ng anumang mga pagbabago sa iyong sitemap ng balita, gamitin ang tool ng ping upang ipaalam sa Google ang pareho, maaari itong gawin sa pamamagitan ng pagpapadala ng isang kahilingan sa pagkuha mula sa alinman sa iyong linya ng utos o ang iyong browser sa sumusunod na address:

https://www.google.com/ping?sitemap=full_url_of_sitemap

Gamitin ang<lastmod> Tag sa Sitemaps upang ipakita kapag ang isang index na URL ay huling na -update o nabago.

3. Ibalik ang isang 503 o 429 error code

Mangyaring tandaan: Ang hakbang na ito ay dapat na tiningnan bilang ang huling aksyon na dapat gawin ng sinuman dahil nagdadala ito ng isang tiyak na antas ng peligro. Kung nakikita ng GoogleBot ang 503 at 429 na mga pagkakamali pagkatapos ay magsisimulang mag -crawl nang mas mabagal at maaaring ihinto ang pag -crawl, na humahantong sa isang pansamantalang pagbagsak sa bilang ng mga na -index na pahina.

Ang isang 503 error code ay nangangahulugan na ang server ay pansamantalang bumaba, habang ang 429 ay nangangahulugan na ang isang gumagamit ay nagpadala ng maraming mga kahilingan sa isang tiyak na oras. Ipinaalam ng mga code na ito na pansamantala ang problema, at dapat itong bumalik sa pag -crawl sa pahina sa ibang pagkakataon.

Bagaman ang isang tila menor de edad na hakbang, mahalaga ito sapagkat kung hindi alam ng Googlebot ang likas na katangian ng problema na nararanasan ng isang web page, ipinapalagay nito ang problema ay isang pangmatagalang kalikasan at maaaring markahan ang pahina na hindi matulungin, na maaaring makaapekto sa SEO.

Ang paglikha ng 503 mga code ng error ay ginagawa sa pamamagitan ng isang PHP file, na ipinasok sa loob ng umiiral na code ng mapagkukunan ng HTML ng iyong pahina kasama ang isang mensahe ng error. Kailangan mo ring magsulat ng ilang karagdagang mga linya ng HTML code na binabanggit kung kailan inaasahang babalik ang site.

Ito ang hitsura ng code para sa isang 503 na pag -redirect:

Pinagmulan

Ang paggawa ng 503 o 429 na pag -redirect ay nangangailangan ng mga advanced na kasanayan sa pag -cod ng HTML at iminumungkahi namin ang pagkonsulta sa iyong web developer bago subukan ito.

2.6.6 Iwasan ang mga karaniwang pitfalls na ito

Mayroon kaming isang mahusay na pag -unawa sa kung ano ang isang pag -crawl na badyet at kung paano mai -optimize ito. Gayunpaman, ang pag -alam kung ano ang hindi dapat gawin pagdating sa mga badyet ng pag -crawl ay pantay na mahalaga.

Narito ang ilang mga karaniwang pitfalls upang maiwasan upang matiyak na masulit mo ang badyet ng pag -crawl ng iyong website:

Sinusubukang dagdagan ang rate ng pag -crawl nang walang magandang dahilan

Ang dalas na kung saan ang Google ay gumagapang sa iyong website ay natutukoy ng mga algorithm nito, na isinasaalang -alang ang ilang mga signal na makarating sa isang pinakamainam na dalas ng pag -crawl.

Ang pagtaas ng rate ng pag -crawl ay hindi kinakailangang humantong sa mas mahusay na mga posisyon sa mga resulta ng paghahanap. Ang dalas ng pag -crawl o kahit na pag -crawl mismo ay hindi isang kadahilanan sa pagraranggo at sa sarili nito.

Paulit -ulit na nagsumite ng lumang nilalaman para sa pag -crawl

Hindi mas gusto ng Google ang mas malalakas na nilalaman sa mas matandang nilalaman. Ang Google ay nagraranggo ng mga pahina batay sa kaugnayan at kalidad ng nilalaman nang hindi isinasaalang -alang kung ito ay matanda o bago. Kaya, hindi kinakailangan na panatilihin silang gumapang.

Gamit ang direktiba ng pag-aalis ng crawl upang makontrol ang Googlebot

Ang direktiba ng pag-aalis ng crawl ay hindi makakatulong upang makontrol ang Googlebot. Kung nais mong pabagalin ang dalas ng pag -crawl bilang tugon sa labis na pag -crawl na labis na labis ang iyong website, sumangguni sa mga tagubilin na ibinigay sa seksyon sa itaas.

Ang pagkakaroon ng isang mabagal na website ng pag -load

Ang bilis ng paglo -load ng iyong website ay maaaring makaapekto sa iyong badyet ng pag -crawl. Ang isang mabilis na pahina ng pag -load ay nangangahulugang maaaring ma -access ng Google ang karagdagang impormasyon sa parehong bilang ng mga koneksyon.

Para sa mga tip sa pag -load ng bilis ng pag -optimize, tingnan ang aming module sa karanasan sa pahina .

Gamit lamang ang mga link na nofollow upang i -block ang mga crawler

Ang mga link sa nofollow ay maaari pa ring magtapos na nakakaapekto sa iyong badyet ng pag -crawl dahil maaari pa ring tapusin ang pag -crawl. Sa kabilang banda, ang mga link na ang mga robot.txt ay hindi pinayagang walang epekto sa badyet ng pag -crawl.

Gayundin, ang mga kahaliling URL at nilalaman ng JavaScript ay maaaring magtapos sa pag -crawl, pag -ubos ng iyong badyet ng pag -crawl, kaya mahalaga na higpitan ang pag -access sa kanila sa pamamagitan ng pag -alis ng mga ito o sa pamamagitan ng paggamit ng mga robot.txt.

2.6.7 Mga kilos at takeaways

Ang badyet ng pag -crawl ay isang mahalagang mapagkukunan at kritikal na na -optimize mo ito. Ang mga isyu sa pag -crawl at pag -index ay maaaring makaapekto sa pagganap ng iyong nilalaman, lalo na kung ang iyong website ay may malaking bilang ng mga pahina.

Ang dalawang pinaka -pangunahing operasyon na kasangkot sa pag -optimize ng badyet ng pag -crawl ay pinapanatili ang iyong pag -update ng sitemap at regular na pagsubaybay sa mga isyu sa pag -index mula sa ulat ng GSC Crawl Stats at mga file ng log.

Mahalagang malaman kung paano mag-apply ng mga pinakamahusay na kasanayan sa pamamahala ng pag-crawl kapwa sa panahon ng pag-rollout ng mga bagong tampok ng website at kapag nangyari ang mga error na naganap.

Nakaraang Modyul

Balik sa Kabanata

Susunod na Modyul

Active ngayon

6

Bilis at Dalas ng Pag-crawl

Tingnan ang higit pa

1

Disenyo at Layout