Taktik pertumbuhan penerbit untuk musim pilihan raya | WEBINAR
Selepas melalui modul ini, anda harus memahami belanjawan rangkak, cara ia diperuntukkan ke tapak web dan cara mengoptimumkannya.
Tempoh Video
23:27
Jawab Kuiz
Ambil Kuiz Modul Semasa
Bahan
Templat sedia untuk digunakan
Sumber
Laporan dan Sumber
0 daripada 9 soalan selesai
Soalan:
Anda telah pun menyelesaikan kuiz sebelum ini. Oleh itu anda tidak boleh memulakannya semula.
Kuiz sedang dimuatkan…
Anda mesti mendaftar masuk atau mendaftar untuk memulakan kuiz.
Anda mesti melengkapkan perkara berikut terlebih dahulu:
0 dari 9 soalan dijawab dengan betul
Masa anda:
Masa telah berlalu
Anda telah mencapai 0 daripada 0 mata, ( 0 )
Mata Diperolehi: 0 daripada 0 , ( 0 )
0 Esei(s) Belum Selesai (Possible Point(s): 0 )
Berapakah bajet merangkak?
Ukuran seberapa kerap Google ingin kembali (merangkak) halaman/laman web tertentu dipanggil ____.
Belanjawan merangkak secara amnya hanya menjadi kebimbangan bagi penerbit yang mempunyai lebih daripada berapa banyak halaman di laman web mereka?
Di mana anda boleh mencari statistik merangkak?
Apa itu robots.txt?
Antara berikut yang manakah dapat mengurangkan anggaran merangkak anda?
Antara tugas berikut yang manakah crawler pihak ketiga seperti Semrush atau menjerit katak tidak dapat dilakukan?
Apa yang berikut
Apakah maksud kod ralat 503?
2.6.1 Apakah Belanjawan Merangkak?
Belanjawan rangkak ialah bilangan halaman di tapak web anda yang akan dirangkak oleh perangkak web dalam jangka masa tertentu.
Setiap kali anda menekan butang terbitkan, Google perlu merangkak dan mengindeks kandungan untuk mula muncul dalam hasil carian. Memandangkan skala dan volum kandungan di internet, merangkak menjadi sumber berharga yang perlu dianggarkan dan dicatuan untuk penggunaan yang paling cekap.
Secara ringkasnya, sukar untuk Google merangkak dan mengindeks setiap halaman di internet setiap hari. Jadi, Google merangkak setiap tapak web mengikut belanjawan yang ditetapkan.
Belanjawan rangkak diperuntukkan kepada tapak web berdasarkan dua faktor — had rangkak dan permintaan rangkak.
Ini ialah kapasiti dan/atau kesediaan tapak web untuk dirangkak.
Tidak setiap laman web dibina untuk dirangkak setiap hari. Merangkak melibatkan Googlebot menghantar permintaan ke pelayan tapak web anda yang, jika dilakukan terlalu kerap, boleh menekankan kapasiti pelayan.
Selain itu, bukan setiap penerbit mahu tapak mereka dirangkak secara berterusan.
Permintaan rangkak ialah ukuran kekerapan halaman tertentu mahu (semula) dirangkak. Halaman atau halaman popular yang kerap dikemas kini perlu dirangkak dan dirangkak semula dengan lebih kerap.
Jika Google tidak dapat merangkak dan mengindeks kandungan anda, kandungan itu tidak akan dipaparkan pada hasil carian.
Walau bagaimanapun, belanjawan rangkak biasanya hanya membimbangkan penerbit sederhana hingga besar yang mempunyai lebih daripada 10,000 halaman di tapak web mereka. Penerbit yang lebih kecil tidak perlu terlalu risau tentang belanjawan merangkak.
Penerbit dengan 10,000 atau lebih halaman di laman web mereka, bagaimanapun, akan mahu mengelakkan halaman Googlebot merangkak yang tidak penting. Meletakkan belanjawan merangkak anda pada kandungan yang tidak relevan atau kurang penting bermakna halaman nilai yang lebih tinggi mungkin tidak merangkak.
Lebih -lebih lagi, penerbit berita akan ingin berhati -hati mengenai belanjawan merangkak yang dibazirkan memandangkan Crawling adalah salah satu daripada tiga cara Google News mendapati kandungan segar tepat pada masanya. Dua yang lain adalah dengan menggunakan SiteMaps dan Google Publisher Centre, yang telah kami pelajari lebih lanjut di Modul Pusat Google News dan Google Pusat Google
Mengoptimumkan kekerapan dan kelajuan yang mana Googlebot merangkak laman web anda melibatkan pemantauan pelbagai pembolehubah. Kami bermula dengan menyenaraikan faktor -faktor yang paling penting yang terlibat dalam mengoptimumkan belanjawan dan kekerapan merangkak.
Kedua -dua taktik yang paling berguna untuk memantau bagaimana kandungan anda merangkak adalah menganalisis fail log dan laporan statistik merangkak Google Search (GSC).
Fail log adalah dokumen teks yang merekodkan setiap aktiviti di pelayan laman web anda. Ini termasuk semua data mengenai permintaan merangkak, permintaan halaman, permintaan imej, permintaan untuk fail JavaScript dan sebarang sumber lain yang diperlukan untuk menjalankan laman web anda.
Untuk tujuan SEO teknikal, analisis fail log membantu menentukan banyak maklumat berguna tentang merangkak URL, termasuk tetapi tidak terhad kepada:
Cara melakukan ini
Analisis fail log adalah tugas yang memerlukan beberapa tahap kebiasaan teknikal dengan backend laman web. Atas sebab ini, kami mengesyorkan menggunakan perisian Log File Analyzer. Terdapat beberapa alat analisis log percuma dan berbayar yang tersedia seperti Graylog , Loggly , Stack Elastic , Screaming Frog Log Analyzer dan Nagios untuk menamakan beberapa.
Jika anda seorang pemaju atau pentadbir sistem yang berpengalaman, anda juga boleh melakukan analisis fail log secara manual juga.
Untuk melakukan ini, ikuti langkah -langkah ini:
Sebaik sahaja anda telah memuat turun fail log, anda boleh menukar pelanjutan ke .csv dan membukanya menggunakan Microsoft Excel atau Google Sheets. Seperti yang kita katakan, bagaimanapun, pendekatan ini memerlukan tahap kepakaran tertentu untuk memahami fail log.
Anda juga boleh mengakses fail log menggunakan klien FTP dengan memasukkan laluan fail log. Laluan fail log biasa kelihatan seperti ini:
Nama pelayan (contohnya, Apache) /var/log/access.log
Walau bagaimanapun, lebih mudah untuk menggunakan alat analisis log sebaliknya. Sebaik sahaja anda telah memuat naik fail log ke dalam alat, anda boleh menyusun data menggunakan beberapa penapis. Sebagai contoh, anda dapat melihat URL mana yang paling kerap diakses oleh Googlebot.
Anda juga akan dapat melihat sama ada Googlebot telah mengakses URL yang tidak penting atau rendah seperti URL navigasi faceted, URL pendua, dan lain-lain. Mengenalpasti ini adalah penting kerana mereka membuang belanjawan merangkak anda.
Lihat tangkapan skrin di bawah, diambil dari menganalisis fail Log SEO menjerit, untuk melihat apa yang kami maksudkan.
GSC menyediakan pemilik laman web dengan data dan pandangan yang komprehensif tentang bagaimana Google merangkak kandungan mereka. Ini termasuk laporan terperinci mengenai:
GSC juga mudah difahami untuk memahami graf dan carta untuk menyediakan pemilik laman web dengan lebih banyak maklumat. Tangkapan skrin di bawah adalah apa yang dilaporkan oleh statistik merangkak tipikal mengenai GSC.
GSC juga membolehkan anda tahu jika ada masalah dengan merangkak. Ia memeriksa beberapa kesilapan dan memberikan setiap kod. Kesalahan yang paling biasa yang disemak oleh GSC termasuk:
Laporan GSC juga menunjukkan berapa banyak halaman yang telah terjejas oleh setiap ralat di samping status pengesahan.
Cara melakukan ini
Berikut adalah cara anda boleh mengakses laporan Statistik GSC Crawl untuk laman web atau laman web anda:
Ini termasuk:
Sekarang kita tahu bahawa belanjawan merangkak adalah sumber yang berharga yang penggunaannya mesti dioptimumkan untuk hasil terbaik. Berikut adalah beberapa teknik untuk melakukan ini:
Kandungan pendua mungkin akan merangkak secara berasingan, yang membawa kepada pembaziran bajet merangkak. Untuk mengelakkan ini daripada berlaku, sama ada menyatukan halaman pendua di laman web anda ke dalam satu, atau memadam halaman pendua.
Robots.txt adalah fail yang menyajikan beberapa tujuan, salah satunya adalah untuk memberitahu Googlebot untuk tidak merangkak halaman tertentu atau bahagian halaman. Ini adalah strategi penting yang boleh digunakan untuk mencegah Googlebot daripada merangkak kandungan atau kandungan bernilai rendah yang tidak memerlukan merangkak.
Berikut adalah beberapa amalan terbaik apabila menggunakan robots.txt untuk mengoptimumkan bajet merangkak:
Cara melakukan ini
Mewujudkan dan melaksanakan fail robots.txt untuk menyekat akses Googlebot memerlukan pengetahuan pengekodan. Berikut adalah langkah -langkah yang terlibat:
Fail robots.txt biasa akan mempunyai elemen berikut:
Berikut adalah apa yang kelihatan seperti robots.txt yang kelihatan seperti.
Kod ini bermaksud bahawa ejen pengguna - Googlebot dalam contoh ini - tidak dibenarkan merangkak sebarang URL yang bermula dengan " http://www.example.com/nogooglebot/ ".
Kami mencadangkan mendapatkan bantuan pakar jika anda tidak merasa selesa membuat dan memuat naik fail robots.txt sendiri.
Bot merangkak tiba di tapak dengan peruntukan umum jumlah halaman yang akan dirangkak. Peta laman XML secara berkesan mengarahkan bot untuk membaca URL yang dipilih, memastikan penggunaan belanjawan tersebut dengan berkesan.
Ambil perhatian bahawa prestasi kedudukan halaman bergantung pada beberapa faktor termasuk kualiti kandungan dan pautan dalaman/luaran. Pertimbangkan untuk memasukkan hanya halaman peringkat teratas dalam peta. Imej boleh diperuntukkan peta laman XML mereka sendiri.
Ikuti cadangan ini untuk memastikan pelaksanaan sitemap XML yang optimum:
Untuk melihat lebih terperinci di sitemaps, rujuk kepada modul khusus kami mengenai topik ini .
Pautan dalaman Melaksanakan tiga fungsi penting:
Oleh itu, untuk merangkak yang cekap, adalah penting untuk melaksanakan strategi penghubung dalaman yang cekap. Untuk lebih lanjut mengenai pautan dalaman, rujuk modul kursus terperinci kami di sini.
Sekiranya laman web berjalan pada platform hosting bersama, belanjawan merangkak akan dikongsi dengan laman web lain yang berjalan di platform tersebut. Penerbit besar mungkin mendapati hosting bebas untuk menjadi alternatif yang berharga.
Sebelum menaik taraf hosting anda untuk menyelesaikan beban trafik bot, terdapat beberapa faktor yang patut dipertimbangkan yang mungkin memberi kesan kepada pelayan sebaliknya.
Untuk lebih lanjut mengenai kelebihan CDN, lihat modul pengalaman halaman .
Apabila Googlebot mendarat di halaman web, ia memaparkan semua aset pada halaman tersebut, termasuk Javascript. Walaupun merangkak HTML agak mudah, Googlebot mesti memproses Javascript beberapa kali agar dapat memaparkannya dan memahami kandungannya.
Ini boleh menghabiskan belanjawan rangkak Google dengan cepat untuk tapak web. Penyelesaiannya adalah untuk melaksanakan rendering Javascript pada bahagian pelayan.
Cara melakukan ini
Mengatasi JavaScript dalam kod sumber laman web anda memerlukan kepakaran pengekodan dan kami mengesyorkan berunding dengan pemaju web jika anda merancang untuk membuat sebarang perubahan sedemikian. Yang mengatakan, berikut adalah beberapa garis panduan mengenai apa yang perlu dicari ketika cuba mengoptimumkan penggunaan JavaScript.
CWV adalah ukuran prestasi halaman yang secara langsung mempengaruhi bagaimana halaman anda berfungsi dalam kedudukan carian.
Laporan CWV GSC Kumpulan Kumpulan URL di bawah tiga kategori:
CWV juga boleh memberi kesan kepada bajet merangkak anda. Sebagai contoh, halaman pemuatan perlahan boleh memakan belanjawan merangkak anda kerana Google mempunyai masa yang terhad untuk tugas merangkak. Jika halaman anda dimuatkan dengan cepat, Google boleh merangkak lebih banyak daripada mereka dalam masa yang terhad. Begitu juga, terlalu banyak laporan status ralat boleh melambatkan merangkak dan membuang belanjawan merangkak anda.
Untuk pemeriksaan CWV yang lebih teliti, lihat modul kami pada pengalaman halaman .
Crawler pihak ketiga seperti Semrush , Sitechecker.Pro atau menjerit katak membolehkan pemaju web mengaudit semua URL tapak dan mengenal pasti isu-isu yang berpotensi.
Crawler pihak ketiga boleh digunakan untuk mengenal pasti:
Program ini menawarkan laporan statistik rangkak untuk membantu menyerlahkan masalah yang mungkin tidak dilakukan oleh alatan Google sendiri.
Memperbaik data berstruktur dan mengurangkan isu kebersihan akan menyelaraskan tugas Googlebot merangkak dan mengindeks tapak.
Kami mengesyorkan amalan terbaik berikut apabila menggunakan crawler pihak ketiga:
Parameter URL — bahagian alamat web yang mengikuti “?” — digunakan pada halaman untuk pelbagai sebab, termasuk penapisan, penomboran dan carian.
Walaupun ini boleh meningkatkan pengalaman pengguna, ia juga boleh menyebabkan isu merangkak apabila kedua-dua URL asas dan URL dengan parameter mengembalikan kandungan yang sama. Contoh ini ialah "http://mysite.com" dan "http://mysite.com?id=3" yang mengembalikan halaman yang sama.
Parameter membenarkan tapak mempunyai bilangan pautan yang hampir tidak terhad — seperti apabila pengguna boleh memilih hari, bulan dan tahun pada kalendar. Jika bot dibenarkan merangkak halaman ini, belanjawan rangkak akan digunakan sia-sia.
Ini terutamanya menjadi masalah untuk kebimbangan jika laman web anda menggunakan navigasi atau pengenal sesi yang boleh ditanam yang boleh menanam beberapa halaman pendua yang, jika merangkak, boleh menyebabkan pembaziran bajet merangkak.
URL Duplikat juga boleh menghasilkan jika anda mempunyai versi setempat laman web anda dalam bahasa yang berbeza, dan kandungan di halaman ini belum diterjemahkan.
Kami mengesyorkan yang berikut untuk menangani ini:
Inilah caranya sederhana<hreflang> Nampaknya dalam kod sumber anda:
https://examplesite.com/news/hreflang-tags "/>
Ini memberitahu crawler bahawa URL yang ditentukan adalah varian Sepanyol (Mexico) dari URL utama, dan ia tidak boleh dianggap sebagai pendua.
Kami telah membincangkan keperluan pengurusan bajet merangkak. Penunjuk yang disenaraikan dalam bahagian ini, walaupun tidak penting untuk pengurusan bajet merangkak yang sihat, pergi jauh ke arah menambah teknik yang dibincangkan sebelumnya.
Kecemasan merangkak berlaku apabila Googlebot mengatasi laman web anda dengan lebih banyak permintaan merangkak daripada yang dapat dikendalikan. Adalah penting untuk mengenal pasti isu secepat mungkin, yang boleh dilakukan dengan memantau log pelayan dan merangkak statistik dalam konsol carian Google.
Sekiranya lonjakan secara tiba -tiba merangkak tidak diuruskan dalam masa, ia boleh menyebabkan pelayan melambatkan. Kelembapan pelayan akan meningkatkan masa tindak balas purata untuk crawler dan, akibat masa tindak balas yang tinggi ini, enjin carian akan secara automatik mengurangkan kadar merangkak mereka. Ini bermasalah kerana kadar merangkak yang dikurangkan akan menyebabkan kerugian dalam penglihatan, dengan artikel -artikel baru tidak merangkak segera.
Sekiranya anda melihat mengenai merangkak adalah menafikan pelayan anda, di sini beberapa perkara yang boleh anda lakukan:
Google mempunyai algoritma canggih yang mengawal kadar merangkak. Jadi idealnya, seseorang tidak boleh merosakkan kadar merangkak. Walau bagaimanapun, dalam keadaan kecemasan, anda boleh log masuk ke akaun GSC anda dan menavigasi ke tetapan kadar merangkak untuk harta anda.
Jika anda melihat kadar merangkak di sana sebagai dikira sebagai optimum, anda tidak akan dapat mengubahnya secara manual. Permintaan khas perlu difailkan dengan Google untuk menukar kadar merangkak.
Jika ini tidak berlaku, anda hanya boleh menukar merangkak kadar diri anda kepada nilai yang anda inginkan. Nilai ini akan tetap sah selama 90 hari.
Sekiranya anda tidak mahu merosakkan kadar merangkak di GSC, anda juga boleh menyekat akses ke halaman oleh Googlebot menggunakan robots.txt. Prosedur untuk melakukan ini telah dijelaskan sebelum ini.
Ia boleh mengambil Google sehingga tiga hari untuk merangkak kebanyakan laman web. Satu-satunya pengecualian ialah laman berita atau laman web lain yang menerbitkan kandungan sensitif masa yang boleh merangkak setiap hari.
Untuk memeriksa berapa kerap halaman anda sedang merangkak, memantau log tapak anda. Sekiranya anda masih merasakan kandungan anda tidak merangkak seberapa kerap yang sepatutnya, ikuti langkah -langkah ini:
https://www.google.com/ping?sitemap=full_url_of_sitemap
Sila ambil perhatian: Langkah ini harus dilihat sebagai tindakan terakhir yang perlu diambil oleh sesiapa sahaja kerana ia membawa tahap risiko tertentu. Jika Googlebot melihat 503 dan 429 kesilapan maka ia akan mula merangkak lebih perlahan dan boleh menghentikan merangkak, yang membawa kepada penurunan sementara dalam bilangan halaman yang diindeks.
Kod ralat 503 bermakna pelayan sementara turun, manakala 429 bermakna pengguna telah menghantar terlalu banyak permintaan dalam masa tertentu. Kod -kod ini membolehkan Googlebot tahu bahawa masalah itu bersifat sementara, dan ia harus kembali untuk merangkak halaman pada masa yang akan datang.
Walaupun langkah yang seolah-olah kecil, ini penting kerana jika Googlebot tidak tahu sifat masalah laman web yang sedang dialami, ia menganggap masalahnya adalah sifat jangka panjang dan boleh menandakan halaman itu sebagai tidak responsif, yang boleh menjejaskan SEO.
Mewujudkan kod ralat 503 dilakukan melalui fail PHP, yang dimasukkan ke dalam kod sumber HTML sedia ada halaman anda bersama -sama dengan mesej ralat. Anda juga perlu menulis beberapa baris tambahan kod HTML yang menyebutkan apabila tapak dijangka akan kembali.
Inilah kod untuk redirect 503 seperti:
Melakukan 503 atau 429 pengalihan memerlukan kemahiran pengekodan HTML yang maju dan kami mencadangkan berunding dengan pemaju web anda sebelum mencuba ini.
Kami kini mempunyai pemahaman yang baik tentang bajet merangkak dan bagaimana untuk mengoptimumkannya. Walau bagaimanapun, mengetahui apa yang tidak perlu dilakukan ketika datang ke belanjawan merangkak adalah sama pentingnya.
Berikut adalah beberapa perangkap biasa untuk dielakkan untuk memastikan anda memanfaatkan sepenuhnya bajet merangkak laman web anda:
Kekerapan Google merangkak laman web anda ditentukan oleh algoritmanya, yang mengambil kira beberapa isyarat untuk mencapai frekuensi merangkak yang optimum.
Meningkatkan kadar merangkak tidak semestinya membawa kepada kedudukan yang lebih baik dalam hasil carian. Kekerapan merangkak atau merangkak sendiri bukan faktor ranking dalam dan dari dirinya sendiri.
Google tidak semestinya lebih suka kandungan lebih segar berbanding kandungan yang lebih lama. Google meletakkan halaman berdasarkan kaitan dan kualiti kandungan tanpa mengira sama ada ia sudah lama atau baru. Oleh itu, tidak perlu untuk terus merangkak.
Arahan Crawl-Delay tidak membantu mengawal Googlebot. Sekiranya anda ingin melambatkan kekerapan merangkak sebagai tindak balas kepada merangkak berlebihan yang menggembirakan laman web anda, rujuk arahan yang disediakan di bahagian di atas.
Kelajuan pemuatan laman web anda boleh menjejaskan belanjawan merangkak anda. Halaman pemuatan cepat bermakna Google boleh mengakses lebih banyak maklumat mengenai bilangan sambungan yang sama.
Untuk petua mengenai pengoptimuman kelajuan pemuatan, lihat modul kami pada pengalaman halaman .
Pautan Nofollow mungkin masih menjejaskan belanjawan merangkak anda kerana ini mungkin masih merangkak. Sebaliknya, pautan yang robots.txt telah tidak dibenarkan tidak memberi kesan ke atas bajet merangkak.
Juga, URL alternatif dan kandungan JavaScript mungkin akan merangkak, memakan belanjawan merangkak anda, jadi penting untuk menyekat akses kepada mereka dengan sama ada mengeluarkannya atau dengan menggunakan robots.txt.
Belanjawan merangkak adalah sumber yang berharga dan sangat penting untuk mengoptimumkannya. Isu merangkak dan pengindeksan boleh menjejaskan prestasi kandungan anda, terutamanya jika laman web anda mempunyai sejumlah besar halaman.
Kedua -dua operasi yang paling asas yang terlibat dalam mengoptimumkan belanjawan merangkak adalah menjaga sitemap anda dikemas kini dan kerap memantau isu pengindeksan dari laporan Statistik GSC Crawl dan fail log.
Adalah penting untuk belajar bagaimana untuk menggunakan amalan terbaik pengurusan merangkak semasa pelancaran ciri-ciri laman web baru dan juga apabila kesilapan satu kali berlaku.