16 stycznia, na blogu Google dla Webmasterów pojawił się wpis, który po pierwsze jest bardzo ważny dla każdego specjalisty SEO a po drugie – jest absolutnie niespodziewaną publikacją. Rzadko bowiem, zdarza się, że Google odnosi się do urban legends opisywanych przez SEOwców.
Wpis na blogu Google możecie przeczytać tutaj: What Crawl Budget Means for Googlebot. Pozwolę sobie jednak streścić ten wpis oraz dodać kilka komentarzy od siebie. Mam nadzieję, że dla tych z Was którzy nie mają czasu bawić się w tłumaczenia tekstu, ta publikacja będzie przydatna.
Po pierwsze, Google nie posiada jednej stałej definicji opisującej Crawl Budget. Można wręcz powiedzieć, że dla Google, Crawl Budget to cała filozofia i zestaw różnych czynników. Z racji tego faktu, stwierdzili, że czas najwyższy uporządkować informacje na ten temat i pokazać czym dla nich jest Crawl Buget a czym nie jest.
Crawl Budget (budżet indeksowania witryny) to umowna definicja dotycząca zachowania robotów indeksujących Google na analizowanej stronie. Im strona jest bardziej przyjazna Googlebotom, tym szybciej wszystkie elementy strony są analizowane i dodawane do indeksu. Crawl Budget to tak na prawdę dbanie o poprawne linkowanie wewnętrzne oraz SEO.
Crawl rate limit
Można przetłumaczyć to na współczynnik indeksacji. Googleboty starają się być dobrymi robotami i nie powodować nadmiernego obciążania infrastruktury strony. Współczynnik indeksacji definiuje jak bardzo Googleboty mogą zaangażować się w pobieranie i analizę stron podczas jednej sesji.
Jak Googleboty analizują na co mogą sobie pozwolić podczas analizy? Do tego celu wykorzystywane są różne elementy. Najważniejsze jednak to:
Crawl Health (zdrowie indeksowanie witryny) – jeżeli strona odpowiada szybko (szybko się wczytuje) a strony nie zwracają żadnych błędów, limit ilości jednoczesnych połączeń GoogleBotów ze stroną może wzrosnąć (a co za tym idzie – prędkość indeksacji wzrasta)
Limity ustawione w Google Search Console – Google przestrzega ustawień dokonanych w Google Search Console. Ustawienie suwaka na maksimum nie sprawi jednak, że strona będzie szybciej indeksowania (jeżeli nie będzie takiej możliwości)
Crawl demand
Tłumacz jako: żądanie indeksowania witryny. Jeżeli nie damy znać Googlebotom, że nasza strona powinna zostać zaindeksowania, zaangażowanie robotów może być niewielkie. Aby zachęcić Googleboty do analizy naszej strony, możemy wykonać następujące działania:
Zadbać o popularność strony. Im strona jest popularniejsza w Internecie tym Google więcej czasu będzie spędzał na jej analizie. Google chciałby aby informacje o popularnych stronach były jak najbardziej aktualne w ich indeksie.
Dbanie Google o aktualność danych. Jeżeli w adresacji naszej strony zachodząc częste zmiany, Google częściej będzie odwiedzał naszą stronę aby ją przeanalizować. Może to dotyczyć tak stron z user generated content jak i wszelkiego rodzaju przekierowań.
Dodanie nowych linków site-wide spowoduje zainicjowanie nowych żądań indeksacji istniejących podstron zamiast indeksowania nowych URL w obrębie strony.
Działania zawarte w ramach współczynnika indeksacji oraz żądań indeksacji można zdefiniować jako część Crawl Budget odpowiedzialną za ilość adresów które Googleboty chcą i mogą przeanalizować.
Jakie czynniki wpływają na Crawl Budget witryny?
Google poprzez analizę dostępnych danych doszło do wniosku, że posiadanie wielu niskiej jakości, nic nie wnoszących podstron może negatywnie wpłynąć na crawl budget. Najbardziej zaniepokojeni powinni być webmasterzy których strony wpadają do jednej z tych kategorii”
- Nawigacja fasetowa oraz identyfikują użytkownika poprzez sesję
- Duplikacja treści wewnątrz strony
- „Miękkie” błędy na podstronach
- Shakowane strony
- Nieskończone ilości podstron
- Niskiej jakości (lub wręcz spam) treść
Marnowanie mocy przerobowych przez roboty Google na tego typu stronach może zostać szybko ukrócone na dłuższy czas. Skutkować to może bardzo wolną indeksacją kolejnych nowych podstron.
Najczęściej zadawane pytania w kontekście Crawl Budget
Pytanie: Czy prędkość witryny ma wpływ na budżet indeksowania? Jak wpływają na to błędy?
Odpowiedź: Sprawienie, że strona działać będzie szybko będzie miało wpływ na odczucia użytkownika (UX) ale także zwiększy crawl budget Twojej strony.
Dla GoogleBotów, prędkość wczytywania strony jest oznaką „zdrowia” strony wskazującą jak wiele połączeń może wykonać GoogleBot ze stroną w jednym momencie. Z drugiej strony, nawet szybko wczytująca się strona która co rusz zwraca kod 5XX będzie skutecznie obniżała swój budżet indeksacji.
Jeżeli chcesz zadbać o swój crawl budget, zadbaj też o monitoring indeksacji w Google Search Console.
Pytanie: Czy indeksacja jest czynnikiem rankinowym?
Odpowiedź: Większa ilość analizowanych podstron nie wpłynie bezpośrednio na widoczność strony w wynikach wyszukiwania. Pamiętaj, że Google posiada setki czynników rankingowych które determinują pozycję strony. Indeksacja jest tylko początkiem walki o lepszą widoczność.
Pytanie: Czy embeddowana treść oraz wszelkiej maści alternetywne URLe wliczają się do Crawl Budget?
Odpowiedź: Generalnie, wszystko co Google jest w stanie przeanalizować wlicza się do Crawl Budget. Alternatywne URLe (canonical, hreflang), linki AMP czy nawet ładowanie plików CSS oraz JavaScript może być brane pod uwagę w wyliczaniu Crawl Budget. Przykładowo, długie łańcuchy przekierowań mogą wpływać na budżet negatywnie.
Pytanie: Czy mogę jakkolwiek kontrolować proces indeksacji poprzez dyrektywę „crawl-delay”?
Odpowiedź: Niestandardowe dyrektywy „crawl-delay” dodawane do pliku robots.txt nie są brane pod uwagę przez Google.
Pytanie: Czy linki ze znacznikiem nofollow wpływają na budżet indeksacji?
Odpowiedź: To zależy. Każdy adres który jest osiągalny wpływa na crawl budget, nawet jeżeli posiada on przypisany znacznik nofollow. Jeżeli chcesz zadbać o proces analizy strony (crawlowania) powinieneś zapoznać się z artykułem z 2009 roku.
Jeżeli masz jakieś pytania dotyczą Crawl Budget i w ogóle odnośnie swojej strony internetowej czy działania Google, odezwij się na Forum Google dla Webmasterów.
Oryginalny wpis został dodany przez Gary’ego z zespołu Crawling and Indexing teams.
źródło obrazka: https://cdn.searchenginejournal.com/wp-content/uploads/2016/10/sej-crawl-760×400.png
Dodaj komentarz