W świecie SEO można natknąć się na wiele technicznych pojęć, które z pozoru brzmią skomplikowanie, ale po rozłożeniu na czynniki pierwsze okazują się całkiem zrozumiałe. Jednym z takich pojęć jest Crawl Budget, czyli budżet indeksowania. Choć może wydawać się to terminem zarezerwowanym dla specjalistów technicznych, w rzeczywistości to zagadnienie, które warto choć raz zrozumieć – szczególnie jeśli prowadzisz stronę internetową i zależy Ci na widoczności w Google.
Google codziennie przeszukuje setki miliardów stron. Nie jest jednak w stanie odwiedzić każdej z nich w całości i tak często, jakby chciało. Crawl Budget to nic innego jak ograniczenie tego, jak wiele Twoich podstron robot Googlebot może odwiedzić i zaindeksować w określonym czasie. Niektóre strony otrzymują od Google więcej „uwagi”, inne mniej. Wszystko zależy od wielu czynników — w tym jakości strony, jej rozmiaru czy stanu technicznego.
Chociaż pojęcie Crawl Budget funkcjonowało w środowisku SEO od dłuższego czasu, to Google pierwszy raz opublikowało oficjalne wyjaśnienie tego zagadnienia w 2017 roku. Wówczas doprecyzowano, że budżet indeksowania jest sumą dwóch kluczowych aspektów: limitu szybkości (czyli tego, jak często robot może odwiedzać stronę bez przeciążania serwera) oraz zapotrzebowania na indeksowanie (czyli tego, jak bardzo robot „chce” odwiedzać konkretną witrynę).
Crawl Budget (budżet indeksowania witryny) to umowna definicja dotycząca zachowania robotów indeksujących Google na analizowanej stronie. Im strona jest bardziej przyjazna Googlebotom, tym szybciej wszystkie elementy strony są analizowane i dodawane do indeksu. Crawl Budget to tak na prawdę dbanie o poprawne linkowanie wewnętrzne oraz SEO.

Z punktu widzenia właściciela strony najważniejsze jest to, że budżet ten może działać na naszą korzyść – lub wręcz przeciwnie. Strona, która działa wolno, generuje błędy, zawiera mnóstwo zduplikowanych lub bezwartościowych podstron, może nie wykorzystać swojego Crawl Budgetu w pełni. Googlebot nie będzie wtedy w stanie regularnie odwiedzać najważniejszych treści, co może skutkować brakiem indeksacji kluczowych podstron. A skoro strona nie zostanie zaindeksowana, nie pojawi się w wynikach wyszukiwania.
Dobra wiadomość jest taka, że większość małych i średnich stron internetowych — jak witryny firm lokalnych, blogi branżowe czy sklepy z ograniczonym asortymentem — raczej nie musi martwić się o budżet indeksowania. W praktyce problem zaczyna się dopiero wtedy, gdy strona rozrasta się do kilku, kilkunastu czy kilkudziesięciu tysięcy adresów URL. Wtedy zaczynają mieć znaczenie takie szczegóły, jak jakość struktury wewnętrznej, obecność przekierowań, stan pliku robots.txt czy występowanie błędów 404.
Nie istnieje jedno miejsce, w którym można sprawdzić swój Crawl Budget w postaci jednej liczby, ale można go pośrednio monitorować. Narzędziem, które zdecydowanie warto znać, jest Google Search Console. W zakładce „Statystyki indeksowania” znajdziesz dane pokazujące, jak często Googlebot odwiedza Twoją witrynę, ile danych pobiera i czy występują jakieś problemy techniczne podczas tych wizyt. To wystarczający punkt startowy, by zorientować się, czy wszystko działa, jak należy.
Choć Crawl Budget może wydawać się złożonym tematem, jego podstawowe założenie jest proste: chodzi o to, żeby nie marnować uwagi Googlebota. Jeśli robot trafia na wiele błędów, zapętlonych przekierowań, powielonych stron czy bardzo wolnych zasobów, przestaje być zainteresowany kolejnymi odwiedzinami. Z drugiej strony, dobrze uporządkowana strona z wartościową treścią i czytelną strukturą pozwala Google’owi szybko zrozumieć, co jest ważne, a co można pominąć.
Czy warto się tym przejmować? To zależy. Jeżeli masz prostą stronę z kilkoma zakładkami i wszystko działa sprawnie, prawdopodobnie nie musisz zaprzątać sobie tym głowy. Ale jeśli rozwijasz sklep online z dużą liczbą produktów, prowadzisz serwis z rozbudowaną strukturą kategorii lub dynamicznie tworzysz nowe treści, optymalizacja Crawl Budgetu może przynieść konkretne korzyści. Chodzi nie tylko o lepszą widoczność, ale i o większą kontrolę nad tym, co Google naprawdę widzi na Twojej stronie.
Na koniec warto pamiętać, że Crawl Budget to tylko jeden z wielu elementów układanki, jaką jest SEO. Jednak to jeden z tych elementów, który — choć niewidoczny gołym okiem — może mieć bardzo realny wpływ na to, jak Twoja strona radzi sobie w wyszukiwarce.
Crawl rate limit
Można przetłumaczyć to na współczynnik indeksacji. Googleboty starają się być dobrymi robotami i nie powodować nadmiernego obciążania infrastruktury strony. Współczynnik indeksacji definiuje jak bardzo Googleboty mogą zaangażować się w pobieranie i analizę stron podczas jednej sesji.
Jak Googleboty analizują na co mogą sobie pozwolić podczas analizy? Do tego celu wykorzystywane są różne elementy. Najważniejsze jednak to:
Crawl Health (zdrowie indeksowanie witryny) – jeżeli strona odpowiada szybko (szybko się wczytuje) a strony nie zwracają żadnych błędów, limit ilości jednoczesnych połączeń GoogleBotów ze stroną może wzrosnąć (a co za tym idzie – prędkość indeksacji wzrasta)
Limity ustawione w Google Search Console – Google przestrzega ustawień dokonanych w Google Search Console. Ustawienie suwaka na maksimum nie sprawi jednak, że strona będzie szybciej indeksowania (jeżeli nie będzie takiej możliwości)
Crawl demand
Tłumacz jako: żądanie indeksowania witryny. Jeżeli nie damy znać Googlebotom, że nasza strona powinna zostać zaindeksowania, zaangażowanie robotów może być niewielkie. Aby zachęcić Googleboty do analizy naszej strony, możemy wykonać następujące działania:
Zadbać o popularność strony. Im strona jest popularniejsza w Internecie tym Google więcej czasu będzie spędzał na jej analizie. Google chciałby, aby informacje o popularnych stronach były jak najbardziej aktualne w ich indeksie.
Dbanie Google o aktualność danych. Jeżeli w adresacji naszej strony zachodząc częste zmiany, Google częściej będzie odwiedzał naszą stronę, aby ją przeanalizować. Może to dotyczyć tak stron z user generated content jak i wszelkiego rodzaju przekierowań.
Dodanie nowych linków site-wide spowoduje zainicjowanie nowych żądań indeksacji istniejących podstron zamiast indeksowania nowych URL w obrębie strony.
Działania zawarte w ramach współczynnika indeksacji oraz żądań indeksacji można zdefiniować jako część Crawl Budget odpowiedzialną za ilość adresów które Googleboty chcą i mogą przeanalizować.
Jakie czynniki wpływają na Crawl Budget witryny?
Google poprzez analizę dostępnych danych doszło do wniosku, że posiadanie wielu niskiej jakości, nic niewnoszących podstron może negatywnie wpłynąć na crawl budget. Najbardziej zaniepokojeni powinni być webmasterzy których strony wpadają do jednej z tych kategorii”
- Nawigacja fasetowa oraz identyfikują użytkownika poprzez sesję
- Duplikacja treści wewnątrz strony
- „Miękkie” błędy na podstronach
- Shakowane strony
- Nieskończone ilości podstron
- Niskiej jakości (lub wręcz spam) treść
Marnowanie mocy przerobowych przez roboty Google na tego typu stronach może zostać szybko ukrócone na dłuższy czas. Skutkować to może bardzo wolną indeksacją kolejnych nowych podstron.
Najczęściej zadawane pytania w kontekście Crawl Budget
Pytanie: Czy prędkość witryny ma wpływ na budżet indeksowania? Jak wpływają na to błędy?
Odpowiedź: Sprawienie, że strona działać będzie szybko będzie miało wpływ na odczucia użytkownika (UX) ale także zwiększy crawl budget Twojej strony.
Dla GoogleBotów, prędkość wczytywania strony jest oznaką „zdrowia” strony wskazującą jak wiele połączeń może wykonać GoogleBot ze stroną w jednym momencie. Z drugiej strony, nawet szybko wczytująca się strona która co rusz zwraca kod 5XX będzie skutecznie obniżała swój budżet indeksacji.
Jeżeli chcesz zadbać o swój crawl budget, zadbaj też o monitoring indeksacji w Google Search Console.
Pytanie: Czy indeksacja jest czynnikiem rankingowym?
Odpowiedź: Większa ilość analizowanych podstron nie wpłynie bezpośrednio na widoczność strony w wynikach wyszukiwania. Pamiętaj, że Google posiada setki czynników rankingowych które determinują pozycję strony. Indeksacja jest tylko początkiem walki o lepszą widoczność.
Pytanie: Czy embeddowana treść oraz wszelkiej maści alterne
atywne URLe wliczają się do Crawl Budget?
Odpowiedź: Generalnie, wszystko co Google jest w stanie przeanalizować wlicza się do Crawl Budget. Alternatywne URLe (canonical, hreflang), linki AMP czy nawet ładowanie plików CSS oraz JavaScript może być brane pod uwagę w wyliczaniu Crawl Budget. Przykładowo, długie łańcuchy przekierowań mogą wpływać na budżet negatywnie.
Pytanie: Czy mogę jakkolwiek kontrolować proces indeksacji poprzez dyrektywę „crawl-delay”?
Odpowiedź: Niestandardowe dyrektywy „crawl-delay” dodawane do pliku robots.txt nie są brane pod uwagę przez Google.
Pytanie: Czy linki ze znacznikiem nofollow wpływają na budżet indeksacji?
Odpowiedź: To zależy. Każdy adres, który jest osiągalny wpływa na crawl budget, nawet jeżeli posiada on przypisany znacznik nofollow. Jeżeli chcesz zadbać o proces analizy strony (crawlowania) powinieneś zapoznać się z artykułem z 2009 roku.
Jeżeli masz jakieś pytania dotyczą Crawl Budget i w ogóle odnośnie swojej strony internetowej czy działania Google, odezwij się na Forum Google dla Webmasterów.
Oryginalny wpis został dodany przez Gary’ego z zespołu Crawling and Indexing teams.
źródło obrazka: https://cdn.searchenginejournal.com/wp-content/uploads/2016/10/sej-crawl-760×400.png
Dodaj komentarz