Crawl budget je anglický výraz, ktorý môžeme voľne preložiť ako prehľadávací rozpočet, alebo rozpočet na prehľadávanie webových stránok. Google má totiž určité množstvo času, ktorý je ochotný stráviť prehľadávaním vašich stránok, takže ak máte problémy s indexáciou, táto téma by vás mala zaujímať. Zistite všetko o pojme crawl budget v našom najnovšom článku.
Čo je to crawl budget?
Google neustále inovuje spôsob, akým zabezpečiť tie najrelevantnejšie stránky pre používateľov. Nedávno napríklad zaviedol nové metriky posudzovania s názvom Core Web Vitals. Napriek tomu, že sa Google zdá byť všestranný a neobmedzený, má obmedzené zdroje a je rozsiahly. Práve z toho dôvodu museli prísť na spôsob, akým definovať relevantné stránky pre používateľa efektívne. Preto si vyhradzujú určité množstvo času na prehľadávanie webových stránok. A práve to sa skrýva pod pojmom crawl budget.
Čo to teda crawl budget vlastne je? Crawl budget je určité množstvo URL adries, ktoré dokáže Google prehľadať behom určitého časového obdobia. Crawl budget sa meria počtom kusov URL adries, ktoré sú prechádzané Google robotom, tzv. crawlerom za obdobie presne jeden deň. Najdôležitejšie faktory, ktoré definujú crawl budget sú kvalita obsahu webovej stránky, rýchlosť jej načítania a štruktúra vnútorného prelinkovania v rámci webovej stránky. Google v súčasnosti tvrdí, že uprednostňuje na základe popularity webových stránok u svojich používateľov a tiež na základe aktuálnosti obsahu. Aj to je jeden z dôvodov, prečo je dôležitá aktualizácia obsahu vašej webovej stránky. Roboti Google totiž doslova „prahnú“ po nových, predtým nepoznaných URL adresách.
Ako zistiť crawl budget webu?
Crawl budget i jeho špecifických vyhľadávacích robotov (crawlerov) je možné identifikovať a analyzovať pomocou analýzy access logov na serveri. Sú to špeciálne súbory, ktoré zachytávajú všetky požiadavky vyslané na server. Analýzou access logov získame napríklad údaje ako user-agent (typ vyhľadávacieho crawlera) IP adresa, URL požiadavky spolu s ich dátumom, časom a ďalšie.
Vďaka tejto analýze získajú SEO špecialisti bližšie informácie o charaktere crawlerov, ich počte a akciách, ktoré na webe vykonali.
Príčiny problémov s crawl budgetom
Ako teda vlastne vznikajú problémy s crawl budgetom? Uvádzame vám niekoľko možných príčin:
Crawl budget a fazetové vyhľadávanie
Jednou z hlavných príčin problémov pri crawl budgete je fazetové vyhľadávanie. Toto sa týka najmä eshopových webov, prípadne rozsiahlejších webov, ktoré ponúkajú možnosť rozšíreného vyhľadávanie pomocou filtrov.
Pri rozšírených možnostiach vyhľadávania totiž môže vzniknúť naozaj obrovské množstvo URL adries. Dôsledkom je zaťažený crawl budget.
Stránky s výsledkami vyhľadávania
Ďalšie problémy, ktoré sa často vyskytujú a zaťažujú crawl budget sú novo vznikajúce URL adresy z interného vyhľadávania na webovej stránke. Tie môžu často generovať mnoho rôznych webových adries. Najmä v prípade internetových obchodov sa vám oplatí vždy skontrolovať niekoľko podstatných detailov.
Stránky so zoznamami
Stránky so zoznamami môžu byť pre crawl budget taktiež veľkým problémom. Ak povolíte používateľom nahrávať vlastné záznamy alebo obsah, môže sa z nich postupom času vyvinúť obrovské množstvo adries URL. Príkladom môže byť napríklad portál na vyhľadávanie pracovných príležitostí alebo napríklad eBay, ktorý má pravdepodobne veľký počet stránok.
Správne optimalizovanie crawl budgetu
Crawleri prideľujú crawl budget webovej stránke najmä na základe aktuálnej autority a množstve unikátneho a zároveň kvalitného obsahu. Opäť sa ukazuje, aký je content marketing pre podnikateľov dôležitý.
Počas procesu vyhodnocovania crawl budgetu vyhľadácie roboty analyzujú aj otázky smerujúce na neexistujúce či neindexovateľné stránky. Toto sa nazýva crawl waste. Počas analýzy access logov dochádza najčastejšie k týmto problémom:
- URL adresy s chybovou odozvou
- Stránky, ktoré sú neindexovateľné
- Stránky s “thin content”, teda s nízkou hodnotou/malým množstvom obsahu pre používateľov
Ako opraviť problémy s crawl budgetom?
Ako teda maximálne využiť crawl budget a vyhnúť sa problémom, prípadne ich opraviť? Uvedieme vám zopár tipov:
Crawl budget a súbor Robots.txt
Jedným z účinných a zároveň extrémnych spôsobov, ako sa vyhnúť problémom s crawl budgetom je použiť súbor Robots.txt. Ak v tomto súbore zablokujete akúkoľvek podstránku, crawleri nebudú schopní ju prehľadávať. Toto riešenie však so sebou nesie určité aj určité nevýhody. Technicky môžu totiž byť aj tieto stránky indexované, ale prakticky nebudú zohrávať žiadnu úlohu v hodnotení, alebo aspoň nie v hodnotení niečoho podstatného.
Stránky zablokované v Robots.txt neprechádzajú hodnotením PageRank. Keď odkazujeme na takúto stránku, stále prechádzame hodnotením PageRank. Ak je to však potom zablokované v súbore Robots.txt, hodnotenie PageRank nepokračuje. Takže sme nejakým spôsobom vytvorili únik a čiernu dieru. Je to teda dosť náročné riešenie, aj keď sa ľahko implementuje.
Nofollow na úrovni odkazu
Nofollow na úrovni odkazu znamená situáciu, keby sme vzali naše odkazy na hlavnú stránku kategórie produktu, ktoré vyhovovali filtrom a na tieto odkazy by sme interne vložili atribút Nofollow, čo by malo určité výhody a nevýhody.
Skúsime príklad: Predstavte si, že prevádzkujeme eshop s ojazdenými automobilmi, kde máme milióny rôznych výsledkov jednotlivých typov ojazdených automobilov. Teraz skutočne nechceme, aby Google plytval časom na týchto individuálnych záznamoch, pravdepodobne v závislosti od rozsahu nášho webu.
Môže sa však stať známa osobnosť nahrať svoje auto alebo niečo podobné, alebo veľmi zriedkavé luxusné auto a začne získavať externé odkazy. Nechceme teda zablokovať túto stránku v súbore Robots.txt, pretože to sú externé odkazy, ktoré by sme v takom prípade premrhali. To, čo by sme mohli urobiť, je, že na našich interných odkazoch na túto stránku môžeme udeliť Nofollow na danú adresu. To by teda znamenalo, že sa daná stránka dá prehľadávať, ale iba ak sa nájde, iba ak ho Google nájde iným spôsobom, teda prostredníctvom externého odkazu alebo niečoho podobného.
Tento spôsob sa zdá byť šikovný a relatívne jednoduchý, no bohužiaľ je v roku 2021 už neaktuálny. Google crawler už navštevuje aj nofollow odkazy ale nepredáva im link juice, resp. link equity. Predtým crawleri taktiež nepredávali stránke Link Equity ale zároveň ju ani nenavštevovali.
Noindex a nofollow
Noindex a nofollow je veľmi bežné riešenie pre e-commerce webové stránky. V tomto prípade nie je stránku možné prehľadávať. Nofollow môžu a nemusia crawleri akceptovať a preto akonáhle sa crawler dostane na túto stránku, zistí, že ide o Noindex a v priebehu času ju bude prehľadávať oveľa menej, pretože je zakázané prehľadávanie a indexovanie.
Ak chcete vedieť, ako je na tom váš web v kontexte crawl budgetu, neváhajte a obráťte sa profesionálov z našej online marketingovej agentúry.