Définition du Budget Crawl

Définition du Budget Crawl ? :

Le Budget Crawl (crawl budget en anglais) représente les limites en termes de nombre de pages que Googlebot (le robot de Google) va crawler sur un site web en tenant compte de plusieurs critères : taille du site, vitesse d’exploration, fréquence de mise à jour, qualité du contenu et nombre de clics.

 

Lorsqu’il explore (crawle) un site, le robot de Google se donne certaines limites en termes de nombre de pages à visiter et sauvegarder, notamment pour les sources d’informations proposant de nombreuses pages. Il s’agit de la notion de Budget Crawl, souvent évoquée en SEO, que nous définissons ici…

 

En début d’année, Google a mis en ligne un post sur son blog pour webmasters expliquant sa vision du budget crawl. Globalement, ce concept touche avant tout les sites qui proposent plusieurs milliers de pages au moins (les « petits » sites n’ont généralement pas de problèmes à ce niveau).

Googlebot, le robot de Google, n’explore pas en une seule passe TOUTES les pages d’un site web. Il vient, revient, et essaie à chaque visite d’explorer au mieux les pages d’un site web en tenant compte de plusieurs critères importants :
– Les capacités du serveur : si celui-ci répond lentement, le robot explorera moins vite.
– La profondeur : plus il y a de clics pour atteindre une page depuis l’accueil, plus le crawl est aléatoire.
– La fréquence de mise à jour : un site souvent mis à jour sera plus souvent crawlé qu’un site statique.
Qualité d’un contenu estimée par le moteur. Un site proposant du contenu de très bonne qualité sera mieux crawlé qu’un site lambda.

Le budget crawl représente donc plus un nombre de pages maximum qu’un délai temporel, limites que Googlebot se donne pour explorer un site. Rien ne dit donc qu’un site soit crawlé de façon exhaustive par le spider, en fonction des critères listés ci-dessus.

Les spiders de Google construisent les index du moteur
Googlebot, un spider de Google (allégorie 🙂 )… Source de l’image : DR

Laisser un commentaire