Comment gérer le budget de crawl pour de gros sites ?

Google vient de publier une page d’aide très riche et plutôt bien faite pour aider les sites comportant un grand nombre de pages de mieux gérer leur budget de crawl.

Ces recommandations, nombreuses et détaillées, confirment les conseils que les SEO expérimentés communiquaient à leurs clients, conseils qui reposaient sur leur expérience des comportements de crawl. Maintenant on pourra dire aux sceptiques : ce ne sont pas que des élucubrations de SEO mythomanes, mais des conseils qui viennent de Google lui-même ! et c’est une très bonne nouvelle.

Nous regrettons néanmoins chez Neper que la définition qu’ils donnent du budget de crawl laisse penser que ce dernier est fixe dans la plupart des cas. Ce n’est pas ce que disent les ingénieurs de Google, mais ne pas évoquer la variabilité du budget de crawl dans le temps finit par laisser accroire que ce budget est stable. Or non, ce n’est pas stable pour tout le monde et tout le temps.

Par contre cette page se termine par une jolie FAQ sur les mythes concernant le budget de crawl, que je vous détaille après, car c’est vraiment un festival de mises au point sur des sujets essentiels :

Mythes et réalités sur le crawl :

Compresser mes sitemaps peut augmenter mon budget de crawl.

Ce n’est pas le cas. Les sitemaps zippés doivent toujours être récupérés sur le serveur. Vous ne gagnez donc pas vraiment de temps d’exploration ni économisez les efforts de la part de Google en envoyant des sitemaps compressés.

Google préfère un contenu plus frais, donc j’ai intérêt à modifier ma page sans arrêt

Le contenu est classé par qualité, indépendamment de l’âge. Créez et mettez à jour votre contenu si nécessaire, mais il n’y a pas de valeur ajoutée à faire paraître artificiellement des pages fraîches en y apportant des modifications insignifiantes et en mettant à jour la date de la page.


Google préfère les contenus anciens (ils ont plus de poids) aux contenus récents

Faux : Si votre page est utile, elle est utile, qu’elle soit nouvelle ou ancienne.

Google préfère les URL réécrites et n’aime pas les paramètres de requête

Faux : on peut crawler les paramètres. Cependant, n’oubliez pas de bloquer les pages dont les paramètres pointent vers un contenu dupliqué.

Les petits sites ne sont pas explorés aussi souvent que les grands

Faux : Si un site a un contenu important qui change souvent, nous le parcourons souvent, quelle que soit sa taille.

Plus votre contenu est proche de la page d’accueil, plus il est important pour Google

En partie vrai : la page d’accueil de votre site est souvent la page la plus importante de votre site, et les pages liées directement à la page d’accueil peuvent donc être considérées comme plus importantes, et donc parcourues plus souvent. Toutefois, cela ne signifie pas que ces pages seront mieux classées que les autres pages de votre site.


Plus le chargement et le rendu de vos pages sont rapides, plus Google est en mesure de crawler

C’est vrai… dans la mesure où nos ressources sont limitées par une combinaison de temps et de nombre de crawlers. Si vous pouvez nous servir plus de pages dans un temps limité, nous pourrons en parcourir davantage. Cependant, nous pourrions consacrer plus de temps à explorer un site qui contient des informations plus importantes, même si c’est plus lent. Il est probablement plus important pour vous de rendre votre site plus rapide pour vos utilisateurs que de le rendre plus rapide pour augmenter la couverture de votre crawl. Il est beaucoup plus simple d’aider Google à explorer le bon contenu que d’explorer tout votre contenu à chaque fois.
Notez que l’exploration d’un site implique à la fois la récupération et le rendu du contenu. Le temps passé à rendre la page compte autant que le temps passé à demander la page. Ainsi, le fait de rendre vos pages plus rapides à rendre augmentera également la vitesse d’exploration.


Le versioning d’URL est un bon moyen d’encourager Google à recréer mes pages

C’est en partie vrai : L’utilisation d’une URL versionnée pour votre page afin d’inciter Google à l’explorer à nouveau plus tôt fonctionnera probablement, mais souvent ce n’est pas nécessaire, et cela gaspillera les ressources d’exploration si la page n’est pas réellement modifiée. En général, un sitemap avec une valeur <lastmod> est le meilleur moyen d’indiquer à Google le contenu mis à jour. Si vous utilisez des URL versionnées pour indiquer un nouveau contenu, vous ne devez modifier l’URL que lorsque le contenu de la page a changé de manière significative.


La vitesse du site et les erreurs affectent mon budget de crawl

C’est vrai : rendre un site plus rapide améliore l’expérience des utilisateurs tout en augmentant le taux d’exploration. Pour Googlebot, un site rapide est le signe de serveurs en bonne santé, ce qui lui permet d’obtenir plus de contenu avec le même nombre de connexions. En revanche, un nombre important de 5xx codes de résultat HTTP (erreurs de serveur) ou de délais de connexion signalent le contraire, et le crawling ralentit.
Nous vous recommandons de prêter attention au rapport Crawl Stats dans la console de recherche et de maintenir le nombre d’erreurs de serveur à un faible niveau.

Le crawling est un facteur de classement

Faux : Améliorer votre taux de crawl n’entraînera pas nécessairement de meilleures positions dans les résultats de recherche. Google utilise de nombreux signaux pour classer les résultats, et bien que l’exploration soit nécessaire pour qu’une page figure dans les résultats de recherche, il ne s’agit pas d’un signal de classement.


Les URL dans les balises Alternate et le contenu intégré comptent dans le budget d’exploration

C’est vrai : en général, toute URL explorée par Googlebot est prise en compte dans le budget d’exploration d’un site. D’autres URL, comme AMP ou hreflang, ainsi que du contenu embarqué, comme CSS et JavaScript, y compris les extractions XHR, peuvent devoir être explorés et consomment le budget d’exploration d’un site.

Je peux contrôler Googlebot grâce à la directive « crawl-delay

Faux : La directive non standard « crawl-delay » robots.txt n’est pas traitée par Googlebot.

La directive « nofollow » affecte le budget « crawl

C’est en partie vrai : Toute URL qui est explorée a une incidence sur le budget d’exploration. Ainsi, même si votre page indique qu’une URL n’est pas suivie, elle peut être explorée si une autre page de votre site, ou n’importe quelle page du web, n’indique pas que le lien n’est pas suivi.

Le lien vers cette page d’aide

https://support.google.com/webmasters/answer/9689511

Laisser un commentaire