Tip : attention au contenu du robots.txt

Le fichier robots.txt fait partie du quotidien du site web depuis 1994. Au départ c’était une initiative de Martijn Koster. Et c’est devenu un standard de fait.

Au fil des ans, les propriétaires de site ont pris de mauvaises habitudes concernant le contenu du fichier robots.txt. Google a longtemps contribué à la confusion en s’éloignant des standards initiaux et en supportant de manière officielle ou non certaines syntaxes qu’ils étaient les seuls à savoir interpréter.

Rappel : les directives noindex ne sont plus supportées dans le fichier robots.txt

Grâce à l’intervention salutaire de Gary Illyes de Google (rendons à César…), Google a lancé en juillet 2019 une initiative pour revenir au standard initial. Ils ont vite été suivis par Bing et aujourd’hui le robots.txt est revenu à sa vocation d’origine et les deux moteurs principaux le supportent de manière standard et prévisible.

La directive noindex n’est plus supportée par Google depuis septembre 2019 ! Donc ne l’utilisez plus pour désindexer vos contenus, il faut utiliser :

soit la balise meta name=’robots’ dans une page HTML
soit une directive X-Robots-Tag dans un document non HTML (voir l’article du blog Neper sur ce sujet ici : https://www.neper.fr/2021/01/14/tip-comment-bloquer-lindexation-des-images-ou-des-pdfs-x-robots-tag/

NE BLOQUEZ PAS MASSIVEMENT DES URLS DU FRONT OFFICE

En principe, sur un site techniquement bien fait, bloquer l’exploration des URLs visibles par un utilisateur par les moteurs de recherche n’a pas d’utilité.

Ensuite, et c’est moins connu, les URLs bloquées par le robots.txt ont un pagerank, reçoivent du pagerank, mais ne redonnent jamais le pagerank qu’on leur a transmis. Si vous bloquez massivement des URLs qui sont affichées sur votre site par des directives “disallow”, cela peut faire disparaître une part non négligeable du pagerank interne.

En clair, il est recommandé d’éviter de faire trop de liens dans votre maillage interne vers des pages bloquées par une directive “disallow”. La perte de pagerank interne peut-être très significative.

Le mécanisme de la fuite de pagerank via des pages bloquées par un disallow: dans le robots.txt. Au départ les pages à droite de l’arborescence ne sont pas bloquées. Le Pagerank transmis à ces pages circule via le maillage interne et est « recyclé » grâce au PR transmis par les liens sortants.

Une fois bloquées par un robots.txt, le PR qui leur est transmis est perdu, et le Pagerank Interne diminue pour toutes les pages ! Ce phénomène est souvent la principale source de fuite de PRi sur un site, loin devant d’autres causes comme les liens sortants pointant vers d’autres sites !

BLOQUEZ BIEN LE CRAWL DES FACETTES ET DES PAGES DU MOTEUR DE RECHERCHE INTERNE

A l’inverse, il est extrêmement utile d’empêcher les moteurs de découvrir les syntaxes des URLs qui correspondent par exemple :
– à des recherches du moteur de recherche interne

– à des filtres créés par une navigation à facettes
Ces URLs ne font pas partie de l’arborescence « normale » du site. Elles ne figurent pas dans les menus (sauf cas exceptionnel). Bloquer ces syntaxes est une bonne idée. Ne pas le faire peut clairement vous empêcher d’avoir un bon référencement, car un grand nombre de pages inutiles seraient crawlées et indexées.

NE BLOQUEZ PAS LES URLS DE FICHIERS CSS, JAVASCRIPT, JSON QUI SONT UTILES POUR UNE RENDITION CORRECTE DE LA PAGE

Sur ce sujet, n’hésitez pas à regarder cette courte video de John Mueller :

Conseil final : relisez la référence sur le contenu du robots.txt et sur son support par Google

Il est fortement conseillé d’utiliser dans le robots.txt des syntaxes standard, parfaitement supportées par TOUS les moteurs de recherche (dont Bing, Yandex, Baïdu, Seznam, Naver…).

Pour prendre connaissance des standards, le mieux est de conseiller le site dédié au protocole robots.txt :

http://www.robotstxt.org/

La page de référence de Google :

https://developers.google.com/search/docs/advanced/robots/intro?hl=fr

Et n’hésitez pas à vérifier votre robots.txt à l’aide de l’outil dédié de la Google Search Console.

https://www.google.com/webmasters/tools/robots-testing-tool

(il faut avoir validé la GSC pour ce site pour que ça fonctionne).

*L’outil de test de la syntaxe du robots.txt sur la Google Search Console*

Pour info, l’outil va bientôt être migré dans la nouvelle Search Console, c’est une affaire de jours / semaines.

Ce contenu vous a plu ?

Inscrivez-vous gratuitement à notre newsletter et recevez chaque semaine l’actualité du SEO directement dans votre boîte email. Vous pouvez vous désabonner à tout moment !

2 réflexions au sujet de “Tip : attention au contenu du robots.txt”

Bonjour Philippe et merci pour cet article,

Quid du « nofollow » sur les qui référencent des pages bloquées via un « Disallow » ?

Répondre

Anaïs Molina

15 février 2021 à 16 h 21 min

Bonjour Nicolas,

Malheureusement nous n’avons pas compris votre question. Pourriez-vous la reformuler s’il vous plaît ?
Répondre

Laisser un commentaire Annuler la réponse

Nicolas

12 février 2021 à 10 h 53 min

Bonjour Philippe et merci pour cet article,

Quid du « nofollow » sur les qui référencent des pages bloquées via un « Disallow » ?
Répondre
- Anaïs Molina
  
  15 février 2021 à 16 h 21 min
  
  Bonjour Nicolas,
  
  Malheureusement nous n’avons pas compris votre question. Pourriez-vous la reformuler s’il vous plaît ?
  Répondre

This site uses Akismet to reduce spam. Learn how your comment data is processed.