Tip : Peut-on utiliser la balise noindex et une canonical en même temps ?

John Mueller vient de clarifier sa position sur l’utilisation conjointe de l’attribut noindex et d’une canonical.

Tout le monde risque de ne pas trouver qu’il s’agit d’une véritable « clarification » et certains penseront même que cela ajoute à la confusion ambiante. Mais ce genre de sujets n’est pas binaire, cela dépend du contexte.

Comme beaucoup de choses en SEO, à trop vouloir tout simplifier au lieu de faire face à complexité réelle des situations, on risque parfois de suivre bêtement une recommandation …

C’est exactement le cas ici

La reco générale : choisir entre noindex et canonical, et éviter d’utiliser les deux en même temps

En règle générale, c’est une mauvaise idée d’utiliser les deux outils en même temps sur la même page.

Si vous avez un problème de contenu dupliqué, ou juste un « near duplicate », vous pouvez

soit ajouter une balise avec l’attribut noindex pour empêcher le doublon d’être indexé
soit canonicaliser le doublon en pointant l’url originale vers la page doublon avec balise une link rel= »canonical

John Mueller a rappelé plusieurs fois que le noindex est préférable quand la page à éliminer est très différente de la page à conserver. Tandis que la canonical fait sens quand il s’agit de pages dont le contenu est identique ou très proche.

Mais utiliser les deux en même temps envoie des signaux contradictoires.

Voici que John Mueller avait dit dans ce post Reddit :

Comment
by u/johnmu from discussion 2 questions about the canonical tag
in TechSEO

Traduction :

la règle générale est que les signaux sont transférés et combinés avec la canonicalisation. Lorsque Google voit deux URL de votre site, qu’elles se ressemblent et que vous nous indiquez clairement votre préférence, nous essayons de les combiner et de les traiter comme une seule URL (généralement avec des signaux plus forts) plutôt que comme des URL séparées. Les redirections, rel=canonical, les liens internes et externes, les sitemaps, hreflang, etc. nous indiquent vos préférences, et plus vous pouvez les aligner, plus nous les suivrons et les utiliserons pour choisir une URL canonique parmi cet ensemble (et transmettre tous les signaux à l’URL canonique choisie).

D’autre part, noindex (seul) et robots.txt disallow (en général) ne sont pas des signes clairs de canonicalisation. Le simple fait d’avoir un noindex sur une page ne nous dit pas que vous voulez la combiner avec quelque chose d’autre, et que les signaux doivent être transmis. Un disallow robots.txt est encore plus délicat, nous ne savons même pas si la page correspond à quelque chose d’autre sur votre site, donc nous ne pourrions même pas l’utiliser pour la canonicalisation si nous le voulions.

C’est aussi de là que vient la recommandation selon laquelle il ne faut pas mélanger noindex et rel=canonical : ce sont des informations très contradictoires pour nous. Nous choisissons généralement le rel=canonical et l’utilisons plutôt que le noindex, mais chaque fois que vous vous fiez à l’interprétation d’un script informatique, vous réduisez le poids de vos données 🙂 (et le référencement consiste en grande partie à indiquer vos préférences à des scripts informatiques).
John Mueller

Notons au passage que John Mueller nous dit qu’en présence des deux signaux, c’est la canonical qui est utilisée plutôt que la directive noindex.

Il aurait pu être plus précis.

Attention à ne pas mal interpréter cette règle de priorité :

une canonical est un « hint », pas une directive. Google peut la suivre, ou non.
un attribut noindex est une directive. Quand Google rencontre cette directive, la page ne sera pas indexée.

Donc si vous souhaitez qu’une url ne soit pas indexée, cela marche à tous les coups avec un attribut noindex, mais pas systématiquement avec une canonical.

C’est seulement en présence de signaux contradictoires sur l’identité de l’url canonique que l’information de la balise canonical sera utilisée en priorité par rapport aux signaux envoyés par la balise noindex.

Mais il y’a des exceptions intéressantes à connaître !

Au cours du dernier Google SEO office-hours hangout en anglais, John Mueller a indiqué qu’utiliser à la fois la balise canonical et noindex pouvait faire sens.

Il s’agit de tous les cas où on a besoin de consolider les signaux de deux urls sur l’url canonique.

Pour que le jeu en vaille la chandelle, il faut que les signaux de l’url doublon soit suffisamment importants et qu’on ne veuille pas qu’elle soit indexée.

Car si l’url doublon a, par exemple, un score de PR plus élevé que l’url canonique, il y’a de fortes chances que Google ignore la balise canonical, indexe la page doublon. Ils risquent en plus de faire le contraire de ce qui est demandé, c’est à dire de considérer que l’url canonique est la page dupliquée !

John Mueller cite le cas d’une url dupliquée qui reçoit des backlinks :

dans ce cas, on veut transférer le pagerank à l’url canonique via la balise link rel canonical
et si on ne veut pas que cette page soit indexée, on force ce comportement avec une noindex

Conclusion : sachez maîtriser la canonicalisation !

Conclusion : sur ce sujet des urls canoniques, c’est important de faire attention à ne pas envoyer de signaux contradictoires.

D’où la recommandation d’éviter, en règle générale, de combiner une link rel canonical pointant vers une autre page et un attribut noindex.

Quand la link rel canonical risque fort d’être correctement interprétée et utilisée => alors il faut choisir entre l’une ou l’autre des balises.

Mais quand Google ignore la canonical parce que la page dupliquée a des signaux plus forts que l’url canonique : alors la directive noindex s’impose en plus de la canonical pour gérer au mieux la situation.

Voir aussi cet article de notre blog :

Vérifier la prise en compte de vos balises canoniques

Ce contenu vous a plu ?

Inscrivez-vous gratuitement à notre newsletter et recevez chaque semaine l’actualité du SEO directement dans votre boîte email. Vous pouvez vous désabonner à tout moment !

1 réflexion au sujet de « Tip : Peut-on utiliser la balise noindex et une canonical en même temps ? »

D’ailleurs dans le blog officiel de Google « blog.google » ils utilisent exclusivement les « meta noindex » pour désindexer une page et le robots.txt n’est utilisé que pour disallow les pages générées par les recherches internes

Répondre

Laisser un commentaire Annuler la réponse

Balise no index

9 février 2024 à 7 h 35 min

D’ailleurs dans le blog officiel de Google « blog.google » ils utilisent exclusivement les « meta noindex » pour désindexer une page et le robots.txt n’est utilisé que pour disallow les pages générées par les recherches internes
Répondre

This site uses Akismet to reduce spam. Learn how your comment data is processed.