Définition du DUST (Duplicate URL, Same Text)

Définition du DUST (Duplicate URL, Same Text) :

Le DUST (pour Duplicate URL, Same Text), survient lorsqu’une même page web (un seul code source) peut être identifiée via plusieurs URL différentes. Dans ce cas, le moteur de recherche peut croire qu’il s’agit de plusieurs pages différentes et ainsi créer un contenu dupliqué intrasite important. Le DUST peut se traiter grâce à la balise « canonical ».

 

Les problématiques de Duplicate Content peuvent s’avérer très nombreuses sur un site web et parmi celles-ci, on trouve le DUST (pour Duplicate Content, Same Text), dont 100% des sites web peuvent souffrir. De quoi s’agit-il et comment régler ce problème ? C’est en fait très facile…

 
Imaginons que vous ayez une site web dont la page d’accueil a pour adresse https://www.votresite.com/. Cette page unique (et disposant donc d’un code source unique), peut être atteinte via des liens (internes ou externes) dont l’intitulé (le contenu de l’attribut href) peut être très différent. En voici quelques exemples :
http://www.votresite.com/
https://www.votresite.com
https://votresite.com/
https://www.votresite.com/index.php
http://www.votresite.com/index.php?source=emailing
http://www.votresite.com/index.php?source=emailing&langue=fr
http://www.votresite.com/index.php?langue=fr&source=emailing
– Etc.
Toutes ces URL pointent vers la même page, le même code source.

Le nombre de possibilités est en fait quasi infini, puisque vous ne maîtrisez pas la façon dont les autres sites font des liens vers le vôtre (parfois même, le maillage interne n’est pas très rigoureux à ce niveau). Il s’agit donc d’un phénomène de DUST : un même code source est pointé par des URL différentes. Et comme l’URL est le référentiel choisi par Google pour identifier une page web, si, comme dans le cas ci-dessus, 8 URL différentes pointent vers un même code source, Google voit 8 pages différentes. Autant dire que le contenu dupliqué est largement au rendez-vous !

Bien sûr, il est possible de s’en sortir avec des redirections (301), une bonne gestion des différents paramètres d’URL dans la Search Console et d’autres artifices, mais régleront-ils tous les cas possibles ? Pas si simple… Une autre façon de faire, validée par Google, est d’utiliser la balise « canonical » pour indiquer au moteur l’URL canonique de la page.

Exemple pour la page d’accueil du site https://www.votresite.com/ qui contiendra alors la balise suivante :
<link rel= »canonical » href= »https://www.votresite.com/ »>
Ainsi, si Google arrive sur ce code source (unique, rappelons-le) avec une autre URL, la balise « canonical » rappellera l’URL canonique, par défaut, que le moteur doit prendre en compte. Celui-ci transférera également tous les backlinks des autres formes d’URL vers celle-ci. Et le tour est joué. 🙂

Il est à noter que, sur WordPress, l’extension très connue Yoast effectue ce travail automatiquement.

Bref, et pour conclure, chaque page web, sur un site web, doit contenir une balise « canonical » :

  • Les pages dupliquées ont une balise « canonical » qui pointent vers leur page canonique (un autre code source, donc).
  • Les pages canoniques ont une balise « canonical » qui pointent vers elles-même pour indiquer à Google que leur URL est canonique et éviter le DUST.

Et le problème est réglé 🙂

en-cache-google
Extrait d’une conférence sur le duplicate content proposée par Olivier Andrieu au SEO Campus 2012… Source de l’image : Abondance