Gary Illyes : évitez les structures de site « plates »

Les bots des moteurs de recherche s’appuient sur la syntaxe de vos urls pour regrouper vos contenus et leur attribuer des scores communs.

Par exemple, si vous avez des contenus en anglais et en français, c’est une bonne idée d’avoir des urls présentées comme ceci

https://www.votredomaine.com/en/[reste-de-l-url] pour les pages en anglais
https//www.votredomaine.com/fr/[reste-de-l-url] pour les pages en français

Dans cette syntaxe d’url, l’utilisation du caractère « / » indique un répertoire. Enfin, au moins virtuellement.

Chemin réel, chemin virtuel

Dans les débuts de l’internet, les pages n’étaient pas crées dynamiquement, mais correspondaient à des fichiers htmls stockés sur le serveur web. Les urls pointaient sur des fichiers dont l’emplacement était réellement défini par une arborescence de répertoires.

Donc ces adresses

https://www.votredomaine.com/articles/rubrique1/article-A.html
https://www.votredomaine.com/articles/rubrique2/article-B.html

Reflétaient des emplacements réels sur les serveurs.

Cela fonctionne toujours aujourd’hui : vous pouvez toujours utiliser un chemin vers un emplacement « physique » pour aller chercher une ressource : image, pdf, page html etc.

Mais de plus en plus souvent, le chemin menant à une url est purement virtuel : c’est un programme qui va intérpréter l’url pour aller chercher la ressource correspondante à un certain emplacement, voire générer dynamiquement la page ou le fichier à la demande.

Du coup, rien n’interdit de créer des chemins virtuels (« paths » en anglais) composés d’autant de pseudo répertoires que vous voulez, séparés par des « / »

Un path virtuel très très compliqué :
https://www.votredomaine.com/universA/cat1/souscat23/soussouscat12/catfinale45/produit-1234.html

Ou de tout mettre (virtuellement) à la racine

Un path complètement plat :
https://www.votredomaine.com/universA.html
https://www.votredomaine.com/catfinale45.html
https://www.votredomaine.com/produit-1234.html

La recommandation de Gary Illyes : évitez de tout mettre à la racine

Techniquement, créer des urls ne comportant pas de paths virtuels ou réels, et pointant vers un « emplacement » situé à la racine est possible, et cela fonctionne. Mais c’est déconseillé;

Voilà ce qu’il a déclaré lors de l’une des dernières sessions « SEO Office Hours » :

Pour un gros site, il est probablement préférable d’avoir une structure hiérarchique ». […] cela vous permettra de faire des choses un peu spéciales sur une seule section et permettra également aux moteurs de recherche de traiter potentiellement les différentes sections différemment ».

[…] Il s’agit là d’un élément à prendre en compte, notamment en ce qui concerne l’exploration du site.

Par exemple, le fait d’avoir une section « actualités » pour les contenus récents et une section « archives » pour les anciens contenus permettrait aux moteurs de recherche d’explorer les actualités plus rapidement que les autres répertoires. Si vous mettez tout dans un seul répertoire, ce n’est pas vraiment possible »

Gary Illyes
La réponse de Gary Illyes est au time code 1:35

Google regroupe les urls en fonction de leur path

Excellent conseil : dans de nombreux cas, le crawler adaptera son comportement de crawl en fonction de scores attribués à des « buckets » d’urls, définis par leur path virtuel commun. Si un répertoire virtuel contient beaucoup de pages vides, ou sans valeur ajoutée, avec beaucoup de doublons, il y’a de fortes chances que les urls appartenant à ce « bucket » soient peu ou pas crawlées. Sans que cela affecte les autres répertoires. Les rythmes de recrawl sont définies par bucket également : votre répertoire news sera crawlé plus souvent que votre répertoire archives (le nom du répertoire n’a pas d’importance ici : pas besoin de l’appeler « news » ou « archives » pour déclencher ces différences de comportement).

Beaucoup de comportements liés au crawl s’appuient sur les paths virtuels et ces notions de « buckets » d’urls.

Mais cela influence aussi certains comportements de l’indexeur ou du processeur de requêtes. Si vous avez des contenus destinés aux adultes par exemple, c’est une bonne idée de mettre tout ce qui peut être sorti des pages de résultats par le filtre Safesearch dans un répertoire virtuel dédié (/sexo ou /adulte par exemple). Cela évitera que ces contenus « contaminent » le reste du site et que des pages normales soient impactées par le filtre.

Attention : ne confondez pas arborescence de liens et chemins dans les urls

Les « / » dans les urls définissent une structure de répertoires qui est souvent plus virtuelle que réelle. En règle générale, l’emplacement réel des ressources (pages, fichiers, images) n’a rien à voir avec le chemin de l’url.

Et ce n’est pas grave.

Par contre, je vois souvent des recommandations bizarres, qui démontrent une confusion entre chemins dans les urls, arborescence hypertexte, organisation physique des ressources et hiérarchie dans les données. Ces quatre concepts sont aujourd’hui tehcniquement complètement déconnectés. S’ils ne le sont pas, cela résulte de choix d’implémentation (pas toujours heureux).

Par exemple cette reco :

Si la syntaxe d'url est : /univers/cat/souscat/produit.html

Alors il faut que ces urls renvoient une page :

/univers/
/univers/cat/
/univers/cat/souscat/

Grrr....

Sauf que non, ce n’est pas du tout une obligation. Oui, cela parait logique d’avoir des pages pour les univers produits, et des pages pour les catégories. Mais si « cat » est juste un regroupement, et pour des raisons ergonomiques vous voulez sauter des pages « univers » au « sous catégories », vous avez le droit. Et dans ce cas, la page /univers/cat/ n’a pas besoin d’exister, et ne renverra rien à part une 404. Il n’y a aucune contre indication, tant que cela fait sens.

Conclusion : évitez, dans vos syntaxes d’urls, l’absence de « path », virtuel ou réel. Et définissez ces chemins avec soin.

Laisser un commentaire