Les bots des moteurs de recherche s’appuient sur la syntaxe de vos urls pour regrouper vos contenus et leur attribuer des scores communs.
Par exemple, si vous avez des contenus en anglais et en français, c’est une bonne idée d’avoir des urls présentées comme ceci
https://www.votredomaine.com/en/[reste-de-l-url] pour les pages en anglais
https//www.votredomaine.com/fr/[reste-de-l-url] pour les pages en français
Dans cette syntaxe d’url, l’utilisation du caractère « / » indique un répertoire. Enfin, au moins virtuellement.
Chemin réel, chemin virtuel
Dans les débuts de l’internet, les pages n’étaient pas crées dynamiquement, mais correspondaient à des fichiers htmls stockés sur le serveur web. Les urls pointaient sur des fichiers dont l’emplacement était réellement défini par une arborescence de répertoires.
Donc ces adresses
https://www.votredomaine.com/articles/rubrique1/article-A.html
https://www.votredomaine.com/articles/rubrique2/article-B.html
Reflétaient des emplacements réels sur les serveurs.
Cela fonctionne toujours aujourd’hui : vous pouvez toujours utiliser un chemin vers un emplacement « physique » pour aller chercher une ressource : image, pdf, page html etc.
Mais de plus en plus souvent, le chemin menant à une url est purement virtuel : c’est un programme qui va intérpréter l’url pour aller chercher la ressource correspondante à un certain emplacement, voire générer dynamiquement la page ou le fichier à la demande.
Du coup, rien n’interdit de créer des chemins virtuels (« paths » en anglais) composés d’autant de pseudo répertoires que vous voulez, séparés par des « / »
Un path virtuel très très compliqué :
https://www.votredomaine.com/universA/cat1/souscat23/soussouscat12/catfinale45/produit-1234.html
Ou de tout mettre (virtuellement) à la racine
Un path complètement plat :
https://www.votredomaine.com/universA.html
https://www.votredomaine.com/catfinale45.html
https://www.votredomaine.com/produit-1234.html
La recommandation de Gary Illyes : évitez de tout mettre à la racine
Techniquement, créer des urls ne comportant pas de paths virtuels ou réels, et pointant vers un « emplacement » situé à la racine est possible, et cela fonctionne. Mais c’est déconseillé;
Voilà ce qu’il a déclaré lors de l’une des dernières sessions « SEO Office Hours » :
Pour un gros site, il est probablement préférable d’avoir une structure hiérarchique ». […] cela vous permettra de faire des choses un peu spéciales sur une seule section et permettra également aux moteurs de recherche de traiter potentiellement les différentes sections différemment ».
[…] Il s’agit là d’un élément à prendre en compte, notamment en ce qui concerne l’exploration du site.
Par exemple, le fait d’avoir une section « actualités » pour les contenus récents et une section « archives » pour les anciens contenus permettrait aux moteurs de recherche d’explorer les actualités plus rapidement que les autres répertoires. Si vous mettez tout dans un seul répertoire, ce n’est pas vraiment possible »
Gary Illyes
Google regroupe les urls en fonction de leur path
Excellent conseil : dans de nombreux cas, le crawler adaptera son comportement de crawl en fonction de scores attribués à des « buckets » d’urls, définis par leur path virtuel commun. Si un répertoire virtuel contient beaucoup de pages vides, ou sans valeur ajoutée, avec beaucoup de doublons, il y’a de fortes chances que les urls appartenant à ce « bucket » soient peu ou pas crawlées. Sans que cela affecte les autres répertoires. Les rythmes de recrawl sont définies par bucket également : votre répertoire news sera crawlé plus souvent que votre répertoire archives (le nom du répertoire n’a pas d’importance ici : pas besoin de l’appeler « news » ou « archives » pour déclencher ces différences de comportement).
Beaucoup de comportements liés au crawl s’appuient sur les paths virtuels et ces notions de « buckets » d’urls.
Mais cela influence aussi certains comportements de l’indexeur ou du processeur de requêtes. Si vous avez des contenus destinés aux adultes par exemple, c’est une bonne idée de mettre tout ce qui peut être sorti des pages de résultats par le filtre Safesearch dans un répertoire virtuel dédié (/sexo ou /adulte par exemple). Cela évitera que ces contenus « contaminent » le reste du site et que des pages normales soient impactées par le filtre.
Attention : ne confondez pas arborescence de liens et chemins dans les urls
Les « / » dans les urls définissent une structure de répertoires qui est souvent plus virtuelle que réelle. En règle générale, l’emplacement réel des ressources (pages, fichiers, images) n’a rien à voir avec le chemin de l’url.
Et ce n’est pas grave.
Par contre, je vois souvent des recommandations bizarres, qui démontrent une confusion entre chemins dans les urls, arborescence hypertexte, organisation physique des ressources et hiérarchie dans les données. Ces quatre concepts sont aujourd’hui tehcniquement complètement déconnectés. S’ils ne le sont pas, cela résulte de choix d’implémentation (pas toujours heureux).
Par exemple cette reco :
Si la syntaxe d'url est : /univers/cat/souscat/produit.html
Alors il faut que ces urls renvoient une page :
/univers/
/univers/cat/
/univers/cat/souscat/
Grrr....
Sauf que non, ce n’est pas du tout une obligation. Oui, cela parait logique d’avoir des pages pour les univers produits, et des pages pour les catégories. Mais si « cat » est juste un regroupement, et pour des raisons ergonomiques vous voulez sauter des pages « univers » au « sous catégories », vous avez le droit. Et dans ce cas, la page /univers/cat/ n’a pas besoin d’exister, et ne renverra rien à part une 404. Il n’y a aucune contre indication, tant que cela fait sens.