Définition de Clustering ? :
Le Clustering, dans le domaine de la recherche d’information, désigne avant tout deux choses : d’une part, le fait pour les moteurs de ranger un site ou une page web dans des « clusters » (thématiques) différents : sport, politique, commerce électronique, etc. Et d’autre part, le fait de limiter dans leurs SERP le nombre de liens pour un même site web.
Le terme de Clustering est souvent utilisé dans le domaine des moteurs de recherche, pour désigner des procédures assez différentes, dans l’analyse des pages tout comme dans l’affichage des résultats. Alors, que signifie ce terme ?…
Première acception donc pour le terme Clustering : le fait de compartimenter une information (site, page, image, vidéo) dans une thématique donnée, plus ou moins fine. Une page web peut, par exemple, être intégrée dans plusieurs clusters différents. Cela permet au moteur de renvoyer des résultats désambigüisés, notamment pour les mots ayant plusieurs sens : orange (couleur, fruit, entreprise), avocat (fruit, métier), python (animal, langage de programmation), jaguar (animal, voiture), etc. Une page parlant par exemple de l’animal « jaguar » sera placée dans le cluster correspondant et ne ressortira pas dans les résultats du moteur sur une requête portant sur un modèle spécifique de la marque automobile, etc.
Tous les moteurs (y compris Google) fonctionnent avec des algorithmes de clustering, et certains, historiquement, proposaient même d’effectuer des recherches en choisissant son cluster : Vivisimo, Clusty puis Yippy, MSN, Northern Light, Exalead, etc. Cette façon de faire est toutefois tombée en désuétude aujourd’hui. A noter également le projet Open Source Carrot dans ce domaine.
L’autre signification du terme Clustering est le fait de limiter le nombre de liens dans une SERP pour un même site web. Pendant des années, Google notamment a « clusterisé » ses résultats en ne renvoyant, pour un site donné, qu’un maximum de 2 liens, le second étant indenté (décalé vers la droite), comme le montre l’illustration ci-dessous. Un lien de type « Autres résultats pour le site [xxx] » permettait alors de visualiser les autres pages pertinentes du site pour la requête demandée.
Google a, au fur et à mesure, modifié sa stratégie, proposant 3 liens en tout pour finalement ne plus mettre de limite et ne plus indenter les résultats. A l’heure actuelle, un même site web peut donc théoriquement occuper les 10 « liens bleus » de la SERP (même s’il est certain que l’algorithme fait attention que cela arrive le moins souvent possible en pratique afin de proposer une pluralité de résultats à l’internaute).
Exemple de clustering sur Google en 2009 : seuls 2 liens sont affichés pour un même site… Source de l’image : Abondance |