Définition du Cosinus de Salton :
Le Cosinus de Salton est un incontournable historique des moteurs de recherche depuis plusieurs décennies. certainement encore utilisé dans de nombreux moteurs, il mesure la pertinence d’un contenu par rapport à une requête donnée. Explications…
Gerard (Gerry) Salton (1927-1995) était un chercheur informatique de l’université de Cornell. D’origine allemande (son vrai nom est : Gerhard Anton Sahlmann, qu’il a américanisé en Gerard Salton), il a inventé le concept de « modèle vectoriel », le poids « TF*IDF » et le fameux Cosinus de Salton. Il est également à l’origine de la première implémentation pratique de ces outils dans un moteur, le fameux système « SMART » développé à l’université de Harvard. Ses travaux ont inspiré de très nombreuses recherches ultérieures jusqu’à aujourd’hui.
Le Cosinus de Salton est une suite logique des travaux sur le TF*IDF de la part de Karen Spärck Jones et Gerard Salton, dans les années 70. Le but est ici de définir un document selon une représentation spécifique, sous la forme d’un « vecteur » qui part de l’origine des deux axes et dont l’extrémité correspond au point dont les coordonnées sont définies par les poids respectifs sur chaque axe (d’où le nom de « modèle vectoriel »). On pourra ainsi mesurer la différence entre deux contenus en mesurant le cosinus de l’angle entre ces deux vecteurs. Ce schéma peut par exemple être utilisé pour détecter du duplicate content entre plusieurs pages web.
Dans la pratique, le modèle vectoriel de Salton ne s’arrête pas à une représentation sur deux axes (donc deux dimensions). On a en fait autant d’axes que de termes indexés ! Mais on sait calculer une distance angulaire, et le cosinus de l’angle, entre des vecteurs définis par des coordonnées dans N dimensions. Il s’agit alors d’un problème de calcul matriciel, le genre de calcul pour lesquels les ordinateurs modernes se révèlent très performants, car ces calculs sont « parallélisables » et « distribuables ».
A noter que les contenus de cette définition sont en grande partie extraits de l’article Le cosinus de Salton : un classique (méconnu) des moteurs de recherche« , écrit par Philippe Yonnet pour la lettre « Recherche et Référencement » du site Abondance.
Calcul du Cosinus de l’angle entre deux vecteurs. |
Voici également quelques liens pour aller plus loin sur le sujet :