Définition de Index :
Tous les moteurs de recherche son basés sur un index qui contient (presque) toutes les pages du Web, traitées au préalable pour favoriser un accès rapide aux informations permettant de traiter les recherches des internautes…
Les moteurs de recherche sont tous, au départ, dépendants d’un index (une « collection » de pages web) dans lequel ils stockent les pages du Web à un instant T. Cet index est complété par un système d’index inversé pour traiter le contenu des pages collectées et gagner en temps de traitement. Google a indiqué que, pour mettre en place cet index, il arrivait à identifier plus de 30 à 60 000 milliards d’URL (mais toutes ces pages ne sont pas indexées in fine).
Cet index est intégré dans des « datacenters », centres de données (Google en possède de nombreux) disséminés dans le monde entier et sans cesse synchronisés entre eux.
Par la suite, lorsqu’un internaute tape une requête sur le moteur de recherche, c’est dans l’index que Google va chercher les résultats naturels formant la SERP.
L’index est alimenté par les robots (Googlebot pour Google, par exemple), qui vont sans interruption chercher de nouvelles pages ou de nouvelles versions des pages existantes pour mettre à jour l’espace de stockage.
En 2017-2018, Google a annoncé la mise en place de l’index Mobile First, faisant basculer son index des sites desktop vers la prise en compte des sites mobiles.
Infographie expliquant le fonciotnnement de Google. Source : Sumit Dutta. |
Voici également quelques liens pour aller plus loin sur le sujet :
- Comment la recherche Google organise les informations (Google)
- Mille milliards de pages web selon Google (Abondance)
- Comment fonctionne un moteur de recherche ? (2ème partie : index inversé et duplicate content) (Abondance)
Et deux vidéos :
How search works (Matt Cutts – Google)
Spiders, Robots, Crawlers : comment ça marche ? (Abondance)