Il existe plusieurs robots d’exploration Google, chacun avec des noms et des objectifs différents.
Chaque robot d’exploration appartient à l’une des trois catégories suivantes : Googlebot, Robots d’exploration spéciaux et Extracteurs déclenchés par l’utilisateur.
Googlebot
Robot d’exploration principal pour les produits de la recherche Google. Il respecte toujours les règles du fichier robots.txt.
Robots d’exploration spéciaux
Robots d’exploration qui exécutent des fonctions spécifiques (AdsBot, par exemple), qui peuvent ou non respecter les règles du fichier robots.txt.
Extracteurs déclenchés par l’utilisateur
Outils et fonctions produit dans lesquels l’utilisateur final déclenche une extraction. Par exemple, Google Site Verifier agit à la demande d’un utilisateur. Étant donné que l’exploration a été demandée par un utilisateur, ces outils ignorent les règles du fichier robots.txt.
Pour identifier un robot d’exploration Google vous pouvez utiliser une méthode manuelle ou une méthode automatique.
Méthode manuelle
Pour des recherches ponctuelles, Google recommande d’utiliser les outils de ligne de commande :
- À l’aide de la commande
host
, exécutez une résolution DNS inverse sur l’adresse IP utilisée dans vos journaux. - Vérifiez que le nom de domaine est
googlebot.com
,google.com
ougoogleusercontent.com
. - Effectuez une résolution DNS directe sur le nom de domaine récupéré à l’étape 1 à l’aide de la commande
host
. - Vérifiez qu’il s’agit de la même adresse IP que celle utilisée dans vos journaux.
Méthode automatique
Vous pouvez également identifier Googlebot avec l’adresse IP, en établissant une correspondance entre l’adresse IP du robot d’exploration et la liste des adresses IP des robots d’exploration et des extracteurs Google :
Notez que les adresses IP dans les fichiers JSON sont représentées au format CIDR.
Utiliser notre outil de vérification
Comme le format CIDR est particulièrement abscons, et si vous ne maîtrisez pas les subtilités des formats IPV4 vs IPV6, vous pouvez aussi utiliser notre outil dédié:
https://www.neper.fr/ip-checker
Les deux options de l’outil :
- vous pouvez soit vérifier qu’il s’agit bien de l’une des IP de Googlebot stricto sensu.
- ou tester l’IP pour savoir s’il s’agit d’une IP utilisé par un autre bot de Google ou un autre service de Google
Merci d’avoir lu cet article 😊