Un debunkage en règle s’impose sur l’affaire des Google Leaks…
Car, oui, on vous a menti… mais sur la nature véritable de ces « fuites ».
Pour ceux qui vivent dans une grotte, voici un petit rappel sur l’affaire.
Deux personnalités bien connues du monde du SEO, Rand Fishkin (ex patron de Moz) et Michael King (CEO de Ipullrank) ont annoncé sur leurs blogs respectifs avoir découvert, grâce à un informateur, l’existence d’une API qui selon eux :
- émane des équipes de Google Search
- et prouve que Google ment sur certains sujets à propos de son algorithme depuis longtemps
Voici les deux articles :
- https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/
- https://ipullrank.com/google-algo-leak
Des documents dont la nature réelle n’est pas celle qui est présumée partout sur le net
La « source anonyme » ne l’est plus : il s’agit de Erfan Azimi, le patron d’une petite agence baptisée EA Digital, basée en Géorgie. Comment M. Azimi a découvert l’existence de ces documents ? C’est encore peu clair.
Par contre il a publié une vidéo, dans laquelle il explique ses motivations. Qui sont clairement de « révéler tous les mensonges de Google ». Et c’est donc lui qui a choisi de contacter Rand Fishkin (qui a quelques revanches à prendre sur les porte parole de Google, qui ont été sévères avec lui avec de nombreuses reprises) et Michael King. Bref deux personnes qui étaient très perméables à son discours, pour tenir des propos similaires depuis longtemps.
Mais du coup, cette « fuite » n’émane pas du tout d’un lanceur d’alerte chez Google. En fait, la seule chose que l’on sait, c’est qu’en mars 2024 le bot « yoshi-code-bot » a publié sur GitHub le code d’une API qui ressemble à des APIs de Google, avec une nomenclature et un code qui ressemble à ce qui pourrait être produit par des ingénieurs de Google.
Elle est nommée « Google API Content Warehouse ». La documentation fait des liens vers la « Document AI Warehouse API », donc il y’a probablement un lien de parenté. Selon Mike King, il s’agirait de la version interne à Google de la même chose.
Le code a déjà été retiré : il s’agit probablement d’une erreur, pas d’une fuite volontaire.
Et faute de confirmation de Google sur le caractère authentique de cette API et de sa doc, il faut être vraiment prudent en les invoquant pour tirer des conclusions. Toute possibilité de manipulation ou de mystification n’est pas écartée à date.
La documentation automatique est restée accessible, ce qui permet de se faire une idée sur ce qu’était véritablement cette API.
Probablement une API d’accès à un repository de contenu Google, mais rien qui donne accès à des informations réellement actionnables sur l’algorithme de Google
Si on creuse un peu, on s’aperçoit vite qu’annoncer la découverte d’ informations sensationnelles via cette fuite est très exagéré.
Ce qui a pu laisser penser que cette API avait quelque chose à voir avec Google Search, c’est qu’elle donne accès à des signaux (que les SEOs aiment bien appeler « critères de classement) qui ressemblent clairement à des informations qui pourraient être stockées dans l’index du moteur de recherche Google.
Mais la documentation de l’API n’indique pas clairement :
- les signaux réellement utilisés par Google Search, et ceux par d’autres services de Google
- le poids réel des différents signaux
- la façon dont les signaux sont exploités
Il s’agit apparemment d’une API d’accès à un repository qui contient, pour chaque document, toute une série de signaux exploitables, et qui ressemble à des signaux exploités sur Google Search.
Cela me rappelle les serveurs « Google Search Appliance » qui embarquaient de la technologie Google transposée de Google Search. Cela ressemblait à l’algo de Google, mais sous forme d’un ersatz adapté à une utilisation en entreprise.
Les « Google Search Appliance » étaient des serveurs lame vendus par Google capables d’indexer les documents de votre entreprise pour alimenter un moteur de recherche. La technologie embarquée était dérivée du savoir faire de Google Search, et la documentation de ces outils révélait indirectement quelques informations intéressantes (mais anecdotiques) sur le fontionnement de la technologie Google.t
Par ailleurs, il est possible que cette API soit déjà obsolète, la plupart des documents sont datés de 2019, et la date la plus récente mentionnée est août 2023.
Et surtout, on ne découvre rien de très révolutionnaire :
- L’existence de Navboost et de Glue étaient confirmés depuis des mois, et soupçonnés depuis des années:
- Cette approche et l’exploitation des « implicit user feedback » est décrite dans beaucoup d’articles scientifiques et fait partie de l’état de l’art.
- On découvre plus d’infos sur Navboost et son véritable fonctionnement dans le compte rendu de l’interrogatoire de Pandu Nayak dans le procès DOJ vs Google en cours, que dans toute la doc sur l’API.
- Même chose sur l’existence du score IS (Information Satisfaction)
- Ou la méthode pour déterminer les sitelinks, connue depuis que les sitelinks existent, grâce à la sagacité du très regretté Bill Slawski
- etc.
Cela reste très intéressant, car dans les coins cela révèle des subtilités de fonctionnement inconnues. J’ai déjà passé quatre heures à analyser la doc (bien touffue), et par curiosité je passerai probablement encore du temps dessus. C’est notamment un bon endroit pour repérer les noms utilisés en interne par Google : »Radish / Tofu / Tangram / etc… »
Mais est-ce que cela permet d’identifier des choses actionnables pour le SEO : non.
Définitivement non.
Un « buzz » qui va rajouter une couche à la confusion ambiante
Je ne sais pas si Google va juger utile de commenter cette affaire, et de confirmer ou d’infirmer certains points.
Mais si j’étais en charge de la communication chez Google, je laisserai les SEOs dans le flou, et je contemplerai leur capacité infinie à spéculer sur le fonctionnement du moteur, sans jamais réellement s’appuyer sur une méthode un tant soit peu logique, ou pire scientifique.
A propos des soit-disant « mensonges de Google » prouvés par ces documents
Bien sûr, Google garde secret ses recettes de cuisine. Bien sûr, la firme de Mountain View ne révèlera jamais l’intégralité des rouages de son algorithme. Et l’ensemble des procédures contre Google montre que la firme cache parfois aussi des petits secrets inavouables.
Mais de là à prendre cette « fuite » comme la preuve d’un certain nombre de mensonges de la part Google, c’est prendre ses désirs pour des réalités, et ne pas voir que sa vision est biaisée par le souci de démontrer une thèse.
La principale accusation, c’est que Google a menti à chaque fois qu’ils ont nié utiliser les données sur le comportement des utilisateurs (comme les clics sur les résultats) comme critère de classement. Et surtout comme signal utilisé dans le coeur de l’algorithme.
C’est subtil, mais en fait c’est vrai : navboost et glue sont des dispositifs qui ne sont pas dans le coeur de l’algorithme de classement, celui qui calcule les scores de pertinence. Navboost fonctionne comme un filtre qui permet de sélectionner les résultats qui maximent le score IS (Information Satisfaction) et de reranker ce qui a déjà été classé par l’algo principal.
Donc cela fait des années que les porte paroles de Google donnent des réponses différentes selon le contexte et la formulation de la question, sans jamais vraiment mentir. Mais en dire plus, donner plus d’éléments de contexte, serait révéler tous les secrets de l’algorithme et cela n’a jamais été dans leurs priorités, bien sûr.
En attendant, faites attention à ce qui se dit sur cette API : vous avez plus de chances de découvrir que l’on vous a menti sur l’interprétation de ces documents « fuités », que d’apprendre des révélations sensationnelles sur ce que Google vous cache depuis des années…
Pour l’essentiel, ce n’était pas caché.
Et Google n’a pas besoin de faire beaucoup d’efforts pour créer des écrans de fumée : il leur suffit de ne pas vous dévoiler tous les détails… D’aucuns appelleront cela des mensonges par omission, d’autres la volonté légitime de protéger des secrets industriels…
Update 29 mai 23h00 : voila le commentaire de Google
Voila ce qu’un porte parole de Google a répondu à Barry Schwartz hier soir :
Nous mettons en garde contre les hypothèses inexactes sur le Search basées sur des informations hors contexte, obsolètes ou incomplètes. Nous avons partagé de nombreuses informations sur le fonctionnement de Google Search et les types de facteurs que nos systèmes prennent en compte, tout en nous efforçant de protéger l’intégrité de nos résultats contre les manipulations
https://searchengineland.com/google-responds-to-leak-documentation-lacks-context-442705
Bon. Voila une réponse très langue de bois. Mais en traduisant entre les lignes, Google affirme que certaines des allégations formulées (que Google qualifie gentiment d’hypothèses) sont inexactes. A quel point inexactes ? On ne le saura jamais de la bouche de quelqu’un de Google, j’en ai peur.
Merci
(je cherche une bonne adresse sur les minutes du procès Google aux EU)
Quelque chose comme ça ?
https://thecapitolforum.com/google_antitrust_trial_2023/
ou
https://www.justice.gov/atr/us-and-plaintiff-states-v-google-llc-2020-trial-exhibits
?