Google vient de publier une nouvelle version de ses « Search Quality Evaluator Guidelines »
Pour l’obtenir c’est par ici :
La dernière édition datait de mars 2024.
Quoi de neuf dans cette version ?
Le document a gagné 11 pages supplémentaires.
Parmi les nouveautés, une définition des IA génératives (section 2.1) :
La définition pointe vers ce document :
https://ai.google/static/documents/google-about-generative-ai.pdf
C’est un document de 16 pages de type les « IA génératives pour les nuls » mais plutôt bien fait et complet.
Pourquoi ajouter cette définition ? Les problèmes de qualité posés par les IA génératives sont évoqués à plusieurs endroits dans le document :
- section 4.5.3 : « For example, AI generated content with made up « author » profiles (AI generated images or deceptive creator descriptions) in order to make it appear that the content is written by people. »
- et surtout : « The Lowest rating applies if all or almost all of the MC on the page (including text, images, audio, videos, etc) is copied, paraphrased, embedded, auto or AI generated, or reposted from other sources with little to no effort, little to no originality and little to no added value for visitors to the website. Such pages should be rated Lowest, even if the page assigns credit for the content to another source. »
Conclusion : les « quality raters » sont invités à se méfier des contenus générés par IA. Mais le problème ici est avant tout la mauvaise qualité du contenu produit et son manque de valeur ajoutée.
On retrouve plus généralement des mentions des IA génératives dans cette rubrique :
- 4.6.5 Scaled Content Abuse : « Examples of scaled content abuse include : Using automated tools (generative AI or otherwise) as a low-effort way to produce many pages that add little-to-no value for website visitors as compared to other pages on the web on the same topic. »
- 4.6.6 : « Content that is paraphrased from a single source or multiple sources. Content from a single page or from many websites can be summarized, reworded or paraphrased by people or generative AI tools. Paraphrasing may be valuable, for example when an expert paraphrases the contents of a government policy in easy-to-understand language.
Google précise quand même que le problème n’est pas l’outil, mais comment l’outil est utilisé (toujours dans la section 4.6.6
Likewise, the use of Generative AI tools alone does not determine the level of effort or Page Quality rating. Generative AI tools may be used for high quality and low quality content creation. For example, a high level of effort may be involved in creating high quality original artwork using Generative AI tools. However, it’s also possible to use Generative AI tools to create Lowest quality content with little to no effort, little to no originality, and little to no added value for website visitors.
Dans la section « 4.6.7 How to Determine if Content is Copied » Google précise que la présence de mentions révélatrices de contenus copiés par une IA est rédhibitoire :
Ce qui a le plus changé ce sont les contenus des sections 4.0 à 4.6, qui sont notamment consacrées aux nouveaux « abus » sanctionnés par Google ), à savoir :
- les « site reputation abuse »
- les « expired domains abuse »
- et les « scaled content abuse »
La section sur les « scaled content abuse » est assez détaillée et intéressante à étudier, car elle correspond à pas mal de pratiques fréquentes sur les sites internet.
Quant à la section sur les abus de réputation de site, elle est beaucoup plus limitative que la documentation en ligne sur le site. Qu’est-ce qui fait foi ? Les guidelines en ligne, sans hésiter. Mais c’est intéressant de voir qu’en coulisses, Google fournit d’autres instructions.
Dernier détail : le guide demande aux quality raters de désactiver leur ad blocker pour bien voir TOUTES les publicités présentes sur les pages à évaluer.