Tout savoir sur la Google Leak - Episode 12
Article écrit par Julien Gourdon
ancien journaliste et consultant SEO depuis 2015
Dernière modification :
Le 28 mai 2024, une fuite massive des données issues de l'API de recherche de Google, connue sous le nom de "Google Leak" a été révélée au grand public, par l'intermédiaire de deux acteurs très connus du monde du SEO, Rand Fishkin (fondateur de Moz) et Mike King. Jamais à ce jour le moteur de recherche le plus utilisé au monde n'avait été victime de telles révélations sur l'un des secrets industriels les mieux gardés au monde... Le fonctionnement de son algorithme de classement. Sait-on désormais exactement comment placer une page web en première position des résultats de Google grâce à la fuite de ces documents ?
Je vous propose, dans cet article, d'explorer en profondeur les révélations issues de cette fuite, leur impact sur le SEO, et les perspectives qu'elles ouvrent pour les professionnels du secteur.
Fuite des donées de l'algorithme de classement de Google : contexte et implications
Le 28 mai 2024 (en France, mais le 27 mai aux USA) Rand Fishking publie sur son blog un article révélant la fuite de données issues de la Google API content warehouse. Au total, ce sont 2 596 modules de l'API de recherche de Google, regroupant plus de 14 000 fonctionnalités, qui sont mis à la disposition du public. La publication de cet article fait immédiatement l'effet d'une bombe. Les premiers commentaires des professionnels du référencement vont tous dans le même sens : Google ment à propos du fonctionnement de son algorithme de classement et ces documents en sont la preuve irréfutable !
Est-ce vraiment aussi clair que ça ?
Je reviendrais un peu plus loin sur ce point, mais intérressons-nous d'abord à la question de savoir comment une telle fuite a pu avoir lieu, et si ces documents sont bien authentiques.
Une fuite accidentelle due à une erreur de déploiement d'un dépôt
Il semble que la fuite des données de l'API de l'algorithme de classement de Google ne soit en aucun cas due à un piratage industriel ou à une cyberattack, mais que la cause est tout simplement le fait d'une erreur interne. Quelqu'un, chez Google, a fait fuiter les données le 5 mars dernier en voulant déployer un dépôt sur un répertoire Github sécurisé, mais l'a accidentellement déployé sur Hexdocs, qui indexe des dépôts Github publics.
Et Erfan Azimi, un jeune entrepreneur spécialisé dans le référencement naturel, a trouvé ces documents par hasard lors d'une recherche sur Google. C'est en tout cas la version qu'il nous raconte.Pas de cyberattack, donc. Mais ces documents sont-ils vraiment issus de l'API de recherche de Google ?
Des documents authentiques
Aucun doute permis à ce niveau-là. Pas l'intermédiaire de son porte-parole Davis Thompson, Google a confirmé l'authenticité des documents fuités au site The Verge. Le moteur de recherche refuse cependant de commenter le fond des documents et met en garde contre les conclusions hâtives que nous pourrions faire en nous basant sur des informations hors contexte, obsolètes ou incomplètes.
Les documents sont donc authentiques et offrent ainsi un aperçu inédit des mécanismes internes de l'algorithme de classement de Google.
Mais ces mécanismes, quels sont-ils exactement ?
Principales révélations
Bien au-delà des prétendus mensonges de Google que mettraient en lumières les informations fuitées (rappelons quand même que Google est une entreprise commerciale dont l'objectif est de gagner de l'argent, et qu'à ce titre, son intérêt n'est certainement pas de révéler tous ses secrets industriels à ses concurrents), les documents apportent leur lot de révélations qu'il est toujours intéressant de tenter d'analyser (avec toutes les précautions d'usage, bien entendu).
Voici les principales à mes yeux :
- Site Authority : Google semble utiliser un système appelé "siteAuthority" pour évaluer l'autorité des sites, malgré ses démentis passés. Cette notion est cruciale pour le classement, soulignant l'importance des backlinks de haute qualité que doit recevoir un site pour améliorer sa visibilité dans les pages de résultats du moteur de recherche ;
- Utilisation des Données de Navigation : Contrairement aux affirmations précédentes de Google, les données de navigation de Chrome semblent être effectivement utilisées pour améliorer les classements des pages. Cela inclut des informations sur les clics et l'historique de navigation des utilisateurs, via son algorithme de machine learning Navboost qui fut révélé en octobre 2023 par l'ancien vice-président de la recherche de Google, Pandu Nayak, lors de son audition devant le département de la justice américain dans le cadre du procès anti-trust de Google ;
- Existence d'une sandbox : les documents révèlent l'existence potentielle d'une "sandbox" pour les nouveaux sites afin d'évaluer leur crédibilité avant qu'ils ne puissent apparaître dans les pages de résultats. Cela a toujours été nié par Google ;
- Existence de whitelists : Google maintiendrait des "listes blanches" de domaines considérés comme fiables, notamment des sites gouvernementaux ou liés à la santé. Ces sites pourraient bénéficier d'un traitement préférentiel pour certaines requêtes sensibles, ou pendant des périodes électoriales ou de crises sanitaires, ce qui pose des questions quant à la neutralité du web aux yeux du moteur de recherche ;
- Qualité du contenu et évaluations humaines : Les évaluations des sites par les "Quality Raters" semblent pouvoir influencer directement le classement des sites dans les pages de résultats. ;
- Répartition des backlinks et des ancres de lien en 3 niveaux de qualité : Google semble répartir les liens et les ancres de lien dans trois index différents en fonction de leur qualité : l'index haute qualité, qualité medium et basse qualité. Le trafic des pages sur lesquelles sont posées les liens semble influer sur le classement des backlinks. De la même façon, le contenu qui entoure les ancres de lien semble être pris en compte pour évaluer leur pertinence. ;
- Notion de focus thématique d'un site : Un attribut siteFocusScore dans la documentation interne semble indiquer que Google attribue un score à un site en fonction d'à quel point il se focalise sur une thématique donnée. Cet attribut est à mettre en relation avec un attribut siteRadius, qui lui semble chargé de noter à quel point une page donnée est éloignée de la thématique principale du site. Ceci me semble particulièrement intéressant car cela pourrait vouloir dire qu'une page publiée sur un site qui s'éloigne trop de la thématique principale du site en question pourrait venir dégrader le score global du site web, tout simplement parce qu'il ferait dévier le site de sa thématique principale. Tout ceci n'est évidemment qu'une supposition, et chacun est en droit de se faire son propre avis sur cette question ;
- Mise en avant des auteurs : Google semble accorder une place particulièrement importante aux auteurs des articles, qui sont archivés et suivis par le moteur de recherche afin d'évaluer leur niveau d'expertise sur un sujet donnée ;
- Microservices et analyses temps réel : Ce qui semble au final le plus intéressant dans la documentation interne de Google, c'est que le moteur de recherche utilise toute une architecture composée de plusieurs services, dont certains sont utilisés en temps réel, chacun ayant un rôle spécifique dans le processus de classement. Cela montre la complexité et la nature distribuée de l'algorithme de Google. ;
Quelles implications pour le SEO ?
Il est très difficile au final de répondre à cette question. Car si la Google Leak est hyper intéressante pour tous ceux qui s'intéressent au fonctionnement d'un moteur de recherche car elle permet d'obtenir un accès privilégié au vocabulaire interne utilisé par les ingénieurs de Google en charge de la recherche, elle pose finalement plus de questions qu'elle n'apporte de réponses sur la manière dont fonctionne l'algorithme de classement du plus grand moteur de recherche au monde.
Ces documents internes ont au moins le mérite de provoquer de nombreux débats au sein de la communauté SEO. Ils offrent également un terrain de jeu énorme pour tous les consultants SEO comme moi afin de mettre en place de nouveaux tests dans le but d'infirmer ou confirmer le fonctionnement des différents attributs révélés dans la fuite des données.
Les consultants SEO ne sont-ils pas des bêta testeurs dans l'âme ?