Accueil > Podcast SEO > Google Leak

Tout savoir sur la Google Leak - Episode 12

Portrait de l'auteur de l'article, Julien Gourdon

Article écrit par Julien Gourdon
ancien journaliste et consultant SEO depuis 2015



Publié le :
Dernière modification :
⏱ Environ 5 minutes

Le 28 mai 2024, une fuite massive des données issues de l'API de recherche de Google, connue sous le nom de "Google Leak" a été révélée au grand public, par l'intermédiaire de deux acteurs très connus du monde du SEO, Rand Fishkin (fondateur de Moz) et Mike King. Jamais à ce jour le moteur de recherche le plus utilisé au monde n'avait été victime de telles révélations sur l'un des secrets industriels les mieux gardés au monde... Le fonctionnement de son algorithme de classement. Sait-on désormais exactement comment placer une page web en première position des résultats de Google grâce à la fuite de ces documents ?

Je vous propose, dans cet article, d'explorer en profondeur les révélations issues de cette fuite, leur impact sur le SEO, et les perspectives qu'elles ouvrent pour les professionnels du secteur.

Fuite des donées de l'algorithme de classement de Google : contexte et implications

Le 28 mai 2024 (en France, mais le 27 mai aux USA) Rand Fishking publie sur son blog un article révélant la fuite de données issues de la Google API content warehouse. Au total, ce sont 2 596 modules de l'API de recherche de Google, regroupant plus de 14 000 fonctionnalités, qui sont mis à la disposition du public. La publication de cet article fait immédiatement l'effet d'une bombe. Les premiers commentaires des professionnels du référencement vont tous dans le même sens : Google ment à propos du fonctionnement de son algorithme de classement et ces documents en sont la preuve irréfutable !

Est-ce vraiment aussi clair que ça ?

Je reviendrais un peu plus loin sur ce point, mais intérressons-nous d'abord à la question de savoir comment une telle fuite a pu avoir lieu, et si ces documents sont bien authentiques.

Une fuite accidentelle due à une erreur de déploiement d'un dépôt

Il semble que la fuite des données de l'API de l'algorithme de classement de Google ne soit en aucun cas due à un piratage industriel ou à une cyberattack, mais que la cause est tout simplement le fait d'une erreur interne. Quelqu'un, chez Google, a fait fuiter les données le 5 mars dernier en voulant déployer un dépôt sur un répertoire Github sécurisé, mais l'a accidentellement déployé sur Hexdocs, qui indexe des dépôts Github publics.

Et Erfan Azimi, un jeune entrepreneur spécialisé dans le référencement naturel, a trouvé ces documents par hasard lors d'une recherche sur Google. C'est en tout cas la version qu'il nous raconte.

Pas de cyberattack, donc. Mais ces documents sont-ils vraiment issus de l'API de recherche de Google ?

Des documents authentiques

Aucun doute permis à ce niveau-là. Pas l'intermédiaire de son porte-parole Davis Thompson, Google a confirmé l'authenticité des documents fuités au site The Verge. Le moteur de recherche refuse cependant de commenter le fond des documents et met en garde contre les conclusions hâtives que nous pourrions faire en nous basant sur des informations hors contexte, obsolètes ou incomplètes.

Les documents sont donc authentiques et offrent ainsi un aperçu inédit des mécanismes internes de l'algorithme de classement de Google.

Mais ces mécanismes, quels sont-ils exactement ?

Principales révélations

Bien au-delà des prétendus mensonges de Google que mettraient en lumières les informations fuitées (rappelons quand même que Google est une entreprise commerciale dont l'objectif est de gagner de l'argent, et qu'à ce titre, son intérêt n'est certainement pas de révéler tous ses secrets industriels à ses concurrents), les documents apportent leur lot de révélations qu'il est toujours intéressant de tenter d'analyser (avec toutes les précautions d'usage, bien entendu).

Voici les principales à mes yeux :

Quelles implications pour le SEO ?

Il est très difficile au final de répondre à cette question. Car si la Google Leak est hyper intéressante pour tous ceux qui s'intéressent au fonctionnement d'un moteur de recherche car elle permet d'obtenir un accès privilégié au vocabulaire interne utilisé par les ingénieurs de Google en charge de la recherche, elle pose finalement plus de questions qu'elle n'apporte de réponses sur la manière dont fonctionne l'algorithme de classement du plus grand moteur de recherche au monde.

Ces documents internes ont au moins le mérite de provoquer de nombreux débats au sein de la communauté SEO. Ils offrent également un terrain de jeu énorme pour tous les consultants SEO comme moi afin de mettre en place de nouveaux tests dans le but d'infirmer ou confirmer le fonctionnement des différents attributs révélés dans la fuite des données.

Les consultants SEO ne sont-ils pas des bêta testeurs dans l'âme ?