C'était un secret de polichinelle pour certains. Mais c'est tout de même une bombe qui secoue la Silicon Valley. Selon The Information, OpenAI, l’entreprise de Sam Altman derrière ChatGPT, utiliserait SerpAPI, un service spécialisé dans le scraping de résultats de recherche… pour récupérer directement des données de Google. Et cela malgré un refus explicite de Google, qui avait décliné en 2024 une demande officielle d’accès à son index. En clair : OpenAI cherche à concurrencer Google sur la recherche… tout en exploitant ses propres résultats. Un aveu de faiblesse terrible pour le leader des plateformes conversationnelles, alors qu'il est déjà fragilisé par les nombreuses critiques qui ont accompagnées la sortie de son dernier modèle de langue, GPT-5.
L'arme secrète d'OpenAI pour effectuer des recherches sur le web : La page de résultats de Google
L’enquête de The Information publiée le 22 août 2025 signée Amir Efrati, Stephanie Palazzolo et Natasha Mascarenhas révèle que ChatGPT s’appuie sur SerpAPI pour répondre aux questions en temps réel. Cette startup, basé à Austin, Texas, bien connue dans le monde du scraping, contourne les restrictions de Google pour fournir aux clients les résultats bruts de recherche.
La révélation, largement reprise dans les médias et notamment par Tom’s Guide et TheFly, met en lumière ce paradoxe : pour remplacer Google, OpenAI reste en réalité… dépendant de Google.
Un refus pourtant clair de Google
Il est intéressant de noter qu'en juillet 2024, OpenAI avait officiellement approché Google pour accéder à son Search API. Un email, révélé lors du procès antitrust US v. Google, montre que la réponse fut négative dès août 2024.
En arrière-plan, Google craint qu’en donnant accès à son index, il ne renforce directement la qualité des produits concurrents et ne perde son avantage stratégique. Les documents judiciaires révèlent que pour Google, offrir des capacités de grounding (c'est-à-dire le fait d'ancrer des résultats de recherche aux réponses d'un chatbot) à ses rivaux améliorerait leurs produits. Le géant américain insiste aussi sur le fait que son Knowledge Graph, ses Oneboxes et ses Related Questions (accessibles en interne via le Gemini App) constituent un avantage compétitif décisif qu’il ne souhaite pas partager. C’est cette logique qui a conduit au refus opposé non seulement à OpenAI, mais aussi à Anthropic (Claude), dont la demande similaire en octobre 2024 a également été rejetée.
Le témoignage sous serment de Nick Turley
Autre révélation clé : lors d’une audience au procès que mène le département de justice américain contre Google, en avril 2025, Nick Turley, Head of Product ChatGPT, a reconnu la dépendance d’OpenAI aux sources tierces. Sa phrase résonne aujourd'hui comme un aveu :
« Our goal was to have 80% of user queries answered from OpenAI’s own index by the end of 2025. We are, however, still years away from reaching that level. »
En clair : OpenAI est très loin d'avoir les moyens de se passer des données externes, et encore moins de concurrencer l’index tentaculaire de Google.
L’étude qui a tout changé : Alexis Rylko met OpenAI à nu
Pour ceux qui s'intéressent de près au fonctionnement de ChatGPT Search, le fait qu'OpenAI s'appuie en partie sur l'index de Google n'est pas une nouveauté. Dès le 6 juillet 2025, le consultant SEO Alexis Rylko publiait une enquête dans sa newsletter SEO, Data & Growth. En analysant les fichiers JSON générés par SearchGPT, il démontre que :
Jusqu’à 90 % des URLs de ChatGPT Search correspondent à Google.
À peine 30 % coïncident avec Bing.
Les snippets et timestamps correspondent à ceux affichés dans la page de résultats de Google.
Reprise notamment Search Engine Land, cette étude a marqué un tournant : la communauté SEO a pris conscience que ChatGPT, sous ses airs d’alternative, s’appuyait directement sur l'index du plus grand moteur de recherche au monde.
Google resserre l’étau contre le scraping
Cela n'est peut-être dû qu'au hasard, mais rappelons qu'en janvier 2025, Google a renforcé brutalement ses mécanismes anti-scraping : captchas renforcés, limitations d’IP, détection comportementale et rendu JavaScript obligatoire sur certaines SERP. Résultat : plusieurs outils SEO majeurs (Semrush, SimilarWeb, SE Rankin, etc.) se sont retrouvés en panne pendant plusieurs jours, incapables de collecter des données.
Un avertissement pour la boîte de Sam Altman : SerpAPI, aujourd'hui si précieux pour OpenAI, pourrait un jour se retrouver bloqué.
Le scraping de ses pages de résultats par ses concurrents est-il si problématique pour Google ?
Nous le savons, OpenAI, et il n'est pas le seul, ambitionne de bâtir le moteur de recherche du futur. Mais les faits sont têtus : sans Google, l'entreprise ne peut pas assurer la meilleure qualité pour ses réponses qui demandent une mise à jour des connaissances du chatbot.
Cette dépendance de ses concurrents n'est-elle pas une bonne nouvelle pour Google ? SerpAPI ne donne accès qu'aux résultats bruts de recherche, pas à la logique de ranking qui se cache derrière l'algorithme, ni aux données enrichies issues du Knowledge Graph que Google construit depuis 2012 et affine en continu.
En d'autres termes, OpenAI peut puiser dans la surface, mais l'avantage compétitif de Google réside dans sa capacité à organiser, hiérarchiser et relier l'information à grande échelle pour nourrir et entraîner ses grands modèles de langage.
L'arrivée de ChatGPT en novembre 2022 avait provoqué un vent de panique et la mise en place d'un "code rouge" chez Google. Mais deux ans et demi plus tard, le vent n'a-t-il pas déjà tourné ?
Commentaires
Aucun commentaire pour le moment. Soyez le premier à commenter !
Ajouter un commentaire