ChatGPT, paywall et robots.txt : Quand les IA lisent derrière les murs

Les IA comme ChatGPT peuvent accéder en temps réel à vos contenus pour en faire la synthèse même lorsque vous les bloquez explicitement dans votre fichier robots.txt. Ce phénomène repose sur une distinction technique clé : les bots déclenchés par l'utilisateur (par exemple, quand l'utilisateur fournit une URL et demande à l'IA de lui faire un résumé de son contenu) peuvent légitimement ignorer le protocole robots.txt, au motif qu'ils agissent au nom de l'utilisateur, et pour ne pas perturber son expérience. Cette pratique, bien que légale, pose d'importantes questions sur la protection et la rémunération des contenus web, notamment des articles de presse. Les droits voisins, instaurés en France par l'ordonnance n° 2021-580 du 12 mai 2021, constituent actuellement la seule protection juridique efficace pour les éditeurs face à cette réalité.

L'expérience qui dévoile la faille

J'ai eu le plaisir d'être interviewé par une journaliste de l'Express en octobre 2025 à l'occasion de la sortie de ChatGPT Atlas, le nouveau navigateur d'OpenAI. L'article étant protégé par un paywall, et n'ayant pas d'abonnement au journal, il ne m'était pas possible de lire l'article au complet quand il a été publié. Dans la mesure où, selon les directives du fichier robots.txt du journal, le bot d'OpenAI ChatGPT-User (celui qui scrape en temps réel les contenus web pour répondre à un prompt utilisateur quand il estime en avoir besoin) est explicitement bloqué, j'ai estimé nulles mes chances d'obtenir un résumé de l'article par ChatGPT.

User-agent: GPTBot  
Disallow: /  

User-agent: ChatGPT-User  
Disallow: /

Extrait du fichier robots.txt de l'Express.

Dans le doute, j'ai quand même demandé à la plateforme conversationnelle... Et j'ai obtenu un parfait résumé de l'article en question, avec reproduction fidèle de mes citations à la clé.

Le résumé fait par ChatGPT de l'article de l'Express dans lequel j'ai été interviewé, pourtant protégé par un paywall et des directives claires dans le fichier robots.txt.

ChatGPT va jusqu'à retranscrire l'ensemble de mes citations dans l'article, mais refuse de recopier intégralement l'article au motif qu'il est "protégé par le droit d'auteur".

Comment cela est-il possible ?

Deux raisons expliquent la réussite de ChatGPT à me faire une synthèse d'un article pourtant doublement protégé :

La plupart des robots IA n'exécutent pas le javascript. Ils ne lisent que le contenu HTML brut. Comme le paywall de l'Express est rendu côté navigateur par un code JS, ChatGPT-User ne détecte pas la présence du paywall qui protège l'article et accède sans effort au contenu complet ;
Les bots IA tels que ChatGPT-User, dits user-triggered, ne sont pas tenus de respecter les directives du robots.txt justement parce qu'ils agissent au nom de l'utilisateur comme je l'ai appris en lisant cet excellent article de lvlup.fr.

Fichier robots.txt : une convention, pas un bouclier

Inventé en 1994 par Martijn Koster, le protocole robots.txt n'a jamais eu de valeur légale contraignante. Il s'agit simplement d'une convention d'usage, un gentleman's agreement entre éditeurs et moteurs de recherche.

Mythe	Réalité
robots.txt = barrière infranchissable	robots.txt = simple convention volontaire
Bloquer un bot = il ne viendra plus	Les bots peuvent l'ignorer sans sanction

Un robot malveillant ou un service user-triggered peut donc parfaitement ignorer ce protocole sans conséquences juridiques directes. Il n'a jamais été intégré dans le droit français ou européen, créant ainsi une zone grise dont les IA tirent aujourd'hui pleinement parti.

Qui a décidé que les IA pouvaient ignorer le robots.txt "à la demande de l'utilisateur" ?

La réponse est sans appel : Google a établi cette norme de fait dès les années 2000.

Des services Google comme Feedfetcher ou Site Verifier ont été conçus pour récupérer des pages à la demande explicite d'un utilisateur. Ces bots user-triggered n'ont jamais respecté le robots.txt, avec pour justification qu'ils agissent au nom d'un humain.

Google a même documenté cette approche, la transformant en standard de facto :

"Because the fetch was requested by a user, these fetchers generally ignore robots.txt rules." Source : Google Developers

OpenAI, Perplexity, Anthropic et Meta ont naturellement adopté une logique similaire pour leurs assistants. Les agents comme ChatGPT-User, Claude-User ou Perplexity-User agissent donc comme des navigateurs humains - ils lisent, analysent et synthétisent les contenus qu'ils récupèrent, sans se soucier des directives qui se trouvent dans le robots.txt, et le plus souvent sans même jamais lire ce fichier.

Sur les 73 hits (nombre de fois où le bot a récupéré une de mes pages) du robot Perplexity-User sur mon site entre le 17 octobre et le 4 novembre 2025 et les 24 URL scrapées, aucun n'a concerné mon fichier robots.txt.

GPTBot et oai-search vs ChatGPT-User : les deux visages d'OpenAI

Il est important à ce stade de comprendre que les plateformes conversationnelles comme ChatGPT ont plusieurs types de robots qui parcourent le web. Les uns servent à crawler massivement et automatiquement le web pour entraîner leur modèle (GPTBot pour OpenAI) ou pour construire leur propre base de données (oai-search). Ils respectent généralement (bien que ce ne soit pas toujours vrai comme nous allons le voir par la suite) les directives mises en place par les éditeurs dans le fichier robots.txt. Le troisième type de bot IA effectue des recherches web en temps réel pour répondre à une requête utilisateur (ChatGPT-User par exemple). Parce qu'ils sont déclenchés suite à une demande de l'utilisateur (implicite ou explicite) et au motif que cela dégraderait l'expérience de l'internaute, y compris en termes de vitesse de crawl (aller d'abord vérifier les directives du fichier robots.txt avant de récupérer le contenu d'une URL prendrait du temps), il est admis (par les géants du web) qu'ils ne sont pas tenus de respecter le protocole.

Bot	Usage	Respecte robots.txt ?
GPTBot	Crawl massif pour entraîner les modèles	Oui
oai-search	Crawl ciblé pour construire un index de recherche propriétaire	Oui
ChatGPT-User	Lecture ponctuelle de contenu web à la demande	Non

La conséquence directe ? Bloquer ChatGPT-User et tous les bots user-triggered dans le fichier robots.txt n'empêche pas l'accès à vos contenus en temps réel par les plateformes conversationnelles.

Comment les éditeurs peuvent vraiment se protéger contre les bots IA ?

Face à cette réalité, les éditeurs disposent de plusieurs moyens de défense, avec différents niveaux d'efficacité, que j'ai répertorié ci-dessous (liste non-exhaustive tant les moyens sont divers et variés) :

Méthode	Efficacité	Difficulté	Notes
robots.txt	❌ Inutile contre les user-triggered bots	⭐	N'a aucun effet sur ChatGPT-User
Blocage IP	✅ Très efficace, mais nécessite d'être régulièrement mis à jour	⭐⭐	Liste IP OpenAI : platform.openai.com/docs/bots
CAPTCHA / défi JS	✅ Empêche les bots sans JS	⭐⭐	Les bots IA n'exécutent pas le javascript
Paywall côté serveur	✅ Contenu invisible pour les bots IA	⭐⭐⭐	Solution la plus robuste techniquement, mais nécessite un pilotage fin pour que les pages soient indexées par les moteurs de recherche traditionnels
Accord de licence (droit voisin)	✅ Revenus + contrôle	⭐⭐⭐⭐	Modèle gagnant à long terme

Par ailleurs, plusieurs innovations apparues en 2025 ambitionnent de venir compléter l'arsenal défensif des éditeurs. Elles visent non seulement à freiner la lecture non autorisée des contenus par les LLM, mais aussi à monétiser ou tracer ces accès.

Cloudflare : blocage par défaut des bots IA depuis juin 2025

En juillet 2025, Cloudflare, plus grand réseau de distribution de contenu (CDN) au monde, utilisé par plus de 20% des sites web et dont la technologie permet de détecter les robots génératifs à grande échelle, a imposé un filtrage des bots IA de facto, activé par défaut sur des millions de domaines. Il s'agit d'un tournant majeur, puisqu'avec Cloudflare le blocage des IA n'est plus une configuration technique avancée, mais une option standardisée de sécurité.

Pay Per Crawl : la facturation des accès bots

En parallèle du blocage par défaut des bots IA, Cloudflare a lancé l'initiative de la facturation à la requête. Chaque agent identifié comme IA doit payer un micro-montant pour accéder à une page, souvent de l'ordre de 1 centime pour 1 000 pages.

Le fonctionnement est le suivant :

Le serveur détecte le bot (via IP ou User-Agent vérifié) ;
Il redirige vers un endpoint de négociation (souvent via API REST) ;
Si le bot accepte, la requête est autorisée et l'accès est journalisé pour rémunération.

C'est totalement marginal à ce jour, mais cette approche repositionne le contenu comme ressource économique mesurable, et non plus comme une donnée librement exploitable. Elle s'inspire par ailleurs des droits voisins applicables à la presse en France.

Les droits voisins : un rempart (mais pas pour tout le monde)

Face aux IA capables de lire, synthétiser et redistribuer des contenus web sans autorisation explicite, les droits voisins se sont imposés comme le principal levier juridique dont disposent aujourd’hui les éditeurs de presse en France.

Instaurés par l’ordonnance n° 2021‑580 du 12 mai 2021, ces droits transposent l’article 15 de la directive européenne 2019/790. Ils permettent aux éditeurs de publications de presse d’exiger une rémunération ou une autorisation préalable lorsqu’un acteur numérique exploite tout ou partie de leurs contenus à des fins lucratives, notamment via l’affichage, la reproduction ou la communication au public d’articles.

Le problème est que ce cadre ne s’applique qu’à un périmètre très restreint : celui des publications de presse, définies comme des contenus d’actualité publiés périodiquement par un éditeur reconnu. Blogs personnels, newsletters, forums spécialisés, sites de vulgarisation scientifique ou de création littéraire, aussi rigoureux soient-ils, n’entrent pas dans ce champ. Aucun droit voisin ne les protège face au scraping ou à la synthèse algorithmique opérée par des IA comme ChatGPT ou Perplexity.

En clair :

Si Le Monde est résumé par ChatGPT, un accord de licence peut (et doit) encadrer cette utilisation. Si c’est votre blog, il n’existe aucun droit voisin à faire valoir.

Cette asymétrie crée une zone grise massive sur le web : des millions de créateurs indépendants, dont les contenus sont pourtant réutilisés par les IA génératives, n’ont aujourd’hui aucun mécanisme de compensation spécifique. Leur seul recours éventuel repose sur le droit d’auteur classique, bien plus difficile à mobiliser : il exige de démontrer une reproduction substantielle ou un préjudice réel, ce qui devient quasi impossible lorsque l’IA reformule ou résume un texte sans copier une seule phrase mot pour mot.

La presse commence à obtenir réparation

Le secteur de la presse, en revanche, a réussi à faire reconnaître ses droits, parfois à coups de rapports de force :

Juillet 2021 : Google est condamné à 500 millions d’euros par l’Autorité de la concurrence pour n’avoir pas respecté ses obligations de négociation avec les éditeurs au titre des droits voisins ;
Mars 2024 : Google écope d’une nouvelle amende de 250 millions d’euros pour non-respect de ses engagements contractuels ;
2023–2024 : OpenAI signe plusieurs accords de licence avec des groupes comme Axel Springer, Le Monde ou Prisa Media (El País) ;
Juin 2024 : l’accord avec Le Monde prévoit une rétrocession de 25 % des revenus issus des droits voisins aux journalistes, et couvre explicitement les usages dans ChatGPT.

Ces accords actent une vraie reconnaissance : l’usage des contenus de presse par une IA constitue une réutilisation commerciale qui doit être compensée.

Pourquoi Google freine le déploiement de l'IA générative en France

Il est probable que cette pression juridique explique en partie pourquoi Google n’a pas encore déployé ses AI Overviews ni son AI Mode en France, contrairement à d’autres pays. Le risque de se voir infliger une nouvelle amende à neuf chiffres semble peser lourd dans la balance, d’autant que les précédentes décisions montrent que les régulateurs français ne plaisantent pas avec la négociation équitable.

Et pour les autres ? Rien.

Pour l’immense majorité des créateurs du web, hors presse reconnue, la réalité est bien plus brutale :

Les IA peuvent lire vos contenus, en extraire l’information, les synthétiser ou les intégrer dans une réponse, sans vous demander quoi que ce soit ;
Vous ne bénéficiez ni des droits voisins, ni de protections spécifiques ;
Et à moins de prouver une reproduction illicite ou de mettre en place des mesures techniques de blocage (IP, CAPTCHA, Cloudflare…), vous n’avez aucun levier juridique solide.

La loi actuelle ne dit rien de précis sur ce qu’est une synthèse générée par IA : s’agit-il d’une transformation créative ? D’un simple résumé ? D’une réutilisation licite ? La jurisprudence française ne s’est pas encore prononcée. En attendant, les IA génératives, notamment par le biais de leurs agents user-triggered, exploitent cette zone grise à grande échelle.

Le cas Perplexity : quand le scraping franchit la ligne rouge

En août 2025, la controverse autour des pratiques de scraping a pris une nouvelle dimension avec le cas Perplexity AI, accusé par Cloudflare de "stealth crawling" - une pratique nettement plus agressive et problématique.

Selon l'enquête de Cloudflare publiée le 4 août 2025, Perplexity utiliserait une stratégie en deux temps :

Envoi de bots déclarés (PerplexityBot)
En cas de blocage → recours à des "crawlers furtifs" qui :
- Masquent leur identité derrière un user-agent générique (Chrome sur macOS)
- Utilisent la rotation d'adresses IP
- Changent d'ASN (Autonomous System Number)
- Ignorent délibérément les fichiers robots.txt

Cette controverse a culminé le 22 octobre 2025 avec le dépôt d'une plainte de Reddit contre Perplexity et trois sociétés de scraping (Oxylabs, AWMProxy, SerpApi). Pour apporter des preuves au dossier, Reddit a mis en place un piège ingénieux : un post visible uniquement via les résultats Google, qui a néanmoins été cité par Perplexity en quelques heures, prouvant l'utilisation de méthodes de contournement sophistiquées.

Rappelons par ailleurs qu'en juin 2025, le réseau social a également attaqué Anthropic, éditeur du modèle Claude, pour avoir copié massivement et sans autorisation des millions de contributions issues de ses forums publics, afin d'entraîner ses IA commerciales. Selon la plainte, déposée devant le tribunal californien, Anthropic aurait accédé aux contenus via les résultats de recherche Google, contournant ainsi les protections techniques directes mises en place par Reddit.

Vers la fin du web ouvert

A la différence des requêtes user-triggered, les pratiques reprochées à Perplexity et Anthropic relèvent d'une logique industrielle et proactive de collecte de données sans consentement, sans transparence et sans cadre contractuel.

Ces affaires marquent un tournant majeur :

Elles montrent que la tolérance tacite autour du scraping "open web" est en train de s'effondrer ;
Elles ouvrent la voie à une cascade de contentieux, où les éditeurs, créateurs, plateformes communautaires, mais aussi hébergeurs et CDN (comme Cloudflare) reprennent la main sur l'accès à leurs contenus ;
Elles posent une question centrale : jusqu'où une IA peut apprendre, sans consentement, sur la base de contenus librement consultables mais non librement exploitables ?