Quand les médias tentent de reprendre la main face à l’IA générative

Pendant 20 ans, les médias ont structuré leur visibilité digitale autour du SEO, des plateformes sociales et des moteurs de recommandations (Discover, YouTube). Aujourd’hui, une nouvelle dépendance : celle des IA génératives. Les modèles de langage (LLM) aspirent des millions d’articles pour générer des réponses fluides, souvent sans citation ni lien cliquable. Les rédactions, longtemps coincées entre Google et Facebook, découvrent qu’elles ont nourri une bête plus vorace encore.

Mais cette fois-ci, la coupe semble pleine. Plus question de se faire piller sans réagir. De New York à Bruxelles, elles attaquent, négocient, légifèrent et s’adaptent. Objectif : reprendre la main sur leurs données, leurs archives et leur valeur.

Un trafic en chute libre

Les chiffres sont implacables : depuis mai 2024, le trafic vers les 500 sites d’éditeurs les plus visités dans le monde a chuté de 27% en moyenne par rapport à la même période l’année précédente, soit une perte de 64 millions de visites mensuelles selon des données issues de Similarweb et reprises par The Current. Le passage d’un Google classique affichant une liste de liens bleus cliquables à un “moteur de réponses” avec ses AI Overviews (synthèse générée par l’IA affichée directement dans la page de résultats) a provoqué des baisses de taux de clics allant jusqu’à 79% pour certains secteurs.

Face à cette hémorragie, les médias en ligne, vivant en grande partie des revenus publicitaires générés par le trafic sur leur site, ont décidé de réagir, le New York Times en tête.

L’étincelle : Le New York Times ouvre les hostilités

Le 27 décembre 2023, soit un peu plus d’un an après la sortie de ChatGPT, le New York Times dépose une plainte historique contre OpenAI et Microsoft. Le quotidien américain dénonce un vol massif de ses contenus : des articles intégraux reproduits par ChatGPT, parfois mot pour mot. La plainte invoque le droit d’auteur, la concurrence déloyale, et des violations du Digital Millennium Copyright Act (DMCA), notamment concernant la suppression des informations de gestion des droits d’auteur. En clair, le NYT reproche à OpenAI d’avoir effacé ou caché la source et les conditions d’usage de plusieurs de ses articles apparus dans les réponses de ChatGPT, parfois repris presque mot pour mot, ce qui aide ou encourage la contrefaçon.

Chargé du dossier, malgré les demandes d’OpenAI et Microsoft de rejeter l’affaire, le juge Sidney H. Stein refuse d’en écarter la majeure partie le 4 avril 2025. L’affaire ira donc au fond, et pourrait définir le futur du fair use à l’ère des IA. Le juge a notamment rejeté l’argument d’OpenAI selon lequel certaines plaintes seraient prescrites, estimant que le Times ne pouvait raisonnablement découvrir l’infraction avant décembre 2020. Il a également validé les allégations de contrefaçon contributive, citant les “nombreux exemples” et les cas “largement médiatisés” d’infractions par des utilisateurs finaux.

Remarque : Le fair use est une exception au droit d’auteur. Dans certains cas, il est possible de réutiliser une oeuvre sans autorisation (par exemple pour citer, parodier, critiquer, enseigner, faire de la recherche). Il ne s’agit pas d’un droit automatique, mais d’une défense évaluée par les tribunaux au cas par cas.

Entretemps, plusieurs plaintes d’auteurs et d’éditeurs ont été centralisées à Manhattan afin d’être gérées de façon coordonnée, transformant la ville en champ de bataille juridique. En octobre 2025, un juge fédéral a également refusé de rejeter les plaintes d’auteurs comme Georges R.R. Martin, affirmant que les allégations selon lesquelles ChatGPT génère du contenu dérivé de leurs œuvres sont suffisamment plausibles pour continuer.

Derrière cette procédure, le message envoyé par les médias, et ceux qui sont à l’origine de produits culturels, est clair : ils ne veulent plus être des ressources gratuites dans les datasets des LLM. Le Times réclame ainsi des milliards de dollars en dommages et intérêts statutaires et effectifs, ainsi que la destruction de tout modèle de chatbot incorporant son contenu protégé.

Mais derrière les médias, d’autres plateformes commencent également à taper du poing sur la table.

Reddit, la révolte des communautés

En juin 2025, Reddit attaque Anthropic devant la Cour supérieure de Californie. En octobre, la même plateforme communautaire s’en prend à Perplexity AI dans une action fédérale déposée à New York. Le chef d’inculpation ? Un scraping à l’échelle industrielle, y compris après la mise en place d’un blocage technique et des notifications envoyées par les plaignants à la partie adverse.

Pour le prouver, Reddit a créé un contenu test accessible uniquement via Google (grâce à un accord de licence) et inaccessible ailleurs. Quelques heures plus tard, Perplexity a restitué le contenu de ce post dans ses réponses, ce que Reddit présente comme la preuve que Perplexity aspire les pages de résultats de Google pour récupérer du contenu Reddit malgré les protections mises en place.

Pour ce qui concerne Anthropic, le site communautaire allègue plus de 100 000 tentatives d’accès non autorisées depuis juillet 2024, malgré des déclarations publiques du moteur conversationnel affirmant qu’il avait bloqué ses bots en mai 2024. La plainte cite cinq causes d’action sous la loi californienne : violation de contrat, enrichissement sans cause, intrusion informatique, interférence délictueuse avec les relations contractuelles en vigueur, et concurrence déloyale.

Ces actions s’inscrivent dans une même logique : si les IA se nourrissent de tout, les plateformes veulent établir des frontières. La donnée devient une matière première stratégique, et chaque acteur cherche à monétiser son accès. Reddit a d’ailleurs signé des accords de licence avec Google et OpenAI respectivement en février et mai 2024, soulignant que ces géants ont besoin de se nourrir de conversations humaines authentiques pour entraîner leurs modèles à des usages précis et fiables.

L’Europe trace la voie de la transparence

De l’autre côté de l’Atlantique, l’Union européenne tente d’établir un équilibre entre innovation et protection, loin d’être évident.

L’AI Act, adopté par le Parlement européen le 13 mars 2024 et entré en vigueur le 1er août 2024, impose aux fournisseurs de modèles d’IA à usage général (GPAI) plusieurs obligations cruciales en matière de droit d’auteur. L’article 53(1)(c) exige la mise en place d’une politique de conformité au droit d’auteur de l’UE, notamment pour identifier et respecter les réservations de droits exprimées conformément à l’article (43) de la directive sur le marché unique numérique. L’article 53(1)(d) impose la publication d’un “résumé suffisamment détaillé” des données d’entraînement utilisés.

La Commission européenne a publié en juillet 2025 un modèle officiel de résumé public normalisé imposant aux GPAI de détailler les grands jeux de données publics, les sources sous licence et les données scrapées (avec la liste des principaux domaines). Cette transparence vise à équilibrer l’innovation et la protection des secrets commerciaux tout en donnant aux titulaires de droits les moyens de faire respecter leurs droits.

Complété par l’article 4 de la directive DSM (2019/790), qui instaure un droit d’opt-out (refus d’extraction) lisible par machine pour le texte et data mining commercial (DTM), ce cadre donne enfin une arme juridique aux éditeurs : ils peuvent refuser l’extraction automatisée de leurs contenus. Concrètement, les titulaires de droits peuvent exprimer leur réserve via des moyens lisibles par machine (comme le fichier robots.txt) ou des formes lisibles par l’humain (conditions d’utilisation indiquées dans les CGU).

Un tribunal néerlandais a récemment confirmé en février 2025 qu’un opt-out de l’exception TDM doit être fait par des moyens lisibles par machine, précisant que compte tenu du développement des technologies de traitement du langage naturel, même un opt-out en langage naturel pourrait être considéré comme “compréhensible par machine”. Un tribunal allemand a même suggéré en 2024 que les outils d’IA dotés de capacités NLP devraient être considérés comme des technologies de pointe pour identifier les opt-outs TDM.

Le calendrier d’application de ces nouvelles normes européennes est progressif : les obligations pour les GPAI déjà sur le marché s’appliquent à partir du 2 août 2027, tandis que les nouveaux modèles doivent se conformer dès août 2025. Les sanctions peuvent atteindre 15 millions d’euros ou 3% du chiffre d’affaires mondial.

Mais dans les faits, peu de médias l’utilisent efficacement. Le champ reste flou, et les IA peu scrupuleuses continuent d’aspirer la toile, contournant paywall et règles mises en place dans les fichiers robots.txt.

A titre d’exemple, j’ai eu récemment le plaisir d’être interviewé par une journaliste de l’Express à l’occasion de la sortie d’Atlas, le navigateur d’OpenAI. L'article a été mis en ligne le 30 octobre 2025 mais est protégé par un paywall, donc inaccessible en entier sans un abonnement payant. Comme il est clairement indiqué dans le fichier robots.txt de l’Express que les robots d’OpenAI GPTBot et ChatGPT-User ont l’interdiction de crawler le site, je n’avais aucun espoir que ChatGPT puisse m’en faire un résumé en lui fournissant l’URL de l’article. Et pourtant…

Fait intéressant, il suffit de désactiver le JS sur son navigateur pour que le paywall disparaisse et que l’article de l’Express puisse être consulté en ligne dans son ensemble. De là à dire que ChatGPT n’a même pas conscience qu’il existe un paywall sur le site média…

Quoi qu’il en soit, et malgré le fait que ces techniques de blocage sont certainement régulièrement contournées, une étude récente montre que 60% des sites d’information réputés tentent de bloquer au moins un agent d’IA dans leur fichier robots.txt, contre seulement 9,1% des sites de désinformation (domaines classés comme peu fiables par l’étude, apportant des informations fausses ou mensongères pouvant porter préjudice au public). Les sites réputés interdisent en moyenne 15,5 robots IA, tandis que les sites de désinformation en bloquent moins d’un. Cette asymétrie croissante soulève des questions essentielles sur la transparence du web et la qualité des données dans l’entraînement des IA.

La qualité des réponses IA en question

Une étude de la BBC publiée en février 2025 montre que 51% de toutes les réponses générées par les IA sur des sujets d’actualité présentaient des problèmes significatifs. Sur quatre mois, la BBC a testé ChatGPT, Microsoft Copilot, Google Gemini et Perplexity avec 100 questions d’actualité, en demandant aux assistants d’utiliser les sources BBC lorsque possible. Les résultats sont alarmants : 19% des réponses d’IA faisant référence au contenu BBC contenaient des inexactitudes factuelles, et 13% des citations attribuées à des articles BBC étaient modifiées ou n’existaient pas dans les articles.

Une étude similaire, publiée en octobre 2025 par la BBC et l’European Broadcasting Union (EBU), confirme que les assistants d’IA déforment le contenu des actualités 45% du temps, indépendamment de la langue et du territoire. Parmi les erreurs documentées :

ChatGPT et Copilot affirmant incorrectement que l’ancien Premier ministre Rishi Sunak était toujours en fonction après son départ ;
Gemini prétendant faussement que le NHS déconseille le vapotage alors qu’il le recommande comme méthode de sevrage tabagique ;
Perplexity décrivant les actions d’Israël comme “agressives” et l’Iran comme faisant preuve de “retenue”, des termes jamais utilisés dans les reportages de la BBC cités comme source de référence par le moteur conversationnel.

Ces chiffres démontrent que les LLM, malgré leur apparence d’autorité, demeurent profondément peu fiables pour la restitution d’informations factuelles. Un état de fait qui place les grands médias en situation de force.

Les premiers compromis : des licences à prix d’or

Depuis 2023, Associated Press, Axel Springer, Financial Times et News Corp ont signé des accords de licence avec OpenAI. En échange d’une rémunération, leurs contenus sont exploités dans ChatGPT avec attribution et contrôle partiel. Le Wall Street Journal a rapporté que l’accord avec News Corp pourrait valoir plus de 250 millions de dollars sur 5 ans. Ces deals marquent la création d’une “économie de la donnée journalistique” : un marché de l’accès aux corpus fiables.

L’accord entre Axel Springer et OpenAI, annoncé en décembre 2023, a été le premier du genre. Il permet aux utilisateurs de ChatGPT de recevoir des résumés d’articles sélectionnés de Politico, Business Insider, Bild et Welt, y compris du contenu normalement payant, avec attribution et liens vers les articles complets. “Nous sommes ravis d’avoir façonné ce partenariat mondial entre Axel Springer et OpenAI”, a déclaré le PDG Mathias Döpfner.

D’autres accords ont suivi en 2024 et 2025, incluant des éditeurs majeurs tels que Dotdash Meredith en mai 2024, Vox Media et Time en juin 2024. Ils incluent généralement l’accès aux archives actuelles et passées, ainsi qu’une collaboration pour développer de nouveaux produits et fonctionnalités alimentés par l’IA. Les termes varient, mais la plupart sont des accords pluriannuels non exclusifs. Selon The Information, OpenAI ne paierait qu’entre 1 et 5 millions de dollars par an pour certaines licences de contenu, bien en deçà des offres d’autres acteurs comme Apple, qui, selon le New York Times repris par The Verge, aurait discuté avec des groupes de presse de deals pluriannuels d’au moins 50 millions de dollars.

Mais ils posent aussi une question éthique : à l’ère où les IA deviennent des interfaces de recherche, seuls les médias assez puissants pour négocier verront leurs contenus exister dans les réponses. Cette fracture entre grands groupes capables de négocier et petits éditeurs exclus risque de créer un web à deux vitesses, où la visibilité dans les réponses d’IA devient un privilège réservé à ceux qui ont les moyens juridiques et financiers de négocier.

Mais les groupes médias cherchent eux-mêmes à exploiter un marché émergent qui intéresse particulièrement les marques : leur visibilité dans les moteurs conversationnels.

Reprendre la main : proposer de nouvelles offres pour séduire les marques

Certaines régies publicitaires de groupes médias, comme le groupe Figaro avec son offre GEO (pour Generative Engine Optimization) medIA ou Prisma Media Solutions avec “Content for LLM”, préfèrent anticiper la mutation du référencement. Leur logique : réintégrer les moteurs conversationnels en adaptant la structure même des contenus.

Lancé en octobre 2025, GEO medIA propose deux volets complémentaires : un audit complet de la visibilité d’une marque dans les moteurs conversationnels (mesure de présence, identification des requêtes stratégiques, analyse concurrentielle), et la création de contenu “GEO friendly” optimisés à la fois pour le SEO et pour les moteurs conversationnels. “L'essor des moteurs conversationnels entraîne une transformation majeure dans la manière dont les audiences accèdent à l’information.”, souligne Karine Rielland Mardirossian dans e-marketing.fr, Directrice Générale Déléguée Digital de Media Figaro.

Côté Prisma Media Solutions, l’offre “Content for LLM” (également lancée en octobre 2025) vise à accroître la présence des marques dans les réponses des agents conversationnels (ChatGPT, Gemini, Copilot, Perplexity). Méthode en trois temps : cartographier les requêtes et sources citées par les IA, mesurer les citations/attributions d’une marque dans les réponses IA, puis optimiser/produire des contenus “IA-ready”.

Reste une zone grise : quand un groupe de presse signe une licence avec un moteur (par exemple ChatGPT), ces accords doivent, en principe, améliorer l’accès au contenu et l’attribution, sans pour autant influer sur les réponses des LLM et le classement des sources sur lesquelles ils s’appuient pour leurs synthèses. Mais faute de transparence publique sur les critères de réponse, le risque d’un biais contractuel (perception d’un pay-to-play) pourrait grandir aux yeux du public. D’où l’intérêt de garde-fous : engagements “pas de pay-to-rank”, étiquetage des contenus issus de partenaires sous licence, etc. Tant que ces garanties et indicateurs ne seront pas standardisés, la compétition pour la visibilité dans les moteurs IA restera opaque, même en l’absence de formats publicitaires.

Une bataille culturelle autant que juridique

Les IA génératives n’ont pas seulement révolutionné la recherche : elles ont redéfini la chaîne de valeur de l’information. Les médias, longtemps soumis aux algorithmes de Google, se retrouvent désormais face à des modèles qui répondent à la place de leurs journalistes.

Face à ce constat, les stratégies divergent mais convergent vers une même revendication : la reconnaissance de la valeur créée par le journalisme. Que ce soit par la voie judiciaire (New York Times, Reddit), la négociation commerciale (News Corp, Financial Times), le lancement de nouvelles offres (Le Figaro, Prisma Media), ou le blocage stratégique (60% des sites d’information réputés), tous affirment un droit fondamental : celui d’être cité, reconnu, et rémunéré. La bataille pour le contrôle de la donnée journalistique ne fait que commencer.