Spam IA : comment Google peut désormais le détecter à l'échelle

L'Essentiel :

La détection du spam IA change de nature. Le papier de recherche de Google publié en mai 2026 intitulé « Scalable Detection of Adversarial Synthetic Slop and Coordinated Media Abuse » (lien vers le papier de recherche en bas de l'article) ne décrit pas un banal détecteur de textes générés par intelligence artificielle. Il montre plutôt comment Google pense la lutte contre le contenu synthétique produit en masse : par l’analyse des clusters, des comportements de publication, des récits répétitifs, des embeddings, des signaux multimodaux et des infrastructures coordonnées.

C’est une nuance décisive pour le SEO. Le risque ne vient pas seulement d’un article assisté par ChatGPT, Claude ou Gemini. Le risque vient de la production industrielle de contenus interchangeables, légèrement reformulés, pauvres en expérience réelle de la part de l'auteur et publiés à grande échelle. Dans ce contexte, la frontière entre contenu IA acceptable et spam IA ne repose plus uniquement sur l’origine du texte. Elle dépend de sa singularité, de sa valeur, de sa structure, de sa cadence de production et de son appartenance éventuelle à un système automatisé plus vaste.

Google ne cherche pas seulement une empreinte IA dans le texte

Le papier de recherche de Google s’intéresse d’abord aux plateformes vidéo, mais sa logique dépasse largement le cas de YouTube ou des contenus multimédias. Les chercheurs décrivent un problème devenu massif : des acteurs coordonnés utilisent l’IA générative pour produire des volumes considérables de contenus synthétiques, souvent différents en surface, mais très proches dans leur fonction.

L’expression importante du papier est « functionally identical content ». Elle désigne des contenus qui changent de forme, de langue, de détails ou de mise en scène, tout en conservant la même intention, le même récit, le même modèle ou le même mécanisme d’abus.

Pour un référenceur, c’est probablement le passage le plus dérangeant du document. Nous avons raisonné en variations pour publier avec l'IA des contenus à l'échelle. Le problème est que cette façon paresseuse de faire est facilement détectable par des systèmes capables de comparer les contenus à un niveau sémantique.

Search Engine Journal, dans son analyse Google Research Shows How AI Spam Can Be Detected publié le 19 juin 2026, insiste sur ce point : le système décrit par Google ne se contente pas d’évaluer une vidéo isolée. Il cherche l’organisation derrière la production. La cible n’est plus seulement le contenu suspect, mais le réseau qui le fabrique, le publie et l’adapte.

Le système S-CTS cible les clusters avant les pages isolées

Le cœur du papier repose sur un système appelé S-CTS, pour « Scalable Cluster Termination System ». Son rôle consiste à repérer des groupes de comptes liés entre eux et présentant une forte prévalence de contenus synthétiques adversariaux.

Cette approche change le niveau d’observation. Là où une modération classique examine un contenu après l’autre, S-CTS tente d’identifier des ensembles : comptes apparentés, signaux d’infrastructure, comportements de publication, similarités narratives, réutilisation probable d’un script ou d’une API générative.

Le papier parle de « Generation Clusters ». L’expression est intéressante, parce qu’elle suppose qu’un groupe de comptes peut être reconnu à travers les traces laissées par sa manière de produire. Adresse IP, device, cadence, métadonnées, fréquence d’upload, schémas de narration, répétition de certains termes saillants : chaque signal peut être faible isolément, mais l’ensemble finit par dessiner une signature.

En SEO, on peut transposer cette idée avec prudence. Google Search n’est pas une plateforme vidéo, et le papier ne prouve pas que ce système soit appliqué tel quel aux pages web. Mais la logique est parfaitement compatible avec les problèmes actuels du web : réseaux de sites générés par IA, pages programmatiques pauvres, contenus locaux dupliqués, comparatifs automatiques, faux guides informationnels, articles sans expérience identifiable.

Le contenu IA problématique n’est pas seulement mauvais. Il est souvent organisé.

Deux classificateurs travaillent ensemble

Le papier décrit deux grandes briques techniques : un détecteur de botnets coordonnés et un classificateur de patterns synthétiques. Le premier observe les comptes et leur organisation. Le second observe les contenus et leurs marqueurs de génération.

Voici la lecture la plus utile pour comprendre la différence entre les deux niveaux.

Niveau analysé	Ce que Google cherche	Pourquoi c’est important
Comptes et infrastructures	Comptes liés, comportements non organiques, scripts communs, patterns d’API	Repérer l’organisation qui produit le spam, pas seulement le contenu publié
Contenus synthétiques	Récits répétitifs, embeddings proches, termes saillants, artefacts multimodaux	Identifier des contenus différents en surface mais proches dans leur structure
Temporalité	Cadence de publication, vitesse d’upload, fréquence anormale	Distinguer une production humaine d’une chaîne automatisée
Décision finale	Score de confiance, revue humaine pour les cas ambigus, automatisation pour les cas très sûrs	Réduire les faux positifs tout en traitant des volumes massifs

Ce tableau compte davantage qu’une liste de recommandations génériques sur le contenu IA. Il montre que la détection moderne ne dépend pas d’un seul indice. Elle repose sur des faisceaux de signaux. C’est précisément ce qui rend les contournements superficiels moins efficaces.

Réécrire un texte avec un autre modèle ne supprime pas forcément sa structure. Changer quelques exemples ne modifie pas toujours l’intention. Varier un titre ne suffit pas si la page reste construite sur le même moule que cent autres pages publiées la même semaine.

Les embeddings rendent les reformulations moins protectrices

Search Engine Journal relève un passage particulièrement intéressant pour les SEO : le papier cite les embeddings textuels, notamment ceux générés par des modèles de type Sentence-BERT, pour détecter des narrations scriptées.

Ce point mérite d’être pris au sérieux. Les embeddings ne comparent pas seulement les mots. Ils permettent de représenter mathématiquement le sens d’un contenu. Deux paragraphes peuvent donc être éloignés lexicalement et proches sémantiquement. Pour un humain, ils donnent une impression de variété. Pour un système de comparaison vectorielle, ils peuvent raconter presque la même chose.

Dans mes audits de contenus IA, c’est souvent ce que je retrouve : des textes qui paraissent différents page par page, mais qui partagent le même squelette. Même promesse, même définition, même enchaînement de sections, même prudence artificielle, mêmes exemples passe-partout, même absence de friction intellectuelle. Le vocabulaire change. La pensée, elle, reste au même endroit.

C’est probablement l’un des grands angles morts de la production SEO assistée par IA. Beaucoup d’équipes pensent encore en duplication textuelle. Elles vérifient si les phrases sont différentes. Google, lui, a depuis longtemps les moyens de raisonner en proximité sémantique, en similarité de passage et en comportements à grande échelle.

LoRA et APO permettent d’adapter la détection plus vite

Le papier de Google ne se contente pas de décrire une architecture de détection. Il explique aussi comment cette architecture peut s’adapter aux nouveaux générateurs. Les chercheurs mentionnent LoRA, pour Low-Rank Adaptation, et APO, pour Automatic Prompt Optimization.

LoRA permet d’adapter un grand modèle sans devoir le réentraîner entièrement. APO permet d’ajuster les prompts de classification pour suivre l’évolution des tendances de spam. Le papier cite même des modèles comme Sora ou Kling, utilisés ici comme exemples de nouveaux outils génératifs auxquels les spammeurs peuvent s’adapter.

Cette partie est importante pour une raison très concrète : les stratégies de camouflage vieillissent vite. Pendant quelques mois, un producteur de contenu peut croire qu’il a trouvé une manière de contourner les filtres : plus de variations, plus d’instructions de style, plus de paraphrases, plus d’humanisation artificielle. Mais si le signal de fond reste répétitif, le système peut apprendre à le reconnaître.

La mauvaise nouvelle pour les fermes à contenus, c’est que la détection n’a pas besoin d’être parfaite sur chaque page. Elle peut devenir très efficace dès qu’elle observe des régularités à l’échelle d’un corpus.

La précision prime sur la sanction massive

Le papier insiste sur un point éthique : le système doit distinguer les usages créatifs de l’IA des usages adversariaux. Google sait très bien qu’un contenu généré ou assisté par IA peut être légitime. Le risque serait de pénaliser des créateurs, des entreprises ou des médias qui utilisent ces outils pour enrichir leur travail.

C’est pour cela que l’approche privilégie la précision. Les seuils d’automatisation sont élevés pour les décisions de violation. Les cas ambigus restent envoyés à des humains. La logique de cluster joue aussi comme garde-fou : un créateur isolé qui expérimente avec l’IA ne ressemble pas à un réseau coordonné qui publie des variantes massives d’un même contenu.

Cette nuance devrait calmer une partie des fantasmes SEO. Le papier ne dit pas que tout contenu IA sera détecté puis puni. Il dit que les contenus synthétiques produits en masse, associés à des comportements coordonnés et à des patterns répétitifs, deviennent beaucoup plus vulnérables.

L’IA n’est pas le signal suffisant. Le spam, lui, laisse des traces.

Ce que cela implique pour le SEO et le GEO

La conséquence SEO est assez nette : une stratégie éditoriale fondée sur la multiplication de pages similaires devient de plus en plus fragile. Elle l’était déjà pour des raisons de qualité, de cannibalisation et d’utilité réelle. Elle l’est davantage dans un environnement où les moteurs peuvent comparer les contenus par intention, structure, entités, embeddings et rythme de publication.

Pour le Generative Engine Optimization, l’enjeu est encore plus fort. Les moteurs de réponse ont besoin de sources fiables, citables, identifiables. Un contenu qui ressemble à une reformulation générique d’un corpus déjà existant a peu de chances de devenir une source privilégiée. Il peut se faire indexer. Il peut même capter quelques impressions. Mais il aura du mal à devenir une référence reprise par ChatGPT, Perplexity, Gemini ou AI Overviews.

La vraie défense éditoriale consiste à rendre chaque page moins substituable. Cela passe par des éléments que les productions automatisées imitent mal durablement : données propriétaires, captures, tests, logs, comparaisons originales, méthode personnelle, exemples issus du terrain, avis assumé, liens internes pensés comme une démonstration, pas comme une mécanique SEO.

Un article sur « comment être cité dans ChatGPT » ne devrait pas ressembler à vingt autres articles sur le même sujet. Il devrait montrer une expérience, un protocole, des résultats, des limites, des captures, des cas où ça échoue. C’est cette matière qui transforme un contenu en source.

La production industrielle laisse une empreinte éditoriale

Le point le plus utile du papier, à mon sens, ne concerne pas seulement les modèles ou les signaux techniques. Il concerne la forme même de la production.

Quand une entreprise publie cinquante articles en trois jours, avec des structures proches, des titres calibrés, des définitions interchangeables et des paragraphes qui pourraient passer d’un sujet à l’autre sans douleur, elle envoie un signal éditorial. Même sans connaître l’outil utilisé, on sent une chaîne. Les systèmes de détection, eux, peuvent mesurer cette impression.

La cadence de publication n’est pas un problème en soi. Un média, une grande marque ou une équipe éditoriale organisée peut publier beaucoup. Mais une cadence élevée devient suspecte lorsqu’elle s’accompagne d’une faible diversité sémantique, d’une absence d’expérience et d’une répétition de gabarits.

C’est là que beaucoup de stratégies IA se trompent. Elles ajoutent une couche de style humain à un contenu qui reste mécaniquement pauvre. Elles demandent au modèle d’être plus naturel, plus nuancé, plus expert. Mais elles ne changent pas la matière première : pas d’observation, pas d’enquête, pas de preuve, pas de friction, pas de point de vue.

Google ne lutte pas seulement contre des textes mal écrits. Il lutte contre des systèmes de production sans substance.

Comment produire avec l’IA sans ressembler à du spam IA

Utiliser l’IA reste parfaitement défendable, à condition de l’inscrire dans un processus éditorial exigeant. Le modèle peut aider à structurer, reformuler, comparer, synthétiser, repérer des angles morts ou accélérer certaines tâches. Il devient dangereux quand il remplace l’expérience, le jugement et l’enquête.

La première règle consiste à partir d’un matériau qui n’existe pas déjà partout. Un brief fondé sur une SERP, quelques concurrents et une liste d’entités produira souvent une page correcte mais moyenne. Un brief enrichi par des données Search Console, des logs serveur, des captures de réponses IA, des exemples clients, des tests ou une hypothèse personnelle produit un autre type de contenu.

La deuxième règle concerne les structures. Deux articles proches ne doivent pas partager le même plan par paresse. S’ils répondent à deux intentions différentes, leur progression doit changer. S’ils répondent à la même intention, il faut probablement les fusionner, les spécialiser ou assumer une hiérarchie claire entre page principale et page satellite.

La troisième règle touche à la publication. Un site peut publier vite, mais il doit aussi montrer une logique éditoriale. Les contenus doivent se répondre, se compléter, se contredire parfois, documenter une progression. Un maillage interne pertinent raconte une pensée. Un maillage automatique se contente de relier des mots.

Ce que je vais surveiller sur mon site

Si je devais appliquer cette lecture à mon propre site, je ne commencerais pas par chercher quels articles ont été écrits avec l’IA. Je regarderais plutôt les familles de contenus qui risquent de trop se ressembler.

Les sujets autour du SEO IA, du GEO, de ChatGPT, de Perplexity, de Gemini, des moteurs de réponse et de la visibilité IA sont naturellement proches. Le danger serait de publier plusieurs articles qui répètent la même thèse avec des titres différents. Pour éviter cela, chaque page doit avoir une fonction éditoriale distincte : expliquer un concept, documenter une méthode, analyser une actualité, présenter un test, comparer des outils, défendre une opinion, montrer un cas d’usage.

Je surveillerais aussi les intros. Les contenus IA commencent souvent par des ouvertures trop propres, qui annoncent immédiatement tous les enjeux sans angle personnel. Elles donnent une impression de maîtrise, mais aucune présence. Sur des sujets aussi mouvants que la détection du spam IA, je préfère une entrée plus située : une lecture de papier, une surprise, une réserve, une conséquence pratique.

Enfin, je vérifierais la part de preuves. Un article GEO sérieux devrait contenir au moins une trace vérifiable : une source de recherche, un exemple d’interface, une citation d’un brevet, une capture de réponse, une donnée issue d’un outil, une observation tirée d’un audit. Sans cela, le texte peut être fluide, mais il reste fragile.

La bonne stratégie : moins de contenu interchangeable, plus de preuves

Le papier de Google donne une leçon assez rude à l’industrie du contenu. Les moteurs n’ont pas besoin de comprendre parfaitement l’intention humaine derrière chaque article pour repérer des patterns industriels. Ils peuvent observer les proximités, les rythmes, les répétitions, les réseaux et les structures.

C’est une mauvaise nouvelle pour les stratégies fondées sur la quantité pure. C’est plutôt une bonne nouvelle pour les consultants, éditeurs et marques qui acceptent de produire moins mécaniquement, mais avec plus de matière.

La prochaine étape du SEO éditorial ne consistera pas à rendre les textes IA indétectables. Elle consistera à bâtir des contenus qui portent une information propre, une méthode reconnaissable et une expérience difficile à reproduire. Sur le web génératif, la source qui compte sera celle qui apporte quelque chose au modèle, pas celle qui reformule proprement ce que le modèle savait déjà.

Source de référence

https://storage.googleapis.com/gweb-research2023-media/pubtools/1039291.pdf