Mesurer sa visibilité dans les LLM : pourquoi il faut échantillonner

L'Essentiel :

Quand vous posez plusieurs fois la même question à ChatGPT, Gemini ou un autre LLM, vous obtenez jamais exactement la même réponse. Si beaucoup y voient une incohérence, il s'agit en réalité du fonctionnement normal d'un système génératif qui est, par essense, non déterministe.

Pour mesurer sérieusement la visibilité d'une marque dans ces environnements, il faut donc raisonner en échantillonnage. Autrement dit, il faut répéter le même prompt plusieurs fois, dans les mêmes conditions, puis observer la fréquence d'apparition d'une marque dans l'ensemble des réponses.

C'est ce que soutient l'étude Demystifying Randomness in AI publiée par Graphite.io et signée par Grégory Druck et Ethan Smith, respectivement son Chief AI Officer et son CEO. Dans le domaine du Generative Engine Optimization, nous ne sommes plus dans une logique de "position fixe" comme sur une SERP classique, mais dans une logique probabiliste. Et cela change toute la méthodologie.

Pourquoi les réponses des IA changent tout le temps

Un LLM ne génère pas une réponse d'un seul bloc. Il construit sa sortie token par token. Un token, pour simplifier, est un morceau de mot, un mot entier, parfois une ponctuation, bref une unité de texte que le modèle manipule pour produire la suite.

À chaque étape, le modèle calcule plusieurs possibilités pour le token suivant. Il estime une probabilité pour chacune d'elles. Puis il sélectionne l'une de ces options selon cette distribution de probabilités. On peut l'expliquer simplement avec une image que j'aime bien : le modèle lance, à chaque étape, une sorte de dé pondéré. Certaines faces ont beaucoup plus de chances de sortir que d'autres. Mais elles ne sortent pas mécaniquement à tous les coups. Il y a une part d'aléatoire plus ou moins grande selon la température paramétrée pour le modèle.

Et comme chaque token choisi modifie le contexte, donc les probabilités du token suivant, de petites différences au départ peuvent entraîner des réponses légèrement différentes à l'arrivée. Rien de mystérieux. Rien d'anormal non plus.

Le dé pondéré des LLM

Reprenons l'exemple montrée dans l'étude de Graphite.

Vous demandez au modèle de langue : "Quels sont les meilleurs parfums de glace ?"

Le modèle peut considérer que "vanille", "chocolat" ou "pistache" sont des réponses très probables. Il peut aussi considérer que "s'mores" est une réponse possible, mais plus rare. Si vous lancez la même question une seule fois, vous pouvez très bien tomber sur une réponse qui mentionne "s'mores". Si vous répétez la génération 200 fois, vous verrez que ce parfum apparaît bien moins souvent que "vanille".

Comme le montre l'étude réalisée par Gregory Druck et Ethan Smith, sur 200 réponses générées à la question "What are the best flavors of ice cream?", Vanilla apparaît presque à chaque fois, alors que S'mores n'apparaît que dans 8 réponses sur 200.

Cette différence est fondamentale.

Parce que si vous regardez une seule réponse, vous pouvez croire que "S'mores" pèse autant que "Vanilla" dans l'univers du modèle. C'est faux. Vous n'avez simplement vu qu'un seul tirage. Et un seul tirage, dans ce type de système, ne dit presque rien à lui tout seul.

Pourquoi une seule réponse ne vaut presque rien

Il s'agit à mon sens du point le plus important à intégrer si vous travaillez la visibilité dans les moteurs génératifs.

Une réponse unique est un instantané, pas une mesure.

C'est exactement le même problème qu'avec un sondage minuscule. Si vous interrogez une seule personne pour savoir ce que pense un pays entier, vous obtenez une opinion, pas une tendance. Si vous mesurez la température un seul jour pour conclure sur le climat, vous fabriquez surtout de la confusion.

Avec les LLM, c'est pareil.

Une réponse isolée peut être flatteuse, inquiétante, surprenante, encourageante. Mais elle reste isolée. Si votre marque apparaît dans une réponse et disparaît dans la suivante, ce n'est pas forcément le signe d'un changement structurel. C'est souvent du bruit statistique normal.

Et c'est précisément pour cela que l'échantillonnage devient central.

L'échantillonnage, en réalité, c'est très simple

Échantillonner, dans le contexte des LLM, consiste à poser plusieurs fois le même prompt, dans des conditions aussi stables que possible, puis à observer ce qui revient souvent, ce qui revient rarement, et ce qui ne revient presque jamais.

En pratique, cela veut dire :

même prompt
nouveau chat
mémoire désactivée si possible
plusieurs générations
observation de la fréquence d'apparition des entités

Imaginons que vous lancez 10 fois le même prompt, et que votre marque apparaît dans 7 réponses.

Votre visibilité sur ce prompt est donc de 70 %.

Nous ne cherchons pas à savoir si la marque "apparaît ou non" dans une seule sortie. Nous cherchons à estimer sa probabilité d'apparition sur un ensemble de réponses comparables. Et si ce déplacement paraît léger, mais il change tout dans la lecture des résultats.

La visibilité, puis le classement

L'étude de Graphite a le mérite de remettre aussi les priorités au bon endroit.

Dans l'univers des moteurs génératifs, la première métrique à suivre est la visibilité. Donc : à quelle fréquence une marque, un produit, un site ou un sujet apparaît dans les réponses.

Le classement moyen, lui, vient ensuite. Il peut être utile, bien sûr, mais à condition que l'entité apparaisse déjà régulièrement.

C'est un point méthodologique très important, parce qu'il évite de se raconter de jolies histoires avec des chiffres fragiles. Si votre marque n'apparaît que 2 fois sur 10, sa position moyenne n'a pas encore beaucoup de valeur. Vous n'avez pas encore un vrai sujet de ranking. Vous avez d'abord un sujet de présence.

Vu autrement, la question initiale n'est pas "Sommes-nous premiers ?", mais plutôt : "Le modèle pense-t-il suffisamment à nous sur cette intention de recherche ?"

Combien de réponses faut-il générer pour avoir une mesure utile

Selon l'étude de Graphite, 10 réponses suffisent déjà pour obtenir une première estimation utile.

Les auteurs indiquent en effet qu'avec 10 générations :

l'erreur absolue moyenne sur la visibilité est d'environ 5,6 %
l'erreur absolue moyenne sur le ranking est d'environ 1,06 position

Autrement dit, 10 essais ne donnent pas une précision parfaite, bien sûr. Mais ils donnent déjà quelque chose de très largement supérieur à une capture d'écran isolée.

L'autre enseignement intéressant de l'étude est celui des rendements décroissants. En augmentant le nombre de générations, on améliore encore la précision. Mais les gains deviennent de moins en moins spectaculaires après les premiers essais. C'est ce que les auteurs décrivent comme du diminishing returns. En pratique, vous récupérez déjà une grande partie de la valeur méthodologique dans les 10 premiers runs.

C'est une excellente nouvelle pour les équipes marketing, SEO et contenu, parce que cela rend la mesure beaucoup plus accessible. Vous n'avez pas besoin de mettre en place une usine statistique pour commencer à travailler proprement.

Comprendre les intervalles de confiance

Un intervalle de confiance sert à encadrer votre estimation. Il vous dit, en substance : "Compte tenu de la taille de l'échantillon, la vraie valeur plausible se situe quelque part dans cette zone."

Exemple donné dans la synthèse de Graphite : avec 10 réponses, si vous estimez une visibilité à 10 %, vous pouvez dire avec 95 % de confiance que la vraie valeur se situe entre 1,8 % et 40 %.

Dit autrement, votre estimation centrale est 10 %, mais l'incertitude reste encore assez large. Et c'est précisément cette information qui vous empêche de surinterpréter une petite variation.

Les intervalles de confirance sont donc un outil concret pour décider si une évolution mérite votre attention, ou si vous êtes simplement en train de regarder du bruit.

Pourquoi un suivi quotidien de vos citations n'est pas une bonne idée

Si Graphite recommande un suivi hebdomadaire ou bihebdomadaire, et met en garde contre le suivi quotidien, c'est pour une raison simple : à fréquence quotidienne, vous risquez de donner beaucoup trop d'importance à des fluctuations naturelles.

Si vous regardez la température tous les jours, vous verrez forcément des écarts. Un jour 18 degrés, le lendemain 24, puis 20, puis 26. Vous pouvez vite avoir l'impression que "tout bouge dans tous les sens". Mais pour observer une vraie tendance climatique, il faut regarder sur une durée plus longue.

Avec les LLM, c'est la même logique.

D'un jour à l'autre, sans changement profond du modèle, les réponses peuvent varier naturellement à cause de leur fonctionnement probabiliste. Si vous mesurez votre visibilité tous les matins, vous allez voir des hausses, des baisses, des retours, des disparitions. Et vous risquez de donner du sens à des mouvements qui n'en ont pas vraiment.

Autrement dit, si votre dashboard s'agite tous les jours, cela ne signifie pas forcément que votre visibilité se transforme à vive allure. Cela signifie souvent que le dé pondéré du modèle continue son travail, avec la désinvolture statistique qu'on lui connaît.

Le bon réflexe consiste donc à lisser l'observation. Dans le temps, le signal devient plus lisible.

Le protocole simple à appliquer tout de suite

Pour une mesure propre, sans surcomplication inutile, je vous conseille de partir sur cette méthodologie :

1. Utiliser un prompt stable

Le prompt doit rester identique d'un test à l'autre. Sinon, vous mélangez variation du modèle et variation de la consigne.

2. Lancer chaque test dans un nouveau chat

C'est indispensable pour éviter que le contexte précédent influence la réponse.

3. Désactiver la mémoire si l'environnement le permet

La mémoire peut modifier les sorties. Si vous voulez mesurer un comportement comparable, il faut réduire les variables.

4. Commencer par 10 générations

C'est un bon point de départ pour obtenir un premier signal exploitable.

5. Mesurer d'abord la visibilité

Comptez le pourcentage de réponses dans lesquelles votre marque apparaît.

6. Regarder ensuite le classement

Mais seulement si votre marque apparaît suffisamment souvent pour que cette mesure ait un vrai sens.

7. Compléter avec des tests manuels

Les auteurs de l'étude Graphite rappellent que les réponses peuvent différer entre API, compte déconnecté et compte connecté. Les outils automatiques sont utiles, mais ils ne remplacent pas complètement une vérification manuelle dans des conditions proches d'un usage réel.

8. Utiliser les intervalles de confiance

C'est ce qui vous permet de distinguer une variation sérieuse d'une simple oscillation statistique.

Ce que l'étude Graphite change pour le SEO et le GEO

Le SEO classique nous a habitués à un cadre assez stable : une requête, une SERP, une position, un suivi. Ce cadre ne disparaît pas complètement, mais il devient insuffisant dès qu'on parle de moteurs génératifs.

Dans un LLM, la visibilité devient une distribution de probabilités. C'est cette logique qu'il faut désormais intégrer à la stratégie.

Pour les marques, cela implique plusieurs éléments concrets :

travailler la clarté de votre entité de marque
renforcer la pertinence sémantique sur vos sujets stratégiques
devenir une réponse statistiquement plausible sur les intentions ciblées de vos personae
éviter de fétichiser la "position moyenne" quand la présence de votre marque elle-même reste faible
construire une méthodologie de mesure qui résiste au bruit

C'est une bascule importante, parce qu'elle oblige à sortir du réflexe du screenshot. Le commentaire de capture a ses limites. La méthodologie, elle, commence à produire de l'intelligence exploitable.

Pourquoi cette étude fait du bien au marché

Dans un environnement où beaucoup d'outils GEO promettent de suivre la visibilité dans les IA comme on suivait les positions Google il y a dix ans, Graphite rappelle une vérité salutaire : le caractère aléatoire des réponses des grands modèles de langue n'est pas un problème à effacer. C'est une propriété du système qu'il faut comprendre, intégrer et mesurer proprement.

Au lieu de se demander pourquoi une marque n'apparaît pas toujours, nous pouvons commencer à nous poser les bonnes questions :

à quelle fréquence apparaît-elle ?
dans quels contextes ?
avec quel degré d'incertitude ?
à quel rythme cette visibilité évolue-t-elle réellement ?

Les réponses à ces questions rendent nos décisions bien plus solides et éclairées.

Le point de bascule méthodologique

S'il fallait résumer tout cela en une phrase, je dirais ceci : dans les LLM, la bonne unité d'analyse n'est pas la réponse individuelle, c'est l'échantillon.

Une seule réponse peut être intéressante. Mais elle ne permet pas encore de mesurer sérieusement une visibilité.

En revanche, dix réponses échelonnées dans le temps commencent à raconter une histoire crédible.

Pour tous ceux qui s'intéressent à la mesure de la visibilité des marques dans les moteurs génératifs, le message est limpide : il faut arrêter de lire les réponses des LLM comme des SERP figées. Il faut apprendre à les lire comme ce qu'ils sont, c'est-à-dire des systèmes probabilistes.

En comprenant comment les modèles de langue fonctionnent, beaucoup de choses deviennent moins floues. Et plus intelligibles.