Word embedding et SEO : pourquoi c'est la combinaison gagnante en 2024 ?

L'Essentiel :

En exploitant le potentiel des word embeddings, vous pouvez améliorer votre stratégie SEO de manière significative, en :

Identifiant vos contenus les plus proches sémantiquement pour réaliser un audit de maillage interne et l'optimiser efficacement ;
Regroupant vos mots-clés par clusters de manière automatique ;
Analysant les sentiments qui se dégagent des commentaires et avis des internautes à propos de vos contenus et/ou produits afin de pouvoir les ajuster en conséquence ;
Auditant vos contenus dans le but de les préparer aux moteurs de recherche génératif tels que l'AI Overview de Google.

Comment le word embedding a-t-il révolutionné le traitement automatique du langage naturel et va permettre, grâce à son accessiblité nouvelle, de propulser ton site en haut des pages de résultats de Google ? C'est à ces questions que je réponds dans cet article.

Qu'est-ce que le word embedding ?

Le concept de word embedding a émergé dans le domaine du traitement automatique du langage naturel (NLP) pour répondre à la nécessité de représenter les mots de manière compréhensible par les machines. À l'origine, les mots étaient traités comme des entités indépendantes, sans relation entre eux. Le word embedding a révolutionné cette approche en permettant de représenter les mots sous forme de vecteurs numériques dans un espace continu, capturant ainsi les relations sémantiques et syntaxiques entre eux.

Les premières idées de word embedding remontent aux années 1980, avec des travaux pionniers tels que ceux de Geoffrey Hinton et de son équipe. A cette époque, les chercheurs en traitement du langage naturel exploraient déjà des moyens de représenter les mots de manière plus significative que de simples symboles atomiques, c'est-à-dire comme de simples entités isolées, sans relation avec les autres mots. L'une des approches consistait à utiliser des réseaux de neurones pour apprendre des représentations distribuées des mots, où chaque mot est représenté par un vecteur de nombres réels. Ces vecteurs étaient conçus pour capturer des informations sémantiques et syntaxiques sur les mots, permettant ainsi aux réseaux de neurones de mieux comprendre le langage.

Cependant, c'est au début des années 2010 que le domaine a connu une véritable explosion, notamment grâce à la publication en 2013 du modèle Word2Vec par Tomas Mikolov et ses collègues chez Google.

Cette représentation vectorielle des mots permet aux modèles de machine learning de comprendre et de manipuler les mots avec une efficacité jamais atteinte jusque-là. En plongeant ces vecteurs dans un espace multidimensionnel (précisément ce qu'est le word embedding), des mots ayant des significations similaires se trouvent proches les uns des autres. Cela permet de faciliter les tâches de classification, de clustering et de recherche sémantique. Cette approche permet également de capturer des relations complexes entre les mots, telles que les analogies. En outre, cette compréhension approfondie du sens des mots dans le contexte dans lequel ils se trouvent permet aux réseaux de neurones et aux grands modèles de langage d'effectuer des tâches complexes telles que la traduction automatique, l'analyse des sentiments et la reconnaissance vocale par exemple.

Les différentes techniques de word embeddings

One-hot encoding : une représentation simple, mais limitée

Le one-hot encoding est une méthode de base pour représenter les mots sous forme de vecteurs. Imaginez une liste de tous les mots possibles dans votre vocabulaire (par exemple, "chat", "chien", "oiseau"). Chaque mot reçoit alors son propre vecteur, qui est rempli de zéros, sauf à l'emplacement correspondant à sa position dans la liste, où on met un 1.

Exemple :

Si notre vocabulaire est :

chat
chien
oiseau

Le mot "chat" est représenté par le vecteur : [1, 0, 0]
Le mot "chien" est représenté par le vecteur : [0, 1, 0]
Le mot "oiseau" est représenté par le vecteur : [0, 0, 1]

Avantages :

Simplicité : Le one-hot encoding est facile à comprendre et à mettre en œuvre.

Interprétabilité : Chaque élément du vecteur correspond directement à un mot spécifique.

Inconvénients :

Taille : Les vecteurs peuvent devenir très grands si le vocabulaire est important.

Aucune relation sémantique : Les vecteurs ne capturent pas les relations entre les mots. Par exemple, les vecteurs de "chat" et "chien" sont aussi différents que ceux de "chat" et "oiseau", alors qu'intuitivement, "chat" et "chien" sont plus proches sémantiquement.

Pas de généralisation possible : le one-hot encoding ne permet pas de généraliser aux mots non vus pendant l'entraînement, ce qui limite son utilité dans des applications de NLP plus complexes.

Word2Vec

Word2Vec est une technique avancée de word embedding développée par les équipes de Google en 2013. Elle repose sur deux modèles principaux : le Skip-gram et le Continuous Bag of Words (CBOW). Ces modèles permettent de capturer les relations sémantiques et syntaxiques entre les mots, ce que ne pouvait pas faire le one-hot encoding.

Skip-gram : prédire le contexte à partir du mot cible

Le modèle Skip-gram adopte une approche prédictive où, étant donné un mot cible, il tente de prédire les mots qui l'entourent dans un certain contexte (une fenêtre de mots ou context window). Par exemple, dans la phrase "Le chat dort sur le canapé", si le mot cible est "chat", le modèle Skip-gram essaiera de prédire "le", "dort", "sur" et "canapé".

Cette approche est particulièrement efficace pour apprendre des représentations de mots rares, car elle maximise l'information extraite de chaque occurrence d'un mot rare en essayant de prédire son contexte.

Continuous Bag of Words (CBOW) : prédire le mot cible à partir de son contexte

Le modèle CBOW inverse cette logique. Il prend en entrée les mots contextuels (la fenêtre de mots autour du mot cible) et tente de prédire le mot cible lui-même. Dans notre exemple, CBOW utiliserait "le", "dort", "sur" et "canapé" pour prédire le mot "chat".

CBOW est généralement plus rapide à entraîner que Skip-gram et a tendance à donner de bons résultats pour les mots fréquents. Cependant, il peut être moins efficace pour les mots rares, en raison de la manière dont il agrège l'information contextuelle.

Tableau Comparatif : Skip-gram vs. CBOW

Caractéristique	Skip-gram	CBOW
Approche	Prédit les mots contextuels à partir du mot cible.	Prédit le mot cible à partir des mots contextuels.
Efficacité	Meilleure pour les mots rares et les petits corpus.	Meilleure pour les mots fréquents et les grands corpus.
Vitesse d'entraînement	Plus lent à entraîner.	Plus rapide à entraîner.
Représentations	Peut produire des représentations de mots plus nuancées.	Peut produire des représentations de mots plus lissées (moins spécifiques).

GloVe (Global Vectors for Word Representation)

GloVe, développé en 2014 par les chercheurs de Stanford, est une autre méthode populaire de word embedding. Contrairement à Word2Vec, qui est basé sur des modèles prédictifs, GloVe utilise une approche basée sur les co-occurrences globales des mots dans un corpus. En d'autres termes, GloVe construit une matrice de co-occurrence des mots et factorise cette matrice pour obtenir des vecteurs de mots. Cette méthode permet de capturer des relations sémantiques globales entre les mots.

Les différences entre GloVe et Word2Vec résident principalement dans leur approche de modélisation. GloVe est particulièrement efficace pour capturer des relations globales dans de grands corpus, tandis que Word2Vec est plus adapté pour des relations locales. Par exemple, GloVe peut mieux capturer des analogies comme "roi" est à "reine" ce que "homme" est à "femme". GloVe est souvent utilisé dans des projets NLP nécessitant une compréhension approfondie des relations sémantiques globales.

FastText

FastText, développé en 2016 par les équipes de recherche en intelligence artificielle de Meta (FAIR), est une extension de Word2Vec qui prend en compte les sous-mots ou les n-grams. Cette approche permet de mieux gérer les variations morphologiques des mots, ce qui est particulièrement utile pour les langues avec une riche morphologie. Par exemple, FastText peut comprendre que les mots "chat", "chats", et "chaton" sont liés en capturant les sous-mots communs.

Les avantages spécifiques de FastText incluent sa capacité à généraliser aux mots non vus pendant l'entraînement et à capturer des relations morphologiques fines. Cela le rend particulièrement utile pour les langues avec beaucoup de variations morphologiques, comme le français, l'allemand ou le russe. FastText est souvent utilisé dans des applications nécessitant une compréhension fine des variations linguistiques, comme par exemple la correction orthographique.

Comment fonctionne l'entraînement des modèles d'embeddings ?

Collecte et préparation des données

Pour entraîner des modèles de word embedding, il est crucial de disposer d'un corpus de textes riche et varié. Ce corpus doit refléter la diversité linguistique et contextuelle des mots que l'on souhaite représenter. Les sources de données peuvent inclure des livres, des articles de presse, des forums en ligne, et des réseaux sociaux. Plus le corpus est vaste et diversifié, plus les embeddings seront capables de capturer des relations sémantiques et syntaxiques précises.

La préparation des données est une étape essentielle avant l'entraînement des modèles. Elle inclut plusieurs techniques de prétraitement, telles que le nettoyage des données pour éliminer les caractères spéciaux et les balises HTML, et la tokenisation pour diviser le texte en unités linguistiques appelées tokens. D'autres étapes peuvent inclure la normalisation des mots (par exemple, convertir tous les mots en minuscules) et la suppression des stop words, qui sont des mots courants mais peu informatifs comme "le", "et", "de". Ces étapes garantissent que les données sont prêtes pour l'entraînement et que les modèles peuvent se concentrer sur les informations pertinentes.

Entraînement et ajustement des modèles

L'entraînement des modèles de word embedding repose sur plusieurs paramètres clés. Parmi eux, la taille de la fenêtre contextuelle, qui détermine le nombre de mots autour d'un mot cible à prendre en compte, et la dimensionnalité des vecteurs, qui influence la capacité du modèle à capturer des relations complexes. D'autres paramètres incluent le taux d'apprentissage, qui contrôle la vitesse à laquelle le modèle ajuste ses poids, et le nombre d'itérations ou d'époques, qui indique combien de fois le modèle parcourt le corpus de données.

Une fois le modèle entraîné, il est crucial de valider ses performances pour s'assurer qu'il capture correctement les relations sémantiques et syntaxiques. Les méthodes de validation peuvent inclure des tests de similarité de mots, où l'on vérifie si des mots similaires sont proches dans l'espace vectoriel, et des tests d'analogie, où l'on évalue la capacité du modèle à résoudre des analogies comme "roi" est à "reine" ce que "homme" est à "femme". Ces tests permettent d'ajuster les paramètres du modèle et d'améliorer sa précision et sa robustesse.

Applications pratiques du word embedding en SEO

L'embedding des mots offre un potentiel considérable pour améliorer votre stratégie SEO. Voici quelques applications concrètes.

Analyse des sentiments des commentaires et avis des internautes

Les word embeddings jouent un rôle crucial dans l'analyse des sentiments en permettant aux modèles de machine learning de détecter les émotions et les opinions exprimées par les internautes dans leurs avis et commentaires. L'analyse spécifique des contenus qu'on appelle UGC (pour User-Generated Content) en SEO peut permettre d'identifier facilement des patterns dans des milliers d'avis sur des fiches produit par exemple, et d'ajuster ses produits en conséquence. La même analyse peut s'effectuer à partir de posts sur les réseaux sociaux à partir d'un sujet particulier afin d'identifier quelles sont les tendances qui se démarquent.

Amélioration du maillage interne

Le maillage interne, c'est-à-dire la création de liens entre les pages de votre site web, est essentiel pour le référencement. Les word embeddings vous aident à identifier les pages qui traitent de sujets similaires, même si elles n'utilisent pas exactement le même vocabulaire. En reliant ces pages entre elles, vous améliorez la navigation pour les utilisateurs (ce qui est essentiel en SEO comme le démontre l'algorithme Navboost de Google), vous améliorez la structure de votre site pour les robots des moteurs de recherche, ce qui va l'aider à mieux comprendre votre contenu et la relation sémantique des pages entre elles. En définitive, un maillage interne boosté aux embeddings va améliorer votre visibilité et votre classement dans les pages de résultats de Google.

Exemple : Si vous avez un article sur les "chaussures de course" et un autre sur les "baskets pour le running", les word embeddings vont identifier, même si les contenus n'utilisent pas exactement les mêmes termes, que ces deux pages sont sémantiquement proches et vont vous suggérer de les lier entre elles.

Clustering de mots-clés

Le clustering de mots-clés consiste à regrouper des mots-clés similaires en fonction de leur sens. Les word embeddings peuvent automatiser ce processus, ce qui est particulièrement utile lorsque vous avez plusieurs dizaines de milliers de mots-clés à gérer. En regroupant les mots-clés par thème, vous pouvez mieux comprendre l'intention de recherche des utilisateurs et créer du contenu plus ciblé. Si, en plus, vous utilisez un grand modèle de langage pour lui demander de labelliser chacun des clusters identifier par le modèle d'embeddings, alors vous venez d'économiser de nombreuses heures de travail.

Optimisation du contenu pour les moteurs de recherche génératifs

Les moteurs de recherche génératifs vont, à coup sûr, remplacer dans les mois ou les années à venir, les moteurs de recherche traditionnels. C'est précisément le modèle vers lequel souhaite évoluer Google, qui a déjà mis en place sa fonctionnalité AI Overview aux USA, en attendant de la déployer dans le reste du monde. Or, comment fonctionne un moteur de recherche génératif ? Il met en relation les embeddings de la requête posée par l'utilisateur avec les documents embeddés, et va générer sa réponse en identifiant dans ces documents vectorisés quels sont ceux qui sont les plus pertinents par rapport à la requête de l'utilisateur. Les plus pertinents voulant dire ici les embeddings qui ont la similarité sémantique la plus proche de la question posée. Evidemment, ce que je raconte ici est très schématique. Google va en effet utiliser des systèmes complexes, parmi lesquels nous pouvons citer :

l'expansion de la requête : technique visant à reformuler les propos de l'internaute afin de trouver des synonymes ou à identifier des entités dans la requête qui pourraient être reliées à d'autres concepts, dans le but d'avoir une pleine compréhension de l'intention de la recherche de l'internaute ;
le nettoyage des documents pour se focaliser sur l'essentiel ;
le découpage (chunking) des documents embeddés afin de s'assurer d'avoir la meilleure compréhension possible de chacun des passages d'un contenu web ;
les filtres classiques utilisés par Google visant à faire seuls les sites ayant une forte légitimité et autorité dans leur domaine soient exposés aux internautes.

Mais tous ces systèmes complexes sont appliqués dans un but qui est toujours le même pour Google (qu'il utilise une IA générative ou pas) : identifier les contenus les plus pertinents par rapport à une requête conversationnelle afin de générer la meilleure réponse possible.

Or, créer son propre moteur de recherche génératif est aujourd'hui quelque chose qu'il est possible de faire assez facilement. En créant ce qu'on appelle un système de récupération augmentée de génération (RAG). L'idée consiste à embedder une série de documents (par exemple toutes les pages qui se positionnent en Page 1 de Google sur une requête donnée), ainsi que son propre contenu (si celui-ci ne se positionne pas déjà en Page 1). Ensuite, nous connectons un modèle d'IA génératif de type GPT-4 ou Gemini et nous lui posons une question en lui demandant de nous fournir une réponse tout en nous donnant les documents les plus pertinents triés par ordre décroissant de leur similarité sémantique. Et voilà, nous venons de créer un moteur de recherche génératif ! En fonction de la réponse générée et des documents renvoyés, nous pouvons avoir une bonne idée de savoir si notre contenu est suffisamment pertinent par rapport à la question posée, et de l'ajuster en conséquence.

N'est-ce pas une manière idéale d'auditer votre contenu web par rapport à l'arrivée prochaine de la fonctionnalité AI Overview de Google ?

Ressources pour aller plus loin

Pour approfondir vos connaissances sur le word embedding et ses applications en traitement automatique du langage naturel (NLP), plusieurs ressources sont disponibles. Voici une sélection de livres et d'articles en ligne recommandés, ainsi que des cours et tutoriels pour vous aider à maîtriser ce sujet complexe.

Livres et articles en ligne

Les livres et articles suivants offrent une compréhension approfondie des concepts et techniques de word embedding :

"Deep Learning" par Ian Goodfellow, Yoshua Bengio et Aaron Courville - Ce livre est une référence incontournable pour comprendre les bases du deep learning, y compris les techniques de word embedding.
"Natural Language Processing with Python" par Steven Bird, Ewan Klein et Edward Loper - Un guide pratique pour le traitement du langage naturel avec des exemples concrets en Python.
"Efficient Estimation of Word Representations in Vector Space" par Tomas Mikolov et al. - Cet article fondateur présente les modèles Word2Vec et leurs applications.
"GloVe: Global Vectors for Word Representation" par Jeffrey Pennington, Richard Socher et Christopher D. Manning - Un article clé sur la méthode GloVe et ses avantages.

Cours en ligne et tutoriels

Pour ceux qui préfèrent un apprentissage interactif, plusieurs cours en ligne et tutoriels sont disponibles :

"Sequence Models" sur Coursera - Un cours proposé par Andrew Ng qui couvre les modèles de séquences, y compris les word embeddings.
"Deep Learning Nanodegree" sur Udacity - Ce programme inclut des modules sur le traitement du langage naturel et les word embeddings.
Tutoriel TensorFlow sur les word embeddings - Un guide pratique pour implémenter des word embeddings avec TensorFlow.
"Word2Vec Embeddings" sur Kaggle - Un tutoriel interactif pour apprendre à utiliser Word2Vec avec des exemples concrets.

Ces ressources vous fourniront les connaissances nécessaires pour maîtriser les techniques de word embedding et les appliquer efficacement dans vos projets de NLP.

Si cet article vous a été utile, n'hésitez pas à le partager sur vos réseaux sociaux !

Comment les embeddings révolutionnent le SEO en 2024 ?

Qu'est-ce que le word embedding ?

Les différentes techniques de word embeddings