Qu'est-ce que le Natural Language Processing (NLP) ?

Le Natural Language Processing, ou NLP, ou traitement automatique du langage naturel en français, se situe aux frontières de l'intelligence artificielle, de la linguistique et de l'informatique. Il a pour objectif de permettre aux machines de comprendre le langage humain et est notamment utilisé dans la recherche d'information. C'est évidemment une technologie utilisée par tous les moteurs de recherche dont Google pour traiter, comprendre et classer le contenu des pages web, mais également pour déterminer l'intention de recherche des utilisateurs, comme nous allons le voir dans ce nouvel épisode.

Les débuts du traitement automatique du langage naturel

Apparu dans les années 50, les premiers travaux en traitement du langage naturel consiste à effectuer des traductions automatiques d'une langue vers une autre. Mais la puissance de calcul des ordinateurs de l'époque et le volume de données pouvant servir à tester les méthodes mises en place sont encore trop faibles pour que la compréhension du langage naturel par les ordinateurs soit réellement pertinente.

Hypothèse distributionnelle, TF-IDF et modèle vectoriel

Pourtant, une théorie majeur fut développée au milieu des années 50 et servira de base à toutes les évolutions futures en termes de compréhension d'un document textuel par les machines. Il s'agit de ce que l'on appelle l'hypothèse distributionnelle. Elle pose l'idée que les mots qui se trouvent dans des contextes d'apparition proches tendent à avoir des significations similaires. Ce qui veut dire en gros que si on retrouve à de nombreuses reprises une paire de mots dans les mêmes phrases cela signifie que ses mots ont un sens proche. Plusieurs décennies plus tard, en 1983, Gerard Salton, pionnier en matière de recherche d'informations en informatique et directeur du projet universitaire Smart, propose le modèle vectoriel qui consiste à représenter des documents textuels ou des listes de mots sous la forme de vecteurs, c'est à dire de valeurs numériques. C'est ce process de représentation des mots par des vecteurs, appelé tockenisation, qui va permettre aux machines de manipuler les contenus textuels. Parallèlement, ce même Gerard Salton propose d'utiliser une méthode statistique de pondération appelée TF-IDF, pour évaluer l'importance d'un terme devenu une valeur numérique dans un document. Schématiquement, cette méthode permet de donner du poids à un terme qui apparaît rarement dans un corpus de textes mais qui est utilisé à plusieurs reprises dans un texte spécifique, et au contraire de dévaluer les termes qui sont très fréquents mais qui n'apporte aucune signification au contenu d'un texte, tels que les pronoms personnels par exemple. Le modèle vectoriel, couplé avec le TF-IDF et le processus de lemmatisation (une technique de nettoyage de textes consistant par exemple à supprimer les termes qui ne sont pas significatifs et à conjuguer tous les verbes à l'infinitif de manière à rendre le contenu plus simple à traiter sans que le sens ne soit dénaturé) permet de se faire une idée du sujet abordé dans un document grâce au poids attribué aux différents vecteurs. Cette méthode, ou un dérivé, est sans doute utilisé par Google pour effectuer une pré-catégorisation des contenus que contient son index, mais ne lui permet cependant pas d'évaluer la pertinence de ce contenu par rapport à la recherche d'un utilisateur.

Au début des années 2000, l'intelligence artificielle permet de faire passer un cap au NLP

C'est dans les années 2000, avec l'augmentation considérable des puissances de calcul des ordinateurs et du volume de données à analyser, que l'intelligence artificielle a véritablement pris son essor et que des progrès considérables ont été réalisés en traitement automatique du langage naturel.

L'application par Google des algorithmes de Natural Language Processing

A partir des années 2010, on commence à utiliser des réseaux de neurones artificiels en NLP, une technologie de deep learning permettant, en fournissant un important volume de données en entrée et grâce à une série de calculs complexes pendant la phase de traitement, de sortir des probabilités statistiques qu'un résultat soit vrai ou pas. Ainsi, en 2013, des algorithmes entraînés par des réseaux de neurones et développés par les équipes de Google, ont permis de mettre au point le système Word2vec, un algorithme de word embedding capable d'identifier les relations entre les mots en prenant en compte le contexte dans lequel ces mots, transformés en vecteur, apparaissent. On parle alors de vecteurs de contexte. De cette manière, les approches modernes de NLP sont capables de prédire quels termes sont les plus susceptibles d'être utilisés dans un article lié au football ou à une recette de pâtes à la carbonara par exemple. Mais depuis 2013 Google ne cesse de repousser les frontières du traitement automatique du langage naturel. On peut citer BERT, son algorithme à l'oeuvre depuis 2019 pour comprendre encore plus précisément les requêtes des utilisateurs en remettant chaque mot dans le contexte de la recherche, et en les lisant de droite à gauche puis de gauche à droite, ce qui améliore semble-t-il sensiblement la compréhension des requêtes complexes. Google avait indiqué alors qu'il s'agissait de sa mise à jour la plus importante depuis cinq ans et quelle impactait environ 10% des recherches. Fin 2020, Google annonce que sa mise à jour "passage indexing" lui permet d'identifier un passage précis d'un contenu qui répond selon lui précisément à la requête de l'internaute. De cette manière, Google peut renvoyer à l'utilisateur un extrait d'un contenu en réponse à sa recherche, peu importe que le contenu d'ensemble de la page n'est qu'un rapport lointain avec la demande de l'utilisateur.

On le voit, la compréhension qu'a Google de votre contenu ne se résume pas à une compréhension lointaine. Le moteur de recherche est aujourd'hui parfaitement capable d'évaluer chaque partie de votre page web et donc de comprendre les sous-thématiques abordées par votre contenu, et de les extraire pour les proposer aux internautes sous la forme de résultats enrichis. Les avancées en traitement automatique du langage naturel montre qu'aujourd'hui il est totalement improductif de bourrer votre contenu du mot-clé sur lequel vous souhaitez vous positionner. Improductif, parce que Google dispose des meilleures technologies pour comprendre votre contenu sans avoir besoin de le suroptimiser. Et néfaste également, parce qu'en répétant un trop grand nombre de fois un mot-clé, vous risquez de sortir des statistiques moyennes de fréquence d'un mot clé pour un texte sur une thématique donnée, ce dont Google va rapidement s'apercevoir et qui pourrait être assimilé à du spam. De la même manière, les longs textes dilués et faits pour insérer le plus de mots possibles en tournant autour du pot, ne servent à rien. Au contraire !

Google, de part le déploiement de ces derniers algorithmes en matière de traitement automatique du langage naturel, souhaite mettre en avant des textes précis allant à l'essentiel, clairs dans l'objectif qu'ils se donnent de répondre à telle ou telle problématique, autant dans leur globalité que dans chacune des sous-thématiques abordées. Gardez toujours à l'esprit que ce que Google veut, c'est afficher les réponses les plus pertinentes à la requête de l'utilisateur. Pour optimiser un contenu il faut donc d'abord et avant tout être clair dans l'intention qu'on se donne de répondre à une problématique rencontrée par vos utilisateurs. Et plutôt que de bourrer votre page du même mot-clé sur lequel vous souhaitez vous positionner, demandez-vous plutôt quels sont les termes et les thèmes qui tournent autour et qui sont régulièrement abordés lorsqu'on parle du sujet sur lequel vous souhaitez prendre la parole. Structurez votre contenu en conséquence. Chacun des sujets connexes à votre sujet principal pourra faire l'objet d'une sous-partie ou d'un paragraphe spécifique. Cette manière de structurer votre contenu plaira autant aux internautes qu'aux moteurs de recherche. Et c'est la combinaison gagnante pour vous rapprocher des premières places dans les pages de résultats de Google.

Si cet article vous a été utile, n'hésitez pas à le partager sur vos réseaux sociaux !

C'est quoi le Natural Language Processing (NLP) ? - Episode 4

Les débuts du traitement automatique du langage naturel

Hypothèse distributionnelle, TF-IDF et modèle vectoriel

Au début des années 2000, l'intelligence artificielle permet de faire passer un cap au NLP

L'application par Google des algorithmes de Natural Language Processing

Commentaires

Ajouter un commentaire

Prêt à passer à la vitesse supérieure ?