C'est quoi une entité nommée ? - Episode 6
Article écrit par Julien Gourdon
ancien journaliste et consultant SEO depuis 2015
Dernière modification :
Définition d'une entitée nommée
Il n'existe pas de consensus réel sur la définition d' entité nommée puisqu'elle est souvent dépendante de son champ d'application qui peut être multiple et varié. Toutefois, lorsqu'il s'agit de traitement automatique du langage naturel et de recherche du sens d'un texte ou d'une requête, on peut définir une entité nommée comme un objet textuel, c'est à dire un mot ou un groupe de mots, catégorisable dans des classes, qui peuvent être par exemple des lieux, des personnes ou des organisations, auxquelles nous pouvons rattacher des caractéristiques ou attributs.
Aux origines du concept d'entité nommée
Le concept de reconnaissance des entités nommées au sein d'un document textuel est apparu dans le milieu des années 90. Il est aujourd'hui un élément incontournable dans le traitement automatique du langage naturel. Selon une étude menée par Microsoft en 2010, entre 20 et 30 % des requêtes soumises dans Bing, son moteur de recherche, étaient des entités nommées à part entière, et 71% d'entre elles contenaient au moins une entité nommée dans la question posée. On comprend alors tout l'intérêt pour un moteur de recherche de constituer une gigantesque base de données d'entités nommées permettant de catégoriser des requêtes et des pages web afin de simplifier l'extraction de la bonne information et d'améliorer la pertinence des résultats.
2010, c'est également l'année où google rachète Metaweb, une société connue pour avoir développé
Entité et Knowledge Graph
C'est avec cette base de données qui rassemble aujourd'hui 500 milliards de faits au sujet de 5 milliards d' entités selon les dernières informations données par Google en 2020, que le moteur de recherche a déployé son Knowledge Graph (ou arbre de connaissances) à partir de 2012.Le Knowledge Graph de Google, c'est ce qui permet au moteur de recherche d'afficher aux utilisateur son knowledge panel, c'est à dire l'encart que vous voyez sur la droite des pages de résultats lorsque vous tapez une requête depuis un ordinateur, ou tout en haut des résultats lorsque vous effectuez une recherche sur mobile. Ainsi si vous faites une recherche sur une entité nommée vous verrez apparaître cet encart affichant des informations en lien avec cette entité tirée du Knowledge Graph de Google. Une gigantesque base de données regroupant un corpus de documents labellisés par entité.
Si nous prenons par exemple la requête Gérard Depardieu, qui est donc une entité de type "personne", le Knowledge Graph de Google va s'afficher dans les pages de résultats. Cet encart va afficher toute une série d'informations sur l'acteur issue de documents divers rassemblés par Google. Ces informations sont en fait les attributs ou les propriétés de l'entité Gérard Depardieu.
Vous allez ainsi retrouver directement dans le Knowledge Graph la date et le lieu de naissance de l'acteur, sa taille, le nom de son épouse, les prénoms de ses enfants, les films et séries dans lesquelles il a joué, etc.
Mais la plupart des attributs de l'entité Gérard Depardieu sont également des entités nommées qui ont elles-mêmes des attributs. Sa fille, par exemple, Julie Depardieu, est une entité qui a notamment pour propriété un partenaire, Philippe Katerine, qui est lui-même une entité, et un frère, Guillaume Depardieu, qui est lui-même une entité avec des propriétés. On comprend mieux ainsi le concept de Knowledge Graph ou arbres de connaissances dans la mesure où les entités nommées permettent en réalité à Google de mettre en relation des concepts les uns avec les autres pour apporter des informations toujours plus riches aux utilisateurs.
Entité et prédiction de requête
C'est notamment grâce à l'extraction des entités nommées et au Knowledge Graph qu'a commencé à émerger la notion de moteur de réponse au sujet de Google. En apportant directement des informations liées aux propriétés d'une entité nommée dans ses pages de résultats, Google va jusqu'au point où il tente de prédire quelle sera la prochaine requête de l'utilisateur. Tout simplement parce qu'il se concentre sur la véritable intention de recherche de l'internaute, c'est à dire tous les sujets qui sont connexes à sa requête principale.
En effet, si l'internaute tape Gérard Depardieu dans la barre de recherche, peut-être souhaite-t-il en réalité avoir des informations sur sa famille, sur son âge, sur un film célèbre dans lequel il a joué ou une actrice avec qui il a partagé l'affiche mais dont l'internaute a oublié le nom ? Le Knowledge Graph pourrait potentiellement répondre à cette question que l'internaute n'a pas su poser.
Basé sur une série de statistiques liées aux signaux utilisateurs, Google renvoie ainsi directement dans son Knowledge Graph des recherches associées permettant bien souvent à l'internaute de ne même pas avoir besoin de formuler lui-même sa question.
Les défis de la reconnaissance des entités nommées
Il faut cependant savoir que la reconnaissance des entités nommées se heurte à plusieurs défis de taille parmi lesquels nous pouvons en citer deux.
- Le premier défi est celui de la désambiguïsation sémantique lexicale. Un même terme peut en effet avoir plusieurs sens différents. On dit alors qu'il est polysémique. L'exemple classique qu'on donne en SEO est le terme "jaguar" qui peut à la fois désigner l'animal sauvage mais également la marque de voitures de luxe. Dans le cadre d'une recherche d'informations sur un moteur de recherche, lorsque l'utilisateur utilise le terme "jaguar" qui est donc une entité qui peut, soit avoir pour type le nom d'une organisation, soit avoir pour type le nom d'un animal, lorsque l'utilisateur utilise le terme "jaguar" dans sa requête, le moteur de recherche va devoir analyser le contexte dans lequel se trouve le terme, qui peut être par exemple les mots entourant "jaguar", pour comprendre le véritable besoin de l'internaute et lui renvoyer les résultats les plus pertinents.
Un scoring sera par ailleurs mis en place afin de déterminer la probabilité qu'un utilisateur recherche plutôt telle ou telle information lorsqu'il tape une requête de type "jaguar" dans le moteur de recherche. Dans cet exemple on peut voir que Google renvoie majoritairement des résultats liés à la marque de voiture pour la requête "jaguar" puisqu'il a déterminé en fonction de tout un tas de paramètres (parmi lesquels la géolocalisation de l'internaute et son historique de recherche) qu'il était beaucoup plus probable, en l'absence de plus de précisions de la part de l'internaute, que ce dernier cherche des informations sur la marque de voiture plutôt que sur l'animal.
Cette probabilité n'étant cependant pas sûr à 100%, quelques résultats sur la page de Google renvoie vers le félin. Le moteur de recherche propose par ailleurs à l'internaute de préciser sa recherche sous la forme de deux onglets, l'un renvoyant vers les résultats "jaguar entreprise", l'autre sur les résultats "jaguar animal", ce qui semble tout à fait pertinent d'un point de vue utilisateur.
A noter par ailleurs que c'est dans l'objectif de mieux comprendre le sens des pages web que Google, Bing et Yahoo ont lancé conjointement le projet schema.org en 2011. Ce projet vise en effet à proposer un schéma de micro données unifié afin de labelliser ou baliser certains termes pour supprimer les ambiguïtés lexicales et faciliter ainsi le travail des robots des moteurs de recherche.
- Le second défi auquel doivent faire face les moteurs de recherche utilisant la reconnaissance des entités nommées est celui de la mise à jour de ces entités nommées. En effet un objet textuel peut ne pas être une entité à un instant t mais le devenir par la suite. Gérard Depardieu, avant d'être un acteur célèbre, n'était pas une entité au sens ou Google l'entend, c'est à dire un objet issu du monde réel unique et distinguable cité à de très nombreuses reprises, dans de très nombreux documents différents. De plus, les propriétés d'une entité peuvent évoluer avec le temps. Par exemple, Yannick Noah était d'abord un sportif de haut niveau, joueur de tennis français vainqueur de Roland Garros, avant de devenir capitaine de Coupe Davis, puis chanteur à succès.
Toute la difficulté réside donc pour Google dans le fait de tenir constamment à jour sa base de données d'entités qui s'élargit avec le temps, pour renvoyer constamment les résultats les plus pertinents à l'utilisateur en recherche d'informations.