Accueil > Podcast SEO > Entitée nommée

C'est quoi une entité nommée ? - Episode 6

Publié le :
Dernière modification :
⏱ Environ 7 minutes
    L'Essentiel :
    Une entité est un mot ou un groupe de mots désignant une réalité identifiable (personnel, lieu, organisation, etc.) à laquelle on peut associer des caractéristiques spécifiques. Elément fondamental dans le traitement du langage naturel, les entités sont à la base du web sémantique, qui permet aux moteurs de recherche de cartographier le web en un graphe de connaissances afin de mieux le comprendre et d'apporter aux utilisateurs des réponses plus précises, enrichies et contextualisées.

    Définition d'une entitée nommée

    Il n'existe pas de consensus réel sur la définition d' entité nommée puisqu'elle est souvent dépendante de son champ d'application qui peut être multiple et varié. Toutefois, lorsqu'il s'agit de traitement automatique du langage naturel et de recherche du sens d'un texte ou d'une requête, on peut définir une entité nommée comme un objet textuel, c'est à dire un mot ou un groupe de mots, catégorisable dans des classes, qui peuvent être par exemple des lieux, des personnes ou des organisations, auxquelles nous pouvons rattacher des caractéristiques ou attributs.

    Qu'est-ce que la reconnaissance d'entités nommées ?

    La reconnaissance d'entités nommées (ou NER pour Named Entity Recognition) désigne le processus par lequel un système identifie automatiquement dans un texte, des objets sémantiques appelés entités. Il peut s'agir de personnes, d'organisations, de lieux, de dates, de produits, de lois... En d'autres termes, le NER vise à détecter et classer des fragments textuels porteurs de sens dans des catégories prédéfinies.

    Par exemple, dans la phrase : "Marie Curie a reçu le prix Nobel de physique en 1903".

    Un système NER extrait :

    • Marie Curie : Person ;
    • Prix Nobel de physique : Award ;
    • 1903 : Date.

    La force du NER réside dans sa capacité à structurer l'information sous forme de triplets sémantiques (ou triples RDF) :

    • Sujet : Marie Curie ;
    • Prédicat : a reçu ;
    • Objet : Prix Nobel de physique.

    Ces triplets sont les briques de base des graphes de connaissances (knowledge graphs) comme celui de Google. Une fois les entités reconnues, elles sont liées entre elles via des relations, ce qu'on appelle l'entity linking ou entity desambiguation. Cela permet au moteur d'associer un mot à son référent unique, même en cas d'ambiguïté.

    Aux origines du concept de NER

    Le concept de reconnaissance des entités nommées au sein d'un document textuel est apparu dans le milieu des années 90. Il est aujourd'hui un élément incontournable dans le traitement automatique du langage naturel. Selon une étude menée par Microsoft en 2010, entre 20 et 30 % des requêtes soumises dans Bing, son moteur de recherche, étaient des entités nommées à part entière, et 71% d'entre elles contenaient au moins une entité nommée dans la question posée. On comprend alors tout l'intérêt pour un moteur de recherche de constituer une gigantesque base de données d'entités nommées permettant de catégoriser des requêtes et des pages web afin de simplifier l'extraction de la bonne information et d'améliorer la pertinence des résultats.

    2010, c'est également l'année où google rachète Metaweb, une société connue pour avoir développé Freebase, une base de données de plusieurs millions d'entités nommées.

    C'est avec cette base de données qui rassemble aujourd'hui 500 milliards de faits au sujet de 5 milliards d' entités selon les dernières informations données par Google en 2020, que le moteur de recherche a déployé son Knowledge Graph (ou arbre de connaissances) à partir de 2012.

    Le Knowledge Graph en action : l'exemple de Kylian Mbappé

    Prenons un exemple concret : lorsque vous tapez Kylian Mbappé dans Google, vous voyez apparaître un encart informatif, aussi appelé Knowledge Panel, positionné à droite sur desktop ou en haut sur mobile. Cet encart est une extraction directe du Knowledge Graph de Google. Il affiche une synthèse des principales informations liées à l’entité Kylian Mbappé, reconnue comme une Personne par les algorithmes de NER.

    Parmi les attributs visibles :

    • Sa date et son lieu de naissance ;
    • Son club actuel ;
    • Son poste (attaquant) ;
    • Les trophées remportés ;
    • Son parcours en équipe de France ;
    • Ses statistiques ;
    • Ses comptes sociaux.

    Ces informations ne proviennent pas d’un seul site web, mais sont agrégées et structurées à partir de nombreuses sources croisées (presse, Wikipédia, données structurées, etc.), puis organisées sous forme de triplets sémantiques. Ces triplets permettent à Google de comprendre la nature de la relation entre les entités, et de naviguer dans son graphe de connaissances pour étendre la réponse potentielle.

    On comprend alors que le Knowledge Graph fonctionne comme une base relationnelle dynamique, où chaque entité est liée à d’autres entités par des prédicats. C’est cette structure en graphe qui permet au moteur de recherche d’offrir une vue d’ensemble cohérente, connectée et intelligible aux utilisateurs, sans qu’ils aient à naviguer entre plusieurs sites.

    Entité et prédiction de requête

    C'est notamment grâce à l'extraction des entités nommées et au Knowledge Graph qu'a commencé à émerger la notion de moteur de réponse au sujet de Google. En apportant directement des informations liées aux propriétés d'une entité nommée dans ses pages de résultats, Google va jusqu'au point où il tente de prédire quelle sera la prochaine requête de l'utilisateur. Tout simplement parce qu'il se concentre sur la véritable intention de recherche de l'internaute, c'est à dire tous les sujets qui sont connexes à sa requête principale.

    En effet, si l'internaute tape Kylian Mbappé dans la barre de recherche, peut-être souhaite-t-il en réalité avoir des informations sur sa famille, sur son âge, sur un ancien club, etc. Le Knowledge Graph pourrait potentiellement répondre à cette question que l'internaute n'a pas su poser.

    Basé sur une série de statistiques liées aux signaux utilisateurs, Google renvoie ainsi directement dans son Knowledge Graph des recherches associées permettant bien souvent à l'internaute de ne même pas avoir besoin de formuler lui-même sa question.

    Les défis de la reconnaissance des entités nommées

    Il faut cependant savoir que la reconnaissance des entités nommées se heurte à plusieurs défis de taille parmi lesquels nous pouvons citer la désambiguïsation lexicale et l'évolution des entités.

    La désambiguïsation lexicale (Word Sens Disambiguation)

    Un même terme peut en effet avoir plusieurs sens différents. On dit alors qu'il est polysémique. L'exemple classique qu'on donne en SEO est le terme "jaguar" qui peut à la fois désigner l'animal sauvage mais également la marque de voitures de luxe. Dans le cadre d'une recherche d'informations sur un moteur de recherche, lorsque l'utilisateur utilise le terme "jaguar" qui est donc une entité qui peut, soit avoir pour type le nom d'une organisation, soit avoir pour type le nom d'un animal. Lorsque l'utilisateur utilise le terme "jaguar" dans sa requête, le moteur de recherche va devoir analyser le contexte dans lequel se trouve le terme, qui peut être par exemple les mots entourant "jaguar", pour comprendre le véritable besoin de l'internaute et lui renvoyer les résultats les plus pertinents.

    Un scoring sera par ailleurs mis en place afin de déterminer la probabilité qu'un utilisateur recherche plutôt telle ou telle information lorsqu'il tape une requête de type "jaguar" dans le moteur de recherche. Dans cet exemple on peut voir que Google renvoie majoritairement des résultats liés à la marque de voiture pour la requête "jaguar" puisqu'il a déterminé en fonction de tout un tas de paramètres (parmi lesquels la géolocalisation de l'internaute et son historique de recherche) qu'il était beaucoup plus probable, en l'absence de plus de précisions de la part de l'internaute, que ce dernier cherche des informations sur la marque de voiture plutôt que sur l'animal.

    Cette probabilité n'étant cependant pas sûr à 100%, quelques résultats sur la page de Google renvoie vers le félin. Le moteur de recherche propose par ailleurs à l'internaute de préciser sa recherche sous la forme de deux onglets, l'un renvoyant vers les résultats "jaguar entreprise", l'autre sur les résultats "jaguar animal", ce qui semble tout à fait pertinent d'un point de vue utilisateur.

    A noter par ailleurs que c'est dans l'objectif de mieux comprendre le sens des pages web que Google, Bing et Yahoo ont lancé conjointement le projet schema.org en 2011. Ce projet vise en effet à proposer un schéma de micro données unifié afin de labelliser ou baliser certains termes pour supprimer les ambiguïtés lexicales et faciliter ainsi le travail des robots des moteurs de recherche.

    L'évolution des entités

    Le second défi auquel doivent faire face les moteurs de recherche utilisant la reconnaissance des entités nommées est celui de la mise à jour de ces entités nommées. En effet un objet textuel peut ne pas être une entité à un instant t mais le devenir par la suite. Gérard Depardieu, avant d'être un acteur célèbre, n'était pas une entité au sens ou Google l'entend, c'est à dire un objet issu du monde réel unique et distinguable cité à de très nombreuses reprises, dans de très nombreux documents différents. De plus, les propriétés d'une entité peuvent évoluer avec le temps. Par exemple, Yannick Noah était d'abord un sportif de haut niveau, joueur de tennis français vainqueur de Roland Garros, avant de devenir capitaine de Coupe Davis, puis chanteur à succès.

    Toute la difficulté réside donc pour Google dans le fait de tenir constamment à jour sa base de données d'entités qui s'élargit avec le temps, pour renvoyer constamment les résultats les plus pertinents à l'utilisateur en recherche d'informations.

    Chargement de la note...
    Julien Gourdon - Consultant SEO

    Article écrit par Julien Gourdon, consultant SEO senior dans les Yvelines, près de Paris. Spécialisé dans l'intégration de l'intelligence artificielle aux stratégies de référencement naturel et dans le Generative Engine Optimization (GEO), il a plus de 10 ans d'expérience dans le marketing digital. Il a travaillé avec des clients majeurs comme Canal+ et Carrefour.fr, EDF, Le Guide du Routard ou encore Lidl Vins. Après avoir travaillé en tant qu'expert SEO au sein d'agence prestigieuse (Havas) et en tant que Team leader SEO chez RESONEO, il est consultant SEO indépendant depuis 2023.



    Si cet article vous a été utile, n'hésitez pas à le partager sur vos réseaux sociaux !

    Commentaires

    Aucun commentaire pour le moment. Soyez le premier à commenter !

    Ajouter un commentaire

    Prêt à passer à la vitesse supérieure ?

    Contactez-moi dès aujourd'hui pour discuter de votre projet et commencer à optimiser votre présence en ligne.

    Commencer l'optimisation