C'est quoi le PageRank ? - Episode 5


Portrait de l'auteur de l'article, Julien Gourdon

Article écrit par Julien Gourdon

le PageRank est l'algorithme fondateur de Google qui fut à l'origine de son succès. Créé par Larry Page, l'un des 2 co-fondateurs du moteur de recherche, il est expliqué en détail dans un article en date du 29 janvier 1998 que l'on peut facilement consulter sur le web. Mais comment expliquer en quelques mots ce qu'est le PageRank ?

La problématique qui se pose à tout moteur de recherche : renvoyer les résultats les plus pertinents à l'utilisateur

Pour cela il faut déjà comprendre la problématique qui se pose à tout moteur de recherche. Comment trouver un modèle qui puisse automatiquement et rapidement fournir les résultats les plus pertinents à l'utilisateur en recherche d'information. C'est la base ! Un utilisateur qui juge les résultats qu'on lui renvoie peu pertinent par rapport à sa recherche passera chez la concurrence et ne reviendra pas de sitôt. La qualité perçue des résultats fournis est donc cruciale pour un moteur de recherche.

Le postulat de départ du PageRank : les pages les plus populaires doivent être les mieux classées dans les moteurs de recherche

C'est donc à cet épineux problème que c'est attaqué Larry Page en créant le PageRank. Son postulat de départ consiste à dire que les pages les plus populaires doivent être les mieux classées dans un moteur de recherche. Pourquoi ? Parce que si une page est souvent visitée par un grand nombre d'internautes, c'est qu'elle leur plaît et il est donc normal que les moteurs de recherche poussent ces pages web. Mais le problème est qu'en 1998 il n'existe aucun moyen de mesurer l'audience d'un site web. Rappelons que Google Analytics ne sera lancé qu'en 2005 et qu'il n'existe alors pas encore d'outils pour connaître le trafic d'un site. Pour autant, une estimation de l'audience ne semble pas insurmontable. Imaginons pour commencer que le web soit représenté par un graphe orienté où chaque noeud représente une page web et chaque arc reliant les noeuds entre eux un lien hypertexte pointant d'une page vers une autre. Intuitivement on peut aisément se visualiser le fait que plus un noeud N est relié à d'autres noeud, plus ce noeud N est gros et est donc plus visible que les autres.

La modélisation du surfeur aléatoire

Mais encore faut-il donner une base scientifique à cette intuition pour la rendre tangible. Pour cela Larry Page va modéliser un visiteur virtuel appelé surfer aléatoire. C'est l'idée selon laquelle un internaute lorsqu'il se retrouve sur une page web quelconque à deux comportements possibles : soit il clique sur un des liens se trouvant sur la page, soit aucun de ces liens ne l'intéresse et il se téléporte sur une autre page quelconque en ouvrant un nouvel onglet dans son navigateur par exemple. Si on détermine une probabilité que le surfeur aléatoire clique sur un des liens de la page, cette probabilité étant appelée le "dumping factor" dans l'algorithme du PageRank et est fixé à 85% à l'origine, alors une estimation qu'il se retrouve sur une page web devient possible. Si on applique cette même théorie à tous les internautes surfant sur la toile à un instant t et à toutes les pages web présentes sur le web, on peut calculer un score de PageRank qui va de 0 à 1, 1 représentant la somme du PageRank de l'ensemble des pages du web. On peut donc représenter un score de PageRank pour toutes les pages ce qui revient à estimer une probabilité que le surfeur aléatoire atterri sur une page en fonction du nombre de liens qui pointent vers elle depuis des pages externes. Ainsi, plus une page à un PageRank élevé plus il y a de chances qu'un grand nombre d'internautes soient présents sur cette page à un instant t en raison du nombre de liens qu'elle reçoit.

La qualité perçue des utilisateurs : la preuve que le PageRank un game changer

Cet algorithme fut révolutionnaire pour l'époque parce qu'il a grandement amélioré la qualité perçue des résultats. Des tests ont en effet été réalisés auprès de volontaires à qui on a présenté des résultats issus de moteurs de recherche, l'un utilisant l'algorithme du PageRank (c'était Google), l'autre renvoyant des résultats issus du contenu des pages web, le moteur utilisé se contentant de vérifier que le contenu de la page contenait la requête de l'utilisateur. Dans la très grande majorité des cas, la qualité perçue des résultats renvoyés par Google était bien supérieure à celle de l'autre moteur de recherche.

Du PageRank au PageRank thématique

Pour autant, le PageRank initial imaginé par Larry Page était encore largement perfectible. C'est ainsi qu'en 2003 Taher H. Haveliwala, un autre chercheur de l'université de Standford, c'est-à-dire l'université où ont étudié les co-fondateurs de Google, imagina le PageRank thématique, ou topic sensitive PageRank en anglais. Comme son nom l'indique, l'idée ici est de vérifier l'adéquation des thématiques entre les pages d'origine et les pages de destination des backlinks. Comme le dit l'auteur, en rendant le pagerank sensible à la thématique, on évite le problème de classer des pages dans les premières positions pour une requête pour lesquelles elles n'auraient pas d'autorité particulière. L'idée est donc qu'en amont de la requête, l'index de Google soit clusterisé en différentes thématiques. En réalité, chaque page va se voir attribuer des scores thématiques qui sont en fait des PageRank thématiques en fonction du contenu qu'elles portent. Une page pourra par exemple se voir attribuer un PageRank de 0,7 pour la thématique automobile, et un PageRank de 0,3 pour la thématique environnementale. En identifiant la thématique de la requête de l'utilisateur, on peut déterminer un score d'adéquation d'une page par rapport à une recherche d'information et renvoyer les résultats les plus pertinents, c'est-à-dire ceux qui sont les plus populaires dans la thématique qui intéresse notre internaute.

Du surfeur aléatoire au surfeur raisonnable

Cette notion de PageRank thématique va de pair avec une autre notion qui permet de rendre encore plus pertinent les résultats renvoyés par un moteur de recherche. C'est ainsi que le surfeur aléatoire imaginé par Larry Page est devenu au fil des années un surfeur raisonnable, beaucoup plus réfléchi que ce qu'on imaginait à l'époque. L'idée sous-jacente consiste à dire que tous les liens sur une page ne se valent pas. Certains sont beaucoup plus importants, ce qui revient à dire qu'ils ont beaucoup plus de chances d'être cliqués que d'autres. On sait par exemple que Google étiquette les liens en fonction de nombreux critères, qui ne sont pas forcément connus mais qu'on peut facilement imaginer pour certains sans crainte de se tromper. L'emplacement du lien a son importance. Un lien a certainement plus de valeur s'il se trouve au coeur du contenu principal d'une page par rapport à un lien situé dans le footer, le menu ou sur le côté. Il est probable également qu'un lien dans le contenu principal de la page et situé au dessus de la ligne de flottaison soit encore mieux noté par le moteur de recherche. L'entourage du lien a également certainement son importance. Le paragraphe au sein duquel se trouve ce lien et les mots entourant le backlink ont-ils un rapport avec la page de destination du lien ? L'ancre du lien évidemment, c'est à dire le contenu textuel du lien, est important. Est-il sémantiquement proche de la page de destination ? Et puis évidemment la page de destination du lien est en elle-même importante. S'agit-il d'un site de confiance ou au contraire est-il considéré comme spammy ?

Il existe certainement bien d'autres critères encore, qui ne sont pas forcément notés de la même manière selon la thématique ou le type de page observés, mais qui ont tous pour objectif d'améliorer toujours un peu plus la pertinence des résultats renvoyés à l'utilisateur en recherche d'informations.



Automatisez la création de vos contenus web parfaitement optimisés SEO avec Help Content

Récupérez le contenu principal des URLs qui se positionnent en Page 1 de Google sur votre requête cible, enrichissez les connaissances de l'API GPT-4 grâce à ces contenus et obtenez de longs articles de blog parfaitement optimisés SEO pour améliorer la visibilité de votre site web sur les moteurs de recherche

J'automatise mes contenus