Après 18 ans : le PageRank est toujours là ! Et bien là…

Ecrit par
le

Gary Illyes publie depuis quelques semaines des tweets DYK (Did You Know : Le saviez-vous ?). Parmi ces messages, l’un disait « Le saviez-vous ? Après 18 ans, nous utilisons toujours le Pagerank (et des centaines d’autres signaux) dans nos classements. »
Comment ? Après Panda, Penguin, Hummingbird, et… Rankbrain, rien n’aurait fondamentalement changé ?

Le pagerank n’est pas mort !

Si on lit les papiers de chercheurs qui testent de nouvelles méthodes pour construire un algorithme de classement pour les moteurs de recherche, une conclusion s’impose : la solution la plus simple et la plus fiable aujourd’hui pour construire une « note » de pertinence est de s’appuyer fortement sur les informations tirées des liens pointant vers la page (les fameux « backlinks »).
On peut tirer deux types d’informations à partir des liens :

  • une note de similarité textuelle à partir des textes d’ancres
  • une note de popularité : le fameux PageRank chez Google

pagerank-1

Mais il a sans doute bien évolué

Le tweet de Gary Illyes peut laisser l’impression que rien n’a changé en 18 ans sur le front du Pagerank. C’est faux, ce que Google appelle aujourd’hui « Pagerank » est probablement très différent de ce que Larry Page et Sergeï Brin décrivaient dans un article de 1998 : « The anatomy of a Large-Scale Hypertextual Web Search Engine ».

  • Tout d’abord, les progrès dans le calcul de la note ont été époustouflants. Dans les premières années, calculer les notes de PR pour les pages indexées prenait plus de deux semaines. Aujourd’hui, ce n’est pas du temps réel, mais le délai est très court : en quelques secondes, une nouvelle page est indexée et dotée d’une note de popularité proche de sa note définitive.
  • Ensuite, l’algorithme de calcul a été rééemployé pour calculer d’autres notes : par exemple, des notes de « Trust » (confiance) attribuées aux pages en fonction de l’autorité des pages qui présentent des backlinks pointant vers elles.
  • La « formule » s’est probablement sophistiquée. Depuis de nombreuses années, on sait que l’algorithme présente des défauts qui se sont aggravés avec l’évolution du web. Le Pagerank à l’origine reposait sur un modèle théorique baptisé le « surfer aléatoire » où tous les backlinks se valent. On sait qu’il faut lui substituer le modèle du « surfer intelligent » ou « raisonnable », dans lequel l’utilisateur montre une préférence pour certains liens de la page, ce qui colle mieux à la réalité.
  • Et enfin, il est plus que probable que pour permettre la personnalisation des résultats, Google calcule non pas un, mais plusieurs pageranks. Il suffit en effet de « biaiser » l’algorithme pour qu’il mesure une « popularité thématique ». Avec plusieurs pageranks thématiques, on construit un vecteur de pageranks qui permet de calculer une note de proximité avec une thématique.

Il y’a quatorze ans, j’expliquais déjà tout cela dans 2 articles parus sur le forum Webmaster Hub. Si ce sujet vous intéresse, vous pouvez les relire, presque tout est encore d’actualité !
https://www.webmaster-hub.com/publications/vers-un-moteur-de-recherche-sensible-au-contexte-1ere-partie/
https://www.webmaster-hub.com/publications/vers-un-moteur-de-recherche-sensible-au-contexte-2eme-partie/
pagerank-2

Le TSPR, illustration issue d’un article de Moz.com

Conclusion : non le Pagerank n’est pas mort. Ce n’est pas parce que Google n’affiche plus de note dans sa barre d’outils qu’il a arrêté de calculer une note de popularité, et qu’il a cessé de l’utiliser dans son algorithme de classement (en combinaison avec des centaines d’autres signaux).
Le Pagerank est là. Et bien là. Sous une forme plus perfectionnée, avec un algorithme plus sophistiqué, et sous la forme de nombreux avatars.
Jusqu’à quand ? L’avenir nous le dira. En attendant, il suffit de manipuler les backlinks autour d’un site pour se rendre compte que l’algorithme de classement de Bing ou de Google use et abuse de ces notes de popularité. C’est même l’un des points faibles de l’algorithme, celui que l’on peut attaquer avec le plus d’efficacité.
Dans ces conditions, il n’est pas étonnant que Google ait cessé de fournir des informations sur la note de Pagerank. Et ait décidé de renforcer sa lutte contre les liens « non naturels »… Attention, manipuler le Pagerank est une violation des Guidelines de Google, ne l’oubliez pas.
Pour en savoir plus :
L’article de Larry Page et de Sergeï Brin sur le PageRank : The Anatomy of a Large-Scale Hypertextual Web Search Engine