Penguin dans le noyau de l'algorithme ? Qu'est-ce que ça veut dire ?

Ecrit par
le

Penguin 4.0 vient d’être déployé, et Google a déclaré que cette version était intégrée « dans le noyau de l’algorithme » (« core algorithm ») et fonctionnait en temps réel. Google utilise régulièrement ces termes sans expliquer ce que cela veut dire. Il me semble donc utile de vous donner quelques éléments supplémentaires…

En temps réel ne veut pas dire « instantané »

Commençons par le côté « temps réel ». Dans ce contexte, la notion de « real time » peut induire en erreur. Google l’utilise par opposition au fonctionnement passé des filtres de type Panda/Penguin, qui nécessitait une récolte préalable de données, de mouliner un ou plusieurs scores, et de tester et re-tester les résultats avant d’utiliser ces scores dans le processeur de requêtes (pour éliminer les effets de bord du filtre ou rectifier le tir si les résultats n’étaient pas à la hauteur des espérances). Ce long processus, qui durait des mois, créait une situation dans laquelle les scores étaient potentiellement obsolètes au moment de leur exploitation. Dans les nouvelles versions de Panda, les scores sont calculés et intégrés au cours du processus d’indexation, et donc utilisés immédiatement. Mais l’impact de ces scores sur un site n’est pas instantané comme le laisse penser l’expression “temps réel” :

  1. Les scores sont calculés page après page, ce qui veut dire qu’il faut des semaines, voire des mois, avant que Panda/Penguin soient réévalués sur l’intégralité d’un site donné.
  2. Les scores sont calculés à partir de différents jeux de données, qui eux, peuvent ne pas être actualisés en temps réel. Certains signaux exploités par Google ne sont mis à jour que plusieurs fois par an !

Le « noyau » de l’algorithme

Le terme « algorithme » est utilisé de manière impropre dans le contexte d’un moteur de recherche. En fait, il n’y a pas vraiment d’algorithme au cœur d’un moteur, mais une simple fonction d’évaluation, une formule, qui calcule un score de pertinence en combinant différents sous-scores. Le classement entre les pages restitué dans la page de résultats se fait tout simplement par ordre décroissant des scores de pertinence sur la requête. Ces sous-scores sont une quantification associée à un « critère » (Google appelle cela des « signaux »), combinés avec des coefficients et des formules de pondération qui permettent de régler finement le score de pertinence. Les calculs effectués par la formule d’évaluation sont faits, en principe, à la volée à partir de sous-scores qui eux sont pré-calculés et stockés dans l’index. Quand on parle du « noyau » de l’algorithme, il s’agit de cette fonction mathématique, et de ses sous-fonctions, ainsi que des sous-scores pré-calculés et pré-indexés.
Dans les moteurs comme Google, Bing ou Yahoo!, les résultats renvoyés par le processeur de requêtes et classés par score de pertinence sont ensuite traités par des « filtres ». La notion de « filtre » recouvre plusieurs types de fonctionnement :

  • certains filtres agissent réellement comme des filtres, c’est à dire qu’ils éliminent des résultats de la liste produite par le processeur de requêtes (par exemple, le filtre DMCA qui élimine des résultats les pages qui enfreignent les lois américaines sur le Copyright) ;
  • d’autres « re-classent » les résultats, soit en modifiant les scores de pertinence, soit en déclassant certains résultats. La plupart des soi-disant “pénalités algorithmiques” sont de ce type, ainsi que Panda et Penguin.

La politique de Google est de ne pas communiquer sur les changements même majeurs apportés au noyau de l’algorithme. Mais par contre, ils communiquent plus volontiers sur les filtres. Pourquoi ? Probablement parce qu’ils veulent logiquement lâcher le moins d’informations possibles sur le fonctionnement de leur « algorithme » et qu’ils fonctionnent sur le mode « pas vu, pas pris ». La mise en place de « filtres » produit des changements brutaux et drastiques dans les résultats : difficile de ne pas voir que quelque chose a changé… Google se sent donc obligé de donner des explications. Les changements apportés au « noyau » sont plus difficiles à détecter et à identifier. C’est seulement si le petit du monde du SEA s’aperçoit du changement que Google communique, généralement avec retard, et avec réticence, sur ce qui se cache derrière ces changements (cela a été le cas ces derniers mois sur les updates « Phantom »).
On peut donc en conclure que l’intégration de Penguin dans l’algorithme met un point final à la communication de Google sur Penguin. Et cela ne change pas fondamentalement l’impact de l’ancien filtre sur les sites. L’aspect « temps réel » de cette fonctionnalité du cœur de l’algorithme permettra une récupération rapide.
A condition d’identifier que la cause est l’ex-Penguin, ce qui vient de devenir très très difficile…