Non, Google n'utilise pas les données sur le CTR dans le coeur de son algo

Ecrit par
le

Cela fait des années qu’une polémique fait rage dans le monde des experts SEO à propos de l’utilisation éventuelle dans l’algorithme de classement de critères d’usage comme le taux de clics dans les pages de résultats, le dwelling time ou l’analyse du pogo sticking.
L’idée sous-jacente, c’est que l’algorithme de classement ferait remonter automatiquement les résultats les plus cliqués et/ou descendre les résultats les plus cliqués.
Certains jurent que c’est effectivement implémenté comme cela, que les études sur les corrélations le montrent, et que Google l’a confirmé a plusieurs reprises. Parmi les leaders de ce courant d’opinion on trouve notamment Rand Fishkin, l’ancien dirigeant de Moz. D’autres affirment que c’est faux, et Google l’a également confirmé à plusieurs reprises. Parmi les gens qui défendent cette idée, on trouve Barry Schwartz, de Seroundtable.
La polémique a été relancée par Gary Illyes, un des porte parole de Google qui a écrit ceci lors d’une séance de questions réponses sur Reddit : »Dwell time, CTR, whatever Fishkin’s new theory is, those are generally made up crap. »

Comment
byu/garyillyes from discussion
inTechSEO


Et la polémique a été relancée entre partisans des deux camps.
Qui a tort, qui a raison ? Et bien, aussi bizarre que cela puisse paraître, les deux camps ont raison.
Oui, les données sur les clics sur les pages de résultats sont bien utilisés par Google
J’ai eu l’occasion de le préciser à plusieurs reprises, en conférence et dans des articles, et notamment dans une interview du Journal du Net de 2016

« Des recherches scientifiques ont été conduites sur l’intérêt d’exploiter ces ‘informations implicites’ pour mesurer la pertinence d’un résultat, et corriger les pages de résultats. Mais elles arrivent à la conclusion que le résultat n’est pas satisfaisant, voire même assez moyen. Dit autrement, se fier au pogo-sticking pour changer l’ordre des résultats n’améliore pas toujours la pertinence du moteur. Les erreurs générées peuvent être trop importantes. » »

Les publications scientifiques qui parlent d’information retrieval sont remplies d’indications sur la façon dont presque TOUS les moteurs exploitent les données de clics sur les résultats pour :

  • évaluer la qualité de leur algorithme
  • personnaliser les résultats
  • et générer des données pour des tests A/B, ou des données d’entrainement pour des algos de machine learning

(à l’heure de rédaction de cet article, je n’ai pas le temps de joindre une bibliographie sur le sujet, mais je l’ajouterai dans les jours qui viennent, promis !)
Par contre, utiliser ces données dans le coeur de l’algorithme pose problème, car faire remonter des résultats parce qu’ils sont cliqués n’améliore pas la pertinence, sauf cas particulier.
Cette idée a été exploitée dans un moteur des années 90, Hitwise, on ne peut pas dire que l’expérience ait été concluante, le moteur a vite disparu du marché.
La réponse à la question « Google utilise t’il le CTR dans son algo » étant complexe, et ne pouvant pas être comprise par quelqu’un qui n’a pas la culture scientifique nécessaire, toutes les tentatives précédentes de Google pour clarifier comment ces critères sont utilisés ont échoué.
Les porte paroles de Google ont, sur ce sujet comme sur d’autres, surtout communiqué des demi-vérités et menti par omission. Dans d’autres cas, ils ont fait l’erreur de lâcher des infos exactes, mais sans effort de contextualisation et sans vraiment chercher à évangéliser. J’ai toujours du mal à comprendre pourquoi Google privilégie des formats comme des hangouts mal préparés ou Twitter pour communiquer lorsqu’il faut parfois entrer dans le détail d’explications complexes pour aborder sérieusement un sujet. Et le parti pris de parler souvent uniquement à des webmasters newbies en utilisant des mots qu’un enfant de 5 ans peut comprendre a aussi fait pas mal de dégâts sur des sujets qui méritent qu’on insulte pas l’intelligence des interlocuteurs pour faire avancer le schmilblick.
Le résultat, c’est que pour clore la polémique, Google s’est fendu de ce communiqué il y’a quelques heures :

As we’ve commented on before, we use interactions in a variety of ways, such as for personalization, evaluation purposes and training data. We have nothing new or further to share here other than what we’ve long said: having great, engaging content is the right path for success. We’d encourage site owners to focus on that big picture,
Traduction : Comme nous l’avons déjà mentionné, nous utilisons les interactions de diverses façons, par exemple à des fins de personnalisation, d’évaluation et d’entrainement. Nous n’avons rien de nouveau à partager ici, si ce n’est ce que nous disons depuis longtemps : avoir un contenu intéressant et engageant est la bonne voie pour réussir. Nous encourageons les propriétaires de sites à se concentrer sur cette vue d’ensemble,

Circulez, il n’y a rien à voir ! Nous ne vous donnerons pas plus d’explications, nous ne ferons aucun effort de vulgarisation, ne cherchez pas à comprendre (parce que c’est trop compliqué pour nous ?). Evidemment, ce genre de réponses donné « à chaud » a aussi pour objectif de ne pas nourrir le troll.
Mais sérieusement ? Google ?