Que change Hummingbird, le nouvel algo de Google annoncé jeudi 26 septembre ?

Hummingbird - Google
L’image du « Colibri » utilisée par Google lors de l’annonce du déploiement de l’algo Hummingbird le 26 septembre 2013

Le 26 septembre 2013 Google a annoncé avoir déployé un nouvel algorithme impactant 90% des requêtes tapées par les internautes : Hummingbird. Selon Amit Singhal (Vice Président Senior du Search chez Google), c’est le plus gros changement effectué par Google à son algorithme depuis Caffeine en 2009. Mais, alors que Hummingbird répond à nos requêtes depuis au moins un mois, le paradoxe c’est que personne n’a vu la différence, ou presque ! Alors, info ou intox de la part de Google ? 

Que sait-on exactement sur Hummingbird ?

Le problème, c’est que Google n’a pas révélé encore grand chose sur son nouvel algo. La nouvelle a été lâchée à l’occasion d’une conférence de presse tenue le 26 septembre à l’occasion du 15e anniversaire de Google, dans le garage de Susan Wojcicki, garage où les fondateurs de Google avaient installé leur bureau juste après avoir créé l’entreprise. Lors de cette conférence de presse, Amit Singhal a révélé plusieurs améliorations du moteur de recherche :

Amit Singhal - Senior VP Search de Google
Amit Singhal – Senior VP Search de Google

  • l’ajout d’une fonctionnalité de filtrage et de comparaison pour le “Knowledge Graph”
  • la sortie prochaine d’une nouvelle version des “apps” pour Google Search, qui permettra un échange d’infos entre les différents appareils que vous utilisez pour améliorer l’expérience avec Google Now.
  • un nouveau look and feel sur les smartphones et les tablettes
  • et… le déploiement de Hummingbird.

Mais, alors que toutes les autres modifications sont présentées dans un billet publié le même jour par le même Amit Singhal sur le blog “Inside Search”, pas un mot dans ce billet sur… Hummingbird. Ce que l’on sait provient donc des compte-rendus publiés par les journalistes présents (notamment Danny Sullivan de Search Engine Land). Et le moins que l’on puisse dire, c’est que l’information recueillie est lacunaire. Mais on en sait assez pour deviner pas mal de choses sur ce qui s’est passé sous le capot de Google.

Historique des principaux changements chez Google
Schéma illustrant l’historique des principaux changements chez Google depuis le lancement en 1998. Le dernier changement noté est l’introduction de « fonctionnalités intelligentes ». Tout un programme…

Pourquoi ce nom “Hummingbird” ?

L’algorithme a été baptisé Colibri (Hummingbird en anglais) parce qu’il est, dixit Google “rapide et précis” comme le colibri. Certains ont déjà noté la proximité avec le nom d’un programme open source utilisant les treillis de Galois pour différents usages comme la recherche sémantique, mais c’est peut être une coïncidence. (après tout, il y’avait bien deux ingénieurs qui s’appelaient Panda chez Google).

 Qu’est-ce que l’algorithme Colibri exactement ?

Amit Singhal a fait le parallèle avec Caffeine, probablement car il s’agit probablement plus d’un changement d’architecture du moteur de recherche que de changements dans l’algorithme de classement. En fait, l’algorithme de classement dépend fondamentalement de l’information qui est indexée, et de la manière dont elle est indexée. On peut aussi changer la manière dont l’information est “requêtée” et extraite de l’information. Dans le cas de “Colibri”, il s’agit des deux à la fois : Google stocke de nouvelles infos dans l’index et a changé la manière dont l’information peut être requêtée…

Quand l’algorithme a t’il été déployé ?

Il y’a un mois environ, d’après Amit Singhal. Le problème avec cette information, c’est qu’un changement d’algorithme aussi fondamental ne peut pas, en théorie, se faire en un claquement de doigts… On peut supposer aussi que l’impact de Colibri a été testé et retesté. Le déploiement de Caffeine avait pris plus de neuf mois ! Pour ajouter à la confusion, un autre officiel de Google a déclaré depuis qu’Hummingbird est déployé en fait depuis plusieurs mois… Est-ce que cette date correspond à la bascule définitive ou finale vers le nouvel algo ? En fait on en sait rien pour l’instant.

Qu’est-ce qui change avec cet algorithme ?

Selon Amit Singhal, l’objectif de “cet algorithme est de fournir de meilleures réponses sur les requêtes beaucoup plus complexes que les gens tapent. […]Il impacte toutes sortes de requêtes, mais avec beaucoup plus d’effet sur les questions beaucoup plus complexes et longues que nous récupérons à présent[…]C’est compliqué de rentrer dans les détails, mais pour l’essentiel, sur des requêtes plus complexes, l’algorithme comprend mieux les concepts par opposition aux mots, ainsi que les relations entre les concepts.” Lorsque qu’Amit Singhal parle de “requêtes plus complexes de plus en plus fréquentes” il fait en allusion aux requêtes induites par les nouveaux usages, notamment mobiles, permis par Voice Search et Google Now. Sans compter que depuis mai dernier, Google a introduit la recherche conversationnelle….

Qu’est-ce que la recherche conversationnelle ?

La “recherche conversationnelle” est une expérience de recherche d’informations fondamentalement naturelle, car elle mimique la façon que nous employons pour interroger d’autres humains. Cela implique de poser la question en langage naturel, d’obtenir une réponse précise en langage naturel, avec peut-être une suggestion d’interaction nouvelle, et l’échange de questions réponses se poursuit jusqu’à l’obtention de l’information ou le choix d’une action précise à lancer. Ce mode de recherche est possible avec Google depuis mai 2013 ! Mais au lancement, ce mode de recherche ne fonctionnait qu’avec les données du knowledge graph. Maintenant, il pourra être étendu à l’ensemble des données du moteur. Screenshot_5_21_13_10_51_PM-600x352Screenshot_5_21_13_10_42_PMScreenshot_5_21_13_10_43_PMScreenshot_5_21_13_10_46_PM-2Screenshot_5_21_13_10_47_PM

 La recherche conversationnelle sur l’app Google Search en action : une requête en langage naturel sur l’âge d’Obama permet d’avoir une réponse directement, mais cette requête définit un contexte et la « conversation » peut se poursuivre, le contexte devenant implicite : « quel est sa taille ? », « Qui est sa femme ? », « Quel âge a-t’elle ? ». Notons que les anaphores « he », « she », « his » sont compris.

 Puis-je avoir quelques exemples démontrant le fonctionnement du moteur depuis le déploiement de Hummingbird ?

Oui, Amit Singhal a donné quelques exemples de requêtes typiquement impactées par Hummingbird : “acid reflux prescription” renvoyait sur cette page : http://www.drugs.com/condition/gastroesophageal-reflux-disease.html pas très utile pour déterminer le meilleur médicament, et maintenant sur une autre page plus proche de la réponse à la question implicite présente dans les mots clés : http://www.mayoclinic.com/health/gerd/DS00967/DSECTION=treatments-and-drugs  “pay your bills through citizens bank and trust bank” renvoie maintenant la bonne page de Citizens Bank, au lieu de la home. “pizza hut calories per slice” : renvoie la page de pizza hut sur la question, et non plus cette page : http://www.fatsecret.com/calories-nutrition/pizza-hut

 Qu’est-ce qui change sous le capot dans un moteur de recherche “sémantique” ?

L’évolution vers la recherche sémantique est une tendance lourde des moteurs “grand public” et le fonctionnement de tels moteurs a fait l’objet de recherches et d’expériences qui ont donné lieu à un grand nombre de publications scientifiques ces dernières années. On connait donc dans les grandes lignes les “prérequis” pour qu’un tel moteur fonctionne. J’avais d’ailleurs publié en janvier 2011 un article dans la lettre pro d’Abondance sur le sujet (“http://recherche-referencement.abondance.com/2011/01/vers-un-moteur-de-recherche-conceptuel.html” – contenu réservé aux abonnés. A l’époque, je disais que l’avènement des moteurs sémantiques n’était pas pour demain, mais pour après demain, et sans doute en raison de la montée des usages mobiles. Il semble donc  que cet après demain c’était un peu plus de deux ans après…) Pour simplifier, il faut ajouter au moteur une couche de NLP (Natural Language Processing : traitement du langage naturel), capable de reconnaître dans une phrase les mots porteurs de sens, et d’identifier les concepts associés à ces mots.

Architecture simplifiée d'un moteur de recherche conceptuel
Architecture simplifiée d’un moteur de recherche conceptuel

Ensuite, il s’agit de faire une “expansion de requête”, c’est à dire de reformuler la requête de l’internaute pour aller chercher, non seulement les documents qui contiennent les mots clés de la requête, mais aussi les documents qui traitent des concepts identifiés. Cela sous entend donc que le moteur contient dans son index des informations supplémentaires pour chaque document, à savoir les “concepts” associés à ces documents, et même si possible la relation entre document et concepts. Un “index de concepts” simple peut-être est créé classiquement en analysant les logs de recherches : quand une page est cliquée souvent (quelle que soit son classement) sur une requête donnée, c’est le signe que le(s) concept(s) associés à la requête sont probablement proches de ceux évoqués dans le document.
Annotation de documents à partir de Freebase
Un exemple d’annotations à partir de Freebase. Le « knowledge graph » de Google n’est qu’une évolution de Freebase

 

Y’a-t’il une relation entre l’annonce du passage à 100% de “not provided” et Hummingbird ?

A première vue, ces deux décisions n’ont pas de raison d’être liées. C’est juste ironique de constater que l’information sur les mots clés qui rapportent du trafic disparait au moment où Google annonce un basculement vers une recherche plus sémantique, c’est à dire un contexte où la recherche par mots clés perd un peu de sa pertinence. Ceci dit, une relation de cause à effet laisserait penser que le nouvel algorithme serait sensible à certaines formes de spam inventées à partir d’un reverse engineering permis par l’analyse de mots clés. Or cette hypothèse ne peut pas totalement être écartée…

Quel impact sur le programme adwords ?

Je n’ai vu personne le noter, mais favoriser les requêtes en langage naturel rend aussi complètement caduques les stratégies de positionnement d’annonces sur des mots clés. Le fait que Google n’a annoncé aucune adaptation de son programme Adwords pour le moment tend à confirmer que le taux d’utilisation de Google Now et Voice Search, et de la recherche conversationnelle est aujourd’hui très bas, et donc qu’il n’y a pas d’urgence à changer le mode de fonctionnement du programme Adwords. Mais demain ? Quel nouveau mode de correspondance faudra-t’il choisir ? Y’aura-t’il un mode “concept match” ? L’avenir nous le dira, mais c’est plausible…

 Pourquoi ce changement n’a-t’il pas été détecté ?

Personne n’a vu quelque chose qui ressemblait à un bouleversement des classements. C’est logique, je crois pouvoir affirmer qu’il n’y en pas eu, en tout cas, sur les requêtes les plus tapées par les internautes. La communauté, et les fournisseurs d’outils de SEOmetrics ont bien relevé quelques mouvements curieux cet été sur des typologies de requêtes bien précises, et une mise à jour majeure a été détectée vers le 20 août (tiens ! “il y’a un mois environ” correspond grosso modo à cette date) où certains sites ont vu leur traffic SEO décoller ou chuter soudainement. En fait, personne ne surveille pour le moment les requêtes “longues et complexes” ou “en langage naturel”, et la détection de changements sur cette typologie de requêtes était donc impossible dans les faits. De toute façon, en l’état actuel des choses, ces requêtes :

  • sont encore assez peu fréquentes (les utilisateurs ont été éduqués à taper des mots clés, il faudra du temps avant qu’ils changent d’habitude)
  • sont par nature très longue traine : les combinaisons sont infinies, suivre toutes les variantes n’a pas de sens, et cette typologie de requêtes relève des signaux ultra faibles
  • les critères de classement n’ont pas été par ailleurs fondamentalement changés dans cet algorithme. En fait, une requête avec deux mots clés, par manque de contexte, donne à peu près le même résultat avant et après… Et si la requête correspond à la recherche d’un ou plusieurs concepts, fréquemment ce qui change dans la page de résultats c’est la page d’atterrissage du site choisi par l’algo, et non le site lui-même…

Qu’est-ce que cela implique pour le SEO ?

La bascule sur Hummingbird a eu un impact visible négligeable pour le moment. Inutile de s’affoler donc et de changer sa stratégie SEO dans l’immédiat. Par contre, à moyen et long terme, Hummingbird s’annonce comme un pas décisif vers la recherche sémantique, la recherche en langage naturel, et la recherche d’entités. Ce qui change… à peu près tout ! D’un côté, la manière de qualifier les documents (confiance, importance, popularité, fraîcheur…) restera la même. De l’autre, l’association “expressions clés”<-> “documents” va faire la place à des association “concepts”<->”documents” qui révolutionneront les méthodes de référencement. Mais cela annonce aussi une ère où seules les requêtes transactionnelles (acheter un produit, télécharger un mp3) et les requêtes navigationnelles (“trouve moi l’adresse de la page d’accueil du monde”) aboutiront à une visite sur un site. Google veut évoluer vers un “moteur de réponses”, où les requêtes informationnelles (“quelle est la capitale du Burundi”, 60% des requêtes environ) déclencheront l’affichage direct d’une réponse :

Google - "Quelle est la capitale du Burundi" (sept 2009)
La page de résultats sur la requête « Quelle est la capitale du Burundi » en sept 2009

"quelle est la capitale du burundi"   Recherche Google sept 2013
La même requête sur Google en sept 2013 « quelle est la capitale du burundi » : la réponse enfin là. Merci Hummmingbird, le Knowledge Graph ? Les deux ?

Une époque passionnante s’annonce, où les moteurs de recherche enverront moins de visites vers d’autres sites qu’eux mêmes (cette évolution a déjà commencé) et où les experts SEO (et le SEA) devront s’adapter pour passer du paradigme “expression clé” à “concept clé”… Une évolution que nous préparons depuis longtemps chez Search Foresight ! Si vous avez des questions sur Hummingbird, n’hésitez pas à les poser par mail en utilisant ce formulaire. Philippe YONNET Directeur Général et fondateur de l’agence Search Foresight

BIBLIOGRAPHIE / POUR EN SAVOIR PLUS

La dépêche de Reuters (en anglais) http://www.reuters.com/article/2013/09/26/net-us-google-search-idUSBRE98P11O20130926   Le billet publié sur le Blog “Inside Search” de Google http://insidesearch.blogspot.fr/2013/09/fifteen-years-onand-were-just-getting.html   Le compte rendu de la conférence de presse du 26 septembre par Danny Sullivan http://searchengineland.com/google-birthday-event-172791   La FAQ publiée par Danny Sullivan à propos de Hummingbird http://searchengineland.com/google-hummingbird-172816   La couverture de la conférence de presse par Robert Hof sur Forbes.com http://www.forbes.com/sites/roberthof/2013/09/26/google-just-revamped-search-to-handle-your-long-questions/1/   Un autre article sur Forbes.com, à la fin duquel la date de lancement est remise en question http://www.forbes.com/sites/joshsteimle/2013/09/27/what-does-googles-hummingbird-update-mean-for-your-seo-efforts-nothing/

PUBLICATIONS SCIENTIFIQUES INTERESSANTES (publiées par les équipes de recherche de Google sur le sujet)

Google Search by Voice: A case study Johan Schalkwyk, Doug Beeferman, Francoise Beaufays, Bill Byrne, Ciprian Chelba, Mike Cohen, Maryam Garret, Brian Strope http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/fr//pubs/archive/36340.pdf   Translating Queries into Snippets for Improved Query Expansion http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/fr//pubs/archive/34382.pdf   QUERY LANGUAGE MODELING FOR VOICE SEARCH C. Chelba, J. Schalkwyk, T. Brants, V. Ha, B. Harb, W. Neveitt, C. Parada , P. Xu http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/fr//pubs/archive/36732.pdf   Using Search-Logs to Improve Query Tagging Kuzman Ganchev Keith Hall Ryan McDonald Slav Petrov http://static.googleusercontent.com/external_content/u
ntrusted_dlcp/research.google.com/fr//pubs/archive/38276.pdf