GOOGLE SMITH

Connaissez-vous BERT ? Venez rencontrer son frère, SMITH, une nouveau modèle d’algorithme permettant maintenant à Google d’étendre sa compréhension des contenus à l’ensemble des parties d’un document.

BERT et SMITH sont sur un bateau

Tout d’abord, il est important de rappeler le rôle de BERT dans l’actuel algorithme de Google. Apparu en 2018 mais déployé officiellement qu’à la fin 2019, BERT (Bidirectional Encoder Representations from Transformers) est un modèle de langage capable de bien mieux comprendre le langage humain que les autres systèmes de deep learning (nous en parlions déjà à l’époque de son déploiement BERT est capable de comprendre les sens des mots en fonction de leur position dans la phrase (dans les deux sens de lecture, gauche à droite et de droite à gauche, d’où le terme Bidirectionnel). L’outil est ainsi en mesure de comprendre la relation contextuelle entre les mots et, dès lors, de donner du sens aux phrases. Cette compréhension accrue permet de mieux répondre aux nouvelles requêtes spontanées.

Deux ans plus tard, Google annonce en Novembre 2020, via la publication d’une étude, l’arrivée de SMITH (Siamese Multi-depth Transformer-based Hierarchical). Cet algorithme monte d’un cran dans le traitement et la compréhension des mots, par sa capacité de traiter des volumes de contenus plus importants. En effet, là où BERT ne traitait que du sens de mots dans le contexte d’une phrase dans un contenu ou dans une requête, SMITH est capable de comprendre le sens de phrases au sein d’un volume de texte plus conséquent comme un paragraphe. Il est donc, en théorie, capable de comprendre le sens global d’un document via le sens plus précis de ses différentes parties. Concrètement, cela signifie que la pertinence d’une page sur un sujet tiendra encore davantage de la qualité globale d’un contenu. L’enjeu de pertinence, fil conducteur de Google, s’en trouve donc renforcé pour les annonceurs.

Déployez l’agent SMITH

Nous ne savons pas encore si, à l’heure actuelle, SMITH est déjà utilisé par Google pour traiter la pertinence des contenus textuels, la firme de Cupertino ayant attendu plus d’un an entre les premières communications sur BERT et son déploiement officiel. Toutefois, Google a confirmé avoir mis à jour à la mi-novembre 2020 son algorithme pour mettre l’accent sur les sous-sujets. Lorsque vous recherchez un terme en particulier, vous devriez maintenant obtenir des résultats plus diversifiés, couvrant différents sous-sujets possibles. Ceci ressemble à ce que pourrait traiter SMITH dans l’absolu. Cela signifie-t-il que la Core Algorithm Update de décembre aurait embarqué le déploiement de SMITH ? Pour l’instant pas de communication officielle de Google à ce sujet.

Toutefois, nous pouvons d’ores et déjà spéculer des implications de SMITH sur nos contenus. Les pages web devront mettre l’accent sur la cohérence interne dans des paragraphes de texte. Est-ce que cela signifie que nous pourrons augmenter le volume de contenu de pages en espérant ranker différentes requêtes via différents paragraphes d’une même page ?  Vraisemblablement non, car cela dépend avant tout de l’intention de recherche derrière la requête. En revanche il sera sans doute possible voire recommandé de se positionner sur des requêtes plus longues traines via différents paragraphes d’un même contenu.

En attendant SMITH ?

Que faire en attendant un déploiement officiel de SMITH? Search Foresight vous invite à poursuivre l’application des bonnes pratiques, et particulièrement l’identification de l’intention de recherche à laquelle vos pages doivent répondre. Avec cette intention de recherche clairement définie, vous pouvez alors fournir le contenu approprié pour répondre à celle-ci (informationnelle ? descriptive ? dossier thématique, réponse à une question nécessitant une réponse courte/ longue ?). Dès lors, adaptez le contenu en fonction. Le traitement de la réponse devra être le plus complet possible.

Dans l’étude publiée en Novembre dernier, Google explique : « Les longs documents contiennent une structure interne comme des sections, des passages et des phrases. Pour les lecteurs humains, la structure du document joue généralement un rôle clé dans la compréhension du contenu. De même, un modèle doit également prendre en compte les informations sur la structure des documents pour une meilleure performance de correspondance des documents ».  Structurez donc votre contenu avec des marqueurs HTML adaptés, comme des H2 incluant l’idée générale du paragraphe. Veillez enfin à ce que vos paragraphes possèdent une cohérence interne en développant une idée centrale. Votre contenu devra répondre au mieux à l’intention de recherche en traitant chaque aspect de cette dernière dans chacun de ses paragraphes. Un mot d’ordre : pertinence, dans la structure comme dans les parties du contenu.