Utiliser des mots clés Latent Semantic Indexing pour optimiser un site n'a pas de sens !

Ecrit par
le

Ça y’est ça recommence, nos confrères américains en remettent une couche sur le « Latent Semantic Indexing ». Cela fait quinze ans que cela dure, oui vous avez bien entendu 15 ans que des agences la bas disent utiliser LSI pour optimiser les sites parce que Google l’utilise, alors que c’est proprement ridicule.
Mais comme il y’a « sémantique » dans le nom, et que le concept de « moteur sémantique » commence à être popularisé, certains ont redécouvert la méthode et ont relancé le débat.
Mais c’est quoi LSI, et pourquoi ces « optimisations LSI » sont-elles encore plus du bullshit en 2018 qu’il y’a quinze ans?

Le « Latent Semantic Indexing », une méthode pour trouver des corrélations entre termes, et les associer à des concepts

L’analyse sémantique latente (LSA), plus souvent appelée dans le monde du SEO indexation sémantique latente (LSI), est une méthode d’analyse statistique de textes qui a pour objectif d’identifier les relations « cachées » (d’où le terme latent) entre les termes utilisés dans des documents. Elle sert surtout dans la pratique a identifier des thématiques abordées au sein d’un document.

Présentation schématique du process de calcul dans la méthode LSI / LSA

Si vous voulez savoir un peu plus en détail comment cela fonctionne, je vous renvoie un très vieil article publié en 2006 sur le blog de Sébastien Billard.
Un exemple de prose « pro LSI » version 2018. Proner l’emploi de mots clés « LSI » a été une proposition récurrente chez certains référenceurs US depuis… 2003

Le retour de LSI comme arme ultime chez les référenceurs anglo-saxon

Depuis quelques mois un certain nombre de SEO anglo-saxons se sont mis à réintroduire tout un discours fumeux à base de LSI, soit parce qu’ils ne comprennent pas la couche de NLP (traitement automatisé du langage naturel) dans l’algorithme actuel de Google, soit, et c’est plus pervers, parce qu’ils voient que leurs interlocuteurs comprennent de moins en moins comment l’algo de Google fonctionne et qu’un peu de vernis pseudo scientifique les aide à vendre leur production.
On trouve cela notamment chez Neil Patel, un « gourou » autoproclamé du content marketing :

En réalité, ce que Neil Patel appelle des mots clés LSI, n’a rien à voir avec LSI : il suffit de remplacer LSI par termes sémantiquement liés, et sa prose redevient pertinente ! Mais c’est moins original…

Une méthode qui a de sérieuses limites

En réalité, l’analyse sémantique latente a représenté une étape dans les recherches pour découvrir les relations sémantiques entre termes, expressions et documents, mais la méthode a plein de défauts qui empêchent son utilisation dans plein de contextes.

  • on fait beaucoup mieux aujourd’hui avec d’autres approches (cf. les « word embeddings »)
  • les calculs demandent des ressources importantes (pour des gros corpus c’est un problème)
  • cela détecte des relations sémantiques, mais on ne sait pas lesquelles sans interprétation (donc intervention humaine, ce qui n’est pas scalable)
  • les corrélations identifiées ne sont pas toujours des vraies relations sémantiques. Bref les résultats ne sont pas très cleans.

Des mots clés LSI sortis pour le terme « banana » par l’outil LSI Graph. Ce type de termes associés peuvent être générés pas de nombreuses méthodes autres que LSI, en donnant des meilleurs résultats que ceux présentés ici.

On trouve des allusions à LSI dans quelques brevets de Google, mais jamais dans éléments situés au coeur de l’algorithme. C’est pour cela que Bill Slawski ( l’éditeur du site Seo by the Sea) a publié récemment un article et poussé un « coup de gueule » sur Twitter pour rappeler que les affirmations selon lesquelles Google utilise LSI dans son algo n’ont pas grand fondement.

Attention, les optis LSI, c’est de la poudre de perlimpinpin

Vous êtes prévenus : si vous rencontrez des gens qui essaient de vous vendre des contenus « optimisés pour LSI », ou des gens qui vous disent qu’ils utilisent des mots clés LSI pour améliorer les positions dans Google, c’est probablement juste un simple argument marketing.
Passez votre chemin.
Pour en savoir plus sur :

Analyse sémantique latente

L’article de Bill Slawski qui debunke le sujet LSI