TF*IDF, mais « Qu’est-ce que c’est que cette bête » vous dites-vous ?

Ecrit par
le

« TF*IDF » – Search Foresight a abordé ce sujet à quelques reprises, que ce soit dans son blog SEO, lors d’un Petit Déjeuner SEO ou bien au cours de sa formation SEO for Guru.
Nous tenions à vous présenter cette métrique car vous vous êtes peut-être interrogés sur sa définition en faisant votre veille SEO à la lecture d’un Tweet, début mai 2019, de John Mueller, le fameux webanalyste made in Google.

TF*IDF insuffisant en 2019

En effet, le 5 mai, John Mueller a souhaité revenir sur le fait que la compréhension du TF*IDF est important pour tous bons SEO mais qu’il ne fallait pas s’attarder uniquement sur cette métrique pour optimiser un site et améliorer son positionnement : Google et son algorithme sont amateurs de bien plus de critères pour classer les résultats de recherche ! Une pensée qui est donc bien réductrice comparée au niveau de complexité que Google peut engranger.

Tweet du 5 mai de John Mueller sur l'importance du TF*IDF

Le TF*IDF, c’est quoi ?

Le TF*IDF, Term Frequency * Inverse Document Frequency, est le poids sémantique d’une page en fonction de la fréquence du mot (TF) et du nombre de documents qui possèdent ce mot, dans l’univers étudié : il permet de savoir si un contenu est pertinent pour ressortir dans les 1ers résultats de recherche sur une requête donnée. C’est Gerard Salton qui a proposé un modèle vectoriel, le Cosinus de Salton, pour mesurer cette métrique, qui semblait plus adapté à l’évolution du Web.

Le TF*IDF dans l’algorithme de Google

Nous ne savons pas quels sont tous les critères pris en compte par Google pour classer toutes les pages qu’il possède dans son index, mais nous savons que certains ne sont pas utilisés, comme le CTR, et nous savons surtout Ô combien d’autres critères comme le neural matching ne peuvent être négligés et doivent venir parfaire la façon d’optimiser un site on-site. Les algorithmes de tri sont eux aussi bien plus efficaces et rapides (suite d’opération qui permet l’organisation des pages entre elles).
Après lecture de cet article, vous aurez compris que baser tous vos efforts SEO sur le TF*IDF n’est pas suffisant ! Arrêtez tout, et prenez le temps de vous poser les bonnes questions sur la priorisation de vos chantiers sémantiques : écoutez la voix du Sage J. M., faîtes-lui confiance ! Et si toutefois vous êtes toujours dans une démarche d’une meilleure compréhension du TF*IDF pour votre culture, alors foncez, cela pourra vous servir dans votre stratégie globale SEO, tout comme les autres critères de l’algorithme de Google. ?