Par Vincent Terrasi – Responsable Data Analytics et Rémi Bacha – Head of SEO chez OVH

La conférence des deux intervenants d’OVH s’est concentrée sur l’utilisation d’outils appelant le big data pour aider à la prise de décision dans notre quotidien du SEO.

Nous avons eu l’occasion d’avoir la présentation de 3 outils avec une mise à disposition par leurs créateurs de scripts pour les reproduire soi-même.

1) Automatisation de l’audit SEO par le Machine learning

L’outil fonctionne avec du Machine learning (apprentissage automatique) respectant les étapes suivantes :

  1. Récupérer toutes les requêtes possibles de son secteur d’activité
  2. Récupérer le top 100 des URLs qui se positionnent sur Google sur la base de mots clés constitués
  3. Enrichir d’autres KPIs : Volume de recherche, CTR, backlinks, performances, réseaux sociaux, popularité et UX

En fichier de sortie (output), vous pourrez obtenir :

  1. Un classement des critères de ranking par ordre de pertinence
  2. Un pourcentage de réussite pour se positionner dans le TOP 10
  3. Et enfin, des raisons qui expliquent la non-présence de votre site dans ce Top

Notons que le dernier insight dépendra des informations fournies en fichier d’entrée. Plus il est exhaustif dans les KPIS plus l’information obtenue sera pertinente.

https://github.com/ovh/summit2016-RankingPredict/

2) Clusterisation

La présentation de ce développement a pour but de :

  • Automatiser les requêtes des internautes
  • Automatiser la recherche des pages à créer
  • Calculer le potentiel de chaque nouvelle page

Les étapes de la clusterisation

L’outil permet de nettoyer les termes pour éviter la présence de « stop words » pour ensuite proposer un grand nombre de clusters.

Ensuite, il faut qualifier ces cluster pour vérifier si ils sont générateurs de trafic et ainsi sélectionner et prioriser les pages à créer.

Les clusters créés sont vos thématiques (qui peuvent réunir plusieurs clusters) qui vous permettent de choisir les pages à créer, sachant qu’en général : Un cluster = Une page

Rémy Bacha et Vincent Terrasi indiquent même qu’on peut obtenir des optimisations pour les pages déjà existantes, puisque l’on peut identifier les mots clés manquants en identifiant la thématique correspondant à une page donnée. L’enrichissement sémantique de la page sera à faire avec les mots manquants.

https://github.com/remibacha/rClusters/blob/master/step3

3) Production de contenu automatisée

Les deux intervenants ont fini leur présentation sur la génération automatique de contenu d’une qualité « humaine ». L’idée étant de combiner le SPIN et le deep learning (appelé aussi RNN (Recurrent Neural Network) ) pour ainsi entraîner votre modèle à s’améliorer en testant et corrigeant la production du générateur.

https://cs.stanford.edu/people/karpathy/recurrentjs/

Retrouver toutes les actualités et leurs outils sur leur blog https://data-seo.fr/