Etude sur la désindexation de contenus > Les méthodes les plus efficaces

Ecrit par
le

Un plan d’actions SEO intègre plusieurs phases opérationnelles : étude technique de la structure du site, édition de contenus « attractifs » pour les moteurs de recherche, analyse du maillage de liens internes, qualité des liens externes,… Ce ne sont pas les sujets d’expertise qui manquent.
L’équilibre indexation/désindexation = un levier de priorisation SEO

Mais avant même de commencer ce travail, notre attention d’experts SEO va se tourner vers une mesure fondamentale : le taux d’indexation de votre site, soit le volume de pages indexées dans Google pour ne citer que lui. Cette première étape est très révélatrice de la santé d’un site et la simple lecture des chiffres peut donner lieu à de premières conclusions.
Pour contrôler stratégiquement l’indexation de son site dans les moteurs de recherches, il faut également maîtriser son contraire : la désindexation de contenus. Cet équilibre entre indexation/désindexation permettra de prioriser les pages et catégories que l’on souhaite mettre en avant dans les résultats de recherche (SERPs).
Notre objectif final étant de ne rendre indexables que les pages à potentiels.
Maîtriser les directives de désindexation et leur fonctionnement pour mieux gérer cet équilibre
Afin de valider les directives de désindexation qui fonctionnent, le site de test ananas-seo.com a été mis en œuvre chez Synodiance depuis mai 2014. L’objectif de ce site test a été pour nous de confronter et renforcer notre connaissance empirique acquise au quotidien sur plus d’une centaine de clients grâce à un test sur un environnement relativement bien maîtrisé.
Avant de vous restituer les résultats de ce test, plantons le décor avec un retour sur quelques fondamentaux SEO liés à l’indexation.
Premier point > éviter la confusion : exploration, indexation et positionnement !
En SEO, ces notions évoquées entre clients / prestataires sont parfois mal interprétées. L’exploration correspond au passage des robots sur votre site, nous aborderons plus loin pourquoi orienter les robots (bots, spider, crawler,…) via les directives d’exploration.
L’indexation est une conséquence de l’exploration. Un robot a visité votre site et son algorithme « décide » ou non d’indexer des contenus dans son répertoire qui servira ensuite à alimenter le moteur de recherche.
A noter également qu’une page peut être positionnée dans les SERPs alors même que son contenu n’a ni été exploré ni indexé. C’est ce qu’explique notamment Google ici.
Enfin, le positionnement (ranking) correspond au classement d’un contenu dans les résultats de recherche (SERPs).
Connaitre le taux d’indexation de votre site, un préalable
L’outil le plus simple et le plus accessible comme première lecture est sans conteste Google Webmaster Tools qui fournit un ensemble de métriques indispensables pour monitorer l’état de santé d’un site : statistiques sur l’exploration, erreurs http, liens vers votre site et… nombre de pages indexées dans Google !
Mais il vous manque une donnée essentielle, le nombre de pages réelles sur le serveur d’hébergement de votre site.
Comment récupérer cette information ? Soit le service informatique en charge de la gestion du site et de l’hébergement peut vous fournir une cartographie des répertoires et de leurs volumes de pages, soit vous devez effectuer un crawl de votre site, une sorte « d’IRM » de tous les fichiers stockés sur votre serveur.
Un crawl s’effectue via des solutions dédiées comme Deep crawl, Botify Analytics ou bien encore Screaming frog. Il faut en général choisir la solution en fonction de la volumétrie de votre site.
Sans cette visibilité de volume réel de pages, il vous sera difficile d’intégrer comme KPI SEO le taux d’indexation de vos contenus.
Guider les robots d’exploration pour mieux indexer les contenus
Par défaut, si aucune restriction n’est implémentée, un robot d’exploration peut accéder à l’ensemble des fichiers présents sur le serveur web ce qui rend potentiellement tous les contenus indexables.
De prime abord on peut se dire que c’est plutôt une bonne chose, que cela va permettre d’indexer un maximum de contenus… Malheureusement la réalité est toute autre et l’indexation va se faire de manière « non orientée ».
Une arborescence de site inclut de nombreuses pages non stratégiques. Par exemple, l’objectif pour un e-commerçant sera d’augmenter le taux d’entrées visiteurs vers une page produit susceptible de répondre à sa recherche et entraînant un achat et non vers une page de recherche produits non ciblés ou trop généraliste. Un assureur en ligne souhaitera prioriser le positionnement d’une page de souscription plutôt que ces mentions légales…. On parle ici de « pages objectifs ».
On va donc définir les pages objectifs de son site et intégrer des directives d’exploration et d’indexation pour orienter au mieux le travail des robots.
Le taux d’indexation idéal : 100% !
Si on part du principe que l’on a défini et mis en place des règles d’exploration et d’indexation vers les pages objectifs, cela signifie que l’on bloque à l’indexation tout contenu non stratégique. Donc, tous les contenus restant sont nos « pages objectifs » et représentent l’intégralité des pages à indexer et par la suite à positionner dans les moteurs de recherche pour générer du trafic et de la transformation.
Oui, on peut affirmer que le taux d’indexation idéal est bien de 100% !
Directives d’exploration et d’indexation
Les directives d’exploration se concentrent principalement dans le fichier robots.txt présent à la racine de votre site. Ce fichier qui a longtemps été délaissé par les « webmasters » est, en fait, très consulté par les robots.
Des rapports d’analyse de logs démontrent que c’est le fichier le plus visité par un bot après la page d’accueil.
Sur un site d’autorité qui génère 1000 visites / jour, le fichier robots.txt est visité par les robots entre 30 et 50 fois / jour !
C’est dire l’importance de ce fichier et de ce qu’il contient.
Directives d’exploration
Une fois que l’on a défini les contenus non stratégiques, on implémente des règles de « blocage » d’exploration.
Exemple, si on considère le répertoire /vignettes/ non stratégique on indiquera dans le robots.txt la ligne :
User-agent : *
Disallow : /vignettes/
Ainsi on informe les robots d’exploration d’ignorer le répertoire « vignettes ».
L’exemple ci-dessus est assez simple et on peut répéter autant de fois qu’il est nécessaire cette directive sur plusieurs répertoires.
Plus le fichier robots.txt intègre de directives, plus il sera pertinent pour favoriser l’indexation des contenus stratégiques.
On utilise également le robots.txt pour bloquer le passage de certains robots malveillants, cela permet, entre autres, d’économiser de la ressource serveur.
Une parfaite illustration d’un robots.txt optimisé est celui de Wikipédia mobile que je vous invite à consulter, cela donne un bon aperçu du potentiel de ce fichier : http://fr.m.wikipedia.org/robots.txt
Directives d’indexation
La particularité d’une directive d’indexation est autant d’indiquer un contenu à indexer qu’un contenu à ne pas indexer ou à désindexer.
Explications détaillées :
1/ Indexer un contenu
Comme évoqué précédemment, si aucune restriction d’exploration et d’indexation n’est affectée à un contenu, ce dernier est indexable par défaut.
Un bon exemple d’une directive d’indexation est le chemin que l’on indique dans le robots.txt vers le sitemap du site.
Sitemap : http://monsite.com/sitemap.xml
2/ Bloquer l’indexation d’un contenu ou le désindexer
Il existe plusieurs méthodes pour ne pas indexer un contenu :
– Utiliser la balise Meta Noindex à insérer dans le Header de la page.
– Utiliser la commande x-robots tag noindex directement dans l’entête http du document ou dans le fichier htaccess.
Ces deux méthodes se valent et ont été testé par nos soins sur des sites à gros volume. La désindexation a lieu en moyenne entre 15 et 30 jours selon l’autorité du site.
Nota : dans certains cas la désindexation de contenus ne fonctionne pas en raison du nombre de liens externes que ce contenu reçoit. En effet, si un contenu est lié via des sites d’autorité, les robots d’exploration ont une tendance naturelle à visiter la page. C’est la problématique des liens externes que l’on ne maîtrise pas.
Conflit exploration / indexation > Une erreur fréquente !
Attention aux directives exploration / indexation qui entrent en conflit.
Prenons un cas concret :
Je souhaite désindexer toutes les pages du dossier /recettes.
Dans le fichier robots.txt j’insère la ligne suivante : Disallow : /recettes/
Sur les pages du dossier /recettes j’insère la balise : <Meta name= »robots » content= »noindex » />
Que va-t-il se passer ?
Il y a une forte probabilité pour que la majorité des pages du dossier /recettes restent indexées et donc accessibles depuis les résultats de recherche.
Ces pages étaient déjà dans l’index. Même si on implémente la balise Meta noindex, le fait de bloquer dans le robots.txt le dossier /recettes, les moteurs n’explorerons pas les pages du dossier /recettes et ne prendront donc pas en compte la balise Meta de désindexation. La différence entre exploration et indexation prend ici tout son sens !
Test de désindexation de contenus > Cas Ananas-seo.com
Au travers de différents projets clients, nous avons constaté que la désindexation de contenus était une problématique qui revenait souvent.
Mettre en œuvre une méthode de désindexation performante permet de prioriser l’exploration des robots vers les contenus stratégiques et de réduire le « crawl » inutile. Si à un instant T le site comporte un nombre important de pages en erreurs, il est prioritaire d’implémenter des directives d’exploration et de désindexation afin que le robot d’exploration se concentre sur les pages objectifs et non les pages en erreurs.
Un robot d’exploration ne crawl jamais 100% de votre site en une fois. Imaginez ce qu’il peut se passer si l’exploration se concentre sur des zones de pages en erreurs…
Afin d’orienter des recommandations SEO fiables pour nos clients, il était nécessaire de passer par une phase de testing et confronter différentes directives d’exploration et d’indexation.
Nota : Le site ananas-seo.com a été créé spécialement pour un environnement de test. Le domaine et ses contenus ont peu d’autorité côté moteur de recherche. Des facteurs d’ancienneté, d’architecture web, une forte popularité ou encore la volumétrie de pages peuvent générer des résultats sensiblement différents. Il s’agit d’un test isolé et nous vous invitons à éventuellement enrichir ces résultats de votre expérience.
Les directives testées sur Ananas-seo.com ont donné lieu à des conclusions applicatives fiables et non strictes.
CONCLUSIONS : Test de désindexation de contenus
Les résultats du test sont consultables en détails sur SlideShare.

Ci-dessous, les principales constatations et délais de désindexation associés
Désindexer naturellement un contenu via 404
Ce n’est pas vraiment une méthode, on laisse tout simplement « mourir » une URL en http 404.
Le test montre une désindexation effective au bout de 45 jours (dans le cas d’une URL liée dans la structure).
Attention : un contenu en 404 qui reçoit des liens externes a tendance à être maintenu dans l’index.
Déclarer un contenu en http 410
Cette déclaration était clairement orientée désindexation lors de son lancement et fonctionnait plutôt bien. A ce jour, Google déclare traiter les 404 et les 410 de la même manière.
Le test montre une désindexation effective au bout de 55 jours (dans le cas d’une URL liée dans la structure).
Directive Disallow dans le robots.txt qui bloque un contenu
C’est une erreur courante d’utiliser cette directive pour tenter de désindexer un contenu.
Ce n’est pas du tout sa fonction. Le seul résultat obtenu est le blocage de l’exploration. Le contenu qui reçoit cette directive après être indexé reste indexé.
Si la directive est intégrée à la mise en production des contenus impactés, elle engendre en général une non-indexation mais qui n’est nullement garantie.
Insérer la balise Meta Noindex
Que ce soit avant ou après la mise en production d’un contenu, la désindexation a été détecté au bout de 15 jours (pour une page classique = autorité faible à moyenne).
Comme évoqué précédemment, attention de ne pas bloquer l’exploration vers des contenus déclarés en No index.
X-robots tags Noindex
S’implémente en .htaccess (sous Apache), tout aussi efficace que la Meta Noindex, cette directive permet de mettre en place de manière flexible (notamment grâce à la prise en charge des regexs) des règles de désindexation sur l’ensemble d’un site. Désindexation constaté au bout de 15 jours. A noter que la commande X-robots tags peut être implémentée directement dans l’en-tête http et « industrialisée » pour de la gestion en masse via des modules côté serveurs.
Directive Noindex dans le robots.txt
Intéressante, cette directive non officielle mais comprise par Google et d’autres moteurs est plutôt efficace. En effet, désindexation constatée au bout de 15 jours. Fonctionne sur une URL seule et sur un répertoire de contenus. Cela peut-être pertinent de l’utiliser dans certains cas de désindexation. Par exemple, s’il est difficile techniquement d’intégrer un balisage Meta Noindex, une simple ligne dans le fichier robots.txt peut remplir cette fonction.
En synthèse
Selon la typologie du site et de son architecture, il est important de définir une méthodologie de désindexation optimisée en fonction des contraintes techniques (serveur d’hébergement, techno CMS, droits d’admin,…). Dans certains cas, il est possible, voire recommandé, de faire cohabiter plusieurs directives ensemble, cela permet de meilleurs résultats sur des périodes plus courtes. Il faut bien garder à l’esprit de travailler sur une synergie exploration/indexation et mesurer régulièrement l’impact sur l’indexation de vos contenus.
Désindexer « naturellement » un contenu via HTTP 404/410

  • Fonctionne si les contenus ne reçoivent pas trop de maillage interne/externe
  • Désindexation constatée en 45 à 55 jours

Bloquer l’indexation ou désindexer un contenu avec une Meta Noindex

  • Fonctionne si les contenus sont accessibles par les robots d’exploration
  • Désindexation constatée en 15 jours

Bloquer l’indexation ou désindexer un contenu X-robots tag Noindex

  • Très efficace, plus technique, la directive est dans l’entête HTTP du document.
  • Désindexation constatée en 15 jours

Désindexer un contenu avec directive Noindex dans le robots.txt

  • Non officielle mais reconnue par les principaux robots d’exploration, peut être utile selon les cas.
  • Désindexation constatée en 15 jours