Difficultés d’indexation web : les solutions

Ecrit par
le

Avec le développement du web ces dernières années, on remarque de plus en plus de difficultés à indexer rapidement des pages. Il est aujourd’hui essentiel de suivre l’indexation de son site web ; d’identifier la cause d’un problème d’exploration ou d’indexation, d’en connaître les conséquences, et de mettre en place des solutions adaptées : autoriser les robots, corriger les erreurs de redirections, résoudre les problèmes techniques, etc.

Quelles sont les conséquences d’une mauvaise indexation ?

Visibilité et trafic

Si un site n’est pas correctement indexé, il est moins susceptible d’apparaître dans les résultats de recherche sur les mots clés pertinents que vous travaillez en SEO. Une visibilité réduite dans les résultats de recherche pourra, de fait, provoquer une baisse de trafic organique.

CA et ROI

Si un site web génère des ventes en ligne, une baisse de son trafic peut, assez logiquement, entraîner une baisse de ses revenus.

Expérience utilisateur (UX)

Une mauvaise navigation, des erreurs techniques (telles que les erreurs 404) peuvent, par exemple, décourager les visiteurs et nuire à leur expérience sur le site.

Il est donc important de diagnostiquer et de résoudre les problèmes d’indexation d’un site web pour maximiser sa visibilité dans les résultats de recherche, améliorer l’expérience utilisateur et maintenir des niveaux de trafic et de revenus élevés.

Différence entre exploration et indexation

Avant tout, il est primordial de distinguer exploration et indexation.

Exploration ou crawling

Google télécharge des textes, des images et des vidéos à partir de pages détectées sur internet par le biais de programmes automatisés appelés robots d’exploration. Cette étape correspond donc au moment où Google passe sur les pages de votre site web. Cette phase d’exploration est aussi appelée « crawling », c’est lorsque les robots (bots) de Google vont d’un lien à un autre lien pour parcourir différents sites, différentes pages sur ces derniers. Les robots Google explorent donc les pages une par une.

Indexation

Google analyse le texte, les images et les fichiers vidéo présents sur la page, puis stocke les informations dans l’index Google, qui est une grande base de données. Nous allons alors entrer dans la phase d’indexation. Pour que vos pages se démarquent dans les pages résultats de recherche de Google (SERP), vos pages doivent être indexées.
En résumé, une URL explorée n’est donc pas forcément indexée ! (source)

Processus Googlebot pour explorer, rendre et indexer une page (source)

Les principales causes pouvant expliquer une non-indexation d’une URL

Voici les principales causes qui peuvent expliquer les difficultés d’indexation web sur votre site, et donc sur vos pages (parfois stratégique) :

Balise noindex

Balise indiquant aux robots des moteurs de recherche de ne pas indexer la page. Si cette balise est présente sur votre page stratégique, vous comprendrez pourquoi elle n’est pas indexée.

Status Code

Les status code suivants ne permettront pas l’indexation : 

  • 301 (redirection permanente), 
  • 302 (redirection temporaire), 
  • 404 (ressource non trouvée), 
  • 410 (ressource n’existe plus), 
  • 500 (erreur serveur),
  • etc.

Mauvaise canonical

L’URL cible dans la balise <canonical> est différente de l’URL de la page sur laquelle on se trouve. La balise <canonical> sert à indiquer aux robots d’indexation quelle est la page référente dans les cas suivants :

  • Contenu dupliqué
  • Contenu proche / Pages similaires (sémantiquement – hors pages paginées)

Pour rappel, la balise <canonical> est une indication et non une directive.

Robots.txt

Il s’agit de lignes de commande qui bloquent un ou plusieurs paramètres d’URL, un ou des répertoires d’URL. Des restrictions de robots.txt mal gérées peuvent bloquer l’indexation de pages stratégiques.

Autorité du domaine

Une faible autorité sur votre domaine peut être un facteur de non-indexation. Le score d’autorité est une métrique (composée d’une série de mesures) utilisée pour mesurer la qualité globale et les performances SEO d’un domaine ou d’une page Web.

Maillage interne

Si l’URL a fraîchement été mise en ligne sur le site, sans maillage interne, que le site n’est pas fréquemment crawlé par les bots et qu’aucun envoi de sitemap dans la Google Search Console n’a été réalisé, cela peut causer un problème d’indexation. 

Un lien vers l’URL qui n’est pas sous la forme <a href> pourra également poser des soucis d’indexation. Google ne peut pas suivre les liens <a> n’ayant pas de balise href. L’URL ne pourra donc pas être suivie/découverte

Maillage externe / netlinking

Votre site ne possède pas de backlinks, et cela impacte la pertinence de votre contenu aux yeux de Google. Le netlinking, est une technique qui consiste à multiplier le nombre de liens hypertextes, ou « backlinks » pointant vers votre site, dans l’objectif d’améliorer sa visibilité. Pour les moteurs de recherche, les liens reçus par les pages d’un site Internet lui donnent de la valeur, car ils montrent que d’autres sites approuvent son contenu et y font référence. (source)

Site web full JS sans mise en place de SSR, pre-rendering ou de dynamic rendering

Il existe également un risque à utiliser du rendu JavaScript. Google peut effectivement lire du JavaScript, mais cela lui prendra plus de temps. Des retards dans l’indexation du contenu dynamique sont donc causés par la file d’attente du moteur de rendu de Googlebot.

  • SSR / Server-Side Rendering : chaque page HTML est rendue sur le serveur durant l’exécution pour ensuite être entièrement rendue au client (navigateur). Cela signifie qu’avant que la page ne se charge, il faut un certain temps au serveur pour rendre le HTML sur demande et l’envoyer au navigateur. Cette méthode peut potentiellement diminuer la vitesse de chargement de la page, notamment si de nombreuses requêtes sont effectuées en même temps.
  • Pre-Rendering : un fichier HTML est rendu pour chaque URL au moment de la construction. Cela signifie que tous les fichiers HTML du site sont construits à l’avance afin que les pages soient prêtes à être chargées rapidement sur demande. L’inconvénient est que les modifications apportées à ces pages nécessitent de les reconstruire à chaque fois.
  • Dynamic Rendering : le site a des pages HTML pré-rendues et les sert uniquement aux crawlers. Les utilisateurs réels, eux, interagissent avec la version normale du site rendue côté client.

On en a déjà parlé dans un article dédié au JavaScript SEO Friendly !

Les outils disponibles pour aider à diagnostiquer et résoudre les problèmes d’indexation web

Google Search Console

Cet outil gratuit de Google vous permet de surveiller l’indexation de votre site et de diagnostiquer les problèmes potentiels. La Google Search Console regorge de données stratégiques sur « l’état de santé » d’un site et notamment sur l’indexation des pages dans les résultats de recherche de Google :

La fonctionnalité d’inspection de l’URL dans la Google Search Console peut être très pertinente pour des cas ciblés.

Screaming Frog SEO Spider (et autres outils de crawl : Botify, Oncrawl)

Ces outils payants analysent votre site pour identifier les problèmes d’indexation, tels que les erreurs de balise méta, les liens brisés, etc. Une bonne pratique recommandée est de mettre en place un crawl hebdomadaire/bimensuel ou mensuel afin de s’assurer que les URLs stratégiques renvoient le bon status code et le bon état d’indexabilité

Ces outils peuvent vous aider à diagnostiquer et à résoudre les problèmes d’indexation en vous fournissant des informations détaillées sur les erreurs potentielles et les moyens de les corriger. Cependant, il est important de comprendre que la résolution des problèmes d’indexation peut nécessiter une expertise en référencement et un travail manuel pour corriger les problèmes identifiés. Bien évidemment, il s’agit ici d’une liste non exhaustive et d’autres nombreux outils peuvent vous aider à identifier des problèmes d’indexation.

Les bonnes pratiques à adopter pour faciliter l’exploration (et, potentiellement, l’indexation).

Résoudre les problèmes techniques

Corrigez les erreurs 404 et les autres problèmes techniques sur votre site pour améliorer l’expérience utilisateur et faciliter l’indexation de vos pages.

Corrigez les erreurs de redirections

Vérifiez que les redirections 301 et 302 sont correctement mises en place pour diriger les visiteurs vers les pages correctes.

Autorisez les bots depuis le fichier robots.txt

Assurez-vous que les fichiers robots.txt ne bloquent pas l’accès des robots des moteurs de recherche à votre site.

Pour les sites en JS : SSR (ou autre méthode de rendering selon le type de framework JS)

Utilisez Angular Universal Bundle permettra de satisfaire les exigences techniques SEO et de garantir une meilleure expérience utilisateur.

Améliorez la qualité du contenu

Bien qu’il ne soit pas prouvé que votre contenu facilitera l’indexation, assurez-vous que le contenu de votre site soit qualitatif, informatif et utile pour les visiteurs. Google peut considérer votre contenu comme étant dupliqué sans même le savoir. Google juge beaucoup la pertinence de votre contenu. N’oubliez pas, c’est la qualité avant la quantité !

Pour aller plus loin : nos solutions pour favoriser l’indexation  

Non non, on ne va pas simplement vous dire d’utiliser un outil permettant de forcer l’indexation (rapide) de vos pages non indexées. Ça fonctionne, mais si Google n’indexe pas votre page, dites-vous qu’il y a une raison.

Sitemap

En soumettant votre sitemap.xml (site A) sur un autre site ayant une bonne autorité (site B), Google sera en mesure d’explorer les pages de votre sitemap.xml et cela pourrait booster l’indexation. Pour l’un de nos clients, ça a fonctionné ! 

Bing Webmaster Tool

L’intérêt de la webmaster tool de Bing est de forcer une indexation Google via les robots de bing. En effet, si Bing indexe votre page, il y a de grandes chances pour que Google le fasse à son tour (une question d’égo certainement). Cela permet également d’avoir une vision supplémentaire en DATA sur un environnement autre que Google.

Netlinking

Si un site avec une forte autorité fait un lien vers votre page, Google sera plus susceptible de considérer la page comme étant utile et pertinente et donc l’indexera plus facilement. 

Il est donc possible de faire du netlinking :

  • Obtenir un lien sur votre page non indexée pourra forcer l’indexation lorsque Google aura découvert votre page via un lien sur autre site.
  • Obtenir un lien sur une autre page prioritaire, sur laquelle vous ferez un lien vers votre page non indexée. Cela transmettra le jus SEO et pourra permettre la bonne indexation de votre page.
  • Obtenir des liens via un autre site d’un même écosystème. Si vous êtes un groupe et que vous avez plusieurs sites, faire des liens entre tous les sites vous permettra d’améliorer votre maillage externe.

Vous avez désormais toutes les clés en main pour identifier et résoudre vos soucis d’indexation. En suivant nos conseils, vous devriez voir votre site mieux indexé et envoyer des signaux positifs aux moteurs de recherches. Cela aura donc un impact positif sur votre visibilité, votre trafic et votre chiffre d’affaires.