Et si on pouvait vraiment avoir demain la liste des pages indexées ?

Ecrit par
le

De nouvelles fonctionnalités de Google Search Console sont en test depuis quelques semaines chez certains utilisateurs. Parmi les nouveautés, on trouve un nouveau rapport sur l’indexation.

Et si cette fonctionnalité se retrouve dans toutes les Search Console, un problème qui empêchait de faire des analyses fines en SEO pourrait disparaître

Obtenir une liste exhaustive et exacte des pages indexées est aujourd’hui pratiquement impossible

Jusqu’à aujourd’hui, obtenir la liste des urls indexées par Google était tout bonnement impossible. La commande site: n’a jamais été fiable, et ne renvoie pas la totalité des pages indexées. La Search Console permettait d’avoir le nombre exact de pages indexées, mais pas la liste des urls.
Il était possible de cerner le problème en essayant d’obtenir des infos sur l’indexation des sitemaps : quand les sitemaps sont découpés en petits fichiers xml, par type de pages ou par catégories, cela permettait de deviner (mais pas toujours) quels groupes de pages n’étaient pas retenus par Google pour figurer dans l’index.

old report

L’ancien rapport sur l’indexation de GSC
Et si une page était active, c’est à dire recevait du trafic en provenance de Google, on pouvait avoir la certitude que cette page était indexée. Mais quid des pages qui, bien que figurant bien dans l’index, ne générait aucun trafic ?
On pouvait toujours tester les urls une par une, ou avec des outils de test comme celui ci :
Mais pour des gros volumes, cette méthode n’était pas applicable.
Or essayer de comprendre quelles urls crawlées par Google ne figurent pas dans l’index, et pourquoi, peut aider à comprendre l’origine de problèmes bloquants ou gênants pour le référencement.

Le nouveau rapport fournit la liste, et en bonus, de nombreuses infos très utiles

Prenons un exemple tiré de l’une des nombreuses GSC auquel j’ai accès : sur ce host, le rapport me montre que la plupart des urls connues par Google sont « exclues ».

pages index

J’ai accès à des informations très détaillées sur le statut d’indexation des urls :
 
detail statut

Pour les urls « exclues », j’ai une grande diversité de cas :
– des cas « normaux » : pages avec une balise noindex, redirections, pages canonicalisées
– des cas moins normaux : pages explorées, mais non retenues
– des anomalies détectées
Je peux aussi obtenir un rapport sur toutes les urls indexées alors que leur téléchargement est bloqué par le robots.txt ! Rappelons que le robots.txt ne bloque pas l’indexation par défaut, mais le crawl, et avoir un grand nombre d’urls dans ce cas est rarement voulu par les webmasters, et n’est pas souhaitable.

pages robots

Mais le grand progrès, c’est le fait de disposer enfin d’une liste des urls concernées par chaque statut : pour chaque anomalie, je peux enfin essayer de comprendre ce qui a provoqué le problème.
pages explorées
Notons que l’on peut aussi filtrer les rapports par sitemap, ce qui permet de diagnostiquer les raisons pour laquelle des urls placées dans un sitemap xml ne sont pas correctement indexées.
 
Un statut intermédiaire apparaît : les « pages indexées sans intérêt »
Au détour, le rapport identifie les pages indexées « sans intérêt », qui sont définies comme des pages qui sont « très rarement affichées » dans les pages de résultat.
Ces pages sont typiquement ces urls qu’il était impossible d’identifier avant : des pages indexées, mais qui ne généraient pas de trafic.
En comparant les pages « sans intérêt » et les « valides » on peut donc commencer à comprendre pourquoi certaines pages ne génèrent pas de trafic, et identifier des actions qui pourraient permettre de changer cette situation.
Une véritable aide au diagnostic
 
Seul Google peut nous fournir une information sur ce qui se passe dans son index. Jusqu’ici, le rapport sur l’indexation était très pauvre en données. Avec ce nouveau rapport, on a enfin une information riche sur tous les problèmes rencontrés lors de la phase d’indexation.
C’est donc un pas en avant considérable qui permet d’affiner de manière sensible les recommandations SEO en cas de problèmes d’indexation.
Il n’y a plus qu’à espérer que ce rapport sera disponible rapidement dans TOUTES les Search Consoles…