Sur le web les pages 404 sont légion et chaque éditeur de site connait ce code erreur HTTP (« file not found« ). A partir d’un grand volume d’URLs le taux de pages en erreur peut vite devenir important et cela se vérifie d’autant plus sur des sites ayant un certain historique  (mises à jour, refontes successives, migration). En SEO, un taux de pages 404 trop élevé nuit à la bonne exploration d’un site, il faut donc s’employer le plus possible à les corriger. Mais aujourd’hui, le sujet qui nous intéresse est comment tirer profit des pages 404 ?

Pages de destination en code 404

Quand on se lance dans la correction de ses pages 404, une des premières question qu’il faut se poser est : quelles sont les pages en erreur qui s’affichent dans les résultats de recherche et qui génère du trafic vers mon site ? Une page de destination  en erreur entraîne en général un fort taux de rebond.  Traiter un correctif via ce critère permettra de rapidement récupérer le trafic perdu.

Vue Google Analytics des pages de destination en 404

Vue Google Analytics des pages de destination en 404

Pour arriver à extraire les 404 depuis Google Analytics, vous devez utiliser le filtre par « Titre de page » et identifier le Title utilisé par défaut sur le site que vous auditez. On retrouve souvent une pattern de type « Page non trouvée… », « Oups code 404 ! »,… Le filtre actif permet d’isoler toutes les URLs au niveau statistiques de visites. Ensuite c’est un travail soit de correction de maillage interne et/ou un plan de redirections.

Récupérer le contenu perdu d’une page 404

Dans un contexte de migration/refonte d’un site, il n’est pas rare de « perdre » des contenus (nouvelles arborescence, suppression d’articles sans redirection,…). En suivant la méthodologie ci-dessus via Google Analytics, on peut identifier une page qui génère de l’audience, qui répond en 404 et qui n’a pas d’équivalent de nouveau contenu. Il peut donc tout à fait être pertinent de servir un ancien contenu disparu correspondant à la recherche utilisateur. Mais problème, on a plus ce contenu ! Aucun soucis, on peut voyager dans le temps et récupérer ses contenus.

On se souvient pour vous avec Wayback Machine !

Sous exploité par les éditeurs, le service proposé par archive.org est tout simplement génial et puissant. Sa capacité de « mémoire du web » permet de consulter à une date antérieur une page spécifique. Dans le contexte d’un contenu en 404 que l’on souhaite récupérer cela est très utile. Comment faire ? Soit vous aller directement sur le site archive.org soit vous installez une extension navigateur qui détecte automatique la correspondance d’une page 404 et de son ancien contenu accessible dans la WayBack Machine.

page 404 Waybackmachine

L’extension détecte une version archivée de la page 404

Exploiter les pages 404 oubliées

Un dernier levier intéressant à exploiter en SEO est d’utiliser des pages 404 de sites tiers dont le contenu n’a jamais été republié et qui serait éventuellement maillé depuis d’autres sites (liens qui génèrent un code 404, logique !).

La mécanique est la suivante, on recherche un contenu dans sa thématique avec un outil de Srapping par exemple puis on isole les URLs qui répondent en code 404. On vérifie la pertinence des pages dans WayBackMachine et on vérifie surtout si ces contenus ont été republié. Ensuite on analyse les URLs dans un outils comme Majestic afin de récupérer les liens qui pointent vers ces pages. Le travail consiste ensuite à publier ces contenus sur son propre site et à contacter les sites pour faire une demande de correction de ces liens vers les nouvelles sources de contenus. Par exemple Wikipédia regorge de liens qui ciblent des pages 404, dans ce cas spécifique on refait la même mécanique de recherche, on republie sur son site les « contenus oubliés » en 404 et on corrige soi même les liens dans Wikipédia.

Cette méthode présente 2 avantages, elle permet d’exploiter des sources de contenus qui ne sont plus utilisées et de récupérer des liens externes pour renforcer sa popularité. A utiliser uniquement dans le cas de contenus non republiés.

Liens ressource :