Duplicate Content

Qu’est-ce-que le duplicate content ?

C’est une notion qui n’est pas neuve en SEO, mais qui mérite tout de même une définition. Surtout, il existe des moyens et des outils pour le détecter et s’en prémunir. 

Le duplicate content donc, ou contenu dupliqué dans la langue de Molière, est la présence d’un contenu identique sur deux pages web (URLs) distinctes soit au sein du même domaine, soit sur deux domaines différents.

Le contenu dupliqué n’est qualitatif ni pour l’internaute ni pour les moteurs de recherche. Il peut d’ailleurs conduire à des pénalités Google. 

Si vous devez retenir une chose, c’est que le duplicate content est un très mauvais signal pour votre site web et que si vous êtes concernés, vous devez vous en occuper rapidement.

Le duplicate content sur un même domaine, ou presque

Il peut avoir plusieurs origines et elles sont souvent involontaires. Voici les principales raisons qui peuvent amener à la duplication de contenu. 

  • L’erreur humaine : il est possible que, lors de la contribution, la personne qui poste un contenu sur le site crée une nouvelle page avec le même contenu. Définir un planning éditorial pour vous aider à garder une trace de vos contenus publiés.. 
  • Les bugs ou mauvais paramétrages CMS : certains CMS dupliquent automatiquement des contenus. C’est le cas de Drupal qui ajoute des URLs /node. Veillez à ce que les /nodes ne soient pas maillés au sein de votre site et pensez à mettre en place des redirections 301 entre l’URL /node et l’URL définitive. 
  • L’utilisation de tags, comme sur WordPress, peut aussi générer la création de nouvelles pages avec le même contenu. WordPress crée ces tags automatiquement. Pensez à créer une liste de tags à laquelle vous référer de manière à ne pas en créer en double. 
  • Coexistence d’une version desktop et d’une version mobile. Deux sites, avec des URLs différentes, mais un contenu unique, c’est précisément ce que nous voulons éviter. Assurez-vous de vous prémunir contre ce problème si vous voulez ouvrir un site en m. ou affichez du contenu unique à chaque site. 
  • Une mauvaise gestion des fiches produits. Il est fréquent d’avoir plusieurs références de produits partageant le même titre, mais pas tout à fait les mêmes caractéristiques (couleurs, tailles).
    • Il est important, dans la mesure du possible, d’avoir des caractéristiques uniques et donc du contenu unique sur chaque fiche produit (la robe bleue à son propre contenu, la robe rouge également).
    • Si ce n’est pas possible, pensez à mettre en place des balises canoniques ou à gérer vos produits différemment, grâce à des filtres par exemple qui ne seront pas indexables. Vous pourrez ensuite ouvrir à l’indexation certaines pages filtrées si elles correspondent à vos best sellers. 
  • La mauvaise exécution d’un plan de redirection. Si vous migrez votre site web vers un autre domaine ou si vous changez la structure des URLs sans mettre en place des redirections, les deux versions vont cohabiter. Corrigez le problème au plus vite. 
  • L’indexation d’une version de préproduction en parallèle d’une version définitive. Dans ce cas précis, il s’agit de deux domaines différents, mais c’est quand même vous le fautif… Bloquer le crawl des vos pré-productions grâce à un mot de passe ou à des balises noindex est recommandé. 

Le duplicate content sur un autre site web

Dans ce cas précis, vous n’êtes pas fautif, car c’est une autre entité qui utilise votre contenu. Il peut y avoir de la duplication entre plusieurs sites d’une même marque. Évitez cela en adoptant un positionnement bien spécifique pour chaque site.

Dans le cas où vous n’avez aucun lien avec le site qui a copié-collé votre contenu, vous pouvez contacter le webmaster du site en question et lui demander le retrait du contenu. 

Quels sont les risques du contenu dupliqué pour le SEO ?


Globalement, le risque principal est le déclassement par les moteurs de recherche. Google, le plus utilisé d’entre eux, intègre dans son algorithme le filtre Panda qui est capable de détecter le contenu dupliqué et d’appliquer une pénalité sur les sites utilisant les mêmes textes. 

Il est très difficile de se “remettre” d’une pénalité algorithmique. Il vaut donc mieux l’éviter. 

Comment éviter le contenu dupliqué ?


Plusieurs recommandations de bon sens sont à suivre pour éviter le contenu dupliqué ou duplicate content. 

Vérifier régulièrement les pages de votre site pour détecter et de ce fait éviter les erreurs humaines. Un crawl régulier, avec Screaming Frog par exemple, peut vous permettre d’identifier les pages ayant le même H1 et/ou la même balise Title. Vous pourrez donc regarder les pages concernées plus en détail et faire les changements nécessaires. La Google Search Console, grâce à la section couverture peut vous aider à trouver ces pages. 
Les redirections si vous changez la structure de votre site web ou si vous changez de NDD sont votre allié pour éviter ce problème et indiquer aux moteurs de recherche la page à prendre en compte. 
Si des pages similaires doivent cohabiter et être visibles par les moteurs, pensez à l’utilisation des balises canoniques. Attention à ce point, car les moteurs de recherche peuvent décider d’ignorer la balise canonique. 

Nous vous conseillons aussi de faire des checks aléatoires et réguliers. Vous pouvez pour cela copier-coller un extrait de votre contenu dans Google entre guillemets. Les sites avec le même contenu que le vôtre apparaîtront dans les résultats de recherche. 

Il existe aussi des outils comme Copyscape ou Grammarly qui permettent de comparer un extrait de contenu et de trouver des sites qui l’utilisent. 

Vous voilà désormais informé et prêt à chasser le contenu dupliqué. N’hésitez pas à contacter les équipes de Search Foresight si vous avez un projet SEO.