Tordons le cou à toutes les approximations et erreurs autour du contenu dupliqué. Facile à comprendre – à la différence d’autres subtilités SEO -, le problème du contenu dupliqué mérite d’être détaillé afin d’arrêter de préconiser tout et n’importe quoi.

contenu dupliqué, google

Contre la menace du contenu dupliqué, à quoi faut-il faire vraiment attention ?

Le contenu dupliqué est le contenu qui se trouve publié sur différentes URLs sur le web. Ce contenu peut être repris à l’identique, de façon partielle, voire même partiellement ré-écrit (de façon manuelle ou automatique). On est alors dans un contexte de « contenu fin » ( thin content , l’idée étant que le contenu est pauvre). Enfin, le contenu dupliqué peut se trouver sur le même site ou bien partagé sur différents noms de domaine.

Ce qui faut retenir à propos du contenu dupliqué

Pour Google, dans son guide à l’intention des quality raters, le terme de contenu dupliqué n’est pas mentionné et Google fait la différence entre la copie pure et simple (qui est pénalisée de façon automatique et manuelle) et le contenu réutilisé sans mauvaise intention : le contenu dupliqué .

Ce second cas de figure est typique des sites construits à base de CMS qui génèrent automatiquement des pages contenant des portions de textes (les premières lignes des articles de blog d’une rubrique, les archives par date ou par auteur, les remontées d’informations sur page d’accueil…). Ici, on est en présence de réutilisation de contenus internes. Pour le site web, ce n’est pas vraiment optimal en terme de référencement mais ce n’est pas grave car l’intention n’est pas de voler du contenu ailleurs et de le réutiliser à son propre profit.

Ce qu’en dit Google

  • Il n’y a pas de pénalité pour contenu dupliqué. Par contre le contenu « volé » est sanctionné.
  • Le contenu dupliqué peut être utile et parfois remonter très haut dans Google si le contexte le rend pertinent.
  • Le contenu dupliqué n’est pas du spam.
  • Google filtre le contenu dupliqué.
  • Google valorise les contenus uniques qui apportent de la plus-value à l’utilisateur.
  • Quand Google rencontre du contenu dupliqué, ça peut freiner l’indexation du site web. Rappel : l’utilisation du fichier sitemap.xml facilite le travail de découverte de tous les contenus du site.
  • Avoir un peu de contenu dupliqué sur son site n’est pas très grave.
  • Par contre, beaucoup de contenu dupliqué est un vrai problème et entraîne une moins bonne visibilité (manque de contenu unique et rythme de crawl ralenti).
  • Sur des requêtes non concurrentielles (et géographiques), des textes dupliqués ou fins (voir plus haut) peuvent très bien remonter… à court terme.
  • Utiliser du texte unique via les textes spinnés est contre-productif.
  • Plus généralement, si l’intention est de manipuler les résultats de recherche, les foudres de Google pourront frapper le site web fautif.

Mais comme toujours avec Google, il faut lire entre les lignes. Ce que veut Google c’est proposé les meilleurs contenus aux visiteurs de ses sites web. Toutes les astuces qui permettent d’avoir du contenu unique (mais pas vraiment qualitatif) sont donc jugées négativement et potentiellement sanctionnables. Typiquement, les sites aggrégateurs de contenus et les sites à base de contenus manipulés sont dans le viseur de la firme de Mountain View. Par contre, les sites web qui proposent les mêmes variations de texte dans des contextes différents parce qu’ils sont utiles aux internautes ne devraient pas s’inquiéter.

Concrètement que faire sur son propre site web ?

  • Ne pas « récupérer » (=voler) du contenu ailleurs.
  • Ne pas dissimuler le contenu « récupéré » ailleurs via la ré-écriture (automatique ou pas).
  • Écrire du contenu vraiment utile à l’internaute, qualitatif et nouveau.
  • Éviter d’avoir de grosses portions similaires de contenus entre les pages (en-tête, barres latérales et pied de page).
  • Organiser et penser son contenu et la navigation pour éviter d’exposer des contenus similaires (pour le ecommerce typiquement).
  • Utiliser le noindex pour ne pas faire indexer du contenu déjà présent ailleurs sur le site (catégories, archives, version imprimable, version PDF…).
  • Ne pas interdire le crawl à son propre contenu dupliqué.
  • Interdire le crawl aux contenus copiés (syndiqués) depuis d’autres sources (reprise de flux d’actualités par exemple).
  • Utiliser la balise rel=canonical pour indiquer la « bonne »version de chaque contenu unique.
  • Utiliser la balise rel=canonical pour différencier une page principale de ses pages très semblables (par exemple en ecommerce le même produit en tailles ou couleurs différentes).
  • Rediriger les anciens contenus dupliqués via une 301.