
Formation SEO sur le duplicate content
Chapitre 1 de cette formation SEO, Le duplicate content c’est quoi ?
Le duplicate content survient lorsque 2 pages ou plus partagent le même contenu comme dans le dessin ci-dessous.
Formation SEO chapitre 2 : Quel est le problème du Duplicate Content ?
D’un point de vu SEO, le duplicate content était un problème bien avant Google Panda. Ci-dessous un bref aperçu des problèmes de duplicate content durant ces dernières années. L’index supplémentaire secondaire Dans les premiers jours de Google, le simple fait d’indexer le web était un immense challenge computationnel. Pour gérer le problème, certaines urls analysées comme duplicate ou pauvre en contenu étaient stocké dans un index secondaire appelé ‘supplemental index ». Ces urls, d’un point de vu SEO étaient des urls de seconde classe sans aucune chance de pouvoir se positionner. En 2006, Google a intégré l’index secondaire dans l’index principal sans aucun changement visible dans les résultats de recherche. Les urls de l’index secondaire étaient filtrés des résultats de recherche par des règles implantés dans l’algorithme. Le budget du “crawl” Il n’y a pas vraiment de limite au crawl des pages, d’autant que la vitesse du crawl a considérablement augmenté ces dernières années, mais si Googlebot rencontre trop d’urls aux contenus identiques sur votre site, il risquera de laisser tomber l’indexation des pages. S’il y a trop de chemins différents avec des urls différents qui mènent au même contenu, Google abandonneras. Du coup, les pages aux contenus uniques que vous voulez que Google index risquent de ne même pas être visités par Googlebot du tout. Au mieux, ils seront crawler moins souvent. Vous pouvez avoir un ressenti du crawl de votre site en allant dans Outils pour les Webmasters de Google en allant dans « exploration » puis « statistiques sur l’exploration ». Le “cap” de l’indexation Il n’y a pas de “cap” sur le nombre de pages que Google indexera sur un site. Il semble y avoir une limite dynamique lié à l’autorité du site. Si vous remplissez votre index de pages inutiles et dupliqués, vous pouvez exclure des pages importantes et plus profonde de l’index. Par exemple, si vous avez des milliers de résultats de recherches internes, Google risque de ne pas indexer l’ensemble de vos pages produits (menus à facettes par exemple). C’est une erreur de croire que plus de pages indexées c’est mieux. Bien souvent c’est le contraire. Toute chose étant égal, des indexes bourrés d’urls diluent votre habilité à vous positionner, surtout avec des urls à contenus identiques. La mise à jour Panda Bien avant l’avènement de Panda, il y a eu de nombreuses discussions sur l’éventualité d’une pénalité du au contenus dupliqués. En fait la réponse était sémantique. Google n’index pas 2 fois le même contenu, un point c’est tout. Depuis l’arrivée de Panda en Février 2011 (Août 2011 en France), l’impact sur le duplicate content a été bien plus sévère. Avant Panda, seul les pages de contenus dupliqués étaient impactés. Depuis Panda, c’est le site entier qui peut être impacté. Si vous êtes touché par Panda, même les pages de contenu unique peuvent être impactées, voir même désindexées.Formation SEO chapitre 3 : Il y a 3 sortes de Duplicate Content
(1) Les True Duplicates Une « True Duplicate » est une page identique (en contenu) à une autre page. Ces pages ne diffèrent que par l’url :


Chapitre 4 de la formation SEO : Les outils pour solutionner le Duplicate Content
(1) 404 (Not Found) Le moyen le plus simple est de supprimer le contenu dupliqué en renvoyant une erreur 404. Si le contenu n’a aucune valeur pour les visiteurs et qu’il n’y a pas ou peu de trafic et de liens entrants, alors le retirer est une option valide. (2) Redirection 301 Une autre manière d’enlever une page de contenu dupliqué est de faire une redirection 301. La redirection 301 indique aux moteurs de recherche que la page a été définitivement déplacée vers une autre url. D’un point de vu SEO, la plupart du bénéfice des liens entrants de l’ancienne page profite à la nouvelle. C’est une bonne option pour supprimer un contenu dupliqué. L’utilisation d’une url canonique peut aussi s’avérer pertinent, mais c’est un autre sujet. (3) Robots.txt Une autre option consiste à laisser le duplicate content visible aux visiteurs, mais de le bloquer aux robots des moteurs de recherché avec un fichier robots.txt. Cela ressemble à ceci :






Formation SEO chapitre 5 : Exemples de Duplicate Content
(1) “www” vs. Pas de-www Concernant l’ensemble du site, ceci est certainement le coupable prioritaire. Que vous ayez des mauvais chemins en interne ou que vous ayez attiré des liens ou des mentions sociales au mauvais url, vous avez la version « www » comme la version non « www » sur les urls indexés de votre site.








- Vous pouvez ajouter la Meta Noindex, Follow pages 2+ des résultats de recherche. Vous laissez Google crawler le contenu paginé sans qu’ils l’index.
- Vous pouvez créer une page « view All » qui est lié à tous les résultats de recherche sur une url. Et laisser Google la détecter. Ceci est une autre option préféré de Google.
- Vous pouvez créer une page « view All » et inclure une url canonique vers cette page. Ceci n’est pas officiellement reconnu comme pratique, mais les pages ne sont plus des duplicates au sens traditionnel. Donc il se pourrait que cette méthode soit une violation de l’utilisation de la rel=canonical.

- Faire une Rel=Next et Rel=Prev
- Inclure une url canonique à chaque variation qui redirige vers la page principal du produit.









Laisser un commentaire