LinkedIn Link to LinkedIn Twitter Link to Twitter

Comment gérer le contenu dupliqué pour le SEO ?

Publié le 17/08/2022 | 0 commentaires

Conception de site webSEOTechniqueCrawl et IndexationContenu dupliqué

La duplication de contenu ou duplicate content en anglais est un problème récurrent à traiter lorsque vous optimisez votre site Web pour le référencement naturel.

Effectivement, Google et les moteurs de recherche en général sont tout à fait capables de détecter un contenu en double.

Concrètement, il peut s’agir d’un texte dupliqué entre deux pages de votre site Web ou d’un site externe.

Nous pouvons distinguer ainsi deux types de duplication de contenu :

  • Le contenu dupliqué interne
  • Le contenu dupliqué externe (plagiat)

Même si vous ne dupliquez pas de phrases entre vos pages Web ou d’autres sites Web (plagiat), vous êtes tout de même probablement concerné par la duplication de contenu, notamment à cause des URL paramétrées.

Explication simpliste du fonctionnement de Google pour calculer la duplication

Dans les brevets de Google, il est fait mention que le moteur de recherche crée des clusters de contenu avec des versions de contenu identiques ou très similaires puis choisit un contenu dans le corpus en tant que contenu représentatif.

Le contenu représentatif sera le contenu qui représente tous les clusters de contenu en tant que contenu canonique. La décision pour la sélection du contenu canonique dépendra généralement du site avec le nom de domaine possédant le plus autorité (PageRank).

Aussi, une chose intéressante est que lorsque le cluster de contenu s'agrandit avec le futur doublon et les pages Web à valeur non unique, le contenu représentatif et l'URL qui le possède obtiennent plus d'autorité.

Ceci est appelé l'inversion de lien (link inversion en anglais).

Est-ce que Google pénalise les contenus dupliqués ?

Les moteurs de recherche cherchent à trouver des contenus uniques, c’est l’une des nombreuses raisons pour lesquelles il ne faut pas dupliquer du texte, que ce soit de votre propre site ou d’un site externe.

Si le moteur de recherche reconnaît le contenu comme dupliqué, la page peut être dévaluée ou supprimée de l’index.

Comment le contenu dupliqué se produit-il ?

En 2013, Matt Cutts, ingénieur de Google à déclaré qu'entre 25 à 30% du Web était dupliqué. Et, que ça n'était pas forcément une mauvaise chose, car dans la majorité des cas ceci n'est pas intentionnel à l'origine.

Mais alors comment peut-on avoir du contenu dupliqué sans le faire intentionnellement ? C'est ce que nous allons voir.

Les paramètres d’URL

Les paramètres d’URL sont une cause fréquente à la duplication de contenu interne.

Un paramètre d’URL est un élément de code complétant l'URL classique d'une page, elles sont généralement distinguables avec le point d'interrogation complétant l’URL.

Par exemple, les navigations à facettes ou URL à facettes. Si votre site Web est un site e-commerce (à titre d’exemple), vos URL sont dupliquées par le nombre de navigations à facette.

C'est-à-dire, si votre site permet d’afficher un produit avec une couleur différente, vous aurez une duplication de contenu avec l’URL d’origine telle que https://votre-site.fr/t-shirt/ et https://votre-site.fr/t-shirt?couleur=rouge.

Cela peut aussi se produire pour les codes de tracking. Les moteurs de recherches internes (?q=search-term), les versions avec AMP (site.fr/page et amp.site.fr/page), la pagination, et d’autres cas utilisant des paramètres d’URL.

Pour éviter ce problème vous pouvez indiquer aux moteurs de recherche la version canonique, c'est-à-dire la version de la page principale.

Le code est le suivant :

<link rel="canonical" href=" https://exemple.fr/exemple-page/ " />

Le HTTP / HTTPS

Outre les URL paramétrées, vous pouvez également avoir de la duplication interne si vos pages Web sont visibles avec ou sans HTTPS.

Pour pallier cela vous devez autoriser uniquement l’accès à vos pages avec HTTPS.

Si vous disposez d’un bon hébergement, il suffit généralement de cliquer sur un bouton dans votre espace dédié.

www et sans-www

Google peut également détecter de la duplication de contenu si vos pages Web sont accessibles avec ou sans www. devant votre nom de domaine.

Cela se fait également depuis votre hébergement et registrar.

Contenu dupliqué dans un site multilingue

Vous pouvez également avoir du contenu dupliqué si vous avez mal configuré les balises Hreflang.

<link rel = "alternate" hreflang = "en-US" href = "https://www.example.com/content-in-en-uk" />

Dans le cas contraire, Google pourrait considérer malencontreusement une duplication. Veillez donc à bien suivre les guidelines sur les balises hreflang.

Cela se produit dans le cas où vous avez une page avec un contenu identique car un pays peut avoir la même langue mais vous devez ajuster vos prix, le numéro de téléphone, etc.

La division du signal de classement

Vous pouvez également avoir un problème de duplication si vous avez trop de page similaire pour une même intention canonique. Ainsi, si plusieurs pages ont un contenu trop similaire, elles se classeront pour les mêmes requêtes et subiront ainsi un classement inférieur. Cela est plus connu sous le nom de cannibalisation des mots clés.

Si vous en êtes victime je vous conseille d’appliquer une URL canonique à votre version préféré ou de mieux catégoriser vos contenus.

Comment supprimer le contenu dupliqué ?

La première façon de penser est évidemment de ne pas dupliquer de texte entre vos propres pages ou ceux du Web. Cependant comme nous avons pu le voir vous pourrez tout de même avoir du contenu dupliqué.

Si vous faites appel à des rédacteurs vous pouvez également ne pas être sur si ces personnes dupliquent du contenu.

C’est pour cela qu’il existe des outils pour détecter la duplication de contenu qu’elle soit interne ou externe.

Les outils pour détecter la duplication interne

ScreamingFrog : est un crawler permettant de calculer les erreurs techniques du site Web et pourrait dans notre contexte vous aider avec la vérification de balise canonique ou encore calculer la duplication interne (Near duplicate).

Siteliner : est un outil d’analyse de contenu dupliqué interne plus facile d’accès pour les débutants.

Les outils pour détecter la duplication externe

Kill Duplicate : Outil d’analyse performant sur l’analyse de duplication externe.

Duplichecker : permet de vérifier si le contenu est plagier (se fait par page).

Copyfight : est un outil qui protège vos contenus, il est livré avec un plugin WordPress.

CopyScape : un outil traditionnel pour détecter le plagiat.

Balise canonique vs redirection 301 vs meta-robot no-index

L’URL canonique indique la référence à l’URL original. Elle doit être utilisée pour les paramètres d’URL.

Redirection 301 : si vous avez une ancienne version de contenu encore connu de Google, elle pourrait être détectée comme une duplication de la nouvelle version. Dans ce cas la rediriger l’ancienne page vers la nouvelle avec une redirection 301.

Meta robot : si pour une raison ou une autre, vous devez indiquer aux robots d’exploration que la page ne doit pas être vu comme une duplication, vous pouvez utiliser la balise meta robot no index : <meta name="robots" content="noindex"/>. Ainsi, la page étant indiqué comme à ne pas indexer, votre problème de duplication pourrait disparaître. Une mauvaise pratique courante est de mentionner dans le robots.txt de ne pas explorer les pages no-index, il s’agit d’une mauvaise pratique. Si vous souhaitez faire savoir à Google qu’elle ne doit pas être indexée, le robot doit pouvoir la trouver.

Questions fréquemment posées sur la duplication de contenu pour le SEO

Quand le contenu dupliqué est-il un problème ?

Il n’existe pas de quota prédéfini de problème SEO pour un certain pourcentage de contenu dupliqué. Il s’agit plutôt de bonnes pratiques à adopter quotidiennement.

Qu’est ce que le Near duplicate ?

Le near duplicate désigne un contenu dupliqué similaire. Il s’agit du problème de duplication externe la plus commune. Elle peut être détectée par les moteurs de recherche. Ce n’est pas de la duplication exacte mais partielle calculée algorithmiquement. C’est pourquoi lors de la rédaction de contenu, il est important de ne pas effectuer un simple recyclage de contenu.

Dois-je me préoccuper de la duplication de contenu ?

La duplication de contenu doit être vérifiée par le webmestre pour obtenir un meilleur classement sur les résultats de recherche. Si ceci n’est pas le cas, cela pourrait envoyer un signal négatif aux moteurs de recherche.

Quelle est la différence entre le contenu répétitif et dupliqué ?

Il n’y a pas vraiment de différence pour Google. Votre menu et votre footer sont similaires entre toutes vos pages, cela peut aussi valoir pour vos Call To Action (CTA). Google parle ainsi de modules de texte récurrents.

Cependant Google peut le détecter comme de la duplication. Ainsi, éviter de long paragraphe dans les modules récurrents et préférer l’utilisation de liens.

Évitez ou réécrivez (pour chaque page dans l’idéal) les modules ou les wіdgets qui se répètent.

Pour plus de sécurité, vous pouvez également utiliser la balise sémantique<blockquote> indiquant la citation dans le contexte adéquat.

Quel algorithme détecte le contenu dupliqué ?

Google Panda est l’algorithme de filtre anti spam permettant de vérifier (notamment) la duplication de contenu. Cet algorithme permet de calculer le taux de charabia d’un contenu ou encore la duplication de contenu (en retrouvant des ensembles de shingles identiques).

Comment trouver du contenu dupliqué depuis Google ?

Pour trouver du contenu dupliqué, vous pouvez utiliser les opérateurs de recherche sur Google comme site:mon-site.fr “le mot".

Ou encore des opérateurs de recherche tels que « intitle, inurl, inanchor ».

Exemple : site:mon-site.fr intitle:le mot .

Comment trouver le contenu dupliqué depuis la Google Search Console ?

La Google Search Console propose un rapport "Couverture" permettant de détecter de potentiel contenu dupliqué.

Pour cela, cliquez sur « Exclus » et explorez dans le rapport les URL étant "Explorée, actuellement non indexée" et ou "Détectée, actuellement non indexée".

Si votre URL figure ici, il est probable que ceci soit dû à une duplication de contenu et que Google préfére ne pas l'ajouter à son index.

Comment trouver le contenu dupliqué avec Python ?

Si vous êtes un référenceur technique maîtrisant la programmation informatique, je vous invite à jeter un œil sur la bibliothèque Advertools avec Python en utilisant des scripts de scraping personnalisés comme avec le framework Scrapy et des bibliothèques tels que URLLib.

Auteur

Stan De Jesus Oliveira
Propriétaire et fondateur de createur2site

Stan De Jesus Oliveira est le propriétaire de createur2site, il accompagne les entreprises dans leur création de site web, le Web Design et le référencement naturel SEO.

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée.