LinkedIn Link to LinkedIn Twitter Link to Twitter

Guide : Robots Meta Tag & X‑Robots-Tag / no-index

0 commentaires

Le fichier robots.txt, tout comme le sitemap.xml et les balises canoniques, sont des indications pour Google, mais s’il décide pour une raison ou une autre de les indexer, vous ne pourrez rien y faire.

Enfin…

Qu’est ce qu’une balise Meta Tag ?

La balise meta tag ou meta robots en français est un code HTML à placer dans la section dans sa page permettant de désindexer une page.

Cela ressemble à ceci :

<meta name="robots" content="noindex"/>

Pourquoi la balise meta robot est importante en SEO ?

La balise meta robots est souvent utilisée pour empêcher les pages d'apparaître dans les résultats de recherche, c’est-à-dire qu’elles ne soient pas dans l’index de Google.

Bien qu'elle ait d'autres utilisations.

Vous pourriez souhaiter empêcher les moteurs de recherche d'indexer différents types de contenu :

  • Pages avec aucune utilité pour le référencement et /ou pour l’utilisateur
  • Pages de staging (environnement de développement)
  • Moteur de recherche interne ;
  • Landing page uniquement dédiée à de l’optimisation des conversions pour les annonces payantes Google ADS (PPC)
  • Pages sur les promotions, concours
  • Contenu dupliqué (utilisez entre autres des balises canoniques pour suggérer l’URL « originale »)

Cela permet de sculpter votre site et de ne pas gaspiller votre crawl budget. Combiner cela avec les optimisations SEO techniques telles que le robots.txt et les sitemaps  sera crucial pour votre référencement.

Note : N’utilisez pas le disallow sur le robots.txt pour les exemples de page cités, c’est une mauvaise pratique, il faut utiliser no-index.

Mettre en place la balise no-index

Les balises Meta Robots se composent de deux attributs : name  et content .Vous devez spécifier ces valeurs pour chacun de ces attributs. Voyons cela en détail.

Meta name

L’attribut « name » spécifie pour quel robot s’applique la balise no-index. Appelé user-agents pour le robots.txt.
La valeur d’UA pour tous les robots est :

<meta name="robots" content="noindex"/>

Pour spécifier l’UA pour GoogleBot par exemple :

<meta name="googlebot-image" content="noindex" />

Note : les différents UA : Googlebot / Googlebot-Image / Bingbot / Slurp (Yahoo) / Baiduspider / DuckDuckBot

Les différents attributs de name

  •  <meta name="robots" content="all"/> - Valeur par défaut
  • <meta name="robots" content="noindex" /> - Désindexe la page
  • <meta name="robots" content="nofollow" /> - Inutile
  • <meta name="robots" content="none" /> - Noindex + Nofollow (inutile)
  • <meta name="robots" content="noarchive" /> - Empêche de mettre en copie le cache de la page dans la SERP (utile si vous souhaitez modifier le contenu) - Très peu utile
  • <meta name="robots" content="notranslate" /> - Tout est dans le nom
  • <meta name="robots" content="noimageindex" /> - Je ne ferai pas l'injure
  • <meta name="robots" content="unavailable_after: Sunday, 01-Sep-19 12:34:56 GMT" /> - No index à rebours
  • <meta name="robots" content="nosnippet" /> - Empêche l'affichage de rich snippet sur la page.
    Peut être appliqué à une div, span, section en utilisant « data-nosnippet », considéré comme un attribut booléen, ce qui signifie qu'il est valide avec ou sans valeur. Donc, <div data-nosnippet>ceci n'apparaîtra pas dans un extrait</div> est égale à <div data-nosnippet="true">et cela non plus</div>
  • <meta name="robots" content=”max-snippet:-1, max-image-preview:large, max-video-preview:-1" /> - RGPD et co****** administrative. Pour des droits d'auteur de base vous ne pouvez pas avoir de rich snippet sur vos pages. En plaçant cette balise le problème est résolu (incluse automatiquement si vous utilisez Yoast SEO) – Oui WordPress c'est cool.

Le support des attributs

Les directives ne sont pas toutes considérées en dehors des spiders de Google, ainsi voici un tableau récapitulatif :

Directive

Google

Bing

all

noindex

nofollow

none

noarchive

nosnippet

notranslate

noimageindex

unavailable_after

 

Note : il existe d’autres attributs dédiés pour d’autres moteurs. Par exemple "noyaca" empêche Yandex d'utiliser les extraits de résultats de recherche.

No index sur WordPress

Si vous utilisez un CMS tel que WordPress, il sera plus compliqué de modifier votre . Ainsi, la procédure pour WordPress et Yoast SEO est la suivante :

Choisissez votre page → Modifier → Allez dans les paramètres de Yoast → Avancé → Ne pas autoriser les moteurs à afficher le contenu sur les SERP :

Ajouter noindex sur WordPress en utilisant Yoast SEO

La ligne "Méta robots avancés" vous donne la possibilité d'implémenter des directives autres telles que noimageindex.

Si vous souhaitez ajouter des comptes à rebours d’indexation il faudra modifier votre thème enfant depuis l’administration WordPress en ajoutant quelques lignes de PHP pour modifier votre <head>.

Vous pouvez également désindexer des groupes de pages en vous rendant dans : Yoast → Réglages SEO :

Désindexer des groupes de page sur WordPress grâce à Yoast SEO

Si vous cliquez sur « désactivé », en l’occurrence ici, Yoast désindexera vos articles avec des balises no-index et aussi en supprimant les liens concernés du sitemap.xml.

C’est quoi X-Robots-Tag ?

Les balises meta robots no index sont idéales pour désindexer des pages structurées en HTML. En revanche, s’il y a des pdf que vous souhaitez désindexer, utiliser X-Robots-Tag.

Il s’agit de ce que l’on appelle une entête HTTP

Le code :

Header set X-Robots-Tag “noindex”

Comment mettre en place l’entête HTTP X-Robots-Tag ?

Ce code est à placer dans votre fichier .htaccess, à la racine de votre site (ou httpd.conf ). Exactement comme les règles de redirection.

Par exemple, pour désindexer tous les pdf :

<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex"
</Files>

Si vous avez besoin de désindexer un sous-domaine, un sous-répertoire, ou toute autre chose nécessitant une modification en masse, utilisez les balises x-robots-tag.

Note : Si vous ne savez pas si des ressources sont en no index avec une entête HTTP, vous pouvez utiliser une extension de navigateur telle que " Live HTTP Headers "

Quelques règles de base rappelées

Voici quelques erreurs fréquentes à ne pas faire :

 

  • Ajouter des directives noindex aux pages non autorisées dans robots.txt (sinon ils ne peuvent pas voir que vous ne souhaitez pas les indexer)
  • Mauvaise gestion des sitemaps (l’idéal est d’enlever la page du sitemap après que Google a compris qu’il fallait désindexer la page)
  • Ne pas supprimer les directives noindex de l'environnement de production (staging).

L'hébergement WordPress pour les sites ambitieux

Vos concurrents utilisent Kinsta. Ne les laissez pas vous devancer.

Découvrez

Vous avez besoin d'aide ?

N'hésitez pas ! Nous sommes experts en création de site et en référencement naturel.

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *