Cette section répond aux questions les plus fréquentes concernant l'utilisation des Robots Meta Tags, des X-Robots-Tags et de la directive no-index pour optimiser le crawl et l'indexation de votre site web.

Qu'est-ce que le Robots Meta Tag ?

Le Robots Meta Tag est une balise HTML placée dans la section d'une page web qui permet de communiquer des instructions aux robots des moteurs de recherche. Cette balise contrôle l'indexation et le suivi des liens sur une page spécifique. Elle peut contenir plusieurs directives comme no-index, no-follow, no-archive ou no-snippet, offrant un contrôle granulaire sur la manière dont les moteurs de recherche interagissent avec votre contenu.

Quelle est la différence entre Robots Meta Tag et X-Robots-Tag ?

Le Robots Meta Tag s'insère directement dans le code HTML de la page, tandis que le X-Robots-Tag est un en-tête HTTP configuré au niveau du serveur. Le X-Robots-Tag offre plus de flexibilité car il peut s'appliquer à tous types de fichiers (PDF, images, vidéos), pas uniquement aux pages HTML. Il permet également une gestion centralisée via les fichiers de configuration serveur comme .htaccess ou nginx.conf, facilitant l'application de règles sur plusieurs pages simultanément.

Comment implémenter la directive no-index sur mon site ?

Pour implémenter no-index, vous avez deux options : ajouter dans la section de vos pages HTML, ou configurer un X-Robots-Tag: noindex dans les en-têtes HTTP de votre serveur. Pour WordPress, utilisez des plugins SEO comme Yoast ou RankMath. Pour une implémentation serveur, ajoutez la directive dans votre fichier .htaccess ou la configuration nginx selon votre environnement d'hébergement.

Dans quels cas utiliser la directive no-index ?

La directive no-index est recommandée pour les pages de remerciement, les résultats de recherche interne, les pages d'archives paginées, les versions imprimables, les pages de filtres paramétrés, le contenu dupliqué temporaire, les pages en cours de développement ou les espaces membres privés. Elle évite la dilution du budget crawl et empêche l'indexation de contenu à faible valeur ajoutée qui pourrait nuire à la qualité globale de votre site dans les résultats de recherche.

Quels outils permettent de vérifier les Robots Meta Tags ?

Plusieurs outils facilitent la vérification des Robots Meta Tags : Google Search Console avec son outil d'inspection d'URL, Screaming Frog SEO Spider pour l'audit de sites complets, les DevTools des navigateurs (onglet Network pour les en-têtes HTTP), l'extension Chrome "SEO Meta in 1 Click", et des outils en ligne comme Oncrawl ou Sitebulb. Ces solutions permettent d'identifier rapidement les erreurs de configuration et de vérifier que vos directives sont correctement implémentées.

Quelles sont les erreurs courantes à éviter avec no-index ?

Les erreurs fréquentes incluent : bloquer une page avec no-index tout en la bloquant dans le robots.txt (empêche la lecture du no-index), appliquer no-index sur des pages importantes par erreur, oublier de retirer le no-index après la mise en production, combiner no-index avec un canonical vers une autre URL (signaux contradictoires), ou utiliser no-index sur toutes les pages paginées sans stratégie claire. Pour éviter de tomber dans ces pièges etse débarrasser des mythes SEOcourants, vérifiez régulièrement vos paramètres dans Google Search Console.

Comment approfondir mes connaissances en SEO technique ?

Pour maîtriser pleinement les Robots Meta Tags et autres aspects du SEO technique, il est recommandé de suivreles personnes influentes du SEOqui partagent régulièrement leurs expertises. Complétez votre apprentissage avec la documentation officielle de Google Search Central, participez à des communautés SEO francophones, et testez différentes configurations sur des environnements de développement avant de les déployer en production.

No index / X-Robots-Tag : tout savoir sur les META TAG

Le fichier robots.txt, tout comme le sitemap.xml et les balises canoniques, sont des indications pour Google, mais s’il décide pour une raison ou une autre de les indexer, vous ne pourrez rien y faire.

Enfin…

Qu’est ce qu’une balise Meta Tag ?

La balise meta tag ou meta robots en français est un code HTML à placer dans la section dans sa page permettant de désindexer une page.

La balise meta robots ressemble à ceci :

Pourquoi la balise meta robot est importante en SEO ?

La balise meta robots est souvent utilisée, notamment l'attribut noindex, pour empêcher les pages d'apparaître dans les résultats de recherche, c'est-à-dire qu'elles ne soient pas dans l'index de Google.

Bien qu'elle ait d'autres utilisations au-delà de Google Search et Google Analytics.

Vous pourriez souhaiter empêcher les moteurs de recherche d’indexer différents types de contenu :

Pages avec aucune utilité pour le référencement Google et /ou pour l'utilisateur
Pages de staging (environnement de développement) nécessitant l'attribut rel nofollow
Moteur de recherche interne permettant d'afficher les résultats ;
Landing page uniquement dédiée à de l'optimisation des conversions pour les annonces payantes Google ADS (PPC), généralement configurées en noindex
Pages sur les promotions, concours et pour afficher les résultats
Contenu dupliqué (utilisez entre autres des balises URL canoniques pour suggérer l’URL « originale »)

Cela permet de sculpter votre site et de ne pas gaspiller votre crawl budget. Combiner cela avec les optimisations SEO techniques telles que le robots.txt et les sitemap XMLs sera crucial pour votre référencement.

Note : N'utilisez pas le disallow sur le robots.txt pour les exemples de page cités, c'est une mauvaise pratique, il faut utiliser no-index.

Mettre en place la balise no-index

Les balises Meta Robots se composent de deux attributs de liens : name et content, permettant de contrôler l'indexation du contenu. Vous devez spécifier ces valeurs pour chacun de ces attributs. Voyons cela en détail.

Meta name

L'attribut « name » spécifie pour quel robot s'applique la balise no-index en matière de référencement, tandis que l'attribut « content » définit la directive. Appelé user-agents pour le robots.txt.
La valeur d'UA pour tous les robots est :

Pour spécifier l'UA pour GoogleBot par exemple sur une URL :

Note : les différents UA : Googlebot / Googlebot-Image / Bingbot / Slurp (Yahoo) / Baiduspider / DuckDuckBot

Les différents attributs de name

<meta name=”robots” content=”all”/> – Valeur par défaut
<meta name=”robots” content=”noindex” /> – Désindexe la page
<meta name=”robots” content=”nofollow” /> – Nofollow
<meta name=”robots” content=”none” /> – Noindex + Nofollow (inutile)
<meta name=”robots” content=”noarchive” /> – Empêche de mettre en copie le cache de la page dans la SERP (utile si vous souhaitez modifier le contenu)
<meta name=”robots” content=”notranslate” /> – Notranslate
<meta name=”robots” content=”noimageindex” /> – NoimageIndex
<meta name=”robots” content=”unavailable_after: Sunday, 01-Sep-19 12:34:56 GMT” /> – Noindex à rebours
<meta name=”robots” content=”nosnippet” /> – Empêche l’affichage de rich snippet sur la page.
Peut être appliqué à une div, span, section en utilisant « data-nosnippet », considéré comme un attribut booléen, ce qui signifie qu’il est valide avec ou sans valeur. Donc, <div data-nosnippet>ceci n’apparaîtra pas dans un extrait</div> est égale à <div data-nosnippet=”true”>et cela non plus</div>
<meta name=”robots” content=”max-snippet:-1, max-image-preview:large, max-video-preview:-1″ /> – Pour des droits d’auteur, vous ne pouvez pas avoir de rich snippet sur vos pages. En plaçant cette balise le problème est résolu (incluse automatiquement si vous utilisez Yoast SEO).

Le support des attributs (noindex, nofollow, image max snippet)

Les directives comme l'attribut rel nofollow ne sont pas toutes considérées en dehors des spiders de Google, ainsi voici un tableau récapitulatif :

Directive	Google	Bing
all	✅	❌
noindex	✅	✅
nofollow	✅	✅
none	✅	❌
noarchive	✅	✅
nosnippet	✅	✅
notranslate	✅	❌
noimageindex	✅	❌
unavailable_after	✅	❌

Note : il existe d’autres attributs dédiés pour d’autres moteurs. Par exemple “noyaca” empêche Yandex d’utiliser les extraits de résultats de recherche.

No index sur WordPress

Si vous utilisez un CMS tel que WordPress, il sera plus compliqué de modifier votre . Ainsi, la procédure pour WordPress et Yoast SEO est la suivante :

Choisissez votre page → Modifier → Allez dans les paramètres de Yoast → Avancé → Ne pas autoriser les moteurs à afficher le contenu sur les SERP :

Ajouter noindex sur WordPress en utilisant Yoast SEO

La ligne “Méta robots avancés” vous donne la possibilité d’implémenter des directives autres telles que noimageindex.

Si vous souhaitez ajouter des comptes à rebours d’indexation il faudra modifier votre thème enfant depuis l’administration WordPress en ajoutant quelques lignes de PHP pour modifier votre <head>.

Vous pouvez également désindexer des groupes de pages en vous rendant dans : Yoast → Réglages SEO :

Désindexer des groupes de page sur WordPress grâce à Yoast SEO

Si vous cliquez sur « désactivé », en l’occurrence ici, Yoast désindexera vos rédaction SEO d'articles avec des balises no-index et aussi en supprimant les liens concernés du sitemap.xml.

C’est quoi X-Robots-Tag ?

Les balises meta robots no index sont idéales pour désindexer des pages structurées en HTML. En revanche, s’il y a des pdf que vous souhaitez désindexer, utiliser X-Robots-Tag.

Il s’agit de ce que l’on appelle une entête HTTP

Le code :

Header set X-Robots-Tag “noindex”

Comment mettre en place l’entête HTTP X-Robots-Tag ?

Ce code est à placer dans votre fichier .htaccess, à la racine de votre site (ou httpd.conf ). Exactement comme les règles de redirection.

Par exemple, pour désindexer tous les pdf :

<Files ~ “\.pdf$”>
Header set X-Robots-Tag “noindex”
</Files>

Si vous avez besoin de désindexer un sous-domaine, un sous-répertoire, ou toute autre chose nécessitant une modification en masse, utilisez les balises x-robots-tag.

Note : Si vous ne savez pas si des ressources sont en no index avec une entête HTTP, vous pouvez utiliser une extension de navigateur telle que ” Live HTTP Headers “

Quelques règles de base rappelées

Voici quelques erreurs fréquentes à ne pas faire :

Ajouter des directives noindex aux pages non autorisées dans robots.txt (sinon ils ne peuvent pas voir que vous ne souhaitez pas les indexer)
Mauvaise gestion des sitemaps (l’idéal est d’enlever la page du sitemap après que Google a compris qu’il fallait désindexer la page)
Ne pas supprimer les directives noindex de l’environnement de production (staging).

Guide : Robots Meta Tag & X‑Robots-Tag / no-index