Le fichier robots.txt, tout comme le sitemap.xml et les balises canoniques, sont des indications pour Google, mais s’il décide pour une raison ou une autre de les indexer, vous ne pourrez rien y faire.
Enfin…
Qu’est ce qu’une balise Meta Tag ?
La balise meta tag ou meta fichier robots.txt en français est un code HTML à placer dans la section dans sa page permettant de désindexer une page.
La balise meta robots ressemble à ceci :
Cet attribut noindex ressemble à ceci :
Pourquoi la balise meta robot est importante en SEO ?
La balise meta robots est souvent utilisée, notamment l'attribut noindex, pour empêcher les pages d'apparaître dans les résultats de recherche, c'est-à-dire qu'elles ne soient pas dans l'index de Google.
Bien qu'elle ait d'autres utilisations au-delà de Google Search et Google Analytics.
Vous pourriez souhaiter empêcher les moteurs de recherche d’indexer différents types de contenu :
- Pages avec aucune utilité pour le référencement Google et /ou pour l'utilisateur
- Pages de staging (environnement de développement) nécessitant l'attribut rel nofollow
- Moteur de recherche interne permettant d'afficher les résultats ;
- Landing page uniquement dédiée à de l'optimisation des conversions pour les annonces payantes Google ADS (PPC), généralement configurées en noindex
- Pages sur les promotions, concours et pour afficher les résultats
- Contenu dupliqué (utilisez entre autres des balises Open Graph URL canoniques pour suggérer l’URL « originale »)
Cela permet de sculpter votre site et de ne pas gaspiller votre crawl budget. Combiner cela avec les optimisations SEO techniques telles que le robots.txt et les sitemap XMLs sera crucial pour votre référencement.
Note : N'utilisez pas le disallow sur le robots.txt pour les exemples de page cités, c'est une mauvaise pratique, il faut utiliser no-index.
Mettre en place la balise no-index
Les balises Meta Robots se composent de deux attributs de liens : name et content .Vous devez spécifier ces valeurs pour chacun de ces attributs. Voyons cela en détail.
Meta name
L’attribut « name » spécifie pour quel robot s’applique la balise no-index. Appelé user-agents pour le robots.txt.
La valeur d’UA pour tous les robots est :
<meta name=”robots” content=”noindex”/>
Pour spécifier l'UA pour GoogleBot par exemple sur une URL :
Note : les différents UA : Googlebot / Googlebot-Image / Bingbot / Slurp (Yahoo) / Baiduspider / DuckDuckBot
Les différents attributs de name
- – Valeur par défaut
- – Désindexe la page
- – Nofollow des URL
- – Noindex + Nofollow (inutile)
- – Empêche de mettre en copie le cache de la page dans la SERP (également utile si vous souhaitez modifier le contenu)
- – Notranslate (empêche la traduction automatique de l'URL)
- – NoimageIndex
- – Noindex à rebours
- <meta name=”robots” content=”nosnippet” /> – Empêche l’affichage de rich snippet sur la page.
Peut être appliqué à une div, span, section en utilisant « data-nosnippet », considéré comme un attribut booléen, ce qui signifie qu’il est valide avec ou sans valeur. Donc, <div data-nosnippet>ceci n’apparaîtra pas dans un extrait</div> est égale à <div data-nosnippet=”true”>et cela non plus</div> -
La ligne “Méta robots avancés” vous donne la possibilité d’implémenter des directives autres telles que noimageindex.
Si vous souhaitez ajouter des comptes à rebours d’indexation il faudra modifier votre thème Divi enfant depuis l’administration WordPress en ajoutant quelques lignes de PHP pour modifier votre <head>.
Vous pouvez également désindexer des groupes de pages en vous rendant dans : Yoast → Réglages SEO :
Si vous cliquez sur « désactivé », en l’occurrence ici, Yoast désindexera vos rédaction SEO d'articles avec des balises no-index et aussi en supprimant les liens concernés du sitemap.xml.
C’est quoi X-Robots-Tag ?
Les balises meta robots no index sont idéales pour désindexer des pages données structurées en HTML. En revanche, s’il y a des pdf que vous souhaitez désindexer, utiliser X-Robots-Tag.
Il s’agit de ce que l’on appelle une entête HTTP
Le code :
Header set X-Robots-Tag “noindex”
Comment mettre en place l’entête HTTP X-Robots-Tag ?
Ce code est à placer dans votre fichier .htaccess, à la racine de votre site (ou httpd.conf ). Exactement comme les règles de redirection.
Par exemple, pour désindexer tous les pdf :
<Files ~ “\.pdf$”>
Header set X-Robots-Tag “noindex”
</Files>
Si vous avez besoin de désindexer un sous-domaine, un sous-répertoire, ou toute autre chose nécessitant une modification en masse, utilisez les balises x-robots-tag.Note : Si vous ne savez pas si des ressources sont en no index avec une entête HTTP, vous pouvez utiliser une extension de navigateur telle que ” Live HTTP Headers “
Quelques règles de base rappelées
Voici quelques erreurs fréquentes à ne pas faire :
- Ajouter des directives noindex aux pages non autorisées dans robots.txt (sinon ils ne peuvent pas voir que vous ne souhaitez pas les indexer)
- Mauvaise gestion des sitemaps (l’idéal est d’enlever la page du sitemap après que Google a compris qu’il fallait désindexer la page)
- Ne pas supprimer les directives noindex de l’environnement de production (staging).



0 commentaires