LinkedIn

Q: Où trouver son robots.txt ?

Si vous avez déjà un fichier robots.txt ou que vous souhaitez le créer, placez-le à la racine de votre site, soit : https://votre-site.fr/robots.txt

Q: robots.txt pour empêcher l’indexation ?

Non, robots. txt n’empêche pas l’indexation d’une page. Si vous souhaitez désindexer une page, vous devez avant tout placer une balise no-index ou un x-robos-tag dans l’entête HTTP. Par exemple :Si vous faites cela, Google pourrait vous indiquer dans le rapport couverture qu’une URL est indexée mais bloquée par le fichier robots.

Le fichier robots.txt indique aux moteurs de recherche où ils peuvent et ne peuvent pas accéder sur votre site web.

Principalement, ce dossier répertorie tout le contenu où vous souhaitez empêcher le crawl et indexation des moteurs de recherche comme Google. Il permet également d'autoriser d'autres moteurs de recherche à explorer des pages différentes.

Un robots.txt est-il important pour le SEO ?

Il est clair qu'un site qui n'utilise pas de CMS et qui dispose de moins d'une dizaine de pages n'est vraiment pas important pour les robots de recherche. En revanche, pour éviter tout problème futur, je vous conseille vivement de le mettre en place pour bien diriger ces robots.

Dans tous les cas, ce ne sera pas négatif pour votre SEO, bien au contraire.

Voici quelques points qu'apporte un fichier robots.txt en termes d'optimisation de référencement naturel :

Garder des sections d'un site web privées des moteurs de recherche (par exemple, votre staging, environnement de test)
Empêcher l'exploration du contenu dupliqué et bloquer accès robot
Optimiser son budget d’exploration, crawl budget.
Empêcher l’exploration du contenu dupliqué
…

Où trouver son robots.txt ?

Si vous n'avez pas encore de fichier robots.txt, il est facile d'en créer un. Ouvrez simplement un document .txt et commencez à spécifier vos règles.

Veillez à écrire à l'exactitude « robots.txt ».

Comment créer un robots.txt ?

Le robots.txt est un simple fichier texte, que les crawlers visitent en amont avant d'explorer vos pages. Cela leur permet également de savoir ce qu'ils ont le droit de visiter.

Voici à quoi ressemble un robots.txt classique pour les sites WordPress :

User-agent: *
Disallow: /dossier

Si vous n’avez pas encore de fichier robots.txt, il est facile d’en créer un. Ouvrez simplement un document .txt et commencez à spécifier vos directives.

Attention, une mauvaise utilisation du robots.txt peut amener votre site au bas-fond des moteurs de recherche. Par exemple si vous empêchez le crawl de toutes les URL de votre site pour les moteurs de recherche au lieu d'autoriser indexer contenus spécifiques.

User agents

Chaque moteur de recherche s'identifie avec un agent utilisateur différent ou user agents en anglais. Vous pouvez définir des instructions personnalisées pour chacun d'entre eux dans votre fichier robots.txt de vos sites. Il existe des centaines de user agents, mais en voici quelques-uns utiles pour le SEO de vos sites :

Google : Googlebot
Google Images : Googlebot-Image
Bing : Bingbot (nécessaire pour bloquer accès robot spécifiquement)
Yahoo : Slurp
Baidu : Baiduspider
DuckDuckGo : DuckDuckBot (respecte le fichier robots txt)

Vous pouvez simplement utiliser le caractère générique étoile (*) pour attribuer des directives à tous les robots crawler qui explorent les ressources des sites.

Par exemple, supposons que vous vouliez empêcher tous les bots, à l'exception de Googlebot, d'explorer votre site et d'affecter vos résultats de recherche. Voici comment procéder :

User-agent: *
Disallow: /

Voici les règles à utiliser :
User-agent: Googlebot
Allow: /

Attention, chaque fois que vous déclarez un nouvel agent utilisateur, il agit comme une table rase sur les éléments spécifiés précédemment.

Ainsi vous indiquez ceci pour les fichiers PHP WordPress :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Les robots d’exploration comprennent que vous ne souhaitez pas qu’ils visitent le répertoire wp-admin sauf admin-ajax.php. En revanche, si vous spécifiez des directives supplémentaires uniquement pour Googlebot, il faudra de nouveau indiquer que vous ne souhaitez pas qu’ils visitent le répertoire wp-admin par exemple.

Les directives basiques

Les directives sont des règles que vous souhaitez voir appliquées par les agents utilisateurs spécifiés.

Allow

La directive « allow » permet aux moteurs de recherche d’explorer un sous-répertoire ou une page, même dans un répertoire spécifiquement interdit.

Par exemple, si vous souhaitez ajouter des règles disallow pour empêcher tous les moteurs de recherche d'accéder à votre blog, votre fichier robots.txt pourrait contenir ces instructions :

User-agent: *
Disallow: /
Allow: /blog

Disallow

Cette directive indique aux moteurs de recherche de ne pas accéder aux fichiers et aux pages qui ont un chemin d'accès spécifique, restrictions que vous pouvez vérifier dans Google Search Console.

Par exemple, si vous souhaitez empêcher tous les moteurs de recherche d’accéder à votre blog, votre fichier robots.txt pourrait contenir ces instructions :

User-agent: *
Disallow: /blog

sitemap (plan de sites web)

À placer au début du robots.txt. Inclure le sitemap XML dans son « robots » permet de spécifier l'emplacement du plan de site aux crawlers. Vous n'avez pas besoin de répéter la directive sitemap plusieurs fois pour chaque agent utilisateur. Cela ne s'applique pas à un seul. Ainsi, pas besoin de le placer en dessous de « User-agent: * ».

Sitemap: https://exemple.fr/sitemap_index.xml

7 bonnes pratiques à adopter pour son robots.txt

Voyons cinq bonnes pratiques du fichier robots txt pour éviter les erreurs courantes.

1. Une ligne par directive

Chaque directive doit être sur une nouvelle ligne.

C'est-à-dire que vous devez également écrire comme ceci :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Et non pas l'utiliser comme cela :
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php

2 Utilisez « * » pour éviter des centaines de lignes inutiles

Le caractère « * » peut être appliqué pour tous. C'est-à-dire qu'il permet de spécifier que tous les moteurs de recherche sont concernés par les directives, mais pas que.
Par exemple, au lieu d'inclure :

Disallow: /products/t-shirts
Disallow: /products/hoodies
Disallow: /products/jackets
…
Vous pouvez simplement utiliser l’astérisque :
Disallow: /products/*

3. Utilisez « $ » pour indiquer la fin d’une URL

Le symbole "$" marque la fin d'une URL.

Admettons que vous souhaitez empêcher les moteurs de recherche d'accéder à tous les fichiers .pdf de votre site, votre fichier robots.txt pourrait ressembler à ceci :

User-agent: *
Disallow: /*.pdf$

Ainsi, cette directive indique aux robots que tous les PDF du site ne doivent pas être explorés.

4. Spécifiez un user agents qu’une seule fois

Cela paraît assez logique, mais vous ne devez pas inclure plusieurs fois le même agent.

User-agent: Googlebot
Disallow: /page/

User-agent: Googlebot
Disallow: /page-2/

5. Soyez spécifique

Évitez de négliger la barre oblique à la fin de vos directives.
Par exemple « Disallow: /en » permettrait de ne pas explorer toutes les pages dans le répertoire anglais. En revanche, si vous avez une page « /enclume », la page ne sera pas explorée. Dans ce cas, il est préférable d’ajouter la barre oblique : « Disallow: /en/ »

6. Un robots.txt par sous-domaine

Robots.txt contrôle uniquement le comportement d’exploration sur le sous-domaine où il est hébergé. Si vous souhaitez contrôler l’exploration sur un autre sous-domaine, vous aurez besoin d’un nouveau fichier robots.txt, placé à la racine du sous-domaine concerné.

Par exemple, si votre site se trouve sur votre-site.com et que votre site en anglais se trouve sur en.votre-site.com , vous aurez alors besoin de deux fichiers robots.txt. L’un dans le répertoire racine du domaine principal et l’autre dans le répertoire racine du sous-domaine « en », soit « en.votre-site.com/robots.txt ».

7. Empêcher le crawl des URL paramétrées « ? »

Ceci est une pure astuce SEO, les URL paramétrées, aussi appelées URL à filtre ou encore navigation à facettes peuvent entraîner une forte contenus dupliqués de contenu. Ce qui n’est pas bon pour votre référencement.

Par exemple : « mon-site.fr/t-shirt?couleur=bleu » sera considéré comme une URL différente que mon-site.fr/t-shirt/ alors que l’utilisateur a seulement choisi la couleur bleu.

Empêcher le crawl des URL paramétrées est généralement bien plus bénéfique que négatif. Ainsi, vous pouvez inclure cette directive sur le robots.txt :

User-agent: Googlebot
Disallow: /*?

Note : « ? » n’est pas un caractère spécial du robots.txt, simplement les URL à filtre utilisent le caractère « ? ».

Vérifier son robots.txt

Pour être certain de ne pas avoir fait de bêtise, utilisez la Google Search Console afin de déterminer les potentielles erreurs dues au robots.txt
Vous retrouverez ceci dans le rapport « couverture » de la GSC. Par exemple, une URL pourrait indiquer « cette URL a été bloquée par le robots.txt ».

FAQ

Voici quelques questions fréquemment posées. Si vous avez des questions supplémentaires, faites-le savoir dans les commentaires ou pingez-moi sur Twitter (ou autre).

robots.txt pour empêcher l’indexation ?

Non, robots.txt n’empêche pas l’indexation d’une page. Si vous souhaitez désindexer une page, vous devez avant tout placer une balise noindex ou un x-robos-tag dans l’entête HTTP.
Par exemple :
Si vous faites cela, Google pourrait vous indiquer dans le rapport couverture qu’une URL est indexée mais bloquée par le fichier robots.txt.
Si vous interdisez à Google l’accès à un contenu non indexé, il ne verra jamais la directive noindex car il ne peut pas explorer la page.

Où est robots.txt dans WordPress ?

Si vous utilisez WordPress, votre robots.txt devrait être à la racine de votre site Web soit : domain.com/robots.txt .

Comment créer un robots.txt dans WordPress ?

Si vous utilisez WordPress, il sera automatiquement généré à l’installation.

Comment modifier robots.txt dans WordPress ?

Connectez-vous à votre site en FTP puis modifiez le robots.txt à la racine de votre site, probablement à l’adresse « /www/votre-site/public ». Sinon, vous pouvez utiliser Yoast SEO puis vous rendre sur « Yoast SEO → Outils → Éditeur de fichier ».

Quelle est la taille maximale d’un fichier robots.txt ?

~500 ko. Kilo-octets (ou kB en anglais)

Robots.txt et SEO : tout ce que vous devez savoir