LinkedIn Link to LinkedIn Twitter Link to Twitter

Robots.txt et SEO : tout ce que vous devez savoir

Mis à jour le 09/08/2022 | Publié le 21/02/2022 | 0 commentaires

Le fichier texte robots.txt indique aux moteurs de recherche où ils peuvent et ne peuvent pas accéder sur votre site web.

Principalement, il répertorie tout le contenu où vous souhaitez empêcher le crawl des moteurs de recherche comme Google. Il est également possible d’indiquer à d’autres moteurs de recherche d’explorer des pages différentes.

Un robots.txt est-il important pour le SEO ?

Il est clair qu’un site qui n’utilise pas de CMS et qui dispose de moins d’une dizaine de pages n’est vraiment pas important. En revanche, pour éviter tout problème futur, je vous conseille vivement de le mettre en place.

Dans tous les cas, ce ne sera pas négatif pour votre SEO, bien au contraire.

Voici quelques points qu’apporte un robots.txt en termes d’optimisation de référencement naturel :

  • Garder des sections d'un site web privées (par exemple, votre staging, environnement de test)
  • Empêcher l'exploration d’un moteur de recherche interne
  • Optimiser son budget d'exploration, crawl budget.
  • Empêcher l'exploration du contenu dupliqué

Où trouver son robots.txt ?

Si vous avez déjà un fichier robots.txt ou que vous souhaitez le créer, placez-le à la racine de votre site, soit : https://votre-site.fr/robots.txt

Veillez à écrire à l’exactitude « robots.txt ».

Comment créer un robots.txt ?

Le robots.txt est un simple fichier texte, que les crawlers visitent en amont avant d’explorer vos pages. Cela leur permet de savoir ce qu’ils ont le droit de visiter.

Voici à quoi ressemble un robots.txt classique pour les sites WordPress :

Sitemap: https://createur2site.fr/sitemap_index.xml
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Si vous n'avez pas encore de fichier robots.txt, il est facile d'en créer un. Ouvrez simplement un document .txt et commencez à spécifier vos directives.

Attention, une mauvaise utilisation du robots.txt peut amener votre site au bas-fond des moteurs de recherche. Par exemple si vous empêcher le crawl de toutes les URL de votre site pour les moteurs de recherche.

User agents

Chaque moteur de recherche s'identifie avec un agent utilisateur différent ou user agents en anglais. Vous pouvez définir des instructions personnalisées pour chacun d'entre eux dans votre fichier robots.txt. Il existe des centaines de user agents, mais en voici quelques-uns utiles pour le SEO :

  • Google : Googlebot
  • Google Images :  Googlebot-Image
  • Bing : Bingbot
  • Yahoo : Slurp
  • Baidu : Baiduspider
  • DuckDuckGo :  DuckDuckBot

Vous pouvez simplement utiliser le caractère générique étoile (*) pour attribuer des directives à tous les robots crawler.

Par exemple, supposons que vous vouliez empêcher tous les bots, à l'exception de Googlebot, d'explorer votre site. Voici comment procéder :

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Attention, chaque fois que vous déclarez un nouvel agent utilisateur, il agit comme une table rase sur les éléments spécifiés précédemment.

Ainsi vous indiquez ceci :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Les robots d’exploration comprennent que vous ne souhaitez pas qu’ils visitent le répertoire wp-admin sauf admin-ajax.php. En revanche, si vous spécifiez des directives supplémentaires uniquement pour Googlebot, il faudra de nouveau indiquer que vous ne souhaitez pas qu’ils visitent le répertoire wp-admin par exemple.

Les directives basiques

Les directives sont des règles que vous souhaitez voir appliquées par les agents utilisateurs spécifiés.

Allow

La directive « allow » permet aux moteurs de recherche d'explorer un sous-répertoire ou une page, même dans un répertoire spécifiquement interdit.

Par exemple, si vous souhaitez empêcher les moteurs de recherche d'accéder à toutes les pages de votre site sauf votre blog, votre fichier robots.txt pourrait ressembler à ceci :

User-agent: *
Disallow: /
Allow: /blog

Disallow

Cette directive indique aux moteurs de recherche de ne pas accéder aux fichiers et aux pages qui ont un chemin d’accès spécifique.

Par exemple, si vous souhaitez empêcher tous les moteurs de recherche d'accéder à votre blog, votre fichier robots.txt pourrait contenir ces instructions :

User-agent: *
Disallow: /blog

sitemap (plan de site)

À placer au début du robots.txt. Inclure le sitemap dans son « robots » permet de spécifier l’emplacement du plan de site aux crawlers. Vous n'avez pas besoin de répéter la directive sitemap plusieurs fois pour chaque agent utilisateur. Cela ne s'applique pas à un seul. Ainsi, pas besoin de le placer en dessous de « User-agent: * ».

Sitemap: https://exemple.fr/sitemap_index.xml

7 bonnes pratiques à adopter pour son robots.txt

Voyons cinq bonnes pratiques pour éviter les erreurs courantes.

1. Une ligne par directive

Chaque directive doit être sur une nouvelle ligne.

C’est-à-dire que vous devez écrire comme ceci :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Et non comme cela :
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php

2 Utilisez « * » pour éviter des centaines de lignes inutiles

Le caractère « * » peut être appliqué pour tous. C’est-à-dire qu’il permet de spécifier que tous les moteurs de recherche sont concernés par les directives, mais pas que.
Par exemple, au lieu d’inclure :

Disallow: /products/t-shirts
Disallow: /products/hoodies
Disallow: /products/jackets

Vous pouvez simplement utiliser l’astérisque :
Disallow: /products/*

3. Utilisez « $ » pour indiquer la fin d’une URL

Le symbole "$" marque la fin d'une URL.

Admettons que vous souhaitez empêcher les moteurs de recherche d'accéder à tous les fichiers .pdf de votre site, votre fichier robots.txt pourrait ressembler à ceci :

User-agent: *
Disallow: /*.pdf$

Ainsi, cette directive indique aux robots que tous les PDF du site ne doivent pas être explorés.

4. Spécifiez un user agents qu’une seule fois

Cela paraît assez logique, mais vous ne devez pas inclure plusieurs fois le même agent.

User-agent: Googlebot
Disallow: /page/

User-agent: Googlebot
Disallow: /page-2/

5. Soyez spécifique

Évitez de négliger la barre oblique à la fin de vos directives.
Par exemple « Disallow: /en » permettrait de ne pas explorer toutes les pages dans le répertoire anglais. En revanche, si vous avez une page « /enclume », la page ne sera pas explorée. Dans ce cas, il est préférable d’ajouter la barre oblique : « Disallow: /en/ »

6. Un robots.txt par sous-domaine

Robots.txt contrôle uniquement le comportement d'exploration sur le sous-domaine où il est hébergé. Si vous souhaitez contrôler l'exploration sur un autre sous-domaine, vous aurez besoin d'un nouveau fichier robots.txt, placé à la racine du sous-domaine concerné.

Par exemple, si votre site se trouve sur votre-site.com et que votre site en anglais se trouve sur en.votre-site.com , vous aurez alors besoin de deux fichiers robots.txt. L'un dans le répertoire racine du domaine principal et l'autre dans le répertoire racine du sous-domaine « en », soit « en.votre-site.com/robots.txt ».

7. Empêcher le crawl des URL paramétrées « ? »

Ceci est une pure astuce SEO, les URL paramétrées, aussi appelées URL à filtre ou encore navigation à facettes peuvent entraîner une forte duplication de contenu. Ce qui n’est pas bon pour votre référencement.

Par exemple : « mon-site.fr/t-shirt?couleur=bleu » sera considéré comme une URL différente que mon-site.fr/t-shirt/ alors que l’utilisateur a seulement choisi la couleur bleu.

Empêcher le crawl des URL paramétrées est généralement bien plus bénéfique que négatif. Ainsi, vous pouvez inclure cette directive sur le robots.txt :

User-agent: Googlebot
Disallow: /*?

Note : « ? » n’est pas un caractère spécial du robots.txt, simplement les URL à filtre utilisent le caractère « ? ».

Vérifier son robots.txt

Pour être certain de ne pas avoir fait de bêtise, utilisez la Google Search Console afin de déterminer les potentielles erreurs dues au robots.txt
Vous retrouverez ceci dans le rapport « couverture » de la GSC. Par exemple, une URL pourrait indiquer « cette URL a été bloquée par le robots.txt ».

FAQ

Voici quelques questions fréquemment posées. Si vous avez des questions supplémentaires, faites-le savoir dans les commentaires ou pingez-moi sur Twitter (ou autre).

robots.txt pour empêcher l’indexation ?

Non, robots.txt n’empêche pas l’indexation d’une page. Si vous souhaitez désindexer une page, vous devez avant tout placer une balise no-index ou un x-robos-tag dans l’entête HTTP.
Par exemple :
Si vous faites cela, Google pourrait vous indiquer dans le rapport couverture qu’une URL est indexée mais bloquée par le fichier robots.txt.
Si vous interdisez à Google l’accès à un contenu non indexé, il ne verra jamais la directive noindex car il ne peut pas explorer la page.

Où est robots.txt dans WordPress ?

Si vous utilisez WordPress, votre robots.txt devrait être à la racine de votre site Web soit : domain.com/robots.txt .

Comment créer un robots.txt dans WordPress ?

Si vous utilisez WordPress, il sera automatiquement généré à l’installation.

Comment modifier robots.txt dans WordPress ?

Connectez-vous à votre site en FTP puis modifiez le robots.txt à la racine de votre site, probablement à l’adresse « /www/votre-site/public ». Sinon, vous pouvez utiliser Yoast SEO puis vous rendre sur « Yoast SEO → Outils → Éditeur de fichier ».

Quelle est la taille maximale d'un fichier robots.txt ?

~500 ko. Kilo-octets (ou kB en anglais)

Auteur

Stan De Jesus Oliveira
Propriétaire et fondateur de createur2site

Stan De Jesus Oliveira est le propriétaire de createur2site, il accompagne les entreprises dans leur création de site web, le Web Design et le référencement naturel SEO.

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée.