• Google images : Googlebot-Image
  • Création de site internet
  • Consultant SEO
  • Blog
  • Contact
  • LinkedIn Link to LinkedIn Twitter Link to Twitter

    Robots.txt et SEO : tout ce que vous devez savoir

    Mis à jour le 24/11/2025 | Publié le 21/02/2022 | 0 commentaires

    Le fichier robots.txt indique aux moteurs de recherche où ils peuvent et ne peuvent pas accéder sur votre site web.

    Principalement, ce dossier répertorie tout le contenu où vous souhaitez empêcher le crawl et indexation des moteurs de recherche comme Google. Il permet également d'autoriser d'autres moteurs de recherche à explorer des pages différentes.

    Un robots.txt est-il important pour le SEO ?

    Il est clair qu'un site qui n'utilise pas de CMS et qui dispose de moins d'une dizaine de pages n'est vraiment pas important pour les robots de recherche. En revanche, pour éviter tout problème futur, je vous conseille vivement de le mettre en place pour bien diriger ces robots.

    Dans tous les cas, ce ne sera pas négatif pour votre SEO, bien au contraire.

    Voici quelques points qu'apporte un fichier robots.txt en termes d'optimisation de référencement naturel :

    • Garder des sections d'un site web privées des moteurs de recherche (par exemple, votre staging, environnement de test)
    • Empêcher l'exploration du contenu dupliqué et bloquer accès robot
    • Optimiser son budget d’exploration, crawl budget.
    • Empêcher l’exploration du contenu dupliqué

    Où trouver son robots.txt ?

    Si vous n'avez pas encore de fichier robots.txt, il est facile d'en créer un. Ouvrez simplement un document .txt et commencez à spécifier vos règles.

    Veillez à écrire à l'exactitude « robots.txt ».

    Comment créer un robots.txt ?

    Le robots.txt est un simple fichier texte, que les crawlers visitent en amont avant d'explorer vos pages. Cela leur permet également de savoir ce qu'ils ont le droit de visiter.

    Voici à quoi ressemble un robots.txt classique pour les sites WordPress :

    User-agent: *
    Disallow: /dossier

    Si vous n’avez pas encore de fichier robots.txt, il est facile d’en créer un. Ouvrez simplement un document .txt et commencez à spécifier vos directives.

    Attention, une mauvaise utilisation du robots.txt peut amener votre site au bas-fond des moteurs de recherche. Par exemple si vous empêchez le crawl de toutes les URL de votre site pour les moteurs de recherche au lieu d'autoriser indexer contenus spécifiques.

    User agents

    Chaque moteur de recherche s'identifie avec un agent utilisateur différent ou user agents en anglais. Vous pouvez définir des instructions personnalisées pour chacun d'entre eux dans votre fichier robots.txt de vos sites. Il existe des centaines de user agents, mais en voici quelques-uns utiles pour le SEO de vos sites :

    • Google : Googlebot
    • Google Images :  Googlebot-Image
    • Bing : Bingbot (nécessaire pour bloquer accès robot spécifiquement)
    • Yahoo : Slurp
    • Baidu : Baiduspider
    • DuckDuckGo : DuckDuckBot (respecte le fichier robots txt)

    Vous pouvez simplement utiliser le caractère générique étoile (*) pour attribuer des directives à tous les robots crawler qui explorent les ressources des sites.

    Par exemple, supposons que vous vouliez empêcher tous les bots, à l'exception de Googlebot, d'explorer votre site et d'affecter vos résultats de recherche. Voici comment procéder :

    User-agent: *
    Disallow: /

    Voici les règles à utiliser :
    User-agent: Googlebot
    Allow: /

    Attention, chaque fois que vous déclarez un nouvel agent utilisateur, il agit comme une table rase sur les éléments spécifiés précédemment.

    Ainsi vous indiquez ceci pour les fichiers PHP WordPress :

    User-agent: *
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php

    Les robots d’exploration comprennent que vous ne souhaitez pas qu’ils visitent le répertoire wp-admin sauf admin-ajax.php. En revanche, si vous spécifiez des directives supplémentaires uniquement pour Googlebot, il faudra de nouveau indiquer que vous ne souhaitez pas qu’ils visitent le répertoire wp-admin par exemple.

    Les directives basiques

    Les directives sont des règles que vous souhaitez voir appliquées par les agents utilisateurs spécifiés.

    Allow

    La directive « allow » permet aux moteurs de recherche d’explorer un sous-répertoire ou une page, même dans un répertoire spécifiquement interdit.

    Par exemple, si vous souhaitez ajouter des règles disallow pour empêcher tous les moteurs de recherche d'accéder à votre blog, votre fichier robots.txt pourrait contenir ces instructions :

    User-agent: *
    Disallow: /
    Allow: /blog

    Disallow

    Cette directive indique aux moteurs de recherche de ne pas accéder aux fichiers et aux pages qui ont un chemin d'accès spécifique, restrictions que vous pouvez vérifier dans Google Search Console.

    Par exemple, si vous souhaitez empêcher tous les moteurs de recherche d’accéder à votre blog, votre fichier robots.txt pourrait contenir ces instructions :

    User-agent: *
    Disallow: /blog

    sitemap (plan de sites web)

    À placer au début du robots.txt. Inclure le sitemap XML dans son « robots » permet de spécifier l'emplacement du plan de site aux crawlers. Vous n'avez pas besoin de répéter la directive sitemap plusieurs fois pour chaque agent utilisateur. Cela ne s'applique pas à un seul. Ainsi, pas besoin de le placer en dessous de « User-agent: * ».

    Sitemap: https://exemple.fr/sitemap_index.xml

    7 bonnes pratiques à adopter pour son robots.txt

    Voyons cinq bonnes pratiques du fichier robots txt pour éviter les erreurs courantes.

    1. Une ligne par directive

    Chaque directive doit être sur une nouvelle ligne.

    C'est-à-dire que vous devez également écrire comme ceci :

    User-agent: *
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php

    Et non pas l'utiliser comme cela :
    User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php

    2 Utilisez « * » pour éviter des centaines de lignes inutiles

    Le caractère « * » peut être appliqué pour tous. C'est-à-dire qu'il permet de spécifier que tous les moteurs de recherche sont concernés par les directives, mais pas que.
    Par exemple, au lieu d'inclure :

    Disallow: /products/t-shirts
    Disallow: /products/hoodies
    Disallow: /products/jackets

    Vous pouvez simplement utiliser l’astérisque :
    Disallow: /products/*

    3. Utilisez « $ » pour indiquer la fin d’une URL

    Le symbole "$" marque la fin d'une URL.

    Admettons que vous souhaitez empêcher les moteurs de recherche d'accéder à tous les fichiers .pdf de votre site, votre fichier robots.txt pourrait ressembler à ceci :

    User-agent: *
    Disallow: /*.pdf$

    Ainsi, cette directive indique aux robots que tous les PDF du site ne doivent pas être explorés.

    4. Spécifiez un user agents qu’une seule fois

    Cela paraît assez logique, mais vous ne devez pas inclure plusieurs fois le même agent.

    User-agent: Googlebot
    Disallow: /page/

    User-agent: Googlebot
    Disallow: /page-2/

    5. Soyez spécifique

    Évitez de négliger la barre oblique à la fin de vos directives.
    Par exemple « Disallow: /en » permettrait de ne pas explorer toutes les pages dans le répertoire anglais. En revanche, si vous avez une page « /enclume », la page ne sera pas explorée. Dans ce cas, il est préférable d’ajouter la barre oblique : « Disallow: /en/ »

    6. Un robots.txt par sous-domaine

    Robots.txt contrôle uniquement le comportement d’exploration sur le sous-domaine où il est hébergé. Si vous souhaitez contrôler l’exploration sur un autre sous-domaine, vous aurez besoin d’un nouveau fichier robots.txt, placé à la racine du sous-domaine concerné.

    Par exemple, si votre site se trouve sur votre-site.com et que votre site en anglais se trouve sur en.votre-site.com , vous aurez alors besoin de deux fichiers robots.txt. L’un dans le répertoire racine du domaine principal et l’autre dans le répertoire racine du sous-domaine « en », soit « en.votre-site.com/robots.txt ».

    7. Empêcher le crawl des URL paramétrées « ? »

    Ceci est une pure astuce SEO, les URL paramétrées, aussi appelées URL à filtre ou encore navigation à facettes peuvent entraîner une forte contenus dupliqués de contenu. Ce qui n’est pas bon pour votre référencement.

    Par exemple : « mon-site.fr/t-shirt?couleur=bleu » sera considéré comme une URL différente que mon-site.fr/t-shirt/ alors que l’utilisateur a seulement choisi la couleur bleu.

    Empêcher le crawl des URL paramétrées est généralement bien plus bénéfique que négatif. Ainsi, vous pouvez inclure cette directive sur le robots.txt :

    User-agent: Googlebot
    Disallow: /*?

    Note : « ? » n’est pas un caractère spécial du robots.txt, simplement les URL à filtre utilisent le caractère « ? ».

    Vérifier son robots.txt

    Pour être certain de ne pas avoir fait de bêtise, utilisez la Google Search Console afin de déterminer les potentielles erreurs dues au robots.txt
    Vous retrouverez ceci dans le rapport « couverture » de la GSC. Par exemple, une URL pourrait indiquer « cette URL a été bloquée par le robots.txt ».

    FAQ

    Voici quelques questions fréquemment posées. Si vous avez des questions supplémentaires, faites-le savoir dans les commentaires ou pingez-moi sur Twitter (ou autre).

    robots.txt pour empêcher l’indexation ?

    Non, robots.txt n’empêche pas l’indexation d’une page. Si vous souhaitez désindexer une page, vous devez avant tout placer une balise noindex ou un x-robos-tag dans l’entête HTTP.
    Par exemple :
    Si vous faites cela, Google pourrait vous indiquer dans le rapport couverture qu’une URL est indexée mais bloquée par le fichier robots.txt.
    Si vous interdisez à Google l’accès à un contenu non indexé, il ne verra jamais la directive noindex car il ne peut pas explorer la page.

    Où est robots.txt dans WordPress ?

    Si vous utilisez WordPress, votre robots.txt devrait être à la racine de votre site Web soit : domain.com/robots.txt .

    Comment créer un robots.txt dans WordPress ?

    Si vous utilisez WordPress, il sera automatiquement généré à l’installation.

    Comment modifier robots.txt dans WordPress ?

    Connectez-vous à votre site en FTP puis modifiez le robots.txt à la racine de votre site, probablement à l’adresse « /www/votre-site/public ». Sinon, vous pouvez utiliser Yoast SEO puis vous rendre sur « Yoast SEO → Outils → Éditeur de fichier ».

    Quelle est la taille maximale d’un fichier robots.txt ?

    ~500 ko. Kilo-octets (ou kB en anglais)

    Auteur

    Stan De Jesus Oliveira
    Propriétaire et fondateur de createur2site

    Stan De Jesus Oliveira est le propriétaire de createur2site, il accompagne les entreprises dans leur création de site web, le Web Design et le référencement naturel SEO.

    0 commentaires

    Soumettre un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *