C’est quoi le robots.txt et comment le créer pour son site ?

SOMMAIRE
5 mars 2026

Le fichier robots.txt est l’un des outils fondamentaux du SEO technique. Sur votre site web, vous l’avez peut-être généré automatiquement via un plugin ou créé manuellement sans même comprendre les instructions que vous y incluez. Dans cet article, je vous invite donc à le découvrir, à créer et à mettre les instructions.

Pourquoi créer un fichier robots.txt en seo sur son site

Qu’est-ce que le fichier robots.txt ?

Le fichier robots.txt est un petit fichier texte placé à la racine de votre site Internet. Sa mission est de donner des instructions aux robots d’indexation des moteurs de recherche, comme Googlebot, Bingbot, ou encore le spider de Yandex.

Concrètement, ce fichier permet d’indiquer aux crawlers quelles pages web ils peuvent explorer et lesquelles ils doivent ignorer. C’est un outil de communication direct entre vous et les bots qui scannent votre site.

Le robots.txt fonctionne selon un protocole appelé « Robots Exclusion Protocol ». Tous les robots des moteurs de recherche sérieux le respectent, même si techniquement, rien ne les y oblige. C’est une convention du web que tout webmaster devrait connaître.

Ce fichier est accessible publiquement à l’adresse votredomaine.com/robots.txt. N’importe qui peut le consulter, y compris vos concurrents. C’est pourquoi il ne faut jamais l’utiliser pour cacher du contenu sensible, car vous indiqueriez justement où se trouvent les zones que vous ne souhaitez pas indexer.

Comment fonctionne le fichier robots.txt ?

Le fichier robots.txt utilise une syntaxe très simple, composée de quelques directives essentielles. Comprendre ces éléments vous permettra de créer un fichier efficace pour votre référencement naturel.

Le User-Agent pour cibler les robots

La directive User-agent définit à quel robot vous vous adressez. Chaque moteur de recherche utilise son propre bot avec un nom spécifique.

Vous pouvez cibler un robot en particulier :

  • User-agent: Googlebot pour le robot de Google
  • User-agent: Bingbot pour celui de Bing
  • User-agent: GPTBot pour celui des IA d’OpenAI
  • User-agent: * pour parler à tous les robots sans distinction

Cette flexibilité est pratique lorsque vous souhaitez appliquer des règles différentes selon les crawlers. Par exemple, vous pourriez autoriser Googlebot à tout explorer, mais limiter l’accès d’autres bots moins importants pour économiser votre bande passante.

Les règles Allow et Disallow pour autoriser ou bloquer

Les directives Allow et Disallow sont le cœur du fichier. Elles indiquent les chemins que les robots peuvent explorer ou ne peuvent pas explorer.

La syntaxe Disallow: bloque l’accès à certaines URL ou répertoires :

  • Disallow: /admin/ empêche l’exploration du dossier admin
  • Disallow: /*.pdf$ bloque tous les fichiers PDF
  • Disallow: / interdit l’intégralité du site

À l’inverse, Allow: autorise explicitement l’accès, particulièrement utile pour créer des exceptions à une règle qui bloque.

Si vous bloquez /wp-admin/ mais voulez autoriser /wp-admin/admin-ajax.php, vous écrirez :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

L’ordre des directives compte : les règles les plus spécifiques doivent apparaître en premier.

Le Crawl-Delay pour ralentir les robots d’exploration

La directive Crawl-delay indique aux bots combien de secondes attendre entre deux requêtes sur votre site. Elle s’écrit simplement Crawl-delay: 10 pour imposer un délai de 10 secondes.

Cette instruction protège votre serveur web d’une charge excessive lorsque les robots explorent des centaines de pages. Si votre hébergement a des ressources limitées, c’est une sécurité utile.

Sur mon propre site, par exemple, je n’ai pas inclus le crawl delay car mon hébergeur a assez de ressources pour supporter le passage des robots sans limite. Mon infrastructure peut gérer plusieurs crawls simultanés sans ralentissement.

Toutefois, Googlebot n’obéit pas à cette directive, c’est aussi une autre raison pour laquelle je ne l’ai pas mise. Google préfère gérer lui-même la vitesse d’exploration via la Google Search Console. En revanche, d’autres moteurs comme Bing ou Yandex respectent davantage cette directive.

Le Sitemap pour faciliter l’indexation

L’inclusion de votre sitemap XML dans le robots.txt accélère la découverte de vos contenus. La syntaxe est directe : Sitemap: https://votresite.com/sitemap.xml

Le sitemap est un plan du site qui liste toutes vos URLs importantes avec des métadonnées comme la date de dernière modification. En l’indiquant dans le robots.txt, vous aidez les moteurs de recherche à trouver rapidement vos nouvelles pages.

Vous pouvez déclarer plusieurs sitemaps si votre site en génère plusieurs (un pour les articles, un pour les produits e-commerce, etc.). Chaque ligne Sitemap: pointe vers un fichier XML sitemap différent.

Personnellement, je n’ai mis que le lien de l’index du sitemap, étant donné que celui-ci liste déjà tous les sous-sitemaps.

Quel est le rôle du fichier robots.txt sur le SEO d’un site web ?

Le fichier robots.txt joue un rôle stratégique dans votre référencement. Bien configuré, il optimise la façon dont les moteurs de recherche explorent et indexent votre site Internet. J’attire votre attention sur « explorent et indexent » car ce fichier ne vous fera pas passer en première page sur la SERP.

Contrôler le budget de crawl

Le budget de crawl représente le nombre de pages que Google accepte d’explorer sur votre site lors d’une session. Ce budget n’est pas illimité, particulièrement pour les sites de taille moyenne.

En bloquant les pages inutiles (admin, scripts, résultats de recherche internes), vous concentrez ce précieux budget sur vos contenus importants. Les robots passeront plus de temps sur vos pages à forte valeur ajoutée.

Pour un site WordPress, bloquer par exemple /wp-admin/ permet d’éviter que Googlebot ne perde du temps sur des fichiers techniques sans intérêt pour le référencement. Votre page d’accueil et vos articles bénéficient ainsi de plus d’attention.

Cette optimisation est d’autant plus pertinente pour les gros catalogues e-commerce ou les sites générant des URLs dynamiques. Vous évitez que le crawler se perde dans des milliers de pages de pagination ou de filtres. Cela évite donc de tomber dans un spider trap.

Éviter l’indexation de contenu dupliqué

Le duplicate content nuit à votre positionnement dans les résultats de recherche. Le robots.txt aide à prévenir ce problème en empêchant l’exploration de pages similaires ou dupliquées.

Les paramètres d’URL comme ?sort=price ou ?filter=color génèrent souvent du contenu identique avec des adresses différentes. Bloquer ces paramètres via le robots.txt évite que Google n’indexe 50 versions de la même page produit.

Les tags et les catégories sur WordPress créent aussi de la duplication. Si un article apparaît dans trois catégories, il est accessible via trois URLs distinctes. Le fichier robots.txt peut bloquer certaines taxonomies pour conserver une seule URL canonique indexée.

Pour moi, cette stratégie n’est pas la meilleure quand il s’agit de lutter contre la duplication de contenus en interne. L’idéal est d’utiliser les balises canonical et la balise meta robots pour mieux indiquer la bonne URL à indexer.

Préservez la sécurité et la confidentialité

Certains répertoires ne doivent jamais apparaître dans l’index de recherche. Les dossiers d’administration, les fichiers de configuration ou les pages de test contiennent parfois des informations sensibles. Par exemple, je ne souhaite en aucun cas que mon site en staging soit indexé.

Donc, bloquer /admin/, /config/ ou /test/ empêche ces URLs de se retrouver dans Google. Même si ces zones sont protégées par authentification, leur simple présence dans les résultats de recherche peut alerter des personnes malveillantes.

Les sites e-commerce sous Prestashop ou Magento ont de nombreux dossiers techniques à protéger. Le fichier texte robots.txt constitue ainsi une première barrière de sécurité, même s’il ne remplace pas une vraie politique de sécurisation.

Comment créer un robots.txt et l’ajouter à son site ?

Le guide pour créer un fichier robots.txt en seo

Créer un fichier robots.txt est techniquement simple. La complexité réside plutôt dans le choix des règles adaptées à votre situation.

La première étape consiste à créer un nouveau fichier texte avec un éditeur basique (Notepad sous Windows, TextEdit sur Mac). Le nom doit être exactement robots.txt, tout en minuscules. Il est recommandé d’utiliser l’encodage UTF-8 pour éviter tout problème de caractères.

Ensuite, rédigez vos directives en suivant la syntaxe que nous avons vue. Commencez simplement avec les règles essentielles, puis affinez progressivement.

Par exemple, le contenu de mon fichier robots.txt de mon site, accessible à l’adresse https://romariconel.com/robots.txt, est le suivant :

User-agent: *
Disallow: /wp-admin/
Disallow: /cdn-cgi/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://romariconel.com/sitemap_index.xml

Une fois le fichier prêt, téléversez-le via FTP à la racine de votre domaine. Il doit être accessible à https://votredomaine.com/robots.txt. Ne le placez jamais dans un sous-dossier, car les robots ne pourraient pas le trouver.

Sur WordPress, plusieurs plugins, tels que Yoast SEO ou All in One SEO, intègrent un éditeur de robots.txt directement dans le tableau de bord. Vous modifiez le fichier depuis l’interface d’administration sans toucher au serveur. Cette méthode est plus conviviale pour les débutants.

Après la mise en ligne, testez votre fichier avec l’outil de test robots.txt de Google Search Console. Il simule le comportement de Googlebot et détecte les erreurs de syntaxe. Bing Webmaster Tools offre un simulateur similaire.

Vérifiez aussi que votre fichier est bien accessible en tapant votre URL suivie de /robots.txt dans un navigateur. Le contenu doit s’afficher en texte brut.

Quelles sont les erreurs lors de la création du fichier robots.txt et comment les corriger ?

Deux erreurs reviennent fréquemment lors de la configuration du fichier robots.txt. Elles peuvent nuire gravement à votre indexation si vous ne les repérez pas rapidement. D’ailleurs, n’hésitez pas à commenter le contenu de votre fichier si vous avez des doutes.

Bloquer tout le site par inadventance

L’erreur la plus catastrophique consiste à écrire simplement :

User-agent: *
Disallow: /

Cette configuration bloque l’intégralité du site. Aucune page ne sera explorée ni indexée. Votre trafic organique s’effondrera en quelques semaines, le temps que vos pages disparaissent progressivement des résultats de recherche.

Ce blocage survient souvent lors d’une migration de site. Les développeurs copient souvent le robots.txt de l’environnement de développement (où tout est bloqué volontairement) vers la production, et oublient de le modifier.

Pour corriger cette erreur, modifiez immédiatement le fichier en retirant ou en commentant la ligne Disallow: /. Remplacez-la par vos véritables directives. Ensuite, soumettez rapidement votre sitemap via Google Search Console et Bing Webmaster pour accélérer la réindexation.

Utilisez l’outil « Inspection d’URL » dans la console Google pour demander l’exploration de vos pages importantes. Le robot de Google reviendra plus vite que si vous attendez son prochain crawl naturel.

Bloquer des ressources essentielles au rendu

Google a besoin d’accéder aux fichiers CSS et JavaScript pour comprendre comment vos pages s’affichent. Bloquer ces ressources empêche le moteur d’évaluer correctement votre contenu et peut impacter votre ranking.

Cette erreur classique apparaît avec des règles trop larges comme :

Disallow: /wp-content/

Cette directive bloque tous les fichiers du dossier wp-content, y compris les feuilles de style et les scripts de votre thème. Googlebot voit une page cassée, ce qui dégrade l’expérience et potentiellement votre positionnement.

La solution consiste à préciser vos exclusions. Bloquez uniquement les sous-dossiers inutiles :

Disallow: /wp-content/uploads/private/
Allow: /wp-content/themes/
Allow: /wp-content/plugins/

Google Search Console signale les erreurs de chargement de ressources dans la section « Couverture ». Si vous voyez des avertissements sur des fichiers CSS ou JS bloqués, vérifiez votre robots.txt immédiatement.

L’outil de test robots.txt montre aussi quelles URLs sont bloquées. Testez les chemins vers vos fichiers de style et de script pour vous assurer qu’ils restent accessibles.

Conclusion

En conclusion, le fichier robots.txt est un simple fichier au format texte disposé à la racine du site, qui donne des instructions aux différents robots des moteurs de recherche. Il vous donne la possibilité de personnaliser vos consignes selon le robot, selon le répertoire du site et également selon la capacité de votre bande passante.

FOIRE AUX QUESTIONS

Avez-vous une question sur le fichier robots.txt en SEO ? Je vous réponds dans cette section.

Robots.txt generator : comment générer un fichier robots.txt pour son site ?

Il existe plusieurs outils en ligne pour vous aider à générer automatiquement votre fichier robots.txt. Mais si votre site est sous WordPress, vous disposez de nombreux plugins qui vous permettent de créer le fichier directement depuis votre tableau de bord du site.

Robots.txt : c’est quoi ?

Le fichier robots.txt est un fichier texte qui permet de donner des instructions aux robots d’exploration des moteurs de recherche. Il permet de spécifier les pages à explorer et indexer ou non.

Robots.txt WordPress : comment le générer automatiquement ?

Sur WordPress, il existe de nombreuses extensions parmi lesquelles RankMath, Yoast SEO ou All In One SEO pour vous aider à générer votre fichier robots.txt automatiquement et à le placer directement à la racine.

Comment avoir un exemple de robots.txt ?

Si vous recherchez un exemple de fichier robots.txt, rendez-vous à l’adresse https://romariconel.com/robots.txt, vous y trouverez le mien. Il ne vous reste plus qu’à le personnaliser selon votre site.

Catégories du blog 📑

Téléchargez mon livre SEO gratuit 📥

SNIPE TON SEO
Nom & Prénoms
Nom & Prénoms

Pages Importantes du site 🎯

Romaric Onel Hounsinou

Salut, je suis Romaric Onel, consultant SEO freelance. J’aide les entrepreneurs et les agences à augmenter le trafic organique de leurs sites sans dépenser un centime en publicités.

Depuis début 2025, je partage sur mon site romariconel.com des tutoriels et des guides SEO qui fonctionnent réellement.

Mon but est de vous aider à vous positionner sur les requêtes stratégiques de votre niche pour générer du chiffre d’affaires, sans dépendre des publicités.

N’hésitez pas à me contacter via mes réseaux sociaux ou le formulaire de contact sur mon site.

Partagez l'article sur...

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *


Pour aller plus loin...

C'est quoi la taxonomie sur un site web

Le terme est un peu rare, voire devenu inexistant, mais sachez que lors de la

Comment devenir un rédacteur web seo

La rédaction web est devenue un métier en vogue ces dernières années. Elle ne nécessite

C'est quoi le negative seo et quelles sont ces conséquences ?

En SEO, on n’est jamais à l’abri des attaques de la concurrence. Celle-ci, dans le

Quelles sont les différences entre le seo et le sea et que chosir

Pour référencer un site sur Google, deux méthodes s’offrent à vous : le référencement naturel

C'est quoi le spider trap sur un site et comment éviter

Lorsqu’on est webmaster, il arrive que l’on commette certaines erreurs sur son site qui ruinent

C'est quoi le hotlinking en seo

Savez-vous que le vol de propriété intellectuelle sur votre site peut très rapidement être retourné

Que sont les attributs de liens en seo

Si pour les internautes, les textes cliquables ne sont que de simples liens, pour les

Quels sont les avantages du référencement naturel

Généralement, lorsqu’on cherche à référencer notre site, le premier conseil qu’on nous donne est d’optimiser

Quelles sont les erreurs seo à éviter

En référencement naturel, il existe certaines erreurs que vous ne devez en aucun cas commettre

Que sont les taux de clics sur un site et comment les augmenter

L’un des meilleurs indicateurs pour mesurer l’efficacité d’une stratégie SEO est le nombre de clics

C'est quoi le sitemap ou plan du site

Un des éléments fondamentaux du SEO technique est le sitemap. Il s’agit d’un fichier qui

C'est quoi le cocon sémantique en SEO ?

Pour mieux positionner son site web sur des requêtes stratégiques afin de convertir ses visiteurs

Retour en haut