Si vous gérez un site web, le fichier robots.txt est un élément essentiel à connaître. Ce simple fichier texte, également appelé norme d'exclusion des robots, joue un rôle crucial dans l'optimisation de votre site. Souvent sous-estimé, il influence directement le crawling par les moteurs de recherche.
Découvrons ce qu'est un fichier robots.txt, son rôle et comment le configurer de manière optimale pour votre site.
Pour bien comprendre le fonctionnement d'un fichier robots.txt, il faut se pencher sur les moteurs de recherche. Ceux-ci déploient des "crawlers" (ou robots d'exploration), des programmes automatisés qui parcourent le web pour collecter des données. Ces informations sont ensuite indexées pour répondre aux requêtes des utilisateurs.
Ces bots, aussi appelés "araignées", visitent des milliards de pages. Les moteurs de recherche leur indiquent les priorités, mais les propriétaires de sites peuvent guider ces robots en précisant les pages à explorer ou à ignorer.
Typiquement, robots.txt sert à bloquer l'accès à des zones sensibles comme les pages d'administration, les backends, les catégories ou tags indésirables. Ces pages restent accessibles aux utilisateurs autorisés, mais ne polluent pas les résultats de recherche.
Imaginez rechercher "MakeUseOf" : personne ne souhaite voir nos pages admin en tête de résultats. Robots.txt évite cela et optimise le référencement en excluant les contenus non pertinents.
En résumé, robots.txt guide les robots d'indexation sur ce qu'ils doivent faire.
Oui, certains robots ignorent les instructions de robots.txt. Cela concerne principalement les bots malveillants (spammeurs, scrapeurs d'emails), non les moteurs de recherche légitimes comme Google ou Bing.
Attention : robots.txt n'est pas une mesure de sécurité. Il ne protège pas contre les accès non autorisés ; certains bots malveillants ciblent précisément les pages interdites.
Les moteurs de recherche respectent scrupuleusement un fichier bien formaté.
Un fichier robots.txt standard comprend plusieurs directives. Décomposons-les.
Avant d'interdire des pages, identifiez le bot concerné. Pour tous les bots :
User-agent: *L'astérisque (*) cible tous les bots. Pour des bots spécifiques (ex. : Googlebot), listez-les :
User-agent: Googlebot
Disallow: [pages à bloquer]
User-agent: Googlebot-Image
Disallow: [pages à bloquer]
User-agent: Bingbot
Disallow: [pages à bloquer]Pour bloquer un bot entier : spécifiez-le et ajoutez Disallow: /.
Consultez des bases comme useragentstring.com (bien que ce site ne soit plus disponible) pour les noms d'agents.
Directive principale : Disallow. Exemple pour un répertoire admin :
Disallow: /admin/Isso bloque votresite.com/admin et ses sous-pages.
Pour une page unique :
Disallow: /public/exception.htmlPour plusieurs :
Disallow: /prive/
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /temp/Pour bloquer tout le site :
Disallow: /Exemple combiné :
User-agent: Googlebot
Disallow: /admin/
Disallow: /prive/
User-agent: Bingbot
Disallow: /admin/
Disallow: /prive/
Disallow: /secret/Google ignore /secret/, pas Bing. Utilisez * pour les règles générales, puis surcharger pour bots spécifiques.
Utilisez un éditeur comme Sublime Text. Testez sur d'autres sites : ajoutez /robots.txt à leur URL. Exemple Giant Bicycles :

De nombreuses exclusions et directives avancées.
Robots.txt bloque ; le sitemap guide vers les pages importantes :
Sitemap: [URL du sitemap]Exemple : Sitemap: https://www.makeuseof.com/sitemap_index.xml
Crawl-delay limite la fréquence (en secondes) pour préserver la bande passante sur sites à fort trafic.
Crawl-delay: 8Non supporté par tous les moteurs, mais utile pour Google, Bing.
Nommez-le robots.txt (texte brut), placez-le à la racine : votresite.com/robots.txt.
Pour CMS comme WordPress, suivez la doc spécifique ou utilisez plugins/interfaces dédiées.
Vérifiez périodiquement : site évolue, trafic change. Surveillez les standards (ex. via Google Search Console).
Quelles pages bloquez-vous ? Impact sur trafic ? Partagez en commentaires !