FRFAM.COM >> Famille >> Technologie &Innovation >> Informatique

Guide complet : Configurer correctement votre fichier robots.txt

Si vous gérez un site web, le fichier robots.txt est un élément essentiel à connaître. Ce simple fichier texte, également appelé norme d'exclusion des robots, joue un rôle crucial dans l'optimisation de votre site. Souvent sous-estimé, il influence directement le crawling par les moteurs de recherche.

Découvrons ce qu'est un fichier robots.txt, son rôle et comment le configurer de manière optimale pour votre site.

Qu'est-ce qu'un fichier robots.txt ?

Pour bien comprendre le fonctionnement d'un fichier robots.txt, il faut se pencher sur les moteurs de recherche. Ceux-ci déploient des "crawlers" (ou robots d'exploration), des programmes automatisés qui parcourent le web pour collecter des données. Ces informations sont ensuite indexées pour répondre aux requêtes des utilisateurs.

Ces bots, aussi appelés "araignées", visitent des milliards de pages. Les moteurs de recherche leur indiquent les priorités, mais les propriétaires de sites peuvent guider ces robots en précisant les pages à explorer ou à ignorer.

Typiquement, robots.txt sert à bloquer l'accès à des zones sensibles comme les pages d'administration, les backends, les catégories ou tags indésirables. Ces pages restent accessibles aux utilisateurs autorisés, mais ne polluent pas les résultats de recherche.

Imaginez rechercher "MakeUseOf" : personne ne souhaite voir nos pages admin en tête de résultats. Robots.txt évite cela et optimise le référencement en excluant les contenus non pertinents.

En résumé, robots.txt guide les robots d'indexation sur ce qu'ils doivent faire.

Les robots peuvent-ils ignorer robots.txt ?

Oui, certains robots ignorent les instructions de robots.txt. Cela concerne principalement les bots malveillants (spammeurs, scrapeurs d'emails), non les moteurs de recherche légitimes comme Google ou Bing.

Attention : robots.txt n'est pas une mesure de sécurité. Il ne protège pas contre les accès non autorisés ; certains bots malveillants ciblent précisément les pages interdites.

Les moteurs de recherche respectent scrupuleusement un fichier bien formaté.

Comment rédiger un fichier robots.txt

Un fichier robots.txt standard comprend plusieurs directives. Décomposons-les.

Déclaration de l'agent utilisateur

Avant d'interdire des pages, identifiez le bot concerné. Pour tous les bots :

User-agent: *

L'astérisque (*) cible tous les bots. Pour des bots spécifiques (ex. : Googlebot), listez-les :

User-agent: Googlebot
Disallow: [pages à bloquer]
User-agent: Googlebot-Image
Disallow: [pages à bloquer]
User-agent: Bingbot
Disallow: [pages à bloquer]

Pour bloquer un bot entier : spécifiez-le et ajoutez Disallow: /.

Consultez des bases comme useragentstring.com (bien que ce site ne soit plus disponible) pour les noms d'agents.

Interdire des pages

Directive principale : Disallow. Exemple pour un répertoire admin :

Disallow: /admin/

Isso bloque votresite.com/admin et ses sous-pages.

Pour une page unique :

Disallow: /public/exception.html

Pour plusieurs :

Disallow: /prive/
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /temp/

Pour bloquer tout le site :

Disallow: /

Règles spécifiques par bot

Exemple combiné :

User-agent: Googlebot
Disallow: /admin/
Disallow: /prive/
User-agent: Bingbot
Disallow: /admin/
Disallow: /prive/
Disallow: /secret/

Google ignore /secret/, pas Bing. Utilisez * pour les règles générales, puis surcharger pour bots spécifiques.

Assembler le fichier

Utilisez un éditeur comme Sublime Text. Testez sur d'autres sites : ajoutez /robots.txt à leur URL. Exemple Giant Bicycles :

Guide complet : Configurer correctement votre fichier robots.txt

De nombreuses exclusions et directives avancées.

Indiquer votre sitemap

Robots.txt bloque ; le sitemap guide vers les pages importantes :

Sitemap: [URL du sitemap]

Exemple : Sitemap: https://www.makeuseof.com/sitemap_index.xml

Définir un délai d'exploration

Crawl-delay limite la fréquence (en secondes) pour préserver la bande passante sur sites à fort trafic.

Crawl-delay: 8

Non supporté par tous les moteurs, mais utile pour Google, Bing.

Téléverser le fichier

Nommez-le robots.txt (texte brut), placez-le à la racine : votresite.com/robots.txt.

Pour CMS comme WordPress, suivez la doc spécifique ou utilisez plugins/interfaces dédiées.

Mettez à jour régulièrement

Vérifiez périodiquement : site évolue, trafic change. Surveillez les standards (ex. via Google Search Console).

Quelles pages bloquez-vous ? Impact sur trafic ? Partagez en commentaires !


[]