Si vous exploitez un site Web, vous avez probablement entendu parler d'un fichier robots.txt (ou de la "norme d'exclusion des robots"). Que vous en ayez ou non, il est temps de vous renseigner, car ce simple fichier texte est un élément crucial de votre site. Cela peut sembler insignifiant, mais vous pourriez être surpris de voir à quel point c'est important.
Voyons ce qu'est un fichier robots.txt, ce qu'il fait et comment le configurer correctement pour votre site.
Pour comprendre le fonctionnement d'un fichier robots.txt, vous devez en savoir un peu plus sur les moteurs de recherche. La version courte est qu'ils envoient des "crawlers", qui sont des programmes qui parcourent Internet à la recherche d'informations. Ils stockent ensuite certaines de ces informations afin de pouvoir y diriger les gens plus tard.
Ces robots d'exploration, également appelés "bots" ou "araignées", trouvent des pages de milliards de sites Web. Les moteurs de recherche leur indiquent où aller, mais les sites Web individuels peuvent également communiquer avec les robots et leur indiquer les pages qu'ils doivent consulter.
La plupart du temps, ils font en fait le contraire et leur disent quelles pages ils ne devraient pas être en train de regarder. Des choses comme les pages administratives, les portails backend, les pages de catégories et de balises, et d'autres choses que les propriétaires de sites ne veulent pas afficher sur les moteurs de recherche. Ces pages sont toujours visibles pour les utilisateurs et accessibles à toute personne autorisée (c'est-à-dire souvent tout le monde).
Mais en disant à ces araignées de ne pas indexer certaines pages, le fichier robots.txt rend service à tout le monde. Si vous recherchiez "MakeUseOf" sur un moteur de recherche, voudriez-vous que nos pages administratives apparaissent en haut du classement ? Non. Cela ne ferait du bien à personne, alors nous disons aux moteurs de recherche de ne pas les afficher. Il peut également être utilisé pour empêcher les moteurs de recherche de consulter des pages qui pourraient ne pas les aider à classer votre site dans les résultats de recherche.
En bref, robots.txt indique aux robots d'indexation quoi faire.
Les robots d'exploration ignorent-ils parfois les fichiers robots.txt ? Oui. En fait, de nombreux robots font ignorez-le. En règle générale, cependant, ces robots ne proviennent pas de moteurs de recherche réputés. Ils proviennent de spammeurs, de collecteurs d'e-mails et d'autres types de robots automatisés qui parcourent Internet. Il est important de garder cela à l'esprit :l'utilisation de la norme d'exclusion des robots pour dire aux bots de rester à l'écart n'est pas une mesure de sécurité efficace . En fait, certains bots pourraient démarrer avec les pages auxquelles vous leur dites de ne pas aller.
Les moteurs de recherche, cependant, feront ce que dit votre fichier robots.txt tant qu'il est correctement formaté.
Il y a quelques parties différentes qui entrent dans un fichier standard d'exclusion de robot. Je vais les décomposer individuellement ici.
Avant de dire à un bot quelles pages il ne doit pas consulter, vous devez spécifier à quel bot vous parlez. La plupart du temps, vous utiliserez une simple déclaration qui signifie "tous les bots". Cela ressemble à ceci :
User-agent :*
L'astérisque signifie "tous les bots". Vous pouvez cependant spécifier des pages pour certains bots. Pour ce faire, vous devez connaître le nom du bot pour lequel vous établissez des directives. Cela pourrait ressembler à ceci :
User-agent :Googlebot
[liste des pages à ne pas crawler]
Agent utilisateur :Googlebot-Image/1.0
[liste des pages à ne pas crawler]
Agent utilisateur :Bingbot
[liste des pages à ne pas crawler]
Etc. Si vous découvrez qu'un bot ne souhaite pas du tout explorer votre site, vous pouvez également le spécifier.
Pour trouver les noms des agents utilisateurs, consultez useragentstring.com [No Longer Available].
Il s'agit de la partie principale de votre fichier d'exclusion de robot. Avec une simple déclaration, vous dites à un bot ou à un groupe de bots de ne pas crawler certaines pages. La syntaxe est simple. Voici comment interdire l'accès à tout ce qui se trouve dans le répertoire "admin" de votre site :
Interdire :/admin/
Cette ligne empêcherait les bots d'explorer votresite.com/admin, votresite.com/admin/login, votresite.com/admin/files/secret.html et tout ce qui relève du répertoire admin.
Pour interdire une seule page, spécifiez-la simplement dans la ligne d'interdiction :
Interdire :/public/exception.html
Désormais, la page "exception" ne sera plus traînante, mais tout le reste du dossier "public" le sera.
Pour inclure plusieurs répertoires ou pages, répertoriez-les simplement sur les lignes suivantes :
Interdire :/privé/
Interdire :/admin/
Interdire :/cgi-bin/
Interdire :/temp/
Ces quatre lignes s'appliqueront à l'agent utilisateur que vous avez spécifié en haut de la section.
Si vous voulez empêcher les bots de consulter n'importe quelle page de votre site, utilisez ceci :
Interdire :/
Comme nous l'avons vu ci-dessus, vous pouvez spécifier certaines pages pour différents bots. En combinant les deux éléments précédents, voici à quoi cela ressemble :
User-agent :googlebot
Interdire :/admin/
Interdire :/privé/
Agent utilisateur :bingbot
Interdire :/admin/
Interdire :/privé/
Interdire :/secret/
Les sections "admin" et "privé" seront invisibles sur Google et Bing, mais Google verra le répertoire "secret", contrairement à Bing.
Vous pouvez spécifier des règles générales pour tous les robots en utilisant l'agent utilisateur astérisque, puis donner également des instructions spécifiques aux robots dans les sections suivantes.
Avec les connaissances ci-dessus, vous pouvez écrire un fichier robots.txt complet. Lancez simplement votre éditeur de texte préféré (nous sommes fans de Sublime ici) et commencez à faire savoir aux bots qu'ils ne sont pas les bienvenus dans certaines parties de votre site.
Si vous souhaitez voir un exemple de fichier robots.txt, rendez-vous simplement sur n'importe quel site et ajoutez "/robots.txt" à la fin. Voici une partie du fichier robots.txt de Giant Bicycles :
Comme vous pouvez le voir, il y a pas mal de pages qu'ils ne veulent pas voir apparaître sur les moteurs de recherche. Ils ont également inclus quelques éléments dont nous n'avons pas encore parlé. Voyons ce que vous pouvez faire d'autre dans votre fichier d'exclusion de robots.
Si votre fichier robots.txt indique aux bots où pas aller, votre sitemap fait le contraire et les aide à trouver ce qu'ils recherchent. Et bien que les moteurs de recherche sachent probablement déjà où se trouve votre sitemap, cela ne fait pas de mal de le leur faire savoir à nouveau.
La déclaration d'un emplacement de sitemap est simple :
Plan du site :[URL du plan du site]
C'est tout.
Dans notre propre fichier robots.txt, cela ressemble à ceci :
Plan du site :https://www.makeuseof.com/sitemap_index.xml
C'est tout ce qu'il y a à faire.
La directive sur le délai d'exploration indique à certains moteurs de recherche la fréquence à laquelle ils peuvent indexer une page de votre site. Il est mesuré en secondes, bien que certains moteurs de recherche l'interprètent légèrement différemment. Certains voient un délai de crawl de 5 comme leur disant d'attendre cinq secondes après chaque crawl pour lancer le suivant. D'autres l'interprètent comme une instruction de n'explorer qu'une page toutes les cinq secondes.
Pourquoi diriez-vous à un crawler de ne pas ramper autant que possible ? Pour préserver la bande passante. Si votre serveur a du mal à suivre le trafic, vous souhaiterez peut-être instituer un délai d'exploration. En général, la plupart des gens n'ont pas à s'en soucier. Cependant, les grands sites à fort trafic voudront peut-être expérimenter un peu.
Voici comment définir un délai d'exploration de huit secondes :
Délai d'exploration :8
C'est ça. Tous les moteurs de recherche n'obéiront pas à votre directive. Mais ça ne fait pas de mal de demander. Comme pour l'interdiction de pages, vous pouvez définir différents délais d'exploration pour des moteurs de recherche spécifiques.
Une fois que vous avez configuré toutes les instructions de votre fichier, vous pouvez le télécharger sur votre site. Assurez-vous qu'il s'agit d'un fichier texte brut et qu'il porte le nom robots.txt. Téléchargez-le ensuite sur votre site afin qu'il puisse être trouvé sur votresite.com/robots.txt.
Si vous utilisez un système de gestion de contenu comme WordPress, vous devrez probablement procéder de manière spécifique. Parce qu'il diffère dans chaque système de gestion de contenu, vous devrez consulter la documentation de votre système.
Certains systèmes peuvent également avoir des interfaces en ligne pour télécharger votre fichier. Pour ceux-ci, copiez et collez simplement le fichier que vous avez créé dans les étapes précédentes.
Le dernier conseil que je donnerai est de consulter de temps en temps votre fichier d'exclusion de robots. Votre site change et vous devrez peut-être faire quelques ajustements. Si vous remarquez un changement étrange dans le trafic de votre moteur de recherche, il est également judicieux de consulter le fichier. Il est également possible que la notation standard change à l'avenir. Comme tout le reste de votre site, cela vaut la peine de le vérifier de temps en temps.
De quelles pages excluez-vous les robots d'exploration sur votre site ? Avez-vous remarqué une différence dans le trafic des moteurs de recherche ? Partagez vos conseils et commentaires ci-dessous !