La plupart des sites Web présents dispose d’un fichier se nommant robots.txt. Ce fichier au format texte utilise des directives spécifiques afin d’indiquer aux différents moteurs de recherche, les zones qu’il est autorisé à analyser au sein de votre site internet. Le fichier robots.txt est toujours placé à la racine du site Web et est accessible par le biais de l’URL suivante : http://domaine.com/robots.txt.
Lorsqu’on veut référencer un site internet, il est indispensable dans un premier temps, de bien comprendre le fonctionnement du fichier robots.txt mais aussi le fonctionnement des robots d’indexation des différents moteurs de recherche tel que Google, Yahoo ou Bing. Voici un résumé des actions effectuées par les robots des moteurs de recherche lorsque ces derniers se rendent sur votre site internet :
Il est à noter que le fichier robots.txt ne permet pas de sécuriser votre site Web. En effet, ce dernier est présent pour autoriser et interdire l’indexation de certaines pages de votre site Web uniquement. Cependant, il existe deux types de robots qui sont les suivants :
Il n’y a aucune obligation de mettre en place un fichier robots.txt à la racine de votre site internet. En l’absence de ce fichier, toutes les Urls de votre site Web seront analysées.
La mise en place d’un tel fichier s’effectue surtout si vous disposez d’une zone sécurisée tel qu’un accès à l’administration à votre site Web. En effet, cela permet d’interdire l’indexation de la Zone en question.
La création d’un fichier robots.txt s’effectue par le biais d’un simple Bloc Note tel que Notepad++.
Un ensemble de règle sont défini dans ce fichier par le biais de 3 valeurs qui sont les suivantes :
Il est possible de créer le fichier robots.txt manuellement, cependant, il existe aussi des générateurs en ligne au besoin. La meilleure solution reste tout de même la création de ce dernier manuellement.
Cependant, il est conseillé d’avoir un minimum de connaissance technique pour la mise en œuvre de ce fichier si vous désirez créer un fichier complexe. Les raisons sont les suivantes :
Exemple de fichier robots.txt
Voici un exemple des règles pouvant être défini dans un fichier robots.txt :
User-agent : *
Disallow : /*.jpg$
Disallow : /*.png$
Disallow: /*.gif$
Allow: /
Cet exemple peut se décomposer comme suit :
Le fichier robots.txt est né dans les années 1990 et ne dispose d’aucunes spécifications officielles.
A l’origine, le robot d’indexation lisait ce fichier de haut en bas, cependant de nombreux webmasters le rédigeaient mal et débutai le fichier par la directive « Allow ». Cependant, si votre fichier est rédigé de la façon suivante :
User-agent : *
Allow : /
Disallow : /image/
Les robots d’indexation lisait la première ligne et comprenait que tout pouvait être indexé, y compris le dossier « /image/ » qui lui pourtant n’était pas autorisé.
Depuis, la majorité des robots d’indexation ont été mis à jour. De ce fait, les règles les plus précieuses, tel que « Disallow » sont prise en compte en priorité sur les autres.