Le robots.txt pour le référencement naturel

Présentation du fichier robots.txt

La plupart des sites Web présents dispose d’un fichier se nommant robots.txt. Ce fichier au format texte utilise des directives spécifiques afin d’indiquer aux différents moteurs de recherche, les zones qu’il est autorisé à analyser au sein de votre site internet. Le fichier robots.txt est toujours placé à la racine du site Web et est accessible par le biais de l’URL suivante : http://domaine.com/robots.txt.

Lorsqu’on veut référencer un site internet, il est indispensable dans un premier temps, de bien comprendre le fonctionnement du fichier robots.txt mais aussi le fonctionnement des robots d’indexation des différents moteurs de recherche tel que Google, Yahoo ou Bing. Voici un résumé des actions effectuées par les robots des moteurs de recherche lorsque ces derniers se rendent sur votre site internet :

Dans un premier temps, le fichier robots.txt est téléchargé et son contenu analysé.
Les différentes règles présentent dans ce fichier sont analysé, ce qui permet aux différents robots de connaitre les URLs qu’il est autorisé à télécharger.
Dans la mesure où le fichier robots.txt l’autorise, la racine du site est téléchargée.
Une analyse de cette page est effectuée par le robot d’indexation qui en profite pour récupérer tous les liens internes.
Tout comme pour le téléchargement de la racine du site, les liens internes sont eux aussi télécharger. Cependant, pour que le téléchargement des liens internes se fassent, il est nécessaire que les règles présentent dans le fichier robots.txt l’autorise.
A leur tour, les liens sont analysés à la recherche d’autres liens jusqu’à ce qu’il ne trouve plus de nouveaux liens.

Il est à noter que le fichier robots.txt ne permet pas de sécuriser votre site Web. En effet, ce dernier est présent pour autoriser et interdire l’indexation de certaines pages de votre site Web uniquement. Cependant, il existe deux types de robots qui sont les suivants :

La plupart des robots d’indexations des moteurs de recherche lisent et prennent en compte les règles définies par votre fichier robots.txt.
Des robots concurrents présents surtout pour aspirer votre site Web et qui n’ont de ce fait aucune obligation technique. De ce fait, ces robots passeront outre toutes les règles définies dans votre fichier robots.txt.

Est-il obligatoire d’avoir un fichier robots.txt sur mon site internet ?

Il n’y a aucune obligation de mettre en place un fichier robots.txt à la racine de votre site internet. En l’absence de ce fichier, toutes les Urls de votre site Web seront analysées.

La mise en place d’un tel fichier s’effectue surtout si vous disposez d’une zone sécurisée tel qu’un accès à l’administration à votre site Web. En effet, cela permet d’interdire l’indexation de la Zone en question.

Quelle est la procédure pour générer un fichier robots.txt ?

La création d’un fichier robots.txt s’effectue par le biais d’un simple Bloc Note tel que Notepad++.

Un ensemble de règle sont défini dans ce fichier par le biais de 3 valeurs qui sont les suivantes :

User-Agent : Cette valeur permet d’indiquer à qui s’adresse cette règle. En effet, il vous est possible de définir le robot qui doit prendre en compte cela.
Allow/Disallow : Cette règle permet d’autoriser ou filtrer certaines Urls
L’URL : L’url de votre site Web pour laquelle cette règle s’applique

Il est possible de créer le fichier robots.txt manuellement, cependant, il existe aussi des générateurs en ligne au besoin. La meilleure solution reste tout de même la création de ce dernier manuellement.

Cependant, il est conseillé d’avoir un minimum de connaissance technique pour la mise en œuvre de ce fichier si vous désirez créer un fichier complexe. Les raisons sont les suivantes :

Plus votre fichier robots.txt contiendra de règles, plus il y aura de risque d’erreurs. De plus les erreurs peuvent avoir des conséquences désastreuses pour votre site internet tel que le non référencement de ce dernier sur les principaux moteurs de recherche.
En cas d’utilisation d’expressions régulières compliquées pour les Urls, il est bon de savoir que très peu de robots d’indexation seront en mesure d’interpréter correctement la règle, ce qui peut être source d’erreurs.

Exemple de fichier robots.txt

Voici un exemple des règles pouvant être défini dans un fichier robots.txt :

User-agent : *
Disallow : /*.jpg$
Disallow : /*.png$
Disallow: /*.gif$
Allow: /

Cet exemple peut se décomposer comme suit :

User-agent : Le User-agent défini que cette règle s’adresse à tous les robots.
Disallow : Défini que tous les images au format jpg, png et gif ne doivent en aucun cas être téléchargé par les robots d’indexation.
Allow : La règle Allow se trouvant en dernier défini que tout le reste est autorisée par les robots.

Google et le robots.txt

Le fichier robots.txt est né dans les années 1990 et ne dispose d’aucunes spécifications officielles.
A l’origine, le robot d’indexation lisait ce fichier de haut en bas, cependant de nombreux webmasters le rédigeaient mal et débutai le fichier par la directive « Allow ». Cependant, si votre fichier est rédigé de la façon suivante :

User-agent : *
Allow : /
Disallow : /image/

Les robots d’indexation lisait la première ligne et comprenait que tout pouvait être indexé, y compris le dossier « /image/ » qui lui pourtant n’était pas autorisé.

Depuis, la majorité des robots d’indexation ont été mis à jour. De ce fait, les règles les plus précieuses, tel que « Disallow » sont prise en compte en priorité sur les autres.

Robots.txt: Créer un fichier Robots.txt pour optimiser le SEO

Le robots.txt pour le référencement naturel

Présentation du fichier robots.txt

Est-il obligatoire d’avoir un fichier robots.txt sur mon site internet ?

Quelle est la procédure pour générer un fichier robots.txt ?

Google et le robots.txt