Introduction au protocole d'exclusion des robots

Le protocole d'exclusion des robots, plus connu sous le nom de robots.txt, est une convention visant à empêcher les robots d'indexation (web crawlers) d'accéder à tout ou une partie d'un site web.

Le fichier robots.txt, à placer la racine d'un site web, contient une liste de ressources du site qui ne sont pas censées être indexées par les moteurs de recherches. Ce fichier permet également d'indiquer aux moteurs l'adresse du fichier sitemap.xml du site.

Par convention, les robots consultent le fichier robots.txt avant d'indexer un site Web. Lorsqu'un robot tente d'accéder à une page web, comme par exemple http://www.mon-domaine.fr/page.html, il tente d'accéder en premier lieu au fichier robots.txt situé à l'adresse http://www.mon-domaine.fr/robots.txt

Comment créer le fichier robots.txt

Le fichier robots.txt doit être placé obligatoirement à la racine de votre site ; si celui-ci est placé dans un répertoire par exemple, les moteurs ne le découvreront pas et ne suivront pas ses règles et paramètres.

Si le domaine de votre site est http://www.mon-domaine.fr/, le fichier robots.txt doit se situer obligatoirement à l'adresse suivante http://www.mon-domaine.fr/robots.txt

A noter qu'il est également nécessaire que le nom du fichier robots.txt soit en minuscule (pas de Robots.txt ou ROBOTS.TXT).

Voir également :

Le contenu du fichier robots.txt

Exemple de contenu d'un fichier robots.txt :

User-agent: *
Disallow:

L'instruction User-agent: * signifie que la ou les instruction(s) qui suivent s'applique pour tous les robots. L'instruction Disallow: signifie que le moteur peut parcourir l'ensemble des répertoires et des pages du site. Note : cela revient à ne pas mettre de robots.txt sur le site.

Autre exemple de contenu d'un fichier robots.txt :

User-agent: *
Disallow: /

L'instruction Disallow: / signifie que le moteur ne doit pas parcourir et indexer l'ensemble des répertoires et des pages du site.

Lorsque vous souhaitez bloquer seulement certains répertoires :

User-agent: *
Disallow: /repertoire-a/
Disallow: /repertoire-b/

Lorsque vous souhaitez bloquer des pages spécifiques :

User-agent: *
Disallow: /page-a.html
Disallow: /page-b.html

Si vous souhaitez bloquer l'accès à des répertoires à certains robots, il suffit de spécifier son nom dans le paramètre User-agent :

User-agent: Googlebot
Disallow: /repertoire-a/

User-agent: *
Disallow:

Certains moteurs supportent plus de fonctionnalités et de paramètres, ceux-ci vous sont expliqué dans la partie ressources du site.

Deux choses à savoir lorsque l'on utilise un fichier robots.txt :