Le protocole d'exclusion des robots, plus connu sous le nom de robots.txt, est une convention visant à empêcher les robots d'indexation (web crawlers) d'accéder à tout ou une partie d'un site web.
Le fichier robots.txt, à placer la racine d'un site web, contient une liste de ressources du site qui ne sont pas censées être indexées par les moteurs de recherches. Ce fichier permet également d'indiquer aux moteurs l'adresse du fichier sitemap.xml du site.
Par convention, les robots consultent le fichier robots.txt avant d'indexer un site Web. Lorsqu'un robot tente d'accéder à une page web, comme par exemple http://www.mon-domaine.fr/page.html, il tente d'accéder en premier lieu au fichier robots.txt situé à l'adresse http://www.mon-domaine.fr/robots.txt
Comment créer le fichier robots.txt
Le fichier robots.txt doit être placé obligatoirement à la racine de votre site ; si celui-ci est placé dans un répertoire par exemple, les moteurs ne le découvreront pas et ne suivront pas ses règles et paramètres.
Si le domaine de votre site est http://www.mon-domaine.fr/, le fichier robots.txt doit se situer obligatoirement à l'adresse suivante http://www.mon-domaine.fr/robots.txt
A noter qu'il est également nécessaire que le nom du fichier robots.txt soit en minuscule (pas de Robots.txt ou ROBOTS.TXT).
Voir également :
Le contenu du fichier robots.txt
Exemple de contenu d'un fichier robots.txt :
User-agent: *
Disallow:
L'instruction User-agent: * signifie que la ou les instruction(s) qui suivent s'applique pour tous les robots. L'instruction Disallow: signifie que le moteur peut parcourir l'ensemble des répertoires et des pages du site. Note : cela revient à ne pas mettre de robots.txt sur le site.
Autre exemple de contenu d'un fichier robots.txt :
User-agent: *
Disallow: /
L'instruction Disallow: / signifie que le moteur ne doit pas parcourir et indexer l'ensemble des répertoires et des pages du site.
Lorsque vous souhaitez bloquer seulement certains répertoires :
User-agent: * Disallow: /repertoire-a/ Disallow: /repertoire-b/
Lorsque vous souhaitez bloquer des pages spécifiques :
User-agent: * Disallow: /page-a.html Disallow: /page-b.html
Si vous souhaitez bloquer l'accès à des répertoires à certains robots, il suffit de spécifier son nom dans le paramètre User-agent :
User-agent: Googlebot Disallow: /repertoire-a/ User-agent: * Disallow:
Certains moteurs supportent plus de fonctionnalités et de paramètres, ceux-ci vous sont expliqué dans la partie ressources du site.
Deux choses à savoir lorsque l'on utilise un fichier robots.txt :
- Les robots peuvent ignorer votre fichier robots.txt, en particulier les robots malveillants qui crawlent les sites à la recherches de vulnérabilités ou d'adresses email
- Le fichier robots.txt est un fichier accessible au public, ce qui signifie que n'importe qui peut voir ce que vous souhaitez ne pas faire indexer par les moteurs