Robots.txt : directive Allow

Plusieurs moteurs de recherche majeurs comme Google, Bing / MSN, Yahoo! ou encore Yandex supportent la directive Allow, qui s'oppose au Disallow, dans le fichier robots.txt.

Cette règle Allow est particulièrement utile pour notifier aux robots d'exploration que nous ne souhaitons pas indexer tout un répertoire (Disallow) sauf certains documents ou sous-répertoires spécifiques (Allow).

Selon le standard d'implémentation de cette directive, pour une même correspondance, c'est la première règle qui est prioritaire sur la suivante. En revanche, du côté de Google, peu importe l'ordre des règles, il n'y a pas de priorité.

Afin d'être compatible avec tous les robots, si nous souhaitons autoriser l'exploration d'un fichier présent dans un répertoire dont nous souhaitons bloquer l'accès aux robots, il est nécessaire de placer la directive Allow suivie du Disallow.

Par exemple, si vous souhaitez bloquer tout un répertoire sauf un fichier HTML spécifique, voici les directives Allow et Disallow à mettre en place dans le fichier robots.txt :

User-agent: *
Allow: /repertoire/ficher.html
Disallow: /repertoire/

Autre exemple pour bloquer tout un répertoire sauf un sous-répertoire et un fichier :

User-agent: *
Allow: /repertoire/ficher.html
Allow: /repertoire/sous-repertoire/
Disallow: /repertoire/