Robots.txt : directive Noindex

En 2007, un internaute a découvert une directive "Noindex" non documentée mais supportée par Google. Ce "Noindex" dans le fichier robots.txt permet d'avoir le même effet que la balise meta robots noindex, c'est-à-dire interdire l'indexation d'un document.

Dans cet article de 2007, un employé de Google a confirmé que le robot Googlebot comprenait et suivait cette directive mais que cela n'était pas gravé dans le marbre et qu'aucun support et annonce officielle n'a été fait sur ce sujet.

Cette directive s'implémente de la même manière que la directive Disallow, Allow ou Sitemap. Si vous souhaitez empêcher l'exploration d'un document, le robots.txt est écrit de cette façon :

User-agent: *
Disallow: /page-a.html

Si vous souhaitez bloquer l'exploration et l'indexation de la page, nous faisons appel à la directive Noindex :

User-agent: *
Disallow: /page-a.html
Noindex: /page-a.html

Quelques tests via les outils pour les webmasters de Google permettent de confirmer rapidement que cette directive "Noindex" fonctionne toujours et qu'elle accepte également les wildcards.

Robots.txt en place pour le test :

User-agent: *
Noindex: /page-a.html
Noindex: /article-*

URL testées :

http://robots-txt.com/page-a.html
http://robots-txt.com/article-a.html

Résultats, les deux pages sont bien annoncées comme bloquées par Google :

Robots.txt : directive Noindex

Source : "Q&A: An undocumented robots.txt crawler directive from Google"