Robots.txt : utiliser les wildcards

La plupart des moteurs de recherche majeurs comme Google, Yahoo!, Bing, Yandex et Baidu supportent l'utilisation des wildcards dans le fichier robots.txt

Il est possible de remplacer une séquence de caractères en utilisant un astérisque (*). Par exemple, pour bloquer l'accès aux URL contenant un point d'interrogation (http://www.mon-domaine.fr/page.php?id=2), il suffit de compléter le robots.txt de cette manière :

User-agent: *
Disallow: /*?

Autre exemple pour un robots.txt spécifique à WordPress, si vous souhaitez bloquer tout les répertoires commencant par /wp- (/wp-content/, /wp-admin/ et /wp-includes/), il suffit de faire :

User-agent: *
Disallow: /wp-*

Pour indiquer la fin d'une URL, vous pouvez utiliser le symbole du dollar ($). Par exemple, pour bloquer l'accès aux URL qui se terminent par .doc, ajoutez les lignes suivantes :

User-agent: *
Disallow: /*.doc$

Autre exemple, si vous souhaitez bloquer toutes les URL se terminant par ?print par exemple, il suffit de faire :

User-agent: *
Disallow: /*?print$