Robots.txt pour Google / Googlebot

Google

Googlebot est le robot d'exploration de Google. Lors de l'exploration, le robot Googlebot recherche des pages mises à jour ou nouvelles à ajouter dans l'index de Google.

Google possède différent bot pour crawler le web :

Instructions pour Googlebot

Exemple de robots.txt ciblant différents bots de Google :

Cette instruction cible Googlebot et lui interdit l'accès au répertoire /personnel/ :

User-agent: Googlebot
Disallow: /personnel/

Cette instruction permet de supprimer toutes les images de votre site de Google Images :

User-agent: Googlebot-Image
Disallow: /

Pour empêcher l'exploration et l'indexation des pages de votre site tout en continuant à afficher des annonces Google AdSense sur ces pages :

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Google accepte également les wildcards dans le fichier robots.txt. Par exemple, pour bloquer tous les fichiers .doc :

User-agent: Googlebot
Disallow: /*.doc$

Le symbole * permet de matcher n'importe quel répertoire et/ou fichier contenant et se terminant (symbole $) par .doc, c'est à dire tous les documents Microsoft Word.

A noter également que Google supporte la directive Allow dans le fichier robots.txt pour bloquer l'exploration d'un répertoire sauf certains fichiers ou sous-répertoires contenus dans celui-ci.

Par ailleurs, Google supporte une directive non documentée et non annoncée officiellement : la directive Noindex dans le robots.txt.

Plus d'information sur les robots de Google sur "Qu'est-ce que Googlebot ?", "Bloquer ou supprimer des pages avec un fichier robots.txt" et "Robots d'exploration Google" dans le centre d'aide de Google pour les webmasters.

Google AdsBot : le robot d'exploration de Google AdWords

Google AdWords parcourt régulièrement les pages de destination utilisées dans des annonces publicitaires afin d'évaluer leur niveau de qualité. Si vous ne souhaitez pas que vos pages de destination soient vérifiées par AdWords, il est possible de bloquer le robot AdsBot via une règle spécifique dans le fichier robots.txt :

User-agent: AdsBot-Google
Disallow: /

Par ailleurs, le User-Agent exact d'AdsBot est :

AdsBot-Google (+http://www.google.com/adsbot.html)

Cependant attention, bloquer AdsBot l'empêchera de contrôler la qualité et la pertinence des pages de destination de vos annonces ce qui entraînera une très forte baisse du niveau de qualité (Quality Score) de votre campagne !

Par défaut, pour éviter une augmentation des CPC pour les annonceurs, le robot de Google AdWords ne tient pas compte des exclusions globales (User-agent: *) dans le fichier robots.txt.

Plus d'information sur le robot AdsBot de Google AdWords sur "Qu'est-ce que la convivialité de la page de destination ?" dans le centre d'aide d'AdWords.