Robots.txt pour Google / Googlebot

Google

Googlebot est le robot d'exploration de Google. Lors de l'exploration, le robot Googlebot recherche des pages mises à jour ou nouvelles à ajouter dans l'index de Google.

Google possède différent bot pour crawler le web :

APIs-Google : APIs-Google est le user-agent utilisé par les API Google pour diffuser des messages par le biais de notifications push.
User-agent : APIs-Google

AdSense : le robot d'exploration AdSense visite votre site afin d'évaluer son contenu et vous permettre ainsi de proposer des annonces pertinentes.
User-agent: Mediapartners-Google

AdSense pour mobile : le robot d'exploration AdSense visite votre site afin d'évaluer son contenu et vous permettre ainsi de proposer des annonces pertinentes. C'est désormais le même que pour le desktop
User-agent: Mediapartners-Google

AdsBot Web pour mobile Android : vérifie la qualité des annonces sur les pages Web Android
User-agent : AdsBot-Google-Mobile

AdsBot Web pour mobile : vérifie la qualité des annonces sur les pages Web pour mobiles
User-agent : AdsBot-Google

Googlebot Google Image : pour empêcher l'affichage des images de votre site dans les résultats de recherche
User-agent : Googlebot-Image
User-agent : Googlebot

Googlebot Google Vidéo : pour Google Vidéos
User-agent : Googlebot

Googlebot : le nom générique du robot d'exploration de Google. Il désigne deux types de robots d'exploration distincts : l'un qui simule un internaute sur un ordinateur, tandis que l'autre simule un utilisateur sur un appareil mobile.
User-agent : Googlebot

Applications mobiles Android : vérifie la qualité des annonces sur les pages d'applications Android. Respecte les règles des robots AdsBot-Google.
User-agent : AdsBot-Google-Mobile-Apps

Feedfetcher : Feedfetcher est un outil qui permet à Google de collecter les flux RSS ou Atom pour Google Play Kiosque et PubSubHubbub. Ce robot ne respecte pas les règles du fichier robots.txt
User-agent : FeedFetcher-Google

Google Read Aloud : Google-Read-Aloud est le user-agent du service Google Read Aloud. Ce dernier permet de lire des pages Web à l'aide de la synthèse vocale. Il s'active lorsqu'un internaute a activé la synthèse vocale et qu'il consulte une page. Le service Read Aloud est utilisé par Google Go. Ce robot ne respecte pas les règles du fichier robots.txt
User-agent : Google-Read-Aloud

Duplex sur le Web : DuplexWeb-Google est le user-agent qui correspond au service Duplex sur le Web. Ce service prend en charge diverses fonctionnalités et divers produits, tels que l'Assistant Google dans Chrome. Ce robot ne respecte pas les règles du fichier robots.txt
User-agent : DuplexWeb-Google

Favicon Google : ce robot récupère les favicons pour divers services Google. Ce robot ne respecte pas les règles du fichier robots.txt
User-agent : Favicon Google

La liste complète des robots d'exploration de Google est disponible sur l'aide de Google.

Instructions pour Googlebot

Exemple de robots.txt ciblant différents bots de Google :

Cette instruction cible Googlebot et lui interdit l'accès au répertoire /personnel/ :

User-agent: Googlebot
Disallow: /personnel/

Cette instruction permet de supprimer toutes les images de votre site de Google Images :

User-agent: Googlebot-Image
Disallow: /

Pour empêcher l'exploration et l'indexation des pages de votre site tout en continuant à afficher des annonces Google AdSense sur ces pages :

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Google accepte également les wildcards dans le fichier robots.txt. Par exemple, pour bloquer tous les fichiers .doc :

User-agent: Googlebot
Disallow: /*.doc$

Le symbole * permet de matcher n'importe quel répertoire et/ou fichier contenant et se terminant (symbole $) par .doc, c'est à dire tous les documents Microsoft Word.

A noter également que Google supporte la directive Allow dans le fichier robots.txt pour bloquer l'exploration d'un répertoire sauf certains fichiers ou sous-répertoires contenus dans celui-ci.

Par ailleurs, Google supporte une directive non documentée et non annoncée officiellement : la directive Noindex dans le robots.txt.

Plus d'information sur les robots de Google sur "Qu'est-ce que Googlebot ?", "Bloquer ou supprimer des pages avec un fichier robots.txt" et "Robots d'exploration Google" dans le centre d'aide de Google pour les webmasters.

Tester son fichier robots.txt

Google met à disposition un outil pour tester son fichier robots.txt

Google AdsBot : le robot d'exploration de Google Ads

Google Ads parcourt régulièrement les pages de destination utilisées dans des annonces publicitaires afin d'évaluer leur niveau de qualité. Si vous ne souhaitez pas que vos pages de destination soient vérifiées par Google Ads, il est possible de bloquer le robot AdsBot via une règle spécifique dans le fichier robots.txt :

User-agent: AdsBot-Google
Disallow: /

Par ailleurs, le User-Agent exact d'AdsBot est :

AdsBot-Google (+http://www.google.com/adsbot.html)

Cependant attention, bloquer AdsBot l'empêchera de contrôler la qualité et la pertinence des pages de destination de vos annonces ce qui entraînera une très forte baisse du niveau de qualité (Quality Score) de votre campagne !

Par défaut, pour éviter une augmentation des CPC pour les annonceurs, le robot de Google Ads ne tient pas compte des exclusions globales (User-agent: *) dans le fichier robots.txt.

Plus d'information sur le robot AdsBot de Google Ads sur "Qu'est-ce que la convivialité de la page de destination ?" dans le centre d'aide d'Ads.