Robots.txt : paramètre Crawl-delay

Plusieurs robots d'exploration de moteurs de recherche majeurs (Yahoo!, Bing, Yandex, etc) supportent le paramètre Crawl-delay dans le fichier robots.txt.

Ce paramètre permet de spécifier et de régler le nombre de secondes que doit attendre le robot entre chaque requêtes successives ("limit rate" en anglais).

Exemple de robots.txt avec le paramètre Crawl-delay :

User-agent: *
Crawl-delay: 10

Ici, nous indiquons aux robots qui suivent et comprennent le Crawl-delay d'espacer leurs requêtes de 10 secondes.

Exemple de robots.txt avec le paramètre Crawl-delay spécifié seulement pour Yahoo! :

User-agent: Slurp
Crawl-delay: 5

Comment spécifier le Crawl-delay et ralentir les requêtes de Google ?

Google ne supporte pas le paramètre Crawl-delay dans le fichier robots.txt. Google a confirmé ce point dans l'article Qu'implique le budget d'exploration pour Googlebot ? : "La règle non standard crawl-delay d'un fichier robots.txt n'est pas traitée par Googlebot.".

Fin 2023, Google a annoncé la suppression de l'outil de limitation de la vitesse de crawl dans la Google Search Console. Google dispose d'algorithmes perfectionnés qui déterminent la vitesse d'exploration optimale pour chaque site. Leur objectif est d'explorer autant de pages de votre site que possible à chaque visite, sans surcharger la bande passante de votre serveur.

Si vous devez réduire la vitesse d'exploration de manière urgente pendant une courte période (par exemple, quelques heures, ou un à deux jours), renvoyez un code d'état de réponse HTTP 500, 503 ou 429 au lieu de 200 aux demandes d'exploration.

Plus d'explications sur la page Réduire la vitesse d'exploration de Googlebot dans la documentation de Google.