Robots.txt pour Baidu / Baiduspider

Baidu

Baidu (chinois : 百度, pinyin : bǎi dù) est un moteur de recherche chinois. En mars 2011, c'est le site le plus visité de Chine et le sixième site le plus visité sur Internet. Baidu veut dire « Cent degré » en chinois.

Baidu propose un index de plus de 740 millions de pages web, 80 millions d'images et 10 millions de fichiers multimédia.

Baiduspider est le robot d'exploration de Baidu. Lors de l'exploration, le robot Baiduspider recherche des pages mises à jour ou nouvelles à ajouter dans l'index de Baidu.

Baidu possède différents bots pour crawler le web :

  • Baiduspider : pour le robot d'indexation de base
  • Baiduspider-image : pour le robot d'exploration des images
  • Baiduspider-mobile : pour l'exploration web mobile
  • Baiduspider-video : pour l'exploration des vidéos
  • Baiduspider-news : pour l'exploration des actualitées
  • Baiduspider-favo : pour le robots des bookmarks
  • Baiduspider-sfkr : pour le robot pour les sites participant au réseau publicitaire Baidu PPC/ads
  • Baiduspider-cpro : pour le robot pour les sites participant au réseau publicitaire Baidu’s contextual advertising network

Exemple de robots.txt ciblant Baidu pour bloquer l'exploration du dossier /personnel/ :

User-agent: Baiduspider
Disallow: /personnel/

A noter également que Baidu supporte la directive Allow dans le fichier robots.txt pour bloquer l'exploration d'un répertoire sauf certains fichiers ou sous-répertoires contenus dans celui-ci.

Plus d'information sur les robots de Baidu sur la page d'aide de Baidu (en chinois).