Ressources spécifiques à certains moteurs de recherche
Certains moteurs de recherche majeurs (Google, Bing, MSN, Yandex, etc) supportent des fonctionnalités et des paramètres supplémentaires comme les wildcards ou le Crawl-delay
Voici une liste de ressources pour des robots.txt spécifiques certains à moteurs de recherche majeurs :
- Bing / MSN
- Yahoo!
- Ask
- Baidu : moteur de recherche chinois le plus utilisé en Chine
- Yandex : moteur de recherche russe le plus utilisé en Russie
- Blekko : moteur de recherche participatif
- DuckDuckGo : moteur de recherche ayant pour philosophie de préserver la vie privée et de ne stocker aucune information personnelle concernant les utilisateurs
- Exalead
- Google AdSense / Mediapartners : réseau publicitaire de Google
- Voila
- Alexa / Internet Archive
- Volunia
- Qwant
- Twenga / TwengaBot : moteur de recherche de boutique en ligne
- Wikiwix
Ressources spécifiques à certains CMS
Certains CMS ont des répertoires par défaut qu'il est intéressant de bloquer aux moteurs de recherche, non seulement pour une question de référencement mais également pour une problématique de sécurité.
Voici une liste de ressources dédiées à certains CMS majeurs :
- WordPress
- Drupal
- Joomla
- SPIP
- Blogger / Blogspot
- Magento : solution e-commerce
- PrestaShop : solution e-commerce
- osCommerce : solution e-commerce
Toutes les ressources
- Robots.txt pour 80legs / 008
- Robots.txt pour Alexa / Internet Archive
- Robots.txt : directive Allow
- Robots.txt pour Ask
- Robots.txt pour Baidu / Baiduspider
- Robots.txt pour Bing / MSN / Bingbot / MSNbot
- Robots.txt pour Blekko / Blekkobot / ScoutJet
- Robots.txt pour Blogger / Blogspot
- Robots.txt checker
- Robots.txt : ajouter des commentaires
- Robots.txt : paramètre Crawl-delay
- Robots.txt : Disallow all / Bloquer tous les robots
- Robots.txt pour Drupal
- Robots.txt pour DuckDuckGo / DuckDuckBot
- Robots.txt pour Exalead / Exabot
- Robots.txt pour Google / Googlebot
- Robots.txt pour Google AdSense / Mediapartners
- Robots.txt et HTTPS
- Robots.txt pour Joomla
- Robots.txt pour Magento
- Robots.txt : directive Noindex
- Robots.txt pour Nutch
- Robots.txt pour osCommerce
- Robots.txt pour PrestaShop
- Robots.txt pour Qwant / Qwantify
- Robots.txt : indiquer l'emplacement du fichier sitemap XML
- Robots.txt et sous-domaine
- Robots.txt pour SPIP
- Robots.txt : taille maximale du fichier
- Robots.txt pour Twenga / TwengaBot
- Robots.txt pour Voila / VoilaBot
- Robots.txt pour Volunia / Voluniabot
- Robots.txt pour Wikiwix
- Robots.txt : utiliser les wildcards
- Robots.txt pour WordPress
- Robots.txt pour Yahoo! / Yahoo! Slurp
- Robots.txt pour Yandex / YandexBot
- Robots.txt pour Yahoo! Query Language / YQL