Ressources spécifiques à certains moteurs de recherche
Certains moteurs de recherche majeurs (Google, Bing, MSN, Yandex, etc) supportent des fonctionnalités et des paramètres supplémentaires comme les wildcards ou le Crawl-delay
Voici une liste de ressources pour des robots.txt spécifiques certains à moteurs de recherche majeurs :
- Bing / MSN
- Yahoo!
- Ask
- Baidu : moteur de recherche chinois le plus utilisé en Chine
- Yandex : moteur de recherche russe le plus utilisé en Russie
- Apple : moteur de recherche d'Apple pour Siri et Spotlight
- Blekko : moteur de recherche participatif
- DuckDuckGo : moteur de recherche ayant pour philosophie de préserver la vie privée et de ne stocker aucune information personnelle concernant les utilisateurs
- Exalead
- Google AdSense / Mediapartners : réseau publicitaire de Google
- Voila
- Alexa / Internet Archive
- Volunia
- Qwant
- Twenga / TwengaBot : moteur de recherche de boutique en ligne
- Wikiwix
Voici une liste de ressources pour des robots.txt spécifiques certains à moteurs liés, directement ou indirectement, à l'intelligence artificielle :
Ressources spécifiques à certains CMS
Certains CMS ont des répertoires par défaut qu'il est intéressant de bloquer aux moteurs de recherche, non seulement pour une question de référencement mais également pour une problématique de sécurité.
Voici une liste de ressources dédiées à certains CMS majeurs :
- Blogger / Blogspot
- Drupal
- Jimdo
- Joomla
- Magento : solution e-commerce
- osCommerce : solution e-commerce
- PrestaShop : solution e-commerce
- SPIP
- Wix
- WordPress
Toutes les ressources
- Robots.txt : ajouter des commentaires
- Robots.txt et sous-domaine
- Robots.txt pour Yahoo! Query Language / YQL
- Robots.txt et chmod
- Robots.txt checker
- Robots.txt pour Common Crawl / CCBot
- Robots.txt pour Google / Googlebot
- Robots.txt pour OpenAI / ChatGPT
- Robots.txt : paramètre Crawl-delay
- Robots.txt pour Wix
- Accès de Googlebot aux fichiers CSS et JS impossible
- Robots.txt pour Apple / Applebot
- Robots.txt : directive Allow
- Robots.txt : directive Noindex
- Robots.txt : Disallow all / Bloquer tous les robots
- Robots.txt : indiquer l'emplacement du fichier sitemap XML
- Robots.txt : taille maximale du fichier
- Robots.txt : utiliser les wildcards
- Robots.txt et HTTPS
- Robots.txt pour 80legs / 008
- Robots.txt pour Ahrefs / AhrefsBot
- Robots.txt pour Alexa / Internet Archive
- Robots.txt pour Ask
- Robots.txt pour Baidu / Baiduspider
- Robots.txt pour Bing / MSN / Bingbot / MSNbot
- Robots.txt pour Blekko / Blekkobot / ScoutJet
- Robots.txt pour Drupal
- Robots.txt pour DuckDuckGo / DuckDuckBot
- Robots.txt pour Exalead / Exabot
- Robots.txt pour Google AdSense / Mediapartners
- Robots.txt pour Jimdo
- Robots.txt pour Joomla
- Robots.txt pour Magento
- Robots.txt pour Nutch
- Robots.txt pour osCommerce
- Robots.txt pour PrestaShop
- Robots.txt pour Qwant / Qwantify
- Robots.txt pour SPIP
- Robots.txt pour Twenga / TwengaBot
- Robots.txt pour Voila / VoilaBot
- Robots.txt pour Volunia / Voluniabot
- Robots.txt pour Wikiwix
- Robots.txt pour WordPress
- Robots.txt pour Yahoo! / Yahoo! Slurp
- Robots.txt pour Yandex / YandexBot
- Tester son fichier robots.txt
- Robots.txt pour Blogger / Blogspot