Ressources spécifiques à certains moteurs de recherche
Certains moteurs de recherche majeurs (Google, Bing, MSN, Yandex, etc) supportent des fonctionnalités et des paramètres supplémentaires comme les wildcards ou le Crawl-delay
Voici une liste de ressources pour des robots.txt spécifiques certains à moteurs de recherche majeurs : Google, Bing, Baidu, Yandex.
Des moteurs plus mineurs : Yahoo!, DuckDuckGo, Ask, Blekko, Qwant, Exalead, Voila, Volunia, Wikiwix, Alexa / Internet Archive, Twenga / TwengaBot
Des régies publicitaires : Google AdSense / Mediapartners,
Voici une liste de ressources pour des robots.txt spécifiques certains à moteurs liés, directement ou indirectement, à l'intelligence artificielle : Common Crawl / CCBot, OpenAI / ChatGPT, Apple
Ressources spécifiques à certains CMS
Certains CMS ont des répertoires par défaut qu'il est intéressant de bloquer aux moteurs de recherche, non seulement pour une question de référencement mais également pour une problématique de sécurité.
Voici une liste de ressources dédiées à certains CMS majeurs : Blogger / Blogspot, Drupal, Jimdo, Joomla, Magento, osCommerce, PrestaShop, SPIP, Wix, WordPress
Toutes les ressources
- Robots.txt : ajouter des commentaires
- Robots.txt et sous-domaine
- Robots.txt pour Yahoo! Query Language / YQL
- Robots.txt et chmod
- Robots.txt checker
- Robots.txt pour Common Crawl / CCBot
- Robots.txt pour Google / Googlebot
- Robots.txt pour OpenAI / ChatGPT
- Robots.txt : paramètre Crawl-delay
- Robots.txt pour Wix
- Robots.txt pour Apple / Applebot
- Accès de Googlebot aux fichiers CSS et JS impossible
- Robots.txt : directive Allow
- Robots.txt : directive Noindex
- Robots.txt : Disallow all / Bloquer tous les robots
- Robots.txt : indiquer l'emplacement du fichier sitemap XML
- Robots.txt : taille maximale du fichier
- Robots.txt : utiliser les wildcards
- Robots.txt et HTTPS
- Robots.txt pour 80legs / 008
- Robots.txt pour Ahrefs / AhrefsBot
- Robots.txt pour Alexa / Internet Archive
- Robots.txt pour Ask
- Robots.txt pour Baidu / Baiduspider
- Robots.txt pour Bing / MSN / Bingbot / MSNbot
- Robots.txt pour Blekko / Blekkobot / ScoutJet
- Robots.txt pour Drupal
- Robots.txt pour DuckDuckGo / DuckDuckBot
- Robots.txt pour Exalead / Exabot
- Robots.txt pour Google AdSense / Mediapartners
- Robots.txt pour Jimdo
- Robots.txt pour Joomla
- Robots.txt pour Magento
- Robots.txt pour Nutch
- Robots.txt pour osCommerce
- Robots.txt pour PrestaShop
- Robots.txt pour Qwant / Qwantify
- Robots.txt pour SPIP
- Robots.txt pour Twenga / TwengaBot
- Robots.txt pour Voila / VoilaBot
- Robots.txt pour Volunia / Voluniabot
- Robots.txt pour Wikiwix
- Robots.txt pour WordPress
- Robots.txt pour Yahoo! / Yahoo! Slurp
- Robots.txt pour Yandex / YandexBot
- Tester son fichier robots.txt
- Robots.txt pour Blogger / Blogspot