Robots.txt pour Common Crawl / CCBot

CCBot est le robot d'exploration de Common Crawl. Common Crawl est une organisation à but non lucratif qui a pour mission de démocratiser l'accès à l'information du web en produisant et en maintenant un référentiel ouvert de données d'exploration du web. Ce référentiel est accessible gratuitement et universellement à des fins d'analyse.

ChatGPT, l'intelligence artificielle conversationnelle d'Open AI utilise notamment les données de Common Crawl pour s'entrainer. C'est pour cette raison principale que divers webmasters et marques ont commencé à bloquer l'exploration de leurs sites web par le robot CCBot.

L'ancien ancien robot d'exploration de Common Crawl s'identifiait avec la chaîne d'agent utilisateur CCBot/1.0 (+https://commoncrawl.org/bot.html). La version actuelle s'identifie comme CCBot/2.0. Des informations de contact (un lien vers la FAQ Common Crawl) sont envoyées avec la chaîne d'agent utilisateur.

CCBot respecte le protocole robots.txt.

Comment bloquer Common Crawl / CCBot d'explorer un site web ?

Cette instruction cible CCBot et lui interdit l'exploration :

User-agent: CCBot
Disallow: /

Autres instructions et informations utiles

CCBot suit également les instructions de Crawl-delay si vous souhaitez indiquer au robot de ralentir sa vitesse d'exploration. Par exemple, si vous souhaitez que CCBot n'explore qu'une page toutes les deux secondes, vous pouvez indiquer :

User-agent: CCBot
Crawl-delay: 2

Le robot d'exploration CCBot prend également en charge le protocole Sitemap et utilise tout fichier Sitemap annoncé dans le fichier robots.txt.

Enfin, CCBot respecte également l'attribut nofollow qui peuvent être mis dans vos liens internes pour lui indiquer de ne pas suivre et découvrir ces pages.

Plus d'information sur le robot CCBot de Common Crawl dans la FAQ FAQ.