Robots.txt pour OpenAI / ChatGPT

OpenAI est un laboratoire de recherche à but non lucratif qui développe des technologies d'intelligence artificielle de pointe. Parmi ses projets phares, on trouve ChatGPT, un chatbot à grand modèle de langage capable de comprendre et de générer du texte de manière conversationnelle.

ChatGPT a été entraîné sur un ensemble de données massif de texte et de code (provenant notamment de la base de connaissance de Common Crawl), ce qui lui permet de répondre à des questions, de traduire des langues, d'écrire différents types de contenu créatif et de suivre vos instructions de manière réfléchie.

Le robot d'exploration de ChatGPT utilise les capacités de ce modèle pour explorer le Web et collecter des informations de manière plus efficace et plus intelligente que les robots d'exploration traditionnels.

GPTBot est le robot d'exploration web d'OpenAI et peut être identifié par les éléments suivants :

User-agent: GPTBot
Chaîne complète de l'User-agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Les pages web parcourues par le robot d'exploration GPTBot peuvent servir à améliorer les futurs modèles d'IA. Elles sont filtrées pour exclure les contenus nécessitant un paywall, ceux connus pour agréger principalement des informations personnelles identifiables ou dont le contenu viole les politiques d'OpenAI.

GPTBot respecte le protocole robots.txt.

Comment bloquer OpenAI / ChatGPT d'explorer un site web ?

Cette instruction cible ChatGPT et lui interdit l'exploration :

User-agent: GPTBot
Disallow: /

Autres instructions utiles sur ChatGPT-User

OpenAI utilise deux agents utilisateurs distincts pour explorer le web : GPTBot pour le crawl général et ChatGPT-User pour la navigation via ses extensions. Grâce à ces agents, vous pouvez identifier l'objectif de chaque requête. Actuellement, le système de désactivation d'OpenAI traite les deux agents de la même manière. Ainsi, une directive Disallow dans votre fichier robots.txt concernant l'un des agents s'appliquera automatiquement à l'autre.

ChatGPT-User est utilisé par les extensions du système ChatGPT. Cet agent utilisateur sert uniquement à effectuer des actions directes pour le compte des utilisateurs de ChatGPT et ne réalise aucun crawl automatique du web.

Les pages web explorées par l'agent utilisateur ChatGPT-User/1.0 servent principalement à répondre en direct aux questions ou aux demandes des utilisateurs de ChatGPT via sa fonctionnalité de navigation. Lorsque ChatGPT récupère du contenu sur des pages web, celui-ci est utilisé par leurs modèles pour fournir une réponse à l'utilisateur, et cette réponse inclura un lien vers la source web. ChatGPT est entraîné à ne pas répéter l'information textuellement à partir des données (même si ce n'est pas parfait), mais il paraphrasera, traduira, résumera et abstraira l'information selon la demande de l'utilisateur.

En résumé, les pages web explorées par ChatGPT-User alimentent les fonctions de réponse et de navigation de ChatGPT, et ne sont pas utilisées pour construire une base de données ou un moteur de recherche.

ChatGPT-User peut être identifié par les éléments suivants :

User-agent: ChatGPT-User
Chaîne complète de l'User-agent: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

Cette instruction cible ChatGPT-User et lui interdit l'exploration :

User-agent: ChatGPT-User
Disallow: /

Plus d'information sur les robots d'OpenAI : GPTBot et ChatGPT-User.