Optimiser son robots.txt pour les IA (ChatGPT, Claude, Mistral, Perplexity, Gemini) en 2026
Mis à jour le 13 mai 2026. Guide pratique pour configurer ton
robots.txtà l'ère des LLMs : autoriser les crawlers IA qui te font citer, bloquer ceux qui te scrapent pour entraîner sans valeur de retour, référencer ton sitemap. Liste à jour des user-agents IA, exemples copier-coller.
TL;DR
robots.txtest ton premier point de contact avec n'importe quel crawler — y compris les crawlers IA. Mal configuré, tu bloques ChatGPT et tu ne sais même pas pourquoi.- Distinction critique : il y a 2 types de bots IA. Les rendering bots (ChatGPT-User, Claude-Web, Perplexity-User, etc.) qui lisent ton site en temps réel pour répondre à un user. Et les training bots (GPTBot, ClaudeBot, CCBot, anthropic-ai, Bytespider) qui scrapent ton contenu pour entraîner les modèles.
- Recommandation 2026 : autorise les rendering bots (sinon zéro citation possible). Choix éditorial pour les training bots (autoriser = ton contenu sert l'entraînement, bloquer = tu refuses).
- N'oublie pas d'ajouter la directive
Sitemap:dans tonrobots.txt— sinon les crawlers ne savent pas par où commencer. - Effort : 10 minutes si tu pars de zéro, 5 minutes si tu modifies un existant.
1. Pourquoi robots.txt redevient critique en 2026
Pendant 25 ans (1994-2019), robots.txt servait surtout à dire à Googlebot quoi indexer ou pas. C'était devenu un détail technique géré par défaut.
En 2026, avec l'explosion des LLMs, le fichier reprend une importance stratégique pour 3 raisons :
- Les bots IA sont devenus nombreux et hétérogènes. Il y a aujourd'hui ~20 user-agents IA actifs (OpenAI à elle seule en publie 4 différents). Chacun a un comportement différent.
- Les LLMs lisent réellement ton
robots.txt. Quand Claude ou ChatGPT tentent de fetch ton site pendant une conversation (avec browsing activé), ils vérifientrobots.txt. Si tu bloquesClaudeBotouChatGPT-User, ils n'iront pas — et ne te citeront pas. - Le choix d'autoriser/bloquer les training bots est devenu un vrai débat éditorial. Le New York Times, Reuters, BBC ont publiquement bloqué
GPTBoten 2023-2024. Tu peux choisir le même camp ou faire l'inverse — mais c'est ton choix, pas le hasard.
2. Les user-agents IA à connaître en 2026
Rendering bots (lisent ton site en temps réel pour citer)
| User-agent | Source | Comportement |
|---|---|---|
| ChatGPT-User | OpenAI | Lecture en temps réel quand l'utilisateur ChatGPT a activé browsing |
| OAI-SearchBot | OpenAI | Index pour ChatGPT Search (le moteur intégré à ChatGPT) |
| Claude-Web | Anthropic | Lecture en temps réel par Claude lorsqu'un utilisateur lui demande |
| PerplexityBot | Perplexity | Index Perplexity + lecture pendant les conversations |
| Perplexity-User | Perplexity | Lecture en temps réel pour les réponses |
| MistralAI-User | Mistral | Lecture en temps réel par Le Chat |
| Google-Extended | Google | Index pour Gemini / AI Overviews (à activer côté Google Search Console) |
Bloquer ces user-agents = aucune citation possible dans les réponses IA correspondantes. Recommandation forte : autorise-les tous, sauf cas spécifique.
Training bots (scrapent pour entraîner les modèles)
| User-agent | Source | Usage |
|---|---|---|
| GPTBot | OpenAI | Entraînement des modèles GPT |
| ClaudeBot | Anthropic | Entraînement Claude (ex-anthropic-ai) |
| anthropic-ai | Anthropic | Ancien user-agent, certains sites le voient encore |
| CCBot | Common Crawl | Index public utilisé par presque tous les modèles open-source |
| Bytespider | ByteDance / TikTok | Entraînement des modèles ByteDance (Doubao, etc.) |
| FacebookBot | Meta | Entraînement Llama |
| Applebot-Extended | Apple | Entraînement Apple Intelligence |
Bloquer ces user-agents = tu refuses que ton contenu serve à entraîner ces modèles. Choix éditorial. Beaucoup de médias bloquent, beaucoup de SaaS autorisent (vu comme « ils ne forment plus sur du contenu post-2023 de toute façon »). À toi.
3. Anatomie d'un robots.txt propre en 2026
Le format robots.txt n'a pas changé depuis 1994. Une section commence par User-agent: et liste ensuite les directives Allow: et Disallow:.
Exemple minimaliste — Tout autoriser + référencer le sitemap
User-agent: *
Allow: /
Sitemap: https://tonsite.fr/sitemap.xml
C'est le minimum vital. Mais c'est trop permissif si tu veux bloquer le training.
Exemple recommandé 2026 (autoriser rendering, bloquer training)
# Crawlers SEO classiques — tout autorisé
User-agent: *
Allow: /
# Crawlers IA rendering — autorisés (sinon zéro citation possible)
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: Claude-Web
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
User-agent: MistralAI-User
Allow: /
# Crawlers IA training — bloqués (choix éditorial)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
# Sitemap (obligatoire pour le SEO + utile pour les bots IA)
Sitemap: https://tonsite.fr/sitemap.xml
Exemple « tout ouvert » (recommandé si tu débutes)
Si tu n'es pas sûr et que tu veux maximiser la chance d'être cité, autorise tout :
User-agent: *
Allow: /
Sitemap: https://tonsite.fr/sitemap.xml
Tu reviendras affiner plus tard si tu veux bloquer le training. Ne bloque jamais aveuglément un user-agent IA sans savoir ce qu'il fait.
4. Tutoriel : 4 étapes pour déployer ton robots.txt
Étape 1 — Identifie ton fichier actuel (si existant)
Va voir : https://tonsite.fr/robots.txt
3 cas possibles :
- Tu vois un fichier → tu vas le modifier
- Tu vois 404 → tu vas le créer
- Tu vois une page HTML → ton site est mal configuré, c'est cassé. Voir étape 3.
Étape 2 — Rédige le contenu
Copie-colle l'exemple recommandé 2026 ci-dessus. Remplace https://tonsite.fr/sitemap.xml par ton vrai sitemap (voir l'article sitemap.xml pour LLM/AEO).
Étape 3 — Déploie
| Stack | Où mettre le fichier |
|---|---|
| Next.js | public/robots.txt ou route dynamique app/robots.ts |
| Nuxt | public/robots.txt ou server/middleware/robots.ts |
| WordPress | Plugin Yoast SEO / Rank Math gère ça nativement |
| Webflow | Project Settings → SEO → Robots.txt |
| Shopify | Theme → Edit code → templates/robots.txt.liquid |
| Wix | Manage Site → Marketing & SEO → Edit Robots.txt |
Important : si ton site a la fois www et apex (e.g. www.getmentia.fr et getmentia.fr), assure-toi que robots.txt est servi sur les deux. Sinon redirige https://getmentia.fr vers https://www.getmentia.fr (ou inverse) au niveau DNS / Vercel / hosting.
Étape 4 — Vérifie
- Ouvre
https://tonsite.fr/robots.txtdans ton navigateur → tu dois voir le fichier brut (pas HTML). - Vérifie le
Content-Type(devtools → Network) →text/plainattendu. - Lance un audit gratuit sur getmentia.fr/audit pour vérifier que tous tes crawlers IA sont autorisés et que le sitemap est référencé.
5. Erreurs courantes à éviter
| Erreur | Conséquence | Comment éviter |
|---|---|---|
| Disallow: / sur User-agent: * | Tu bloques tout (Google, ChatGPT, tout) | Vérifier deux fois avant de mettre / |
| Pas de Sitemap: à la fin | Crawlers doivent deviner ton sitemap → indexation partielle | Toujours référencer le sitemap |
| Bloquer ChatGPT-User par erreur | Aucune citation possible dans ChatGPT | Différencier rendering vs training |
| Confondre majuscules / minuscules | Robots.txt est sensible à la casse pour les paths (pas pour le user-agent) | Tester avec le validateur Google |
| Mettre le fichier sur sous-domaine /blog/robots.txt | Ignoré (robots.txt n'est valable qu'à la racine du domaine) | Toujours à la racine /robots.txt |
| Servir le fichier avec Content-Type: text/html | Certains crawlers strict refusent de parser | Forcer text/plain côté serveur |
6. Bonus : la directive Crawl-delay
Si tu veux limiter la fréquence des bots IA (par exemple, pour économiser la bande passante), tu peux ajouter :
User-agent: ClaudeBot
Crawl-delay: 10
→ ClaudeBot attendra 10 secondes entre chaque requête.
⚠️ Tous les crawlers ne respectent pas Crawl-delay. Google l'ignore depuis longtemps. La plupart des crawlers IA semblent le respecter, mais ce n'est pas garanti. Si la fréquence te pose vraiment problème, mieux vaut bloquer + autoriser à granularité fine (path par path) que jouer avec Crawl-delay.
7. Comment savoir si ton robots.txt est bon ?
Trois validations :
- Validateur Google : Search Console → robots.txt Tester. Te dit si ton fichier est syntaxiquement valide et quels chemins sont bloqués/autorisés.
- Test manuel :
curl https://tonsite.fr/robots.txt. Tu dois voir le fichier en plain text. - Audit MENTIA : getmentia.fr/audit vérifie automatiquement que tes 5 crawlers IA principaux (ChatGPT, Claude, Mistral, Perplexity, Gemini) sont autorisés. Gratuit, 60 secondes.
Pour aller plus loin
- Audit gratuit de ton site : getmentia.fr/audit — vérifie en 60s ton
robots.txt, tonllms.txt, tonsitemap.xml, et 11 autres critères techniques. Rapport email. - Spec officielle robots.txt : robotstxt.org.
- Liste à jour des crawlers IA : Dark Visitors tient une liste exhaustive.
- Voir si les IA te citent réellement : essai 14 jours sans CB sur getmentia.fr.
Édité par WORKWAVE SAS, SIREN 943 055 830, Craon (Vienne).