Optimiser son `robots.txt` pour les IA (ChatGPT, Claude, Mistral, Perplexity, Gemini) en 2026

Mis à jour le 13 mai 2026. Guide pratique pour configurer ton robots.txt à l'ère des LLMs : autoriser les crawlers IA qui te font citer, bloquer ceux qui te scrapent pour entraîner sans valeur de retour, référencer ton sitemap. Liste à jour des user-agents IA, exemples copier-coller.

TL;DR

robots.txt est ton premier point de contact avec n'importe quel crawler — y compris les crawlers IA. Mal configuré, tu bloques ChatGPT et tu ne sais même pas pourquoi.
Distinction critique : il y a 2 types de bots IA. Les rendering bots (ChatGPT-User, Claude-Web, Perplexity-User, etc.) qui lisent ton site en temps réel pour répondre à un user. Et les training bots (GPTBot, ClaudeBot, CCBot, anthropic-ai, Bytespider) qui scrapent ton contenu pour entraîner les modèles.
Recommandation 2026 : autorise les rendering bots (sinon zéro citation possible). Choix éditorial pour les training bots (autoriser = ton contenu sert l'entraînement, bloquer = tu refuses).
N'oublie pas d'ajouter la directive Sitemap: dans ton robots.txt — sinon les crawlers ne savent pas par où commencer.
Effort : 10 minutes si tu pars de zéro, 5 minutes si tu modifies un existant.

1. Pourquoi `robots.txt` redevient critique en 2026

Pendant 25 ans (1994-2019), robots.txt servait surtout à dire à Googlebot quoi indexer ou pas. C'était devenu un détail technique géré par défaut.

En 2026, avec l'explosion des LLMs, le fichier reprend une importance stratégique pour 3 raisons :

Les bots IA sont devenus nombreux et hétérogènes. Il y a aujourd'hui ~20 user-agents IA actifs (OpenAI à elle seule en publie 4 différents). Chacun a un comportement différent.
Les LLMs lisent réellement ton robots.txt. Quand Claude ou ChatGPT tentent de fetch ton site pendant une conversation (avec browsing activé), ils vérifient robots.txt. Si tu bloques ClaudeBot ou ChatGPT-User, ils n'iront pas — et ne te citeront pas.
Le choix d'autoriser/bloquer les training bots est devenu un vrai débat éditorial. Le New York Times, Reuters, BBC ont publiquement bloqué GPTBot en 2023-2024. Tu peux choisir le même camp ou faire l'inverse — mais c'est ton choix, pas le hasard.

2. Les user-agents IA à connaître en 2026

Rendering bots (lisent ton site en temps réel pour citer)

| User-agent | Source | Comportement | |---|---|---| | ChatGPT-User | OpenAI | Lecture en temps réel quand l'utilisateur ChatGPT a activé browsing | | OAI-SearchBot | OpenAI | Index pour ChatGPT Search (le moteur intégré à ChatGPT) | | Claude-Web | Anthropic | Lecture en temps réel par Claude lorsqu'un utilisateur lui demande | | PerplexityBot | Perplexity | Index Perplexity + lecture pendant les conversations | | Perplexity-User | Perplexity | Lecture en temps réel pour les réponses | | MistralAI-User | Mistral | Lecture en temps réel par Le Chat | | Google-Extended | Google | Index pour Gemini / AI Overviews (à activer côté Google Search Console) |

Bloquer ces user-agents = aucune citation possible dans les réponses IA correspondantes. Recommandation forte : autorise-les tous, sauf cas spécifique.

Training bots (scrapent pour entraîner les modèles)

| User-agent | Source | Usage | |---|---|---| | GPTBot | OpenAI | Entraînement des modèles GPT | | ClaudeBot | Anthropic | Entraînement Claude (ex-anthropic-ai) | | anthropic-ai | Anthropic | Ancien user-agent, certains sites le voient encore | | CCBot | Common Crawl | Index public utilisé par presque tous les modèles open-source | | Bytespider | ByteDance / TikTok | Entraînement des modèles ByteDance (Doubao, etc.) | | FacebookBot | Meta | Entraînement Llama | | Applebot-Extended | Apple | Entraînement Apple Intelligence |

Bloquer ces user-agents = tu refuses que ton contenu serve à entraîner ces modèles. Choix éditorial. Beaucoup de médias bloquent, beaucoup de SaaS autorisent (vu comme « ils ne forment plus sur du contenu post-2023 de toute façon »). À toi.

3. Anatomie d'un `robots.txt` propre en 2026

Le format robots.txt n'a pas changé depuis 1994. Une section commence par User-agent: et liste ensuite les directives Allow: et Disallow:.

Exemple minimaliste — Tout autoriser + référencer le sitemap

User-agent: *
Allow: /

Sitemap: https://tonsite.fr/sitemap.xml

C'est le minimum vital. Mais c'est trop permissif si tu veux bloquer le training.

Exemple recommandé 2026 (autoriser rendering, bloquer training)

# Crawlers SEO classiques — tout autorisé
User-agent: *
Allow: /

# Crawlers IA rendering — autorisés (sinon zéro citation possible)
User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: MistralAI-User
Allow: /

# Crawlers IA training — bloqués (choix éditorial)
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

# Sitemap (obligatoire pour le SEO + utile pour les bots IA)
Sitemap: https://tonsite.fr/sitemap.xml

Exemple « tout ouvert » (recommandé si tu débutes)

Si tu n'es pas sûr et que tu veux maximiser la chance d'être cité, autorise tout :

User-agent: *
Allow: /

Sitemap: https://tonsite.fr/sitemap.xml

Tu reviendras affiner plus tard si tu veux bloquer le training. Ne bloque jamais aveuglément un user-agent IA sans savoir ce qu'il fait.

4. Tutoriel : 4 étapes pour déployer ton `robots.txt`

Étape 1 — Identifie ton fichier actuel (si existant)

Va voir : https://tonsite.fr/robots.txt

3 cas possibles :

Tu vois un fichier → tu vas le modifier
Tu vois 404 → tu vas le créer
Tu vois une page HTML → ton site est mal configuré, c'est cassé. Voir étape 3.

Étape 2 — Rédige le contenu

Copie-colle l'exemple recommandé 2026 ci-dessus. Remplace https://tonsite.fr/sitemap.xml par ton vrai sitemap (voir l'article sitemap.xml pour LLM/AEO).

Étape 3 — Déploie

| Stack | Où mettre le fichier | |---|---| | Next.js | public/robots.txt ou route dynamique app/robots.ts | | Nuxt | public/robots.txt ou server/middleware/robots.ts | | WordPress | Plugin Yoast SEO / Rank Math gère ça nativement | | Webflow | Project Settings → SEO → Robots.txt | | Shopify | Theme → Edit code → templates/robots.txt.liquid | | Wix | Manage Site → Marketing & SEO → Edit Robots.txt |

Important : si ton site a la fois www et apex (e.g. www.getmentia.fr et getmentia.fr), assure-toi que robots.txt est servi sur les deux. Sinon redirige https://getmentia.fr vers https://www.getmentia.fr (ou inverse) au niveau DNS / Vercel / hosting.

Étape 4 — Vérifie

Ouvre https://tonsite.fr/robots.txt dans ton navigateur → tu dois voir le fichier brut (pas HTML).
Vérifie le Content-Type (devtools → Network) → text/plain attendu.
Lance un audit gratuit sur getmentia.fr/audit pour vérifier que tous tes crawlers IA sont autorisés et que le sitemap est référencé.

5. Erreurs courantes à éviter

| Erreur | Conséquence | Comment éviter | |---|---|---| | Disallow: / sur User-agent: * | Tu bloques tout (Google, ChatGPT, tout) | Vérifier deux fois avant de mettre / | | Pas de Sitemap: à la fin | Crawlers doivent deviner ton sitemap → indexation partielle | Toujours référencer le sitemap | | Bloquer ChatGPT-User par erreur | Aucune citation possible dans ChatGPT | Différencier rendering vs training | | Confondre majuscules / minuscules | Robots.txt est sensible à la casse pour les paths (pas pour le user-agent) | Tester avec le validateur Google | | Mettre le fichier sur sous-domaine /blog/robots.txt | Ignoré (robots.txt n'est valable qu'à la racine du domaine) | Toujours à la racine /robots.txt | | Servir le fichier avec Content-Type: text/html | Certains crawlers strict refusent de parser | Forcer text/plain côté serveur |

6. Bonus : la directive `Crawl-delay`

Si tu veux limiter la fréquence des bots IA (par exemple, pour économiser la bande passante), tu peux ajouter :

User-agent: ClaudeBot
Crawl-delay: 10

→ ClaudeBot attendra 10 secondes entre chaque requête.

⚠️ Tous les crawlers ne respectent pas Crawl-delay. Google l'ignore depuis longtemps. La plupart des crawlers IA semblent le respecter, mais ce n'est pas garanti. Si la fréquence te pose vraiment problème, mieux vaut bloquer + autoriser à granularité fine (path par path) que jouer avec Crawl-delay.

7. Comment savoir si ton `robots.txt` est bon ?

Trois validations :

Validateur Google : Search Console → robots.txt Tester. Te dit si ton fichier est syntaxiquement valide et quels chemins sont bloqués/autorisés.
Test manuel : curl https://tonsite.fr/robots.txt. Tu dois voir le fichier en plain text.
Audit MENTIA : getmentia.fr/audit vérifie automatiquement que tes 5 crawlers IA principaux (ChatGPT, Claude, Mistral, Perplexity, Gemini) sont autorisés. Gratuit, 60 secondes.

Pour aller plus loin

Audit gratuit de ton site : getmentia.fr/audit — vérifie en 60s ton robots.txt, ton llms.txt, ton sitemap.xml, et 11 autres critères techniques. Rapport email.
Spec officielle robots.txt : robotstxt.org.
Liste à jour des crawlers IA : Dark Visitors tient une liste exhaustive.
Voir si les IA te citent réellement : essai 14 jours sans CB sur getmentia.fr.

Édité par WORKWAVE SAS, SIREN 943 055 830, Craon (Vienne).

Optimiser son robots.txt pour les IA (ChatGPT, Claude, Mistral, Perplexity, Gemini) en 2026