MENTIA
← Retour au blog
Guide8 min de lecture·13 mai 2026

Optimiser son robots.txt pour les IA (ChatGPT, Claude, Mistral, Perplexity, Gemini) en 2026

Mis à jour le 13 mai 2026. Guide pratique pour configurer ton robots.txt à l'ère des LLMs : autoriser les crawlers IA qui te font citer, bloquer ceux qui te scrapent pour entraîner sans valeur de retour, référencer ton sitemap. Liste à jour des user-agents IA, exemples copier-coller.

TL;DR

  • robots.txt est ton premier point de contact avec n'importe quel crawler — y compris les crawlers IA. Mal configuré, tu bloques ChatGPT et tu ne sais même pas pourquoi.
  • Distinction critique : il y a 2 types de bots IA. Les rendering bots (ChatGPT-User, Claude-Web, Perplexity-User, etc.) qui lisent ton site en temps réel pour répondre à un user. Et les training bots (GPTBot, ClaudeBot, CCBot, anthropic-ai, Bytespider) qui scrapent ton contenu pour entraîner les modèles.
  • Recommandation 2026 : autorise les rendering bots (sinon zéro citation possible). Choix éditorial pour les training bots (autoriser = ton contenu sert l'entraînement, bloquer = tu refuses).
  • N'oublie pas d'ajouter la directive Sitemap: dans ton robots.txt — sinon les crawlers ne savent pas par où commencer.
  • Effort : 10 minutes si tu pars de zéro, 5 minutes si tu modifies un existant.

1. Pourquoi robots.txt redevient critique en 2026

Pendant 25 ans (1994-2019), robots.txt servait surtout à dire à Googlebot quoi indexer ou pas. C'était devenu un détail technique géré par défaut.

En 2026, avec l'explosion des LLMs, le fichier reprend une importance stratégique pour 3 raisons :

  1. Les bots IA sont devenus nombreux et hétérogènes. Il y a aujourd'hui ~20 user-agents IA actifs (OpenAI à elle seule en publie 4 différents). Chacun a un comportement différent.
  2. Les LLMs lisent réellement ton robots.txt. Quand Claude ou ChatGPT tentent de fetch ton site pendant une conversation (avec browsing activé), ils vérifient robots.txt. Si tu bloques ClaudeBot ou ChatGPT-User, ils n'iront pas — et ne te citeront pas.
  3. Le choix d'autoriser/bloquer les training bots est devenu un vrai débat éditorial. Le New York Times, Reuters, BBC ont publiquement bloqué GPTBot en 2023-2024. Tu peux choisir le même camp ou faire l'inverse — mais c'est ton choix, pas le hasard.

2. Les user-agents IA à connaître en 2026

Rendering bots (lisent ton site en temps réel pour citer)

User-agentSourceComportement
ChatGPT-UserOpenAILecture en temps réel quand l'utilisateur ChatGPT a activé browsing
OAI-SearchBotOpenAIIndex pour ChatGPT Search (le moteur intégré à ChatGPT)
Claude-WebAnthropicLecture en temps réel par Claude lorsqu'un utilisateur lui demande
PerplexityBotPerplexityIndex Perplexity + lecture pendant les conversations
Perplexity-UserPerplexityLecture en temps réel pour les réponses
MistralAI-UserMistralLecture en temps réel par Le Chat
Google-ExtendedGoogleIndex pour Gemini / AI Overviews (à activer côté Google Search Console)

Bloquer ces user-agents = aucune citation possible dans les réponses IA correspondantes. Recommandation forte : autorise-les tous, sauf cas spécifique.

Training bots (scrapent pour entraîner les modèles)

User-agentSourceUsage
GPTBotOpenAIEntraînement des modèles GPT
ClaudeBotAnthropicEntraînement Claude (ex-anthropic-ai)
anthropic-aiAnthropicAncien user-agent, certains sites le voient encore
CCBotCommon CrawlIndex public utilisé par presque tous les modèles open-source
BytespiderByteDance / TikTokEntraînement des modèles ByteDance (Doubao, etc.)
FacebookBotMetaEntraînement Llama
Applebot-ExtendedAppleEntraînement Apple Intelligence

Bloquer ces user-agents = tu refuses que ton contenu serve à entraîner ces modèles. Choix éditorial. Beaucoup de médias bloquent, beaucoup de SaaS autorisent (vu comme « ils ne forment plus sur du contenu post-2023 de toute façon »). À toi.


3. Anatomie d'un robots.txt propre en 2026

Le format robots.txt n'a pas changé depuis 1994. Une section commence par User-agent: et liste ensuite les directives Allow: et Disallow:.

Exemple minimaliste — Tout autoriser + référencer le sitemap

User-agent: *
Allow: /

Sitemap: https://tonsite.fr/sitemap.xml

C'est le minimum vital. Mais c'est trop permissif si tu veux bloquer le training.

Exemple recommandé 2026 (autoriser rendering, bloquer training)

# Crawlers SEO classiques — tout autorisé
User-agent: *
Allow: /

# Crawlers IA rendering — autorisés (sinon zéro citation possible)
User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: MistralAI-User
Allow: /

# Crawlers IA training — bloqués (choix éditorial)
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

# Sitemap (obligatoire pour le SEO + utile pour les bots IA)
Sitemap: https://tonsite.fr/sitemap.xml

Exemple « tout ouvert » (recommandé si tu débutes)

Si tu n'es pas sûr et que tu veux maximiser la chance d'être cité, autorise tout :

User-agent: *
Allow: /

Sitemap: https://tonsite.fr/sitemap.xml

Tu reviendras affiner plus tard si tu veux bloquer le training. Ne bloque jamais aveuglément un user-agent IA sans savoir ce qu'il fait.


4. Tutoriel : 4 étapes pour déployer ton robots.txt

Étape 1 — Identifie ton fichier actuel (si existant)

Va voir : https://tonsite.fr/robots.txt

3 cas possibles :

  • Tu vois un fichier → tu vas le modifier
  • Tu vois 404 → tu vas le créer
  • Tu vois une page HTML → ton site est mal configuré, c'est cassé. Voir étape 3.

Étape 2 — Rédige le contenu

Copie-colle l'exemple recommandé 2026 ci-dessus. Remplace https://tonsite.fr/sitemap.xml par ton vrai sitemap (voir l'article sitemap.xml pour LLM/AEO).

Étape 3 — Déploie

StackOù mettre le fichier
Next.jspublic/robots.txt ou route dynamique app/robots.ts
Nuxtpublic/robots.txt ou server/middleware/robots.ts
WordPressPlugin Yoast SEO / Rank Math gère ça nativement
WebflowProject Settings → SEO → Robots.txt
ShopifyTheme → Edit code → templates/robots.txt.liquid
WixManage Site → Marketing & SEO → Edit Robots.txt

Important : si ton site a la fois www et apex (e.g. www.getmentia.fr et getmentia.fr), assure-toi que robots.txt est servi sur les deux. Sinon redirige https://getmentia.fr vers https://www.getmentia.fr (ou inverse) au niveau DNS / Vercel / hosting.

Étape 4 — Vérifie

  1. Ouvre https://tonsite.fr/robots.txt dans ton navigateur → tu dois voir le fichier brut (pas HTML).
  2. Vérifie le Content-Type (devtools → Network) → text/plain attendu.
  3. Lance un audit gratuit sur getmentia.fr/audit pour vérifier que tous tes crawlers IA sont autorisés et que le sitemap est référencé.

5. Erreurs courantes à éviter

ErreurConséquenceComment éviter
Disallow: / sur User-agent: *Tu bloques tout (Google, ChatGPT, tout)Vérifier deux fois avant de mettre /
Pas de Sitemap: à la finCrawlers doivent deviner ton sitemap → indexation partielleToujours référencer le sitemap
Bloquer ChatGPT-User par erreurAucune citation possible dans ChatGPTDifférencier rendering vs training
Confondre majuscules / minusculesRobots.txt est sensible à la casse pour les paths (pas pour le user-agent)Tester avec le validateur Google
Mettre le fichier sur sous-domaine /blog/robots.txtIgnoré (robots.txt n'est valable qu'à la racine du domaine)Toujours à la racine /robots.txt
Servir le fichier avec Content-Type: text/htmlCertains crawlers strict refusent de parserForcer text/plain côté serveur

6. Bonus : la directive Crawl-delay

Si tu veux limiter la fréquence des bots IA (par exemple, pour économiser la bande passante), tu peux ajouter :

User-agent: ClaudeBot
Crawl-delay: 10

→ ClaudeBot attendra 10 secondes entre chaque requête.

⚠️ Tous les crawlers ne respectent pas Crawl-delay. Google l'ignore depuis longtemps. La plupart des crawlers IA semblent le respecter, mais ce n'est pas garanti. Si la fréquence te pose vraiment problème, mieux vaut bloquer + autoriser à granularité fine (path par path) que jouer avec Crawl-delay.


7. Comment savoir si ton robots.txt est bon ?

Trois validations :

  1. Validateur Google : Search Console → robots.txt Tester. Te dit si ton fichier est syntaxiquement valide et quels chemins sont bloqués/autorisés.
  2. Test manuel : curl https://tonsite.fr/robots.txt. Tu dois voir le fichier en plain text.
  3. Audit MENTIA : getmentia.fr/audit vérifie automatiquement que tes 5 crawlers IA principaux (ChatGPT, Claude, Mistral, Perplexity, Gemini) sont autorisés. Gratuit, 60 secondes.

Pour aller plus loin

  • Audit gratuit de ton site : getmentia.fr/audit — vérifie en 60s ton robots.txt, ton llms.txt, ton sitemap.xml, et 11 autres critères techniques. Rapport email.
  • Spec officielle robots.txt : robotstxt.org.
  • Liste à jour des crawlers IA : Dark Visitors tient une liste exhaustive.
  • Voir si les IA te citent réellement : essai 14 jours sans CB sur getmentia.fr.

Édité par WORKWAVE SAS, SIREN 943 055 830, Craon (Vienne).

Ton site est-il lisible par ChatGPT, Claude et Mistral ?

Audit gratuit en 60 s · 35 critères techniques · Sans inscription · Rapport par email

Lancer mon audit gratuit →
← AccueilBlogConfidentialitéContact