Optimiser robots.txt pour les crawlers IA en 2026

Ton robots.txt actuel a probablement été écrit pour Google et Bing. En 2026, ce n'est plus suffisant. Une dizaine de crawlers IA visitent ton site chaque semaine. Certains alimentent les futurs modèles (training). D'autres répondent en temps réel à ChatGPT, Claude, Mistral, Perplexity (search). Tu dois trancher : qui autoriser, qui bloquer, pourquoi. Ce guide te donne la stratégie complète et les templates prêts à coller.

TL;DR

Autorise les bots de search (OAI-SearchBot, ChatGPT-User, ClaudeBot, MistralAI-User, PerplexityBot). Sinon tu n'es pas cité.
Bloque ou autorise les bots de training (GPTBot, anthropic-ai, Google-Extended, CCBot) selon ta stratégie de cession de données.
Maintiens Googlebot et Bingbot en Allow pour le SEO classique.
Place toujours Sitemap: en bas du fichier.
Validation : curl https://tonsite.com/robots.txt et test sur Google Search Console.

Pourquoi le robots.txt change avec les LLMs

Le robots.txt est un fichier texte placé à la racine d'un site (https://tonsite.com/robots.txt). Il indique aux crawlers ce qu'ils ont le droit de lire. Historiquement, deux crawlers comptaient : Googlebot et Bingbot.

Depuis 2023, une dizaine de nouveaux crawlers sont apparus. Chacun appartient à un fournisseur de LLM. Chacun a un user-agent spécifique. Chacun a une fonction précise : training ou search. Ignorer cette distinction te coûte de la visibilité IA aujourd'hui ou ta souveraineté de contenu demain.

Les 12 user-agents IA à connaître

Bots de training (alimentent les futurs modèles)

User-agent	Fournisseur	Usage
`GPTBot`	OpenAI	Training GPT-4, GPT-5, futurs modèles
`anthropic-ai`	Anthropic	Training Claude
`Google-Extended`	Google	Training Gemini, AI Overviews
`CCBot`	Common Crawl	Corpus public utilisé par nombreux LLMs
`Bytespider`	ByteDance	Training Doubao, autres modèles ByteDance
`cohere-ai`	Cohere	Training Command, autres modèles Cohere
`Applebot-Extended`	Apple	Training Apple Intelligence
`FacebookBot`	Meta	Training Llama, modèles Meta
`Amazonbot`	Amazon	Training modèles Amazon Bedrock

Bots de search (répondent en temps réel)

User-agent	Fournisseur	Usage
`OAI-SearchBot`	OpenAI	Alimente SearchGPT, ChatGPT live web access
`ChatGPT-User`	OpenAI	Requête utilisateur en direct dans ChatGPT
`ClaudeBot`	Anthropic	Alimente Claude web search
`Claude-Web`	Anthropic	Requêtes utilisateur Claude
`MistralAI-User`	Mistral AI	Alimente Mistral Le Chat web search
`PerplexityBot`	Perplexity	Crawl pour réponses Perplexity
`Perplexity-User`	Perplexity	Requêtes utilisateur Perplexity
`Diffbot`	Diffbot	Structuration de données web (utilisé par certains LLMs)

Stratégie MENTIA — quelle politique appliquer

Trois stratégies possibles selon ton profil.

Stratégie A — Visibilité maximale (recommandée pour la plupart des sites)

Autorise tous les bots de search. Autorise aussi les bots de training. Tu maximises ta présence dans les corpus actuels et futurs. Inconvénient : tes contenus alimentent les modèles, sans contrepartie financière directe.

Stratégie B — Hybride (recommandée pour MENTIA et les éditeurs de contenu original)

Autorise tous les bots de search. Bloque les bots de training. Tu es cité aujourd'hui sans céder ton contenu pour les futurs modèles. C'est la position par défaut conseillée pour les sites avec contenu original à forte valeur (médias, blogs experts, SaaS).

Stratégie C — Souveraineté stricte

Bloque tous les bots IA, training comme search. Tu protèges ton contenu mais tu deviens invisible dans les LLMs. À réserver aux contenus à très haute confidentialité (intranet exposé, contenus payants, archives sensibles).

Templates prêts à copier

Template A — Visibilité maximale

# robots.txt — Stratégie visibilité maximale

User-agent: *
Allow: /

Sitemap: https://tonsite.com/sitemap.xml

Court et radical. Tous les bots accèdent à tout. Simple à maintenir.

Template B — Hybride (recommandé MENTIA)

# robots.txt — Stratégie hybride : Allow search, Block training

# Bots de search OpenAI
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

# Bot de training OpenAI
User-agent: GPTBot
Disallow: /

# Bots de search Anthropic
User-agent: ClaudeBot
Allow: /

User-agent: Claude-Web
Allow: /

# Bot de training Anthropic
User-agent: anthropic-ai
Disallow: /

# Bot Mistral
User-agent: MistralAI-User
Allow: /

# Bots de search Perplexity
User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

# Google : Googlebot pour SEO, Google-Extended pour Gemini/AI Overviews
User-agent: Googlebot
Allow: /

User-agent: Google-Extended
Disallow: /

# Apple : Applebot pour Spotlight/Safari, Applebot-Extended pour Apple Intelligence
User-agent: Applebot
Allow: /

User-agent: Applebot-Extended
Disallow: /

# Bing
User-agent: Bingbot
Allow: /

# Common Crawl (alimente de nombreux LLMs sans contrôle)
User-agent: CCBot
Disallow: /

# ByteDance
User-agent: Bytespider
Disallow: /

# Facebook / Meta
User-agent: FacebookBot
Disallow: /

# Catch-all : autoriser tous les autres bots
User-agent: *
Allow: /

Sitemap: https://tonsite.com/sitemap.xml

Template C — Souveraineté stricte

# robots.txt — Stratégie souveraineté stricte

# Bloquer tous les bots IA connus
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: MistralAI-User
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Perplexity-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: FacebookBot
Disallow: /

# Maintenir Googlebot et Bingbot pour SEO classique
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: *
Allow: /

Sitemap: https://tonsite.com/sitemap.xml

Comment déployer le robots.txt

Sur Next.js

Crée app/robots.ts (App Router) :

import { MetadataRoute } from 'next';

export default function robots(): MetadataRoute.Robots {
  return {
    rules: [
      { userAgent: 'OAI-SearchBot', allow: '/' },
      { userAgent: 'GPTBot', disallow: '/' },
      { userAgent: 'ClaudeBot', allow: '/' },
      { userAgent: 'MistralAI-User', allow: '/' },
      { userAgent: 'PerplexityBot', allow: '/' },
      { userAgent: 'Googlebot', allow: '/' },
      { userAgent: 'Google-Extended', disallow: '/' },
      { userAgent: '*', allow: '/' },
    ],
    sitemap: 'https://tonsite.com/sitemap.xml',
  };
}

Sur WordPress

Édite robots.txt à la racine du site par FTP, ou utilise un plugin SEO (Yoast, Rank Math) qui propose un éditeur de robots.txt dans l'admin.

Sur Shopify

Va dans Boutique en ligne > Préférences > Modifier le fichier robots.txt.liquid. Adapte le template Liquid avec les user-agents IA.

Validation

Test 1 — Curl

curl https://tonsite.com/robots.txt

Vérifie que le contenu correspond à ce que tu as déployé.

Test 2 — Google Search Console

Search Console > Paramètres > Robots.txt. Google liste les erreurs de parsing s'il y en a.

Test 3 — Vérification user-agent par user-agent

Tape dans la barre du navigateur :

https://tonsite.com/robots.txt

Cherche manuellement chaque user-agent. Confirme que chaque ligne User-agent: est bien orthographiée (sensibles à la casse pour certains crawlers).

Test 4 — MENTIA Audit

L'audit GEO gratuit MENTIA vérifie automatiquement la présence et la cohérence des directives par bot IA.

Erreurs courantes à éviter

Erreur 1 — Bloquer OAI-SearchBot par inadvertance

Si tu copies un robots.txt générique qui contient User-agent: * \n Disallow: /, tu bloques TOUS les bots, y compris ceux qui te citent. Vérifie qu'aucune règle catch-all Disallow: / ne précède tes règles spécifiques.

Erreur 2 — Mauvaise orthographe du user-agent

GPTBot ≠ Gptbot ≠ GPT-Bot. Les crawlers comparent généralement de manière case-insensitive, mais respecte la casse officielle pour éviter tout problème.

Erreur 3 — Oublier le Sitemap

La directive Sitemap: aide les crawlers IA à découvrir tes pages. Place-la systématiquement en bas du fichier.

Erreur 4 — Confondre training et search

Bloquer GPTBot n'empêche pas ChatGPT de te citer aujourd'hui via OAI-SearchBot. Bloquer Google-Extended n'empêche pas Googlebot de te crawler pour le SEO. Lis bien la fonction de chaque bot avant de décider.

Erreur 5 — Politique trop restrictive sur un site nouveau

Sur un site neuf qui cherche à se faire connaître, la stratégie A (visibilité maximale) est généralement le meilleur choix. Tu peux durcir plus tard quand ta marque est établie.

Erreur 6 — Ne pas mettre à jour

De nouveaux bots IA apparaissent régulièrement. Audite ton robots.txt tous les 6 mois pour ajouter les nouveaux user-agents.

FAQ — robots.txt et crawlers IA

Faut-il bloquer GPTBot et ClaudeBot ? GPTBot et anthropic-ai sont des bots de training. Les bloquer empêche tes contenus de nourrir les futurs modèles, sans impact sur ta citation actuelle. Les bots de search (OAI-SearchBot, ClaudeBot, MistralAI-User, PerplexityBot) doivent rester en Allow pour être cité aujourd'hui.

Quelle différence entre GPTBot et OAI-SearchBot ? GPTBot est le crawler de training d'OpenAI. OAI-SearchBot est le crawler de search en temps réel (alimente SearchGPT). Tu peux bloquer l'un sans bloquer l'autre.

Google-Extended bloque-t-il Googlebot ? Non. Google-Extended contrôle uniquement l'utilisation pour Gemini et les AI Overviews. Googlebot continue de crawler indépendamment pour le SEO.

Que faire pour Bytespider ? Bytespider appartient à ByteDance. Il alimente des modèles utilisés par TikTok et Doubao. Pour un marché francophone B2B, l'autoriser apporte peu de valeur. La plupart des sites le bloquent.

Le robots.txt est-il juridiquement contraignant ? Non. Le robots.txt est une convention que les crawlers respectent à leur discrétion. Pour une protection juridique, voir tes CGU et le RGPD. Tous les bots IA majeurs respectent le robots.txt aujourd'hui [à vérifier régulièrement].

Conclusion

10 minutes pour déployer un robots.txt aligné avec les LLMs 2026. C'est le geste technique le plus rentable que tu peux faire ce mois-ci en GEO. Une fois en place, valide avec un audit MENTIA. Réaudite tous les 6 mois pour intégrer les nouveaux user-agents.