Optimiser robots.txt pour les crawlers IA en 2026
Ton robots.txt actuel a probablement été écrit pour Google et Bing. En 2026, ce n'est plus suffisant. Une dizaine de crawlers IA visitent ton site chaque semaine. Certains alimentent les futurs modèles (training). D'autres répondent en temps réel à ChatGPT, Claude, Mistral, Perplexity (search). Tu dois trancher : qui autoriser, qui bloquer, pourquoi. Ce guide te donne la stratégie complète et les templates prêts à coller.
TL;DR
- Autorise les bots de search (OAI-SearchBot, ChatGPT-User, ClaudeBot, MistralAI-User, PerplexityBot). Sinon tu n'es pas cité.
- Bloque ou autorise les bots de training (GPTBot, anthropic-ai, Google-Extended, CCBot) selon ta stratégie de cession de données.
- Maintiens Googlebot et Bingbot en Allow pour le SEO classique.
- Place toujours
Sitemap:en bas du fichier. - Validation :
curl https://tonsite.com/robots.txtet test sur Google Search Console.
Pourquoi le robots.txt change avec les LLMs
Le robots.txt est un fichier texte placé à la racine d'un site (https://tonsite.com/robots.txt). Il indique aux crawlers ce qu'ils ont le droit de lire. Historiquement, deux crawlers comptaient : Googlebot et Bingbot.
Depuis 2023, une dizaine de nouveaux crawlers sont apparus. Chacun appartient à un fournisseur de LLM. Chacun a un user-agent spécifique. Chacun a une fonction précise : training ou search. Ignorer cette distinction te coûte de la visibilité IA aujourd'hui ou ta souveraineté de contenu demain.
Les 12 user-agents IA à connaître
Bots de training (alimentent les futurs modèles)
| User-agent | Fournisseur | Usage |
|---|---|---|
GPTBot | OpenAI | Training GPT-4, GPT-5, futurs modèles |
anthropic-ai | Anthropic | Training Claude |
Google-Extended | Training Gemini, AI Overviews | |
CCBot | Common Crawl | Corpus public utilisé par nombreux LLMs |
Bytespider | ByteDance | Training Doubao, autres modèles ByteDance |
cohere-ai | Cohere | Training Command, autres modèles Cohere |
Applebot-Extended | Apple | Training Apple Intelligence |
FacebookBot | Meta | Training Llama, modèles Meta |
Amazonbot | Amazon | Training modèles Amazon Bedrock |
Bots de search (répondent en temps réel)
| User-agent | Fournisseur | Usage |
|---|---|---|
OAI-SearchBot | OpenAI | Alimente SearchGPT, ChatGPT live web access |
ChatGPT-User | OpenAI | Requête utilisateur en direct dans ChatGPT |
ClaudeBot | Anthropic | Alimente Claude web search |
Claude-Web | Anthropic | Requêtes utilisateur Claude |
MistralAI-User | Mistral AI | Alimente Mistral Le Chat web search |
PerplexityBot | Perplexity | Crawl pour réponses Perplexity |
Perplexity-User | Perplexity | Requêtes utilisateur Perplexity |
Diffbot | Diffbot | Structuration de données web (utilisé par certains LLMs) |
Stratégie MENTIA — quelle politique appliquer
Trois stratégies possibles selon ton profil.
Stratégie A — Visibilité maximale (recommandée pour la plupart des sites)
Autorise tous les bots de search. Autorise aussi les bots de training. Tu maximises ta présence dans les corpus actuels et futurs. Inconvénient : tes contenus alimentent les modèles, sans contrepartie financière directe.
Stratégie B — Hybride (recommandée pour MENTIA et les éditeurs de contenu original)
Autorise tous les bots de search. Bloque les bots de training. Tu es cité aujourd'hui sans céder ton contenu pour les futurs modèles. C'est la position par défaut conseillée pour les sites avec contenu original à forte valeur (médias, blogs experts, SaaS).
Stratégie C — Souveraineté stricte
Bloque tous les bots IA, training comme search. Tu protèges ton contenu mais tu deviens invisible dans les LLMs. À réserver aux contenus à très haute confidentialité (intranet exposé, contenus payants, archives sensibles).
Templates prêts à copier
Template A — Visibilité maximale
# robots.txt — Stratégie visibilité maximale
User-agent: *
Allow: /
Sitemap: https://tonsite.com/sitemap.xml
Court et radical. Tous les bots accèdent à tout. Simple à maintenir.
Template B — Hybride (recommandé MENTIA)
# robots.txt — Stratégie hybride : Allow search, Block training
# Bots de search OpenAI
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
# Bot de training OpenAI
User-agent: GPTBot
Disallow: /
# Bots de search Anthropic
User-agent: ClaudeBot
Allow: /
User-agent: Claude-Web
Allow: /
# Bot de training Anthropic
User-agent: anthropic-ai
Disallow: /
# Bot Mistral
User-agent: MistralAI-User
Allow: /
# Bots de search Perplexity
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
# Google : Googlebot pour SEO, Google-Extended pour Gemini/AI Overviews
User-agent: Googlebot
Allow: /
User-agent: Google-Extended
Disallow: /
# Apple : Applebot pour Spotlight/Safari, Applebot-Extended pour Apple Intelligence
User-agent: Applebot
Allow: /
User-agent: Applebot-Extended
Disallow: /
# Bing
User-agent: Bingbot
Allow: /
# Common Crawl (alimente de nombreux LLMs sans contrôle)
User-agent: CCBot
Disallow: /
# ByteDance
User-agent: Bytespider
Disallow: /
# Facebook / Meta
User-agent: FacebookBot
Disallow: /
# Catch-all : autoriser tous les autres bots
User-agent: *
Allow: /
Sitemap: https://tonsite.com/sitemap.xml
Template C — Souveraineté stricte
# robots.txt — Stratégie souveraineté stricte
# Bloquer tous les bots IA connus
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: MistralAI-User
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Perplexity-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: FacebookBot
Disallow: /
# Maintenir Googlebot et Bingbot pour SEO classique
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
User-agent: *
Allow: /
Sitemap: https://tonsite.com/sitemap.xml
Comment déployer le robots.txt
Sur Next.js
Crée app/robots.ts (App Router) :
import { MetadataRoute } from 'next';
export default function robots(): MetadataRoute.Robots {
return {
rules: [
{ userAgent: 'OAI-SearchBot', allow: '/' },
{ userAgent: 'GPTBot', disallow: '/' },
{ userAgent: 'ClaudeBot', allow: '/' },
{ userAgent: 'MistralAI-User', allow: '/' },
{ userAgent: 'PerplexityBot', allow: '/' },
{ userAgent: 'Googlebot', allow: '/' },
{ userAgent: 'Google-Extended', disallow: '/' },
{ userAgent: '*', allow: '/' },
],
sitemap: 'https://tonsite.com/sitemap.xml',
};
}
Sur WordPress
Édite robots.txt à la racine du site par FTP, ou utilise un plugin SEO (Yoast, Rank Math) qui propose un éditeur de robots.txt dans l'admin.
Sur Shopify
Va dans Boutique en ligne > Préférences > Modifier le fichier robots.txt.liquid. Adapte le template Liquid avec les user-agents IA.
Validation
Test 1 — Curl
curl https://tonsite.com/robots.txt
Vérifie que le contenu correspond à ce que tu as déployé.
Test 2 — Google Search Console
Search Console > Paramètres > Robots.txt. Google liste les erreurs de parsing s'il y en a.
Test 3 — Vérification user-agent par user-agent
Tape dans la barre du navigateur :
https://tonsite.com/robots.txt
Cherche manuellement chaque user-agent. Confirme que chaque ligne User-agent: est bien orthographiée (sensibles à la casse pour certains crawlers).
Test 4 — MENTIA Audit
L'audit GEO gratuit MENTIA vérifie automatiquement la présence et la cohérence des directives par bot IA.
Erreurs courantes à éviter
Erreur 1 — Bloquer OAI-SearchBot par inadvertance
Si tu copies un robots.txt générique qui contient User-agent: * \n Disallow: /, tu bloques TOUS les bots, y compris ceux qui te citent. Vérifie qu'aucune règle catch-all Disallow: / ne précède tes règles spécifiques.
Erreur 2 — Mauvaise orthographe du user-agent
GPTBot ≠ Gptbot ≠ GPT-Bot. Les crawlers comparent généralement de manière case-insensitive, mais respecte la casse officielle pour éviter tout problème.
Erreur 3 — Oublier le Sitemap
La directive Sitemap: aide les crawlers IA à découvrir tes pages. Place-la systématiquement en bas du fichier.
Erreur 4 — Confondre training et search
Bloquer GPTBot n'empêche pas ChatGPT de te citer aujourd'hui via OAI-SearchBot. Bloquer Google-Extended n'empêche pas Googlebot de te crawler pour le SEO. Lis bien la fonction de chaque bot avant de décider.
Erreur 5 — Politique trop restrictive sur un site nouveau
Sur un site neuf qui cherche à se faire connaître, la stratégie A (visibilité maximale) est généralement le meilleur choix. Tu peux durcir plus tard quand ta marque est établie.
Erreur 6 — Ne pas mettre à jour
De nouveaux bots IA apparaissent régulièrement. Audite ton robots.txt tous les 6 mois pour ajouter les nouveaux user-agents.
FAQ — robots.txt et crawlers IA
Faut-il bloquer GPTBot et ClaudeBot ? GPTBot et anthropic-ai sont des bots de training. Les bloquer empêche tes contenus de nourrir les futurs modèles, sans impact sur ta citation actuelle. Les bots de search (OAI-SearchBot, ClaudeBot, MistralAI-User, PerplexityBot) doivent rester en Allow pour être cité aujourd'hui.
Quelle différence entre GPTBot et OAI-SearchBot ? GPTBot est le crawler de training d'OpenAI. OAI-SearchBot est le crawler de search en temps réel (alimente SearchGPT). Tu peux bloquer l'un sans bloquer l'autre.
Google-Extended bloque-t-il Googlebot ? Non. Google-Extended contrôle uniquement l'utilisation pour Gemini et les AI Overviews. Googlebot continue de crawler indépendamment pour le SEO.
Que faire pour Bytespider ? Bytespider appartient à ByteDance. Il alimente des modèles utilisés par TikTok et Doubao. Pour un marché francophone B2B, l'autoriser apporte peu de valeur. La plupart des sites le bloquent.
Le robots.txt est-il juridiquement contraignant ?
Non. Le robots.txt est une convention que les crawlers respectent à leur discrétion. Pour une protection juridique, voir tes CGU et le RGPD. Tous les bots IA majeurs respectent le robots.txt aujourd'hui [à vérifier régulièrement].
Conclusion
10 minutes pour déployer un robots.txt aligné avec les LLMs 2026. C'est le geste technique le plus rentable que tu peux faire ce mois-ci en GEO. Une fois en place, valide avec un audit MENTIA. Réaudite tous les 6 mois pour intégrer les nouveaux user-agents.