Paramètres avancés
Prenez le contrôle complet de votre configuration robots.txt avec ces options avancées puissantes.
Aperçu de la configuration avancée
Ce guide couvre les paramètres de niveau expert pour affiner votre fichier robots.txt pour des performances, une sécurité et une optimisation SEO maximales.
Directives de niveau expert
Règles spécifiques par User-Agent
Contrôle granulaire des bots
Créez des règles spécifiques pour différents crawlers :
robots
# Autoriser un accès généreux pour les moteurs de recherche principaux
User-agent: Googlebot
Allow: /
Crawl-delay: 1
User-agent: Bingbot
Allow: /
Crawl-delay: 2
# Restreindre les crawlers IA
User-agent: GPTBot
Disallow: /admin/
Crawl-delay: 10
User-agent: ChatGPT-User
Disallow: /private/
Crawl-delay: 15
# Bloquer les crawlers problématiques
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /Directives Allow/Disallow avancées
Utilisation des caractères génériques
robots
# Bloquer tous les fichiers PDF sauf dans les dossiers spécifiques
Disallow: /*.pdf$
Allow: /wp-content/uploads/documents/*.pdf$
Allow: /public-docs/*.pdf$
# Autoriser les images mais bloquer les vignettes
Allow: /*.jpg$
Allow: /*.png$
Disallow: /wp-content/uploads/*-150x150.*
Disallow: /wp-content/uploads/*-300x300.*
# Contrôle fin des paramètres d'URL
Disallow: /*?utm_*
Disallow: /*?ref=*
Allow: /*?lang=fr
Allow: /*?page=*Expressions régulières
robots
# Bloquer les URLs avec des ID numériques
Disallow: /*/*-\d+/$
Disallow: /*/?post_id=*
# Autoriser seulement certains formats de contenu
Allow: /blog/*-202*/
Allow: /guides/*-guide*/
# Protéger les fichiers de configuration
Disallow: /*.conf$
Disallow: /*.config$
Disallow: /*.ini$Contrôle du taux d'exploration
Crawl-Delay et Request-Rate
robots
# Pour les moteurs de recherche principaux
User-agent: Googlebot
Crawl-delay: 1
Request-rate: 2/5s
# Pour les bots moins importants
User-agent: *
Crawl-delay: 10
Request-rate: 1/10s
# Pour les bots IA (très restrictif)
User-agent: GPTBot
Crawl-delay: 30
Request-rate: 1/60sOptimisation pour différents types de sites
robots
# Site à fort trafic
User-agent: *
Crawl-delay: 5
Request-rate: 1/5s
# Site e-commerce
User-agent: Googlebot
Crawl-delay: 1
Request-rate: 3/5s
# Site d'entreprise
User-agent: *
Crawl-delay: 3
Request-rate: 2/10sConfiguration de la sécurité avancée
Protection contre le scraping
Listes noires dynamiques
robots
# Bloquer les scrapers connus
User-agent: Scrapy
Disallow: /
User-agent: Python-urllib
Disallow: /
User-agent: libwww-perl
Disallow: /
User-agent: lwp-trivial
Disallow: /
# User-agents suspects
User-agent: *
Disallow: /api/
Disallow: /admin-ajax.php?action=*Pièges à crawlers (Honeypots)
robots
# Piège pour les scrapers malveillants
User-agent: *
Disallow: /wp-admin/css/
Disallow: /wp-admin/js/
Allow: /wp-admin/css/admin-
Allow: /wp-admin/js/admin-
# URL de leurre (ne doivent pas exister)
Disallow: /trap/
Disallow: /honeypot/
Disallow: /bot-trap/Protection des zones sensibles
Multi-couches de sécurité
robots
# Protection au niveau User-Agent
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-config.php
Disallow: /.htaccess
# Protection au niveau de chemin
Disallow: */admin/
Disallow: */config/
Disallow: */backup/
Disallow: */logs/
# Protection au niveau de fichier
Disallow: /*.sql$
Disallow: /*.bak$
Disallow: /*.log$
Disallow: /*.tmp$Sécurité par environnement
Configuration développement vs production
robots
# Environnement de développement (bloquer tout)
User-agent: *
Disallow: /
# Environnement de staging (accès limité)
User-agent: Googlebot
Allow: /sitemap.xml
Disallow: /
User-agent: *
Disallow: /
# Environnement de production (accès normal)
User-agent: *
Allow: /wp-content/uploads/
Allow: /*.css
Allow: /*.js
Disallow: /wp-admin/Optimisation SEO avancée
Gestion du budget d'exploration
Priorisation intelligente
robots
# Priorité maximale pour le contenu important
User-agent: Googlebot
Allow: /products/
Allow: /services/
Allow: /about/
Allow: /contact/
Crawl-delay: 1
# Priorité moyenne pour le contenu secondaire
User-agent: Bingbot
Allow: /blog/
Allow: /news/
Allow: /resources/
Crawl-delay: 2
# Priorité minimale pour le contenu de faible valeur
User-agent: *
Allow: /wp-content/uploads/
Allow: /*.css
Allow: /*.js
Disallow: /tag/
Disallow: /category/
Disallow: /author/
Crawl-delay: 5Gestion des paramètres d'URL
Nettoyage des URLs
robots
# Bloquer les paramètres de suivi
Disallow: /*?utm_*
Disallow: /*?fbclid=*
Disallow: /*?gclid=*
Disallow: /*?source=*
Disallow: /*?ref=*
Disallow: /*?campaign=*
# Autoriser les paramètres utiles
Allow: /*?page=*
Allow: /*?p=*
Allow: /*?lang=*
Allow: /*?cat=*Structure de site optimisée
Organisation par type de contenu
robots
# Pages principales (priorité haute)
User-agent: Googlebot
Allow: /$
Allow: /about/
Allow: /services/
Allow: /contact/
Allow: /blog/
Disallow: /
# Médias (priorité moyenne)
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
Disallow: /
# Vidéos (priorité spécifique)
User-agent: Googlebot-Video
Allow: /videos/
Allow: /*.mp4$
Allow: /*.avi$
Disallow: /
# Nouvelles (priorité rapide)
User-agent: Googlebot-News
Allow: /news/
Allow: /press/
Disallow: /Performance et mise à l'échelle
Configuration CDN
Intégration avec les réseaux de distribution
robots
# Autoriser les CDN principaux
User-agent: *
Allow: /cdn-cgi/
Allow: /.well-known/
Allow: /wp-content/cache/
# Optimisation Cloudflare
User-agent: CloudflareAlamed
Allow: /
# Optimisation AWS CloudFront
User-agent: Amazon CloudFront
Allow: /
# Cache headers pour les crawlers
User-agent: *
Allow: /cache/
Disallow: /wp-admin/admin-ajax.php?action=cache*Mise en cache avancée
Stratégies de cache pour les crawlers
robots
# Autoriser les ressources mises en cache
User-agent: *
Allow: /wp-content/cache/
Allow: /wp-static/
Allow: /cache-enabler/
# Contrôle du cache par type de contenu
User-agent: Googlebot
Allow: /wp-content/cache/supercache/
Allow: /wp-content/cache/wp-rocket/
# Protection contre le sur-utilisation du cache
Disallow: /wp-admin/admin-ajax.php?action=refresh_cache
Disallow: /wp-admin/admin-ajax.php?action=clear_cacheMonitoring et débogage
Tests et validation
Outils de test automatisés
bash
# Script de test pour votre robots.txt
#!/bin/bash
# Test avec différents user-agents
curl -A "Googlebot" -I https://votresite.com/private-page/
curl -A "Bingbot" -I https://votresite.com/private-page/
curl -A "AhrefsBot" -I https://votresite.com/private-page/
# Validation du fichier robots.txt
curl -s https://votresite.com/robots.txt | grep -E "(Allow|Disallow)"Surveillance en continu
robots
# Ajouter des indicateurs de monitoring
User-agent: MonitorBot
Allow: /health-check/
Allow: /robots-test/
# Journalisation des accès
User-agent: *
Disallow: /admin-log/
Allow: /public-access-log/Résolution des problèmes avancés
Débogage des règles complexes
robots
# Mode debug (temporaire)
# User-agent: *
# Allow: /debug-robots/
# Disallow: /
# Tests de règles
User-agent: TestBot
Allow: /test-area/
Disallow: /production-area/Meilleures pratiques et recommandations
Organisation des règles
Structure hiérarchique
robots
# 1. Règles globales
User-agent: *
Disallow: /wp-admin/
Allow: /wp-content/uploads/
# 2. Règles spécifiques par moteur
User-agent: Googlebot
Allow: /
Crawl-delay: 1
# 3. Règles pour les bots spéciaux
User-agent: GPTBot
Disallow: /
# 4. Sitemaps
Sitemap: https://votresite.com/sitemap.xmlDocumentation et maintenance
Commentaires descriptifs
robots
# ==========================================
# Configuration Better Robots.txt
# Site: e-commerce professionnel
# Dernière mise à jour: 2024-01-15
# ==========================================
# Protection des zones administratives
User-agent: *
Disallow: /wp-admin/
# Optimisation pour les produits e-commerce
User-agent: Googlebot
Allow: /products/
Disallow: /cart/Tests périodiques
Checklist de validation
- [ ] Test avec Google Search Console
- [ ] Validation avec Bing Webmaster Tools
- [ ] Tests manuels avec différents user-agents
- [ ] Surveillance des logs d'accès
- [ ] Vérification des positions SEO
- [ ] Analyse des taux d'exploration