Skip to content

Paramètres avancés

Prenez le contrôle complet de votre configuration robots.txt avec ces options avancées puissantes.

Aperçu de la configuration avancée

Ce guide couvre les paramètres de niveau expert pour affiner votre fichier robots.txt pour des performances, une sécurité et une optimisation SEO maximales.

Directives de niveau expert

Règles spécifiques par User-Agent

Contrôle granulaire des bots

Créez des règles spécifiques pour différents crawlers :

robots
# Autoriser un accès généreux pour les moteurs de recherche principaux
User-agent: Googlebot
Allow: /
Crawl-delay: 1

User-agent: Bingbot
Allow: /
Crawl-delay: 2

# Restreindre les crawlers IA
User-agent: GPTBot
Disallow: /admin/
Crawl-delay: 10

User-agent: ChatGPT-User
Disallow: /private/
Crawl-delay: 15

# Bloquer les crawlers problématiques
User-agent: AhrefsBot
Disallow: /

User-agent: MJ12bot
Disallow: /

Directives Allow/Disallow avancées

Utilisation des caractères génériques

robots
# Bloquer tous les fichiers PDF sauf dans les dossiers spécifiques
Disallow: /*.pdf$
Allow: /wp-content/uploads/documents/*.pdf$
Allow: /public-docs/*.pdf$

# Autoriser les images mais bloquer les vignettes
Allow: /*.jpg$
Allow: /*.png$
Disallow: /wp-content/uploads/*-150x150.*
Disallow: /wp-content/uploads/*-300x300.*

# Contrôle fin des paramètres d'URL
Disallow: /*?utm_*
Disallow: /*?ref=*
Allow: /*?lang=fr
Allow: /*?page=*

Expressions régulières

robots
# Bloquer les URLs avec des ID numériques
Disallow: /*/*-\d+/$
Disallow: /*/?post_id=*

# Autoriser seulement certains formats de contenu
Allow: /blog/*-202*/
Allow: /guides/*-guide*/

# Protéger les fichiers de configuration
Disallow: /*.conf$
Disallow: /*.config$
Disallow: /*.ini$

Contrôle du taux d'exploration

Crawl-Delay et Request-Rate

robots
# Pour les moteurs de recherche principaux
User-agent: Googlebot
Crawl-delay: 1
Request-rate: 2/5s

# Pour les bots moins importants
User-agent: *
Crawl-delay: 10
Request-rate: 1/10s

# Pour les bots IA (très restrictif)
User-agent: GPTBot
Crawl-delay: 30
Request-rate: 1/60s

Optimisation pour différents types de sites

robots
# Site à fort trafic
User-agent: *
Crawl-delay: 5
Request-rate: 1/5s

# Site e-commerce
User-agent: Googlebot
Crawl-delay: 1
Request-rate: 3/5s

# Site d'entreprise
User-agent: *
Crawl-delay: 3
Request-rate: 2/10s

Configuration de la sécurité avancée

Protection contre le scraping

Listes noires dynamiques

robots
# Bloquer les scrapers connus
User-agent: Scrapy
Disallow: /

User-agent: Python-urllib
Disallow: /

User-agent: libwww-perl
Disallow: /

User-agent: lwp-trivial
Disallow: /

# User-agents suspects
User-agent: *
Disallow: /api/
Disallow: /admin-ajax.php?action=*

Pièges à crawlers (Honeypots)

robots
# Piège pour les scrapers malveillants
User-agent: *
Disallow: /wp-admin/css/
Disallow: /wp-admin/js/
Allow: /wp-admin/css/admin-
Allow: /wp-admin/js/admin-

# URL de leurre (ne doivent pas exister)
Disallow: /trap/
Disallow: /honeypot/
Disallow: /bot-trap/

Protection des zones sensibles

Multi-couches de sécurité

robots
# Protection au niveau User-Agent
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-config.php
Disallow: /.htaccess

# Protection au niveau de chemin
Disallow: */admin/
Disallow: */config/
Disallow: */backup/
Disallow: */logs/

# Protection au niveau de fichier
Disallow: /*.sql$
Disallow: /*.bak$
Disallow: /*.log$
Disallow: /*.tmp$

Sécurité par environnement

Configuration développement vs production

robots
# Environnement de développement (bloquer tout)
User-agent: *
Disallow: /

# Environnement de staging (accès limité)
User-agent: Googlebot
Allow: /sitemap.xml
Disallow: /

User-agent: *
Disallow: /

# Environnement de production (accès normal)
User-agent: *
Allow: /wp-content/uploads/
Allow: /*.css
Allow: /*.js
Disallow: /wp-admin/

Optimisation SEO avancée

Gestion du budget d'exploration

Priorisation intelligente

robots
# Priorité maximale pour le contenu important
User-agent: Googlebot
Allow: /products/
Allow: /services/
Allow: /about/
Allow: /contact/
Crawl-delay: 1

# Priorité moyenne pour le contenu secondaire
User-agent: Bingbot
Allow: /blog/
Allow: /news/
Allow: /resources/
Crawl-delay: 2

# Priorité minimale pour le contenu de faible valeur
User-agent: *
Allow: /wp-content/uploads/
Allow: /*.css
Allow: /*.js
Disallow: /tag/
Disallow: /category/
Disallow: /author/
Crawl-delay: 5

Gestion des paramètres d'URL

Nettoyage des URLs

robots
# Bloquer les paramètres de suivi
Disallow: /*?utm_*
Disallow: /*?fbclid=*
Disallow: /*?gclid=*
Disallow: /*?source=*
Disallow: /*?ref=*
Disallow: /*?campaign=*

# Autoriser les paramètres utiles
Allow: /*?page=*
Allow: /*?p=*
Allow: /*?lang=*
Allow: /*?cat=*

Structure de site optimisée

Organisation par type de contenu

robots
# Pages principales (priorité haute)
User-agent: Googlebot
Allow: /$
Allow: /about/
Allow: /services/
Allow: /contact/
Allow: /blog/
Disallow: /

# Médias (priorité moyenne)
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
Disallow: /

# Vidéos (priorité spécifique)
User-agent: Googlebot-Video
Allow: /videos/
Allow: /*.mp4$
Allow: /*.avi$
Disallow: /

# Nouvelles (priorité rapide)
User-agent: Googlebot-News
Allow: /news/
Allow: /press/
Disallow: /

Performance et mise à l'échelle

Configuration CDN

Intégration avec les réseaux de distribution

robots
# Autoriser les CDN principaux
User-agent: *
Allow: /cdn-cgi/
Allow: /.well-known/
Allow: /wp-content/cache/

# Optimisation Cloudflare
User-agent: CloudflareAlamed
Allow: /

# Optimisation AWS CloudFront
User-agent: Amazon CloudFront
Allow: /

# Cache headers pour les crawlers
User-agent: *
Allow: /cache/
Disallow: /wp-admin/admin-ajax.php?action=cache*

Mise en cache avancée

Stratégies de cache pour les crawlers

robots
# Autoriser les ressources mises en cache
User-agent: *
Allow: /wp-content/cache/
Allow: /wp-static/
Allow: /cache-enabler/

# Contrôle du cache par type de contenu
User-agent: Googlebot
Allow: /wp-content/cache/supercache/
Allow: /wp-content/cache/wp-rocket/

# Protection contre le sur-utilisation du cache
Disallow: /wp-admin/admin-ajax.php?action=refresh_cache
Disallow: /wp-admin/admin-ajax.php?action=clear_cache

Monitoring et débogage

Tests et validation

Outils de test automatisés

bash
# Script de test pour votre robots.txt
#!/bin/bash

# Test avec différents user-agents
curl -A "Googlebot" -I https://votresite.com/private-page/
curl -A "Bingbot" -I https://votresite.com/private-page/
curl -A "AhrefsBot" -I https://votresite.com/private-page/

# Validation du fichier robots.txt
curl -s https://votresite.com/robots.txt | grep -E "(Allow|Disallow)"

Surveillance en continu

robots
# Ajouter des indicateurs de monitoring
User-agent: MonitorBot
Allow: /health-check/
Allow: /robots-test/

# Journalisation des accès
User-agent: *
Disallow: /admin-log/
Allow: /public-access-log/

Résolution des problèmes avancés

Débogage des règles complexes

robots
# Mode debug (temporaire)
# User-agent: *
# Allow: /debug-robots/
# Disallow: /

# Tests de règles
User-agent: TestBot
Allow: /test-area/
Disallow: /production-area/

Meilleures pratiques et recommandations

Organisation des règles

Structure hiérarchique

robots
# 1. Règles globales
User-agent: *
Disallow: /wp-admin/
Allow: /wp-content/uploads/

# 2. Règles spécifiques par moteur
User-agent: Googlebot
Allow: /
Crawl-delay: 1

# 3. Règles pour les bots spéciaux
User-agent: GPTBot
Disallow: /

# 4. Sitemaps
Sitemap: https://votresite.com/sitemap.xml

Documentation et maintenance

Commentaires descriptifs

robots
# ==========================================
# Configuration Better Robots.txt
# Site: e-commerce professionnel
# Dernière mise à jour: 2024-01-15
# ==========================================

# Protection des zones administratives
User-agent: *
Disallow: /wp-admin/

# Optimisation pour les produits e-commerce
User-agent: Googlebot
Allow: /products/
Disallow: /cart/

Tests périodiques

Checklist de validation

  • [ ] Test avec Google Search Console
  • [ ] Validation avec Bing Webmaster Tools
  • [ ] Tests manuels avec différents user-agents
  • [ ] Surveillance des logs d'accès
  • [ ] Vérification des positions SEO
  • [ ] Analyse des taux d'exploration

Besoin d'aide ? Consultez notre Support ou notre FAQ.

© 2025 Pagup. Better Robots.txt. Gestion avancée de robots.txt WordPress avec IA pour le SEO.