Crawl budget : mythe ou réalité pour votre site

Un site de 800 pages avec un temps de réponse serveur sous les 200 ms n'a pas de problème de crawl budget. Il n'en aura probablement jamais. Pourtant, des dizaines d'articles SEO recommandent d'optimiser le crawl budget comme si c'était une priorité universelle. La réalité est plus nuancée : le crawl budget est un vrai sujet — mais uniquement pour une fraction des sites web.

Ce que Google entend réellement par "crawl budget"

Google a formalisé le concept en janvier 2017 dans un article du Webmaster Central Blog. Deux mécanismes distincts composent ce qu'on appelle communément le crawl budget :

Crawl rate limit

C'est la limite technique que Googlebot s'impose pour ne pas surcharger votre serveur. Si votre serveur répond lentement ou retourne des erreurs 5xx, Googlebot réduit automatiquement sa fréquence de crawl. À l'inverse, un serveur rapide et stable permet à Googlebot d'augmenter le rythme.

Ce paramètre est partiellement configurable dans Google Search Console (section "Paramètres de crawl"). Vous pouvez réduire la fréquence, mais pas la forcer au-delà de ce que Google juge raisonnable.

Crawl demand

C'est la "demande de crawl" — à quel point Google veut crawler vos pages. Une URL populaire, fréquemment mise à jour, ou souvent référencée par des backlinks sera recrawlée plus souvent. Une URL orpheline, sans lien interne, avec un contenu stale, sera ignorée pendant des semaines.

Le crawl budget réel = min(crawl rate limit, crawl demand). Si Google ne veut pas crawler vos pages (faible demande), un serveur ultra-rapide ne changera rien. Si Google veut crawler intensément mais votre serveur ne suit pas, vous avez un problème concret.

Le seuil où ça compte vraiment

Gary Illyes (Google) l'a dit explicitement : si votre site fait moins de quelques milliers d'URLs, le crawl budget n'est probablement pas un problème. Le seuil exact dépend de plusieurs facteurs (vitesse serveur, fréquence de mise à jour, qualité globale du site), mais en pratique :

< 10 000 pages, serveur correct : le crawl budget n'est pas votre problème. Cherchez ailleurs.
10 000 – 100 000 pages : ça commence à compter si vous avez des problèmes de qualité (pages dupliquées, facettes non maîtrisées, paramètres d'URL).
> 100 000 pages : le crawl budget est un levier SEO majeur. Chaque ressource gaspillée sur une page inutile est une ressource volée à une page monétisable.

Diagnostiquer un vrai problème de crawl budget

Avant d'optimiser quoi que ce soit, il faut prouver qu'il y a un problème. Trop de SEOs "optimisent" le crawl budget de sites qui n'en ont pas besoin.

Analyse des logs serveur

La source de vérité, c'est le log serveur. Pas Search Console, pas Screaming Frog — les logs bruts de votre serveur. Ils montrent exactement quelles URLs Googlebot a demandées, quand, et quel code HTTP il a reçu.

Voici comment extraire les hits Googlebot d'un fichier access log Nginx :

# Extraire toutes les requêtes Googlebot des 30 derniers jours
grep "Googlebot" /var/log/nginx/access.log \
  | awk '{print $1, $4, $7, $9}' \
  | sed 's/\[//g' \
  > googlebot_crawl.tsv

# Compter les URLs les plus crawlées
grep "Googlebot" /var/log/nginx/access.log \
  | awk '{print $7}' \
  | sort \
  | uniq -c \
  | sort -rn \
  | head -50

Ce que vous cherchez dans ces données :

Ratio pages utiles / pages inutiles : si Googlebot passe 60% de son temps sur des pages de filtres, de pagination ou de paramètres d'URL, vous gaspillez votre crawl budget.
Pages jamais crawlées : si des pages produit importantes n'apparaissent jamais dans les logs sur 30 jours, elles sont probablement orphelines ou trop profondes dans l'arborescence.
Codes HTTP retournés : un volume élevé de 301/302/404/410 signifie que Googlebot perd du temps sur des redirections et des erreurs au lieu de crawler du contenu utile.

Scénario concret : e-commerce mode avec 45 000 URLs

Prenons le cas d'un e-commerce mode avec 45 000 URLs indexables. Le site utilise une navigation à facettes classique : taille, couleur, marque, prix, matière. Sans contrôle, la combinatoire génère 380 000 URLs de facettes. Le sitemap ne contient que les 45 000 pages cibles, mais les liens internes dans la navigation pointent vers toutes les combinaisons.

Résultat observé dans les logs sur 30 jours :

12 000 crawls/jour en moyenne par Googlebot
360 000 crawls/mois
68% des crawls sur des URLs de facettes (/chaussures?couleur=rouge&taille=42&prix=50-100)
22% sur des pages catégorie et produit (les pages qui génèrent du revenu)
10% sur des ressources statiques et pages système

Les 45 000 pages cibles auraient dû être crawlées en ~4 jours à ce rythme. En réalité, certaines fiches produit n'avaient pas été crawlées depuis 6 semaines. L'indexation des nouveaux produits prenait 3 à 4 semaines au lieu de quelques jours. Le manque à gagner sur les requêtes longue traîne était estimé à 15% du trafic organique potentiel.

Signaux dans Google Search Console

Le rapport "Statistiques de l'exploration" (dans Paramètres) donne des indicateurs utiles en complément des logs :

Nombre total de requêtes de téléchargement : tendance à la hausse = Google s'intéresse davantage à votre site. Tendance à la baisse = signal d'alerte.
Temps de réponse moyen : au-dessus de 500 ms, vous commencez à limiter votre crawl rate. Au-dessus de 1 000 ms, c'est critique.
Réponses par type de code : surveillez le ratio 200 vs redirections vs erreurs.

Attention cependant aux bugs de comptage dans Search Console qui peuvent fausser certaines métriques. Croisez toujours avec vos logs serveur.

Optimiser le crawl rate : la fondation technique

Le crawl rate limit est directement lié à la performance de votre serveur. C'est le levier le plus immédiat.

Temps de réponse serveur (TTFB)

Googlebot est sensible au Time To First Byte. Un TTFB élevé signifie que chaque crawl coûte plus de temps, donc Googlebot en fait moins par unité de temps.

La documentation de Google sur l'architecture de crawl de Googlebot confirme que le bot adapte dynamiquement son rythme en fonction de la réactivité du serveur.

Optimisations concrètes côté Nginx :

# /etc/nginx/conf.d/performance.conf

# Activer la compression pour réduire la taille des réponses
gzip on;
gzip_vary on;
gzip_min_length 1024;
gzip_types text/html text/css application/json application/javascript text/xml application/xml text/plain;

# Cache FastCGI pour les pages PHP/WordPress (si applicable)
fastcgi_cache_path /var/cache/nginx/fastcgi levels=1:2 keys_zone=WORDPRESS:100m inactive=60m max_size=512m;
fastcgi_cache_key "$scheme$request_method$host$request_uri";

server {
    listen 443 ssl http2;
    server_name boutique-mode.fr;

    # Keepalive pour réduire l'overhead de connexion
    keepalive_timeout 65;
    keepalive_requests 1000;

    # Cache des pages catégorie et produit (réponses HTML)
    location ~* ^/(categorie|produit)/ {
        fastcgi_cache WORDPRESS;
        fastcgi_cache_valid 200 30m;
        fastcgi_cache_valid 404 5m;
        fastcgi_cache_bypass $http_pragma;
        add_header X-Cache-Status $upstream_cache_status;
        
        include fastcgi_params;
        fastcgi_pass unix:/var/run/php/php8.2-fpm.sock;
    }
}

Pour un site en SSR avec Next.js ou Nuxt, le TTFB dépend du temps de rendering côté serveur. L'ISR (Incremental Static Regeneration) permet de servir des pages pré-rendues avec un TTFB quasi-statique tout en gardant le contenu frais. Un TTFB cible sous 200 ms est réaliste avec du cache ; sous 100 ms avec un CDN edge.

Surveillance de la disponibilité

Googlebot ne retry pas indéfiniment. Si votre serveur retourne des 503 pendant une fenêtre de crawl, ces pages sont reportées à plus tard — parfois beaucoup plus tard. Un downtime de 4 heures pendant un pic de crawl peut retarder l'indexation de nouvelles pages de plusieurs jours.

Un monitoring continu des réponses serveur spécifiquement pour les bots (via l'analyse du User-Agent) est indispensable pour les sites de grande taille. Un outil comme Seogard peut détecter ces régressions en temps réel avant qu'elles n'impactent votre couverture d'indexation.

Contrôler le crawl demand : diriger Googlebot vers les bonnes pages

C'est ici que se joue la vraie optimisation du crawl budget. L'objectif : maximiser le ratio de crawls utiles (pages que vous voulez indexer) sur le total des crawls.

Robots.txt : le premier filtre

Le robots.txt est le mécanisme le plus efficace pour bloquer le crawl de sections entières. Contrairement à noindex (qui nécessite que la page soit crawlée pour être lue), le Disallow empêche le crawl lui-même.

# robots.txt pour un e-commerce avec facettes
User-agent: *

# Bloquer les facettes combinées
Disallow: /*?couleur=
Disallow: /*?taille=
Disallow: /*?prix=
Disallow: /*?tri=
Disallow: /*?page=*&  # Pagination avec paramètres additionnels

# Bloquer les pages système
Disallow: /compte/
Disallow: /panier/
Disallow: /checkout/
Disallow: /recherche?

# Autoriser les facettes stratégiques (pages avec volume de recherche)
Allow: /chaussures-femme/baskets/  # URL propre, pas un paramètre
Allow: /chaussures-homme/cuir/

# Sitemap
Sitemap: https://boutique-mode.fr/sitemap-index.xml

Un piège courant : bloquer via robots.txt des URLs qui reçoivent des backlinks externes. Google ne pourra pas crawler la page, mais les signaux de ces backlinks seront perdus. Dans ce cas, préférez une balise meta robots noindex qui permet le crawl (et la transmission du PageRank) tout en empêchant l'indexation.

Architecture de liens internes et profondeur de crawl

Googlebot découvre les pages en suivant les liens. Une page à 7 clics de la homepage sera crawlée beaucoup moins fréquemment qu'une page à 2 clics. Pour un site de 45 000 pages, la structure idéale ressemble à :

Niveau 0 : Homepage (1 page)
Niveau 1 : Catégories principales (10-20 pages)
Niveau 2 : Sous-catégories (100-300 pages)
Niveau 3 : Pages produit (toutes les autres)

Si vos fiches produit les plus rentables sont à 5+ niveaux de profondeur, Googlebot les traitera comme des pages de faible priorité. Utilisez Screaming Frog pour visualiser la profondeur de crawl réelle :

Lancez un crawl complet de votre site
Allez dans Internal > Crawl Depth
Filtrez sur les pages produit
Toute page produit au-delà de la profondeur 4 est suspecte

Les pages orphelines (zéro lien interne pointant vers elles) ne seront découvertes que via le sitemap — et Google accorde moins de confiance aux pages qu'il ne découvre que par sitemap sans confirmation via le maillage interne.

Canonical et gestion du contenu dupliqué

Chaque URL dupliquée que Googlebot crawle est un crawl gaspillé. Les URLs canoniques bien configurées aident Google à comprendre quelle version indexer, mais Googlebot crawle quand même les variantes non-canoniques pour vérifier le signal rel="canonical".

La stratégie la plus économe en crawl budget combine :

robots.txt pour les variantes qu'il ne faut même pas crawler (paramètres de tri, de session, d'affichage)
Canonical pour les variantes qui doivent rester crawlables (versions avec paramètres UTM, versions mobile si URL séparée)
noindex pour les pages qui ont de la valeur en termes de liens internes mais ne doivent pas être indexées

Sitemap XML : signal de priorité, pas de garantie

Le sitemap ne force pas le crawl. Il indique à Google les URLs que vous considérez importantes et leur date de dernière modification. Deux règles fondamentales :

N'incluez que les URLs indexables : status 200, canonical self-referencing, pas de noindex. Un sitemap qui liste des URLs redirigées ou en 404 dégrade la confiance de Google dans votre sitemap.
Maintenez le <lastmod> à jour : ne le mettez à jour que quand le contenu change réellement. Google a confirmé qu'il utilise lastmod comme signal pour prioriser le recrawl — mais uniquement si ce champ est fiable. Un lastmod mis à jour quotidiennement sur des pages qui ne changent pas détruira la confiance du bot dans ce signal.

Le cas spécifique des sites JavaScript

Les sites qui dépendent du rendering client-side (React SPA, Angular, Vue.js sans SSR) ont un problème de crawl budget multiplié par deux. Google doit d'abord crawler le HTML initial (quasi-vide), puis passer la page dans le Web Rendering Service (WRS) pour exécuter le JavaScript et obtenir le DOM final.

Ce double passage consomme significativement plus de ressources côté Google. La file d'attente du WRS peut introduire un délai de plusieurs jours entre le crawl initial et le rendering effectif, comme documenté dans les publications de Google sur l'architecture de Googlebot.

Impact mesurable sur le crawl

Pour un site de 20 000 pages en SPA React :

Crawl HTML initial : rapide, mais le contenu n'est pas disponible
Mise en file du WRS : délai variable (heures à jours)
Rendering JS : consomme des ressources Google
Deuxième extraction : Google obtient enfin le contenu

Comparez avec le même site en SSR ou en prerendering :

Crawl HTML : le contenu est immédiatement disponible
Pas de passage WRS nécessaire (ou en complément, pas en remplacement)
Indexation plus rapide, crawl budget mieux utilisé

Vérifier ce que Google voit réellement

Avant d'investir dans une migration SSR, testez ce que Google voit réellement sur votre site. L'outil "Inspection de l'URL" dans Search Console montre le HTML rendu par Google. Comparez-le avec votre DOM côté client. Si les meta tags critiques ou le contenu principal manquent dans la version Google, vous avez un problème qui va au-delà du crawl budget.

Le dynamic rendering est parfois proposé comme solution intermédiaire, mais Google l'a officiellement déprécié en tant que recommandation. La vraie solution est le SSR ou le prerendering statique.

Pièges courants et fausses optimisations

Le mythe du crawl budget sur les petits sites

Si votre site fait 2 000 pages avec un serveur correct, ne perdez pas de temps sur le crawl budget. Vos problèmes d'indexation viennent probablement d'ailleurs :

Contenu thin ou dupliqué
Cannibalisation de mots-clés
Problèmes de rendering JavaScript
Meta robots bloquantes oubliées

Investir 40 heures d'optimisation de crawl budget sur un site de 2 000 pages est un mauvais ROI. Investir ces mêmes heures sur la qualité du contenu ou les Core Web Vitals aura un impact bien supérieur.

Attention aux redirections en chaîne

Une redirection 301 consomme un crawl. Une chaîne de 3 redirections consomme 3 crawls pour atteindre la page finale. Sur un site avec 5 000 anciennes URLs qui redirigent en chaîne, c'est 10 000 à 15 000 crawls gaspillés par mois.

Vérifiez vos chaînes de redirections :

# Tester une URL pour des chaînes de redirections
curl -sIL "https://boutique-mode.fr/ancien-produit" 2>&1 | grep -E "^(HTTP/|Location:)"

# Résultat problématique :
# HTTP/2 301
# Location: https://boutique-mode.fr/produit-ancien
# HTTP/2 301
# Location: https://boutique-mode.fr/produits/chaussures/ancien-produit
# HTTP/2 301
# Location: https://boutique-mode.fr/chaussures-femme/modele-x
# HTTP/2 200

# Cela fait 3 redirections — corrigez pour pointer directement vers l'URL finale

Avec Screaming Frog, lancez un crawl en mode "List" avec toutes vos anciennes URLs issues d'une migration. L'onglet Response Codes > Redirection (3xx) vous montrera les chaînes. Corrigez chaque chaîne pour pointer directement vers la destination finale.

Le piège des pages soft 404

Une page qui retourne un code 200 mais affiche un contenu type "Produit non disponible" ou une page vide est un soft 404. Google finit généralement par les détecter, mais entre-temps il les crawle régulièrement, gaspillant du crawl budget.

La correction est simple : retournez un vrai code 404 ou 410 quand un produit n'existe plus. Un 410 (Gone) est même préférable car il indique à Googlebot que la suppression est permanente, ce qui accélère la désindexation et réduit les recrawls futurs.

La taille des pages compte aussi

Google a confirmé qu'il impose des limites en octets lors du crawl. Le premier passage récupère les 15 premiers Mo d'un document HTML. Tout ce qui dépasse est ignoré. Des pages de plus en plus lourdes signifient plus de bande passante consommée par crawl, donc potentiellement moins de pages crawlées au total.

Les coupables habituels : inline CSS/JS massif, SVG non optimisés inlinés dans le HTML, données JSON-LD surdimensionnées. Gardez votre HTML sous les 200 Ko avant compression — au-delà, vous gaspillez de la bande passante de crawl. L'optimisation des images et l'usage correct du lazy loading contribuent aussi à alléger le poids total des pages pour les bots qui n'exécutent pas le JS (même si Googlebot le fait).

Monitoring continu : la seule approche viable à grande échelle

Optimiser le crawl budget une fois ne suffit pas. Les régressions sont permanentes : une mise à jour du CMS qui réintroduit des paramètres d'URL, un nouveau filtre ajouté par l'équipe produit sans Disallow, une refonte qui casse les redirections.

Sur un site de 45 000 pages, la surveillance manuelle des logs est irréaliste au quotidien. Vous avez besoin d'alertes automatisées sur :

La chute du nombre de crawls quotidiens (signal de problème serveur ou de pénalité)
L'apparition massive de nouvelles URLs crawlées non prévues (explosion de facettes, paramètres)
L'augmentation du ratio de codes 4xx/5xx retournés à Googlebot
Les pages stratégiques qui n'ont pas été crawlées depuis X jours

Un outil de monitoring comme Seogard peut détecter ces régressions automatiquement et alerter avant que l'impact sur l'indexation ne devienne visible dans les données de trafic — car quand vous voyez la baisse de trafic, le problème de crawl existe depuis des semaines.

Le crawl budget est un vrai problème technique, mais pas un problème universel. Pour la majorité des sites sous 10 000 pages, c'est une distraction. Pour les sites de grande taille avec des architectures complexes, c'est un levier SEO majeur qui mérite une instrumentation sérieuse. La clé : des logs serveur, des données réelles, et un monitoring continu pour détecter les régressions avant qu'elles ne coûtent du trafic.