Vérifier qu'une refonte n'a pas cassé le SEO avant le déploiement

La quasi-totalité des guides sur la chute de trafic post-refonte partagent le même défaut : ils diagnostiquent après coup. Vous constatez la baisse dans Analytics, vous ouvrez le rapport Couverture, vous découvrez le noindex oublié. Il faut généralement entre 1 et 3 mois pour que Google réindexe correctement un nouveau site, et une chute sévère due à des erreurs techniques non corrigées peut nécessiter plus de temps. Autrement dit : au moment où le rapport GSC vous alerte, le mal est déjà fait depuis des jours, parfois des semaines.

Ce guide prend le problème dans l'autre sens. Vous ne diagnostiquez pas une chute : vous empêchez la régression de partir en production. La méthode repose sur une comparaison stricte de cinq signaux d'indexation entre l'ancien site et le nouveau, page par page, avant la bascule DNS.

Les cinq signaux qui cassent en silence

Les redirections 301 manquantes sont la cause la plus citée — et la plus visible. Un crawl trouve les 404, tout le monde les corrige. Le vrai danger, ce sont les signaux qui ne génèrent aucune erreur mais détruisent l'indexation : la page répond 200, s'affiche normalement dans le navigateur, et pourtant Google la déclasse.

Cinq régressions reviennent systématiquement après une refonte. Elles correspondent exactement aux règles que Seogard surveille :

noindex_added : le <meta name="robots" content="noindex"> du staging qui survit à la mise en prod. Un site peut rediriger correctement ses anciennes pages et perdre du trafic à cause de canonicals erronés, d'un robots.txt mal configuré, d'un noindex oublié, d'un hreflang cassé ou d'un contenu réécrit trop brutalement.
canonical_changed : le nouveau CMS génère un rel=canonical auto-pointant vers une mauvaise URL, ou vers le domaine de staging.
meta_title_missing : le nouveau thème réinitialise les <title>. Un changement de CMS peut réinitialiser les balises title, meta-description et Hn.
status_code_changed : une page en 200 qui passe en 302, ou une erreur 5xx intermittente sous charge.
robots_txt_changed : le Disallow: / de l'environnement de test qui part en production.

Le point commun de ces cinq régressions : elles sont invisibles à l'œil nu. Le site est beau, les pages chargent. C'est précisément ce qui les rend dangereuses.

Étape 1 — Capturer un snapshot de référence sur l'ancien site

Avant de toucher quoi que ce soit, vous figez l'état SEO actuel. Pas un crawl jetable : un snapshot réutilisable comme point de comparaison.

Exportez, pour chaque URL générant du trafic ou des backlinks, les cinq champs : status code, <title>, présence/valeur de robots, valeur du canonical, et le robots.txt global. Avant de toucher quoi que ce soit, faites une copie complète de votre site existant, exportez les performances depuis Google Search Console sur 12 mois, et identifiez toutes les pages qui génèrent du trafic et des leads.

C'est ce fichier qui sert de vérité de référence. Sans lui, la comparaison après bascule est impossible — vous compareriez le nouveau site à votre mémoire, pas à des données.

Étape 2 — Crawler le staging avec le HTML rendu, pas seulement le HTML brut

Piège majeur si votre refonte passe sur un framework JS (Next, Nuxt, Astro en mode hydraté). Le <title> ou le canonical peuvent être corrects dans le HTML brut servi par le serveur, mais réécrits côté client après hydratation. Ou l'inverse.

Vous devez donc comparer deux rendus :

# HTML brut (ce que voit le crawler avant exécution JS)
curl -s https://staging.exemple.fr/page | grep -iE 'canonical|robots|<title'

# HTML rendu (ce que voit Googlebot après exécution JS)
# via un crawl headless (Puppeteer / Playwright)

Si les deux divergent sur un signal d'indexation, vous avez un mismatch SSR/CSR. Googlebot rend le JS, mais pas toujours immédiatement, et la version qu'il indexe peut être l'une ou l'autre selon le moment. Ce sujet précis — la divergence entre rendu serveur et rendu client sur le title et le canonical — est traité en détail dans notre cas sur le title réécrit côté CSR que Google voit en version par défaut.

Étape 3 — Differ les deux snapshots et trier par criticité

Vous avez maintenant deux jeux de données : référence (ancien) et candidat (staging). Le diff doit produire une liste d'écarts typés, pas un dump brut. Pour chaque URL mappée :

Signal	Ancien	Nouveau	Verdict
status	200	200	OK
canonical	`/produit/x`	`staging.exemple.fr/produit/x`	FAIL — canonical_changed
robots	absent	`noindex`	FAIL — noindex_added
title	"Produit X — Marque"	""	FAIL — meta_title_missing

Tous les écarts ne se valent pas. Un noindex_added ou un Disallow: / est bloquant : il désindexe. Une meta description modifiée ne l'est pas. Hiérarchisez : ce qui désindexe d'abord, ce qui dégrade le CTR ensuite.

C'est là que la détection manuelle atteint sa limite. Sur 50 URLs, un humain attentif s'en sort. Sur 5 000 URLs e-commerce, c'est ingérable à la main avant chaque déploiement. Seogard automatise ce diff : il rejoue le snapshot de référence contre la version candidate et déclenche un verdict sur les cinq règles (canonical_changed, noindex_added, meta_title_missing, status_code_changed, robots_txt_changed). Le détail du fonctionnement d'un verdict PASS/FAIL pour bloquer un déploiement régressif explique comment ce tri est rendu actionnable.

Étape 4 — Faire échouer le déploiement, pas envoyer une alerte

Une alerte qui arrive après la bascule ne sert à rien : la régression est déjà en prod, Googlebot peut déjà l'avoir crawlée. La logique correcte est d'intégrer le diff comme gate de déploiement.

Concrètement, le job tourne contre l'environnement de staging dans votre pipeline. S'il détecte un noindex sur une URL qui n'en avait pas, ou un canonical pointant vers le domaine de staging, il sort en code non-zéro et bloque le merge. Le déploiement n'a pas lieu tant que la régression n'est pas corrigée.

# Exemple de gate dans un pipeline CI
- name: SEO regression gate
  run: |
    seogard diff \
      --baseline ./snapshots/prod.json \
      --candidate https://staging.exemple.fr \
      --fail-on noindex_added,canonical_changed,robots_txt_changed,status_code_changed

C'est la différence entre subir une chute et ne jamais l'avoir. La mécanique complète d'un gate SEO en GitHub Actions qui fait échouer un déploiement régressif couvre l'intégration côté pipeline.

Pourquoi cette approche bat le diagnostic post-mortem

Reprenons le scénario classique des guides concurrents : refonte déployée vendredi, baisse repérée mardi dans Analytics, noindex découvert jeudi dans GSC, correctif déployé, puis attente. Avec des corrections rapides et complètes, les positions reviennent généralement en 4 à 8 semaines. Soit jusqu'à deux mois de trafic perdu pour une régression d'une ligne de HTML.

Avec un gate pré-déploiement, ce même noindex n'atteint jamais la production. Aucune désindexation, aucune réindexation à attendre, aucune récupération à piloter. Le coût de la prévention — quelques secondes de CI — est sans commune mesure avec le coût de la guérison.

La détection avant Google n'est pas un confort, c'est la seule fenêtre où une régression SEO coûte zéro. Découvrez comment Seogard compare le HTML SSR et le rendu JS pour bloquer les régressions en CI/CD.

Questions fréquentes

Une baisse de trafic post-refonte est-elle toujours un bug ? Non. Une légère baisse de trafic dans les deux à quatre premières semaines est normale, et des fluctuations de 5 à 15 % dans cette période ne doivent pas déclencher l'alarme. Le gate pré-déploiement ne remplace pas le suivi : il élimine les régressions techniques franches pour que les fluctuations restantes soient interprétables.

Le crawl Screaming Frog ne suffit-il pas ? Il détecte les 404 et les noindex sur le site déjà déployé. Il ne compare pas automatiquement un état de référence à un candidat de staging, et n'agit pas comme gate bloquant dans un pipeline. C'est un outil d'audit, pas de prévention continue.

Faut-il vérifier le HTML brut ou le HTML rendu ? Les deux, et surtout leur divergence. Sur un site CSR, le signal indexé peut différer du signal affiché. Comparer uniquement le HTML brut sur une refonte JS donne un faux PASS.

Vérifier qu'une refonte n'a pas cassé le SEO avant le déploiement

Les cinq signaux qui cassent en silence

Étape 1 — Capturer un snapshot de référence sur l'ancien site

Étape 2 — Crawler le staging avec le HTML rendu, pas seulement le HTML brut

Étape 3 — Differ les deux snapshots et trier par criticité

Étape 4 — Faire échouer le déploiement, pas envoyer une alerte

Pourquoi cette approche bat le diagnostic post-mortem

Questions fréquentes

Articles connexes

Détecter un noindex en production avant Google (CI/CD)

Hreflang vers domaines supprimés : −38% de trafic DE en 6 semaines

Crowdin lang=\"auto\" : signal de langue cassé, −34 % trafic

Change of Address : déclarer toutes les variantes de domaine

Storyblok : redirections custom perdues après changement de plan

Contentful + Next.js : title manquant, fallback H1 sur 1 200 pages