Cannibalization SEO : diagnostic technique et résolution

Deux pages de votre site se battent pour le même mot-clé. Google hésite, alterne entre les deux dans les SERPs, et finalement aucune ne performe. Vous venez de perdre 40% de trafic organique sur une requête qui convertit, non pas à cause d'un concurrent, mais à cause de vous-même. C'est la cannibalization — et c'est le problème SEO le plus sous-diagnostiqué sur les sites de plus de 500 pages.

Tom Capper de Moz a récemment remis le sujet sur la table dans un Whiteboard Friday. Son analyse pose les bonnes bases, mais la réalité terrain est plus complexe que les cas d'école qu'il présente. Décortiquons le problème avec un niveau de profondeur technique que vous pourrez appliquer dès lundi matin.

Ce que la cannibalization est réellement (et ce qu'elle n'est pas)

La cannibalization SEO se produit quand plusieurs URLs d'un même domaine ciblent la même intention de recherche et se retrouvent en compétition dans l'index de Google pour les mêmes requêtes. Le terme est souvent galvaudé : deux pages qui mentionnent le même mot-clé ne sont pas forcément en cannibalization.

Le vrai signal : l'alternance de ranking

Le symptôme pathognomonique, c'est l'alternance. Google indexe la page A en position 4 pendant deux semaines, puis switche sur la page B en position 8, puis revient sur A en position 6. Ce yo-yo est le signe que Google n'arrive pas à déterminer quelle page est la plus pertinente pour satisfaire l'intent.

Ce qu'il faut distinguer :

Cannibalization réelle : /chaussures-running-homme et /guide-chaussures-running qui rankent alternativement sur "chaussures running homme". Google hésite entre la page catégorie et le guide d'achat.

Pas de cannibalization : /chaussures-running-homme ranke sur "chaussures running homme" et /chaussures-running-femme ranke sur "chaussures running femme". Deux pages, deux intents distincts, même si le topic parent est identique.

Zone grise : deux articles de blog qui couvrent des angles légèrement différents du même sujet mais que Google considère comme répondant au même intent. C'est le cas le plus fréquent sur les sites éditoriaux et les blogs SaaS.

L'impact réel sur le crawl budget

Sur un site de 15 000 pages, la cannibalization a un effet de cascade. Google dépense du crawl budget à découvrir et réévaluer des pages qui se cannibalisent, au détriment de pages réellement distinctes. Si vous avez 200 paires de pages en cannibalization, c'est potentiellement 200 slots de crawl gaspillés à chaque passage de Googlebot. Sur des sites où les limites de crawl de Googlebot sont déjà un facteur limitant, c'est un problème structural.

Diagnostic : identifier la cannibalization avec Search Console et Python

Oubliez les audits manuels page par page. Sur un site de taille moyenne, vous avez besoin d'une méthode systématique.

Méthode 1 : Export Search Console + pivot par requête

L'approche la plus fiable repose sur les données de performance de Search Console. Exportez les données au niveau requête + page sur 3 mois minimum, puis identifiez les requêtes pour lesquelles plusieurs URLs apparaissent.

Voici un script Python qui automatise la détection :

import pandas as pd

# Export Search Console : colonnes attendues = query, page, clicks, impressions, position
df = pd.read_csv('search_console_export.csv')

# Grouper par requête et compter les URLs distinctes
query_page_count = df.groupby('query')['page'].nunique().reset_index()
query_page_count.columns = ['query', 'url_count']

# Filtrer les requêtes avec 2+ URLs (candidats à la cannibalization)
cannibalized = query_page_count[query_page_count['url_count'] >= 2]

# Joindre avec les données originales pour voir les métriques par URL
candidates = df.merge(cannibalized[['query']], on='query')

# Trier par impressions décroissantes pour prioriser les requêtes à fort volume
candidates = candidates.sort_values(['query', 'impressions'], ascending=[True, False])

# Calculer l'écart de position entre les URLs pour chaque requête
def position_spread(group):
    group['position_spread'] = group['position'].max() - group['position'].min()
    group['avg_position'] = group['position'].mean()
    return group

candidates = candidates.groupby('query').apply(position_spread)

# Exporter les cas critiques : fort volume + écart de position significatif
critical = candidates[
    (candidates['impressions'] > 100) & 
    (candidates['position_spread'] > 3)
]
critical.to_csv('cannibalization_report.csv', index=False)

print(f"Requêtes cannibalisées détectées : {critical['query'].nunique()}")
print(f"URLs impliquées : {critical['page'].nunique()}")

Ce script identifie les requêtes où plusieurs URLs de votre site apparaissent avec un écart de position supérieur à 3 (signe que Google hésite). Le seuil de 100 impressions permet de se concentrer sur les requêtes qui comptent réellement.

Méthode 2 : Screaming Frog + extraction des meta

La cannibalization se détecte aussi en amont, avant que le problème ne soit visible dans les SERPs. Screaming Frog permet d'identifier les pages dont les title tags et meta descriptions ciblent les mêmes termes.

Configuration Screaming Frog pour la détection :

Crawl complet du site
Export de l'onglet "Page Titles" → tri par similarité
Custom extraction pour récupérer les <h1> et les comparer

Mais le vrai pouvoir vient de la combinaison : croisez les données Screaming Frog (structure on-page) avec les données Search Console (comportement réel dans les SERPs). Une page peut avoir un title unique mais ranker sur les mêmes requêtes qu'une autre page à cause du contenu body.

Méthode 3 : le test de site: operator

Pour un diagnostic rapide sur une requête spécifique :

site:votredomaine.com "chaussures running homme"

Si Google remonte plus de 2 pages pertinentes pour cette requête exacte, vous avez probablement un problème. Cette méthode est limitée (elle cherche la correspondance exacte, pas l'intent), mais elle reste utile pour valider les cas identifiés par les méthodes 1 et 2.

À noter : les données de Search Console peuvent avoir des artefacts. Google a récemment corrigé un bug qui gonflait les compteurs d'impressions, ce qui pouvait fausser les diagnostics de cannibalization. Assurez-vous de travailler sur des données post-correction.

Scénario concret : migration d'un e-commerce de 12 000 pages

Prenons un cas réaliste. Un e-commerce de chaussures sport gère 12 000 pages : 800 pages catégories, 9 500 fiches produit, 1 200 articles de blog, 500 pages de guides d'achat. Après analyse, l'équipe SEO identifie 340 requêtes cannibalisées, représentant environ 28% du trafic organique total.

Les 3 patterns de cannibalization identifiés

Pattern 1 — Catégorie vs. Guide d'achat (45% des cas)

/chaussures/running/trail (page catégorie, 180 produits) et /guide/meilleures-chaussures-trail-2026 (article blog). Les deux rankent sur "chaussures trail" mais alternent entre position 5 et position 12.

Pattern 2 — Fiches produit entre elles (30% des cas)

/nike-pegasus-41 et /nike-pegasus-41-gore-tex qui se cannibalisent sur "nike pegasus 41". La variante Gore-Tex est un produit distinct, mais Google considère que l'intent est identique pour 60% des requêtes liées.

Pattern 3 — Blog vs. Blog (25% des cas)

/blog/comment-choisir-chaussures-trail publié en 2024 et /blog/guide-chaussures-trail-debutant publié en 2025. Deux rédacteurs différents, même sujet, personne n'a vérifié.

L'impact mesuré

Après consolidation (détaillée dans la section suivante), les résultats sur 8 semaines :

Trafic organique sur les requêtes cannibalisées : +34%
Position moyenne sur ces requêtes : de 8.2 à 4.7
Pages crawlées par jour par Googlebot : passage de 2 800 à 3 400 (le budget libéré profite aux nouvelles pages)
Temps moyen de découverte d'une nouvelle fiche produit : de 11 jours à 6 jours

Ces chiffres sont cohérents avec ce qu'on observe sur des sites e-commerce de cette taille. Le gain n'est pas linéaire : les 50 premières requêtes corrigées (les plus volumineuses) ont généré 70% du gain total.

Les 5 stratégies de résolution technique

Chaque type de cannibalization appelle une réponse différente. Voici les stratégies classées par ordre d'agressivité.

Stratégie 1 : Consolidation par redirect 301

Quand deux pages couvrent le même sujet sans angle distinct, fusionnez le contenu dans la page la plus performante et redirigez l'autre.

# Nginx — Redirections de consolidation post-cannibalization
# Le guide d'achat est fusionné dans la page catégorie

location = /blog/comment-choisir-chaussures-trail {
    return 301 /chaussures/running/trail;
}

location = /blog/guide-chaussures-trail-debutant {
    return 301 /chaussures/running/trail;
}

# Pattern pour les anciennes URLs de blog dupliquées
# Utiliser un map pour les redirections en masse
map $uri $redirect_target {
    /blog/meilleures-chaussures-running-2024  /guide/chaussures-running;
    /blog/top-chaussures-running               /guide/chaussures-running;
    /blog/comparatif-running-shoes-2023        /guide/chaussures-running;
}

server {
    if ($redirect_target) {
        return 301 $redirect_target;
    }
}

Avant de rediriger, récupérez le contenu unique de la page supprimée et intégrez-le dans la page conservée. Une redirect 301 sans consolidation de contenu, c'est une perte d'information que Google valorisait peut-être.

Stratégie 2 : Canonical cross-page

Quand vous devez garder les deux URLs accessibles (par exemple, une fiche produit et sa variante couleur), le canonical indique à Google quelle version indexer.

<!-- Sur /nike-pegasus-41-gore-tex -->
<head>
    <link rel="canonical" href="https://shop.example.com/nike-pegasus-41" />
    <title>Nike Pegasus 41 Gore-Tex - Imperméable | Shop Example</title>
    <meta name="description" content="Version Gore-Tex imperméable de la Nike Pegasus 41. Membrane waterproof, amorti Zoom Air." />
    <!-- Le title et la description restent uniques pour cette variante -->
    <!-- Mais le canonical dit à Google : indexe la page principale -->
</head>

Attention : le canonical est un signal, pas une directive. Google peut l'ignorer s'il estime que les deux pages sont suffisamment distinctes. Vérifiez dans Search Console > Pages > "Autre page avec balise canonical appropriée" que Google respecte bien votre indication.

Pour une compréhension complète des signaux meta qui influencent l'indexation, consultez le guide complet des meta tags SEO.

Stratégie 3 : Différenciation de l'intent

Parfois la bonne réponse n'est pas de fusionner, mais de mieux différencier. Si votre page catégorie /chaussures/trail et votre guide /guide/chaussures-trail se cannibalisent, c'est souvent parce que le guide essaie de ranker sur des requêtes transactionnelles au lieu de se concentrer sur l'informationnel.

Concrètement :

La page catégorie cible "chaussures trail" (intent transactionnel) — title orienté achat, contenu centré produits
Le guide cible "comment choisir chaussures trail" (intent informationnel) — title orienté conseil, contenu éducatif, pas de listing produit

Cette différenciation doit se refléter dans le title, le H1, le premier paragraphe, et le maillage interne. Le guide doit pointer vers la catégorie avec un anchor text transactionnel ("voir notre sélection de chaussures trail"), et la catégorie ne doit pas contenir de blocs éditoriaux longs qui brouillent le signal.

Stratégie 4 : Noindex stratégique

Pour les pages qui doivent exister côté utilisateur mais n'apportent rien à l'indexation :

<!-- Pages de filtres / facettes qui cannibalisent les catégories principales -->
<!-- /chaussures/trail?couleur=noir&taille=42 -->
<head>
    <meta name="robots" content="noindex, follow" />
    <link rel="canonical" href="https://shop.example.com/chaussures/trail" />
</head>

Le noindex, follow est préférable au noindex, nofollow dans ce contexte : vous voulez que Google découvre les fiches produit linkées depuis cette page filtrée, mais vous ne voulez pas que la page filtrée elle-même entre dans l'index et cannibalize la catégorie parente.

Stratégie 5 : Restructuration du maillage interne

La cannibalization est souvent amplifiée par un maillage interne incohérent. Si votre menu principal, votre footer, et vos articles de blog pointent alternativement vers /chaussures-trail et /guide/chaussures-trail avec le même anchor text "chaussures trail", vous envoyez des signaux contradictoires à Google.

Auditez les ancres internes avec Screaming Frog :

Crawl complet
Onglet "Inlinks" pour chaque page cannibalisée
Vérifiez que les anchor texts sont cohérents avec l'intent de la page de destination

Chaque page doit recevoir des liens internes dont les ancres correspondent à son intent. La catégorie reçoit des ancres transactionnelles. Le guide reçoit des ancres informationnelles.

Cannibalization et JavaScript : le cas des SPA et frameworks modernes

Les sites construits avec des frameworks JavaScript ajoutent une couche de complexité. Le rendu client-side peut créer des situations de cannibalization invisibles dans un crawl traditionnel.

Le problème du rendu dynamique

Sur une SPA React, le contenu peut être identique côté HTML initial (une coquille vide) pour plusieurs URLs. Googlebot rend la page en JavaScript pour obtenir le contenu final, mais si le rendering échoue partiellement — un cas fréquent documenté dans notre article sur pourquoi Google voit une page blanche sur votre SPA — Google peut voir deux pages avec un contenu similaire ou vide.

Pire encore : les problèmes d'hydration mismatch peuvent faire diverger le contenu vu par Googlebot du contenu vu par l'utilisateur. Si le SSR renvoie un contenu générique et que le JavaScript côté client injecte le contenu spécifique, vous pouvez vous retrouver avec plusieurs pages dont le rendu SSR est quasi-identique aux yeux de Google.

Vérification du rendu réel

Utilisez l'outil d'inspection d'URL de Search Console pour vérifier ce que Google voit réellement. Pour chaque paire de pages suspectée de cannibalization, comparez le HTML rendu :

# Utiliser Puppeteer pour simuler le rendu Googlebot
# et comparer le contenu textuel de deux pages

npx puppeteer-cli screenshot \
  --url "https://shop.example.com/chaussures/trail" \
  --output trail-category.png \
  --wait-until networkidle0

npx puppeteer-cli screenshot \
  --url "https://shop.example.com/guide/chaussures-trail" \
  --output trail-guide.png \
  --wait-until networkidle0

# Extraire le texte rendu pour comparaison
node -e "
const puppeteer = require('puppeteer');
(async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    
    // Simuler le user-agent de Googlebot
    await page.setUserAgent('Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)');
    
    await page.goto('https://shop.example.com/chaussures/trail', {waitUntil: 'networkidle0'});
    const text1 = await page.evaluate(() => document.body.innerText);
    
    await page.goto('https://shop.example.com/guide/chaussures-trail', {waitUntil: 'networkidle0'});
    const text2 = await page.evaluate(() => document.body.innerText);
    
    // Calcul de similarité basique (Jaccard sur les mots)
    const words1 = new Set(text1.toLowerCase().split(/\s+/));
    const words2 = new Set(text2.toLowerCase().split(/\s+/));
    const intersection = new Set([...words1].filter(x => words2.has(x)));
    const union = new Set([...words1, ...words2]);
    const similarity = intersection.size / union.size;
    
    console.log('Similarité textuelle :', (similarity * 100).toFixed(1) + '%');
    console.log('Mots uniques page 1 :', words1.size);
    console.log('Mots uniques page 2 :', words2.size);
    console.log('Mots communs :', intersection.size);
    
    await browser.close();
})();
"

Au-dessus de 60% de similarité textuelle entre deux pages qui ciblent des intents supposément différents, vous avez probablement un problème. En dessous de 30%, la cannibalization est peu probable — le problème vient d'ailleurs (maillage interne, title tags trop similaires).

Pour les sites en SSR, SSG ou ISR, le choix du mode de rendering influence directement la façon dont Google perçoit vos pages. Un article dédié explore quel mode de rendering choisir pour le SEO.

Monitoring continu : détecter la cannibalization avant qu'elle ne coûte du trafic

La cannibalization est un problème récurrent. Chaque nouvel article de blog, chaque nouvelle fiche produit, chaque mise à jour de contenu peut introduire une nouvelle collision. Un audit ponctuel ne suffit pas.

Alertes Search Console API

Configurez un job hebdomadaire qui interroge l'API Search Console et détecte les nouvelles requêtes cannibalisées :

# Extrait simplifié — détection hebdomadaire de nouvelles cannibalisations
# Nécessite google-auth et google-api-python-client

from googleapiclient.discovery import build
from google.oauth2 import service_account
import pandas as pd
from datetime import datetime, timedelta

SCOPES = ['https://www.googleapis.com/auth/webmasters.readonly']
SERVICE_ACCOUNT_FILE = 'credentials.json'
SITE_URL = 'https://shop.example.com'

credentials = service_account.Credentials.from_service_account_file(
    SERVICE_ACCOUNT_FILE, scopes=SCOPES
)
service = build('searchconsole', 'v1', credentials=credentials)

end_date = datetime.now() - timedelta(days=3)  # Données dispo avec 3j de délai
start_date = end_date - timedelta(days=7)

request = {
    'startDate': start_date.strftime('%Y-%m-%d'),
    'endDate': end_date.strftime('%Y-%m-%d'),
    'dimensions': ['query', 'page'],
    'rowLimit': 25000,
    'dimensionFilterGroups': [{
        'filters': [{
            'dimension': 'query',
            'operator': 'excludes',
            'expression': 'shop.example.com'  # Exclure les requêtes de marque
        }]
    }]
}

response = service.searchanalytics().query(
    siteUrl=SITE_URL, body=request
).execute()

rows = response.get('rows', [])
df = pd.DataFrame([{
    'query': row['keys'][0],
    'page': row['keys'][1],
    'clicks': row['clicks'],
    'impressions': row['impressions'],
    'position': row['position']
} for row in rows])

# Identifier les nouvelles cannibalisations
multi_url = df.groupby('query').filter(lambda x: x['page'].nunique() >= 2)
multi_url_sorted = multi_url.sort_values(['query', 'impressions'], ascending=[True, False])

# Comparer avec le rapport de la semaine précédente
try:
    previous = pd.read_csv('last_week_cannibalization.csv')
    new_queries = set(multi_url['query'].unique()) - set(previous['query'].unique())
    if new_queries:
        print(f"⚠ {len(new_queries)} nouvelles requêtes cannibalisées détectées")
        new_cases = multi_url[multi_url['query'].isin(new_queries)]
        print(new_cases.to_string())
except FileNotFoundError:
    print("Premier run — baseline créée")

multi_url.to_csv('last_week_cannibalization.csv', index=False)

Ce type de monitoring automatisé est exactement le genre de régression qu'un outil comme Seogard détecte en continu. Quand une nouvelle page commence à cannibaliser une page existante, l'alerte tombe avant que l'impact sur le trafic ne soit visible dans vos dashboards mensuels.

Les signaux avant-coureurs

Ne vous limitez pas aux données de ranking. La cannibalization se manifeste d'abord par :

Un changement de page indexée dans le cache Google : la page que Google affiche pour votre requête cible change d'une semaine à l'autre
Une baisse de CTR sans baisse de position : Google teste l'autre page avec un snippet différent, le CTR chute
Des fluctuations de position supérieures à 5 places sur une requête stable : le yo-yo caractéristique

La combinaison de ces signaux avec les données des Core Updates complique le diagnostic. Après un Core Update, Google réévalue massivement les signaux de pertinence, ce qui peut révéler ou aggraver des cannibalisations latentes.

Cannibalization et AI Overviews : le nouvel enjeu

La cannibalization prend une dimension supplémentaire avec les AI Overviews de Google. Quand Google génère une réponse IA pour une requête, il sélectionne des sources spécifiques. Si deux de vos pages se cannibalisent, vous réduisez vos chances d'être sélectionné comme source pour l'AI Overview.

Google préfère citer une source qui fait autorité de manière claire sur un sujet. Si votre signal est dilué entre deux pages, vous êtes moins susceptible d'être retenu dans les AI Overviews qu'un concurrent qui a une seule page consolidée faisant clairement référence.

Ce phénomène est particulièrement visible sur les requêtes informationnelles longue traîne, où les AI Overviews sont les plus fréquentes. Résoudre la cannibalization n'est plus seulement une question de ranking dans les résultats classiques — c'est une condition nécessaire pour capter le trafic des nouvelles interfaces de recherche.

Ce qu'il faut retenir

La cannibalization n'est pas un problème de contenu dupliqué au sens strict. C'est un problème de signal dilué : vous forcez Google à choisir entre deux pages alors que vous devriez lui envoyer un signal clair et consolidé. Le diagnostic repose sur les données Search Console croisées avec l'analyse on-page, la résolution sur un choix entre redirection, canonical, différenciation d'intent ou noindex — chaque cas est différent. Et surtout, c'est un problème récurrent qui nécessite un monitoring continu pour être détecté avant qu'il ne coûte du trafic. Un outil de monitoring comme Seogard permet d'automatiser cette veille en détectant les régressions de signaux (canonicals modifiés, title tags qui convergent, nouvelles pages qui empiètent sur des requêtes existantes) avant que l'impact ne soit visible dans les métriques de trafic.