ChatGPT ne cite qu'une poignée de domaines : analyse technique

ChatGPT récupère six fois plus de pages qu'il n'en cite dans ses réponses. Et les citations qu'il produit se concentrent massivement sur une trentaine de domaines. Une étude récente publiée par Search Engine Land met en lumière un mécanisme de sélection qui ressemble moins à un moteur de recherche qu'à un système éditorial avec une whitelist implicite.

Pour les SEO techniques qui gèrent des sites de 5 000 à 50 000 pages, la question n'est plus "comment ranker sur Google" mais "comment exister dans les réponses générées par un LLM qui ne joue pas avec les mêmes règles".

Ce que l'étude révèle : le ratio retrieval/citation et la concentration des sources

L'étude analysée par Search Engine Land met en évidence deux phénomènes distincts mais liés.

Le ratio 6:1 entre pages récupérées et pages citées

Quand ChatGPT (via son mécanisme de search intégré, basé sur Bing) génère une réponse avec citations, il récupère en moyenne six pages pour chaque page qu'il finit par citer. Ce ratio est fondamental : il signifie que votre contenu peut être crawlé, ingéré, utilisé pour informer la réponse — sans jamais apparaître comme source visible pour l'utilisateur.

Ce phénomène a été documenté plus en détail dans une analyse précédente montrant que seulement 15% des pages récupérées apparaissent dans les réponses finales. Le mécanisme de sélection post-retrieval agit comme un filtre éditorial opaque.

La concentration sur ~30 domaines

Le second constat est plus brutal : les citations se concentrent massivement sur un petit groupe de domaines. Wikipedia, Reddit, des médias majeurs (NYT, BBC, Reuters), des sites de référence thématique (WebMD pour la santé, Investopedia pour la finance). Le reste de l'écosystème web se partage les miettes.

Ce n'est pas un classement algorithmique au sens PageRank du terme. C'est un effet de compounding : les domaines qui couvrent un sujet en profondeur (topic-wide coverage) et qui ont une forte autorité d'entité (entity authority) sont systématiquement favorisés. Le LLM ne raisonne pas en termes de "meilleure page pour cette requête" mais en termes de "source la plus fiable pour ce domaine de connaissance".

Cela rejoint directement le concept d'autorité d'entité comme fondation de la visibilité dans la recherche IA.

Pourquoi le modèle de citation LLM diffère fondamentalement du ranking Google

Comparer le système de citation de ChatGPT au ranking Google est une erreur d'analyse fréquente. Les deux systèmes partagent des inputs (contenu web, liens, signaux d'autorité) mais divergent radicalement dans leur logique de sélection.

Google : relevance par page, LLM : confiance par domaine

Google évalue chaque page individuellement. Un article de blog bien optimisé sur un domaine sans autorité particulière peut ranker en position 1 pour une requête long-tail spécifique. Le système récompense la pertinence locale.

ChatGPT opère différemment. Le retrieval initial (via Bing) ramène un pool de candidats. Mais la couche de génération (le LLM lui-même) applique un filtre de confiance qui favorise les sources qu'il "connaît" — c'est-à-dire les domaines massivement représentés dans ses données d'entraînement. Un domaine que le modèle a vu des milliers de fois pendant le pre-training a un avantage structurel que l'optimisation on-page ne peut pas compenser.

L'effet de couverture thématique (topic-wide coverage)

L'étude montre que ChatGPT favorise les domaines qui couvrent un sujet dans sa globalité plutôt que ceux qui ont une seule page pertinente. Un site e-commerce qui a 200 pages catégorie bien structurées sur l'univers du running a plus de chances d'être cité qu'un blog qui a un seul article viral sur "les meilleures chaussures de running 2026".

C'est un renversement de la logique SEO classique. En SEO Google, une seule page exceptionnelle suffit. En visibilité LLM, c'est la masse critique de contenu cohérent sur un topic qui construit la confiance du modèle.

Pour les sites e-commerce, cela signifie que le travail sur les pages catégories et le maillage interne n'est plus seulement un enjeu Google — c'est un signal de couverture thématique que les LLM captent indirectement.

Auditer votre exposition aux crawlers LLM : méthode technique

Avant de chercher à optimiser quoi que ce soit, vous devez mesurer votre exposition actuelle aux agents de ChatGPT. Voici la méthode.

Identifier le trafic des bots LLM dans vos logs

Les crawlers de ChatGPT utilisent l'user-agent ChatGPT-User pour le browsing en temps réel et GPTBot pour le crawl d'indexation. Commencez par les isoler dans vos logs serveur.

# Extraire les requêtes GPTBot et ChatGPT-User des access logs Nginx
grep -E "GPTBot|ChatGPT-User" /var/log/nginx/access.log \
  | awk '{print $7, $9, $1}' \
  | sort | uniq -c | sort -rn > chatgpt_crawl_report.txt

# Compter les pages uniques crawlées par GPTBot sur les 30 derniers jours
grep "GPTBot" /var/log/nginx/access.log \
  | awk '{print $7}' \
  | sort -u \
  | wc -l

# Identifier les pages les plus crawlées par ChatGPT-User (retrieval en temps réel)
grep "ChatGPT-User" /var/log/nginx/access.log \
  | awk '{print $7}' \
  | sort | uniq -c | sort -rn | head -50

La distinction entre GPTBot et ChatGPT-User est critique. GPTBot construit la base de connaissances du modèle — c'est le crawl "froid". ChatGPT-User est le retrieval "chaud" déclenché quand un utilisateur pose une question et que ChatGPT va chercher des sources en temps réel. C'est ce second agent qui décide potentiellement de vous citer.

Pour une analyse plus structurée, l'analyse de logs serveur que vous appliquez à Googlebot s'adapte directement aux crawlers LLM.

Mesurer le ratio crawl/citation

Le challenge est que vous pouvez voir ce que GPTBot crawle, mais pas si ChatGPT vous cite. Plusieurs approches complémentaires :

// Script Node.js pour monitorer les citations ChatGPT via l'API
// Envoyez des prompts types liés à votre domaine et analysez les sources citées
import OpenAI from 'openai';

const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

async function checkCitationPresence(prompts, targetDomain) {
  const results = [];
  
  for (const prompt of prompts) {
    const response = await openai.chat.completions.create({
      model: 'gpt-4o',
      messages: [{ role: 'user', content: prompt }],
      // web_search activé pour obtenir des citations
      tools: [{ type: 'web_search' }],
    });
    
    const content = response.choices[0].message.content;
    // Extraire les URLs citées dans la réponse
    const urlPattern = /https?:\/\/[^\s\)]+/g;
    const citedUrls = content.match(urlPattern) || [];
    const hasCitation = citedUrls.some(url => url.includes(targetDomain));
    
    results.push({
      prompt,
      cited: hasCitation,
      citedUrls: citedUrls.filter(url => url.includes(targetDomain)),
      totalCitations: citedUrls.length,
    });
    
    // Rate limiting
    await new Promise(resolve => setTimeout(resolve, 2000));
  }
  
  return results;
}

// Exemple : site e-commerce spécialisé running
const prompts = [
  'Quelles sont les meilleures chaussures de trail pour ultra-distance en 2026 ?',
  'Comment choisir sa pointure de chaussure de running ?',
  'Comparatif Hoka Speedgoat vs Salomon Speedcross dernière génération',
  'Avis sur les chaussures carbone pour marathon débutant',
];

const results = await checkCitationPresence(prompts, 'runstore.fr');
console.table(results);

Cette approche est manuelle et coûteuse à grande échelle. C'est exactement le type de monitoring que des outils spécialisés comme ceux décrits dans notre guide sur le tracking de visibilité IA peuvent automatiser.

Scénario concret : un média spécialisé de 12 000 pages face au monopole des citations

Prenons un cas réaliste. TechReview.fr, un média tech français avec 12 000 articles, 800 000 visites organiques mensuelles (Google). Le site a une autorité correcte (DR 55 Ahrefs), un bon profil de backlinks, et des contenus experts produits par des journalistes spécialisés.

Le diagnostic initial

En analysant les logs sur 60 jours :

GPTBot a crawlé 4 200 pages uniques (35% du site)
ChatGPT-User a récupéré 380 pages uniques en retrieval temps réel
En testant 100 prompts liés au périmètre éditorial du site, TechReview.fr apparaît dans les citations de 3 réponses sur 100

Le ratio est brutal : 380 pages récupérées en live, 3 citations. Soit un taux de conversion retrieval → citation de 0,8%. Pendant ce temps, The Verge et TechCrunch raflent 40% des citations sur les mêmes prompts.

Les problèmes identifiés

1. Contenu fragmenté, pas de couverture thématique cohérente. TechReview.fr a 200 articles sur les smartphones, mais répartis entre news, tests, comparatifs, sans structure de hub. Le LLM ne perçoit pas le site comme une autorité sur le sujet "smartphones" — il voit 200 pages déconnectées.

2. Absence de données structurées entity-level. Les articles n'ont pas de balisage sameAs pointant vers les entités Wikidata des produits et marques testés. Le LLM ne peut pas mapper le contenu à des entités connues de son knowledge graph.

3. SSR partiel cassé. Le site utilise Nuxt.js mais certaines sections de contenu (tableaux comparatifs, specs techniques) sont rendues côté client uniquement. GPTBot récupère des pages incomplètes. Ce type de régression est détaillé dans nos analyses sur Vue.js et SEO avec Nuxt et le guide complet des SPA.

Le plan d'action

Phase 1 — Structuration en hubs thématiques (semaines 1-4). Création de 15 pages pilier (smartphones, laptops, audio, etc.) avec maillage interne systématique vers les articles existants. Chaque hub couvre : guide d'achat, comparatifs, glossaire technique, FAQ structurée.

Phase 2 — Balisage entity-level (semaines 2-3).

<!-- Balisage JSON-LD enrichi pour un article de test produit -->
<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Review",
  "itemReviewed": {
    "@type": "Product",
    "name": "Samsung Galaxy S26 Ultra",
    "brand": {
      "@type": "Brand",
      "name": "Samsung",
      "sameAs": "https://www.wikidata.org/wiki/Q20718"
    },
    "category": "Smartphone",
    "sameAs": [
      "https://www.wikidata.org/wiki/Q130283947"
    ]
  },
  "author": {
    "@type": "Person",
    "name": "Marie Dupont",
    "sameAs": [
      "https://twitter.com/mariedupont_tech",
      "https://www.linkedin.com/in/mariedupont-tech"
    ],
    "jobTitle": "Journaliste spécialisée smartphones",
    "worksFor": {
      "@type": "Organization",
      "name": "TechReview.fr",
      "sameAs": "https://www.wikidata.org/wiki/Q123456789"
    }
  },
  "reviewRating": {
    "@type": "Rating",
    "ratingValue": "8.5",
    "bestRating": "10"
  },
  "datePublished": "2026-03-15",
  "publisher": {
    "@type": "Organization",
    "name": "TechReview.fr",
    "url": "https://techreview.fr"
  }
}
</script>

Le sameAs vers Wikidata est le signal le plus sous-estimé en visibilité LLM. Les modèles de langage sont entraînés sur des dumps Wikipedia/Wikidata. Lier explicitement vos entités à celles du knowledge graph public permet au modèle de faire la connexion entre votre contenu et les concepts qu'il maîtrise.

Phase 3 — Fix SSR et optimisation du contenu pour le retrieval (semaines 3-6). S'assurer que 100% du contenu critique est rendu côté serveur, et que les tableaux comparatifs sont en HTML sémantique (pas en images ou en composants client-only).

Les résultats attendus (projection 90 jours)

Sur la base de cas similaires documentés : passage de 3% à 10-15% de taux de citation sur les prompts cibles. Ce n'est pas un doublement du trafic organique — c'est une construction de visibilité sur un canal qui représentera potentiellement 20-30% du trafic de référence d'ici 18 mois.

Stratégies techniques pour augmenter la probabilité de citation

Optimiser le contenu pour le retrieval, pas seulement pour le ranking

Le retrieval de ChatGPT fonctionne via Bing. Les facteurs de ranking Bing ne sont pas identiques à ceux de Google. Quelques différences techniques exploitables :

Bing accorde plus de poids aux signaux sociaux et aux metas exactes. Contrairement à Google qui réécrit fréquemment les title tags (un phénomène que nous avons analysé dans cette étude de cas sur 8 000 réécritures de title tags), Bing utilise plus fidèlement les metas déclarées. Soignez-les.

Bing IndexNow pour accélérer le retrieval. Si votre contenu est frais et que vous voulez qu'il soit disponible pour le retrieval ChatGPT rapidement, IndexNow est la voie rapide :

# Soumettre une URL à IndexNow (Bing) via curl
curl -X POST "https://api.indexnow.org/indexnow" \
  -H "Content-Type: application/json" \
  -d '{
    "host": "techreview.fr",
    "key": "votre-cle-indexnow",
    "keyLocation": "https://techreview.fr/votre-cle-indexnow.txt",
    "urlList": [
      "https://techreview.fr/test-samsung-galaxy-s26-ultra",
      "https://techreview.fr/comparatif-smartphones-haut-de-gamme-2026",
      "https://techreview.fr/guide-achat-smartphone-2026"
    ]
  }'

Google n'utilise pas IndexNow. Bing si, et par extension les retrievers de ChatGPT bénéficient de cette indexation rapide. C'est un levier technique que peu de SEO exploitent dans une optique LLM.

Structurer le contenu pour la synthèse LLM

Les LLM ne lisent pas vos pages comme un humain. Ils tokenisent, chunckent, et extraient. Quelques patterns techniques qui augmentent la probabilité que votre contenu survive au processus de synthèse :

Réponses directes en début de section. Le pattern "inverted pyramid" du journalisme fonctionne remarquablement bien pour le retrieval LLM. Placez la réponse factuelle dans les 2-3 premières phrases de chaque section H2, puis développez.

Tableaux HTML sémantiques pour les données comparatives. Les LLM extraient les données tabulaires bien mieux que les paragraphes narratifs.

<!-- Bon : tableau sémantique que le LLM peut parser -->
<table>
  <caption>Comparatif chaussures trail ultra-distance 2026</caption>
  <thead>
    <tr>
      <th scope="col">Modèle</th>
      <th scope="col">Poids (g)</th>
      <th scope="col">Drop (mm)</th>
      <th scope="col">Amorti</th>
      <th scope="col">Prix (€)</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>Hoka Speedgoat 7</td>
      <td>292</td>
      <td>4</td>
      <td>Maximaliste</td>
      <td>160</td>
    </tr>
    <tr>
      <td>Salomon Speedcross 7</td>
      <td>310</td>
      <td>10</td>
      <td>Modéré</td>
      <td>145</td>
    </tr>
    <tr>
      <td>Nike Ultrafly 2</td>
      <td>275</td>
      <td>8</td>
      <td>ZoomX</td>
      <td>185</td>
    </tr>
  </tbody>
</table>

<!-- Mauvais : données en image ou en div/span sans sémantique -->
<div class="comparison-card">
  <span class="model">Hoka Speedgoat 7</span>
  <span class="weight">292g</span>
  <!-- Le LLM ne peut pas parser cette structure de manière fiable -->
</div>

Listes de définitions pour les glossaires et FAQ. Le tag <dl> est sous-utilisé mais excellent pour le retrieval :

<dl>
  <dt>Drop (chaussure de running)</dt>
  <dd>Différence de hauteur en millimètres entre le talon et l'avant-pied. 
      Un drop faible (0-4mm) favorise une foulée médio-pied. 
      Un drop élevé (10-12mm) convient aux attaqueurs talon.</dd>
  
  <dt>Stack height</dt>
  <dd>Épaisseur totale de la semelle sous le pied. Les chaussures maximalistes 
      (Hoka) dépassent 30mm, les minimalistes descendent sous 15mm.</dd>
</dl>

Le paradoxe du robots.txt : bloquer GPTBot ou pas ?

La tentation est forte de bloquer GPTBot si votre contenu est utilisé sans citation. Mais c'est un raisonnement court-termiste.

Ce que le blocage implique réellement

Bloquer GPTBot empêche le crawl d'entraînement. Votre contenu ne sera plus ingéré pour les futures versions du modèle. Mais cela n'empêche pas ChatGPT-User de récupérer vos pages en temps réel — sauf si vous bloquez aussi cet agent.

Le problème : si vous bloquez les deux, vous disparaissez totalement des réponses ChatGPT. Dans un contexte où les AI Overviews de Google réduisent déjà les clics organiques de 42% et jusqu'à 59% de CTR en moins en Allemagne, se couper volontairement d'un second canal IA est un pari risqué.

L'approche nuancée : contrôle sélectif

Plutôt que tout bloquer ou tout ouvrir, contrôlez ce que GPTBot peut crawler :

# Configuration Nginx : servir un robots.txt conditionnel
# Laissez GPTBot accéder au contenu public, bloquez les assets inutiles

# robots.txt
User-agent: GPTBot
Allow: /articles/
Allow: /guides/
Allow: /comparatifs/
Disallow: /compte/
Disallow: /panier/
Disallow: /api/
Disallow: /assets/
Crawl-delay: 2

User-agent: ChatGPT-User
Allow: /
Disallow: /compte/
Disallow: /panier/

# Header X-Robots-Tag pour un contrôle page-level via Nginx
location ~* ^/articles/premium/ {
    add_header X-Robots-Tag "noindex, nofollow" always;
    # Contenu premium : ne pas indexer pour les LLM
}

L'idée est de laisser les agents LLM accéder à votre contenu public (celui que vous voulez voir cité) tout en protégeant le contenu premium ou les sections non pertinentes. Le Crawl-delay pour GPTBot est raisonnable — contrairement à Googlebot qui ignore cette directive, GPTBot la respecte selon la documentation d'OpenAI.

Sachant que les bots pourraient dépasser le trafic humain d'ici 2027, maîtriser ces interactions est un enjeu d'infrastructure autant que de SEO.

La couche consensus : le nouveau terrain de bataille

L'étude sur la concentration des citations ChatGPT révèle un phénomène plus profond que la simple sélection de sources. Les LLM construisent une couche de consensus — une synthèse agrégée de ce que "le web dit" sur un sujet.

Comment le consensus se forme techniquement

Quand ChatGPT récupère 6 pages et n'en cite qu'une, les 5 autres ne sont pas ignorées. Elles contribuent à la réponse synthétisée. Si 4 sources sur 6 recommandent le même produit, ChatGPT va probablement recommander ce produit — même si la source citée est la cinquième.

Votre contenu peut influencer la réponse sans être cité. C'est un changement de paradigme : la visibilité dans la citation n'est qu'une partie de l'équation. L'influence sur le consensus est l'autre.

Implications pratiques

Pour un site e-commerce, cela signifie que le travail sur la navigation à facettes, les pages catégories, et les pages produit (y compris celles en rupture de stock) influence indirectement la façon dont les LLM perçoivent votre catalogue et votre expertise.

Un site qui a 500 pages produit bien structurées sur le running, avec des avis détaillés, des specs complètes, et un maillage interne cohérent, contribue au consensus LLM sur "quelles sont les meilleures chaussures de running" — même si ChatGPT cite Runner's World au lieu de votre site.

La stratégie long-terme est double : construire l'autorité d'entité pour être cité ET la couverture thématique pour influencer le consensus.

Ce que cela change pour le SEO technique en 2026

L'étude sur les citations ChatGPT n'est pas une curiosité académique. C'est un signal structurel.

Le web se restructure autour de deux couches : la couche indexation (Google, Bing) et la couche synthèse (ChatGPT, Perplexity, Gemini). Les sites qui performeront sur les deux ne sont pas ceux qui optimisent pour l'un ou l'autre, mais ceux qui construisent une architecture de contenu solide, un balisage entity-level rigoureux, et un SSR irréprochable.

Le monitoring de ces signaux — pages crawlées par GPTBot, taux de citation, cohérence du rendu servi aux agents LLM — devient un pilier du SEO technique. C'est exactement le type de régression silencieuse (un SSR cassé qui ne sert que du HTML vide à GPTBot, un robots.txt mal configuré qui bloque ChatGPT-User) qu'un outil de monitoring continu comme Seogard détecte avant que la visibilité ne s'effondre.

Les ~30 domaines qui raflent la majorité des citations aujourd'hui ne sont pas là par hasard. Ils sont là parce qu'ils cochent simultanément autorité d'entité, couverture thématique, et excellence technique. Le playbook est clair — il reste à l'exécuter.