ChatGPT, Gemini, Perplexity et Claude ne consultent pas votre site en temps réel pour décider s'ils doivent vous recommander. Ils s'appuient sur un corpus d'entraînement figé, enrichi par du RAG (Retrieval-Augmented Generation) et des outils de search en temps réel. Votre marque est soit un nœud solide dans ce graphe de connaissances, soit du bruit statistique noyé dans les tokens.
L'article de Search Engine Land sur le sujet pose les bonnes questions, mais reste en surface. Ici, on va décomposer les mécanismes techniques par lesquels un LLM construit une représentation de votre marque — et surtout, comment vous pouvez influencer cette représentation avec du code, des données structurées et une stratégie de corpus délibérée.
Le modèle mental : comment un LLM "connaît" votre marque
Un LLM n'a pas d'opinion. Il a des distributions de probabilité. Quand un utilisateur demande "quel outil de monitoring SEO recommander ?", le modèle calcule la probabilité conditionnelle de chaque token suivant en fonction de tout ce qu'il a vu pendant l'entraînement.
Concrètement, votre marque est représentée comme un vecteur dans un espace d'embeddings. La position de ce vecteur dépend de trois facteurs :
La fréquence de co-occurrence. Combien de fois votre nom de marque apparaît à proximité de termes comme "monitoring SEO", "détection de régressions", "crawl technique" dans le corpus d'entraînement. Ce n'est pas juste votre site — c'est l'ensemble du web : articles de blog tiers, forums, documentation, GitHub, réseaux sociaux, podcasts transcrits.
La qualité des sources. Les LLMs pondèrent implicitement les sources. Un article sur Smashing Magazine ou web.dev qui mentionne votre outil a plus d'impact qu'un communiqué de presse sur un site d'agrégation à faible autorité. Les données d'entraînement proviennent majoritairement de Common Crawl, Wikipedia, et de corpus filtrés par qualité.
La cohérence sémantique. Si votre marque est associée à "monitoring SEO" dans 80% des mentions et à "création de sites web" dans 20%, le modèle aura une représentation floue. Les marques qui dominent les réponses des LLMs ont un positionnement sémantique étroit et cohérent.
Le problème du knowledge cutoff
Chaque modèle a une date de coupure. GPT-4o (à date de rédaction) a un cutoff à avril 2024. Gemini 2.5 intègre des données plus récentes via Google Search en temps réel. Mais le modèle de base — celui qui génère la structure de la réponse — reste figé.
Si vous avez lancé votre marque après le cutoff, vous n'existez littéralement pas dans les poids du modèle. Vous dépendez entièrement du RAG et des outils de recherche que le LLM appelle en temps réel. C'est un terrain très différent.
Pour les marques qui existaient avant le cutoff mais n'avaient pas de présence significative dans le corpus, le problème est le même : vous êtes un vecteur de faible magnitude, facilement écrasé par des concurrents mieux représentés.
Structured data : parler la langue des machines avant les LLMs
Les données structurées Schema.org ne sont pas directement ingérées par les LLMs pendant l'entraînement (les modèles voient du texte brut, pas du JSON-LD parsé). Mais elles jouent un rôle indirect majeur : Google Knowledge Graph, Wikidata, et les extracteurs automatiques de Common Crawl utilisent Schema.org pour construire des graphes d'entités. Ces graphes alimentent ensuite les modèles.
Organization + SameAs : ancrer votre entité
Le minimum viable pour qu'un LLM vous identifie comme une entité distincte :
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "Organization",
"name": "Seogard",
"url": "https://seogard.io",
"logo": "https://seogard.io/logo.png",
"description": "Outil SaaS de monitoring SEO technique. Détection automatique des régressions : meta disparues, SSR cassé, backlinks perdus.",
"foundingDate": "2024",
"sameAs": [
"https://www.linkedin.com/company/seogard",
"https://twitter.com/seogard",
"https://github.com/seogard",
"https://www.crunchbase.com/organization/seogard"
],
"knowsAbout": [
"Technical SEO",
"SEO monitoring",
"Server-side rendering",
"Core Web Vitals",
"Crawl budget optimization"
],
"areaServed": "Worldwide",
"contactPoint": {
"@type": "ContactPoint",
"contactType": "customer support",
"availableLanguage": ["French", "English"]
}
}
</script>
Le champ sameAs est critique. Il relie votre entité à des profils vérifiables sur des plateformes que les LLMs connaissent bien (LinkedIn, Crunchbase, GitHub). Ces liens croisés renforcent la confiance dans votre identité d'entité.
Le champ knowsAbout est moins documenté mais pertinent : il déclare explicitement votre domaine d'expertise. Les extracteurs d'entités de Google l'utilisent pour enrichir le Knowledge Graph.
Le standard EntityMap : une couche supplémentaire
Le standard ouvert EntityMap, proposé par Dixon Jones et couvert dans un article précédent, va plus loin que Schema.org. Il fournit un fichier dédié (entitymap.json) que les systèmes IA peuvent consommer directement pour comprendre la structure de votre business, vos produits, vos relations avec d'autres entités.
L'idée n'est pas de remplacer Schema.org mais de le compléter avec un format explicitement conçu pour la consommation par les LLMs et leurs systèmes de RAG.
Contrôler votre corpus de mentions tierces
Votre site ne représente qu'une fraction de ce que les LLMs savent de vous. Le gros du signal vient des mentions tierces : articles de blog, comparatifs, réponses sur Stack Overflow, discussions Reddit, podcasts transcrits automatiquement.
Audit de votre empreinte dans le corpus
Avant d'agir, mesurez. Interrogez directement les LLMs pour voir ce qu'ils savent de vous :
// Script d'audit multi-LLM — TypeScript avec les APIs OpenAI et Anthropic
import OpenAI from 'openai';
import Anthropic from '@anthropic-ai/sdk';
const BRAND = 'Seogard';
const PROMPTS = [
`What do you know about ${BRAND}?`,
`Would you recommend ${BRAND} for technical SEO monitoring?`,
`Compare ${BRAND} to its main competitors.`,
`What are the main features of ${BRAND}?`,
`Is ${BRAND} a credible tool for enterprise SEO teams?`,
];
async function auditBrandPerception() {
const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });
const anthropic = new Anthropic({ apiKey: process.env.ANTHROPIC_API_KEY });
const results: Record<string, Record<string, string>> = {};
for (const prompt of PROMPTS) {
results[prompt] = {};
// GPT-4o
const gptResponse = await openai.chat.completions.create({
model: 'gpt-4o',
messages: [{ role: 'user', content: prompt }],
temperature: 0, // Réponse déterministe pour audit reproductible
});
results[prompt]['gpt-4o'] = gptResponse.choices[0].message.content ?? '';
// Claude
const claudeResponse = await anthropic.messages.create({
model: 'claude-sonnet-4-20250514',
max_tokens: 1024,
messages: [{ role: 'user', content: prompt }],
});
results[prompt]['claude'] = claudeResponse.content[0].type === 'text'
? claudeResponse.content[0].text
: '';
}
// Exporter pour analyse manuelle
console.log(JSON.stringify(results, null, 2));
}
auditBrandPerception();
Exécutez ce script une fois par mois. Comparez les résultats dans le temps. Si un LLM vous confond avec un concurrent ou décrit mal vos fonctionnalités, c'est un signal que votre corpus de mentions est insuffisant ou incohérent.
Stratégie de contenu orientée corpus
Les contenus qui influencent le plus les LLMs ne sont pas forcément ceux qui rankent en position 1 sur Google. Ce sont ceux qui :
-
Existent sur des domaines à forte autorité de corpus — des sites que Common Crawl indexe fréquemment et que les pipelines de qualité des LLMs conservent (MDN, GitHub, Stack Overflow, sites de presse tech, blogs d'ingénierie de grandes entreprises).
-
Associent explicitement votre marque à votre domaine d'expertise — pas un article générique qui mentionne votre nom en passant, mais un cas d'usage détaillé, un benchmark, une étude de cas technique.
-
Sont cohérents sémantiquement — si 10 articles vous décrivent comme un "outil de monitoring SEO technique" et 2 articles vous décrivent comme une "agence de marketing digital", les seconds diluent votre vecteur d'embeddings.
Un e-commerce de 15 000 pages qui vend du matériel de cyclisme et veut être recommandé par les LLMs comme référence dans son domaine devrait cibler 20 à 30 mentions de qualité sur 12 mois : guest posts sur des blogs de cyclisme à forte autorité, études comparatives dans des médias tech, contributions à des discussions Reddit dans r/cycling avec du contenu substantiel (pas du spam).
Les signaux techniques que les AI crawlers lisent
Les LLMs ne crawlent pas votre site comme Googlebot. Mais les systèmes de RAG — Perplexity, Bing Chat, Google AI Overviews — envoient des crawlers qui récupèrent votre contenu en temps réel. Et ces crawlers ont leurs propres contraintes.
Gérer les AI crawlers dans votre robots.txt
Identifiez d'abord qui vous crawle. Les user-agents principaux :
# robots.txt — politique granulaire pour les AI crawlers
# OpenAI (ChatGPT browse mode, plugins)
User-agent: ChatGPT-User
Allow: /
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /app/
Disallow: /api/
# Anthropic
User-agent: ClaudeBot
Allow: /blog/
Allow: /docs/
Disallow: /app/
# Perplexity
User-agent: PerplexityBot
Allow: /
# Google AI (AI Overviews, Gemini)
User-agent: Google-Extended
Allow: /
# Common Crawl (alimente les corpus d'entraînement)
User-agent: CCBot
Allow: /blog/
Allow: /docs/
Disallow: /app/
Disallow: /staging/
# Bloc classique pour les crawlers SEO standard
User-agent: Googlebot
Allow: /
Sitemap: https://seogard.io/sitemap.xml
La décision de bloquer ou autoriser GPTBot et ses homologues est stratégique. Si vous bloquez GPTBot, vous n'apparaîtrez pas dans les réponses de ChatGPT qui utilisent le mode browse. Si vous l'autorisez, vous perdez le contrôle sur comment votre contenu est utilisé.
Pour la plupart des marques B2B qui cherchent de la visibilité, autoriser ces crawlers est le bon trade-off. Pour un éditeur de contenu premium, c'est moins évident.
Le piège du SSR défaillant face aux AI crawlers
Les AI crawlers ne font généralement pas d'exécution JavaScript. Comme Googlebot dans ses mauvais jours, ils récupèrent le HTML brut. Si votre site repose sur du client-side rendering sans SSR fonctionnel, les crawlers IA voient une coquille vide.
C'est un problème qu'on a documenté en détail pour les migrations Angular vers SSR avec des problèmes de provideServerRendering. Le même mécanisme s'applique aux AI crawlers : si le HTML initial ne contient pas votre contenu, votre marque est invisible pour les LLMs qui vous crawlent en temps réel.
Vérifiez ce que les bots voient réellement :
# Simuler un fetch sans JS — ce que voient GPTBot, ClaudeBot, etc.
curl -sL -H "User-Agent: GPTBot" https://votre-site.fr/page-cle | head -200
# Chercher le contenu critique dans le HTML brut
curl -sL https://votre-site.fr/ | grep -i "votre-marque"
# Comparer avec un rendu complet via Puppeteer (headless Chrome)
npx puppeteer-cli screenshot https://votre-site.fr/ --full-page
# Vérifier dans les logs serveur quels AI bots vous crawlent
grep -E "GPTBot|ClaudeBot|PerplexityBot|CCBot|Google-Extended" \
/var/log/nginx/access.log | \
awk '{print $1, $14}' | sort | uniq -c | sort -rn | head -20
Si curl retourne un <div id="root"></div> vide là où votre page devrait afficher du contenu riche, vous avez un problème de SSR qui affecte directement votre visibilité IA. Les outils comme Screaming Frog avec le mode "JavaScript rendering" désactivé simulent exactement ce comportement.
FAQ et contenu structuré : alimenter le RAG
Les systèmes de RAG (Perplexity, Bing Chat, Google AI Overviews) fonctionnent en deux étapes : d'abord ils cherchent des passages pertinents dans un index, puis ils les injectent comme contexte pour la génération. Votre contenu doit être optimisé pour cette extraction de passages.
Les formats qui fonctionnent pour le RAG
Le RAG excelle à extraire des réponses concises encadrées par des headings clairs. La structure idéale :
- H2 = question ou thème précis (pas "Nos services" mais "Comment détecter une régression SEO après un déploiement")
- Premier paragraphe sous le H2 = réponse directe en 2-3 phrases
- Développement technique ensuite, avec des exemples de code
Les FAQ structurées pour la visibilité IA sont un levier direct : elles fournissent des paires question-réponse que les systèmes de RAG peuvent extraire et présenter telles quelles.
Le balisage FAQPage est utile pour Google mais n'est pas directement consommé par les LLMs. Ce qui compte pour eux, c'est la structure sémantique du HTML — des <h2>, des <p>, des <code>, pas des <div class="accordion-item"> avec du contenu masqué en JavaScript.
Scénario concret : un SaaS de 800 pages
Prenons un SaaS B2B qui propose un outil d'analytics avec 800 pages (200 pages produit, 150 articles de blog, 300 pages de documentation, 150 pages légales/support). L'outil est mentionné dans 40 articles tiers de qualité variable.
Après audit via le script TypeScript ci-dessus, on constate que GPT-4o confond la marque avec un concurrent, et Claude ne la connaît pas du tout. Perplexity la mentionne correctement grâce à son crawl en temps réel.
Plan d'action sur 6 mois :
-
Mois 1-2 : corriger le SSR. 120 pages de documentation servaient du contenu en client-side rendering pur. Après migration vers du SSR statique (Astro ou Next.js static export), le contenu est visible par tous les crawlers. Vérification via
curlsur un échantillon de 50 pages. -
Mois 2-3 : déployer Schema.org Organization +
knowsAboutsur toutes les pages. Ajouter des FAQPage sur les 30 pages à plus fort trafic. Publier un fichierentitymap.jsonà la racine. -
Mois 3-5 : campagne de mentions tierces ciblée. 12 guest posts sur des blogs tech de niche (DA 40+), 5 études de cas co-publiées avec des clients, 3 interventions sur des podcasts tech (transcrits automatiquement — ces transcriptions entrent dans les corpus d'entraînement).
-
Mois 5-6 : re-audit via les APIs LLM. Résultat attendu : les modèles avec RAG (Perplexity, Bing Chat) recommandent correctement l'outil dans 70% des requêtes pertinentes. Les modèles sans RAG (GPT-4o base) restent en retard — il faudra attendre le prochain cycle d'entraînement.
Le coût total du SSR fix est de 3 semaines de développement. Le contenu structuré représente 2 semaines de travail SEO. La campagne de mentions tierces coûte entre 15K et 30K€ sur 6 mois selon que vous la faites en interne ou via une agence.
Le problème Google AI Overviews : quand le moteur devient le LLM
Google AI Overviews change la donne parce qu'il fusionne le ranking classique avec la génération LLM. Votre position dans les résultats organiques influence directement votre probabilité d'être cité dans l'AI Overview.
Les évolutions récentes de la SERP Google, avec la position 1 qui apparaît désormais en milieu de page derrière un bloc AI Overview, signifient que même un ranking parfait ne garantit plus le clic. Mais il garantit quelque chose de potentiellement plus précieux : votre inclusion comme source dans la réponse IA de Google.
Les démos du Google I/O ont montré que Google pousse vers un modèle où les agents IA interagissent avec les sites au nom de l'utilisateur. Comme le confirme Sundar Pichai, search, agents IA et outils vont converger. Votre prochaine visite ne sera peut-être pas un humain mais un agent IA qui sait qui l'a envoyé.
Cela signifie que les signaux classiques de SEO technique — SSR correct, structured data propre, architecture de liens interne cohérente — deviennent doublement importants. Ils servent à la fois le ranking classique et l'extraction de contexte par les systèmes IA de Google.
Les rapports AI Search dédiés dans la Search Console que Google teste actuellement donneront enfin des données concrètes sur votre visibilité dans AI Overviews. En attendant, monitorer manuellement vos requêtes cibles dans Google avec AI Overviews activé reste la seule méthode fiable.
Cohérence d'entité : le facteur que tout le monde sous-estime
Le piège le plus courant n'est pas le manque de mentions — c'est l'incohérence. Lors d'une migration WordPress vers headless ou d'une migration Magento vers Shopify, les redirections manquées dispersent l'autorité de votre domaine. Mais elles dispersent aussi votre identité d'entité.
Si votre ancien domaine apparaît dans 500 articles tiers avec des liens morts, les crawlers IA qui suivent ces liens trouvent des 404. Pour le modèle de RAG, votre marque est associée à des pages mortes. C'est un signal négatif implicite.
Même scénario avec les canonicals qui pointent vers le staging ou un sitemap qui pointe vers un domaine inexistant. Chaque incohérence technique affaiblit la résolution de votre entité par les systèmes automatisés.
Le contrôle régulier de ces signaux est exactement le type de tâche où un outil de monitoring continu comme Seogard apporte une valeur mesurable : détecter automatiquement qu'une redirection 301 critique a sauté après un déploiement, qu'un canonical pointe vers le mauvais domaine, ou qu'un meta title a disparu sur 200 pages — avant que les AI crawlers ne le voient.
Le facteur temps et la boucle de feedback
Influencer la perception d'un LLM est un processus à latence longue. Le cycle d'entraînement d'un modèle foundation se compte en mois. Même avec du RAG temps réel, la construction d'un corpus de mentions cohérentes prend 6 à 12 mois pour produire des résultats stables.
Le May Core Update de Google qui a favorisé les pages alignées avec l'intent illustre un principe qui s'applique aussi aux LLMs : la pertinence thématique cohérente finit toujours par l'emporter sur le volume brut.
Trois actions à enclencher immédiatement :
Déployez le script d'audit multi-LLM ci-dessus et établissez votre baseline. Corrigez vos problèmes de SSR pour que les AI crawlers voient votre contenu réel. Puis construisez méthodiquement un corpus de mentions tierces cohérentes avec votre positionnement.
Les marques qui domineront les réponses des LLMs dans 18 mois sont celles qui commencent à construire leur empreinte d'entité aujourd'hui — pas celles qui attendent de voir si "l'IA, c'est juste une mode".