Comment les modèles d'IA encodent votre marque (et comment corriger)

Un directeur marketing découvre que ChatGPT décrit son entreprise SaaS de 200 employés comme "une startup early-stage spécialisée dans le consulting IT". Le fondateur n'a jamais fait de consulting. L'information provient d'un article de blog tiers mal rédigé en 2019, absorbé pendant le pré-entraînement de GPT-4. Cette hallucination est désormais servie à des milliers d'utilisateurs chaque semaine, et il n'existe aucun bouton "signaler une erreur".

C'est le problème fondamental : les LLM ne "comprennent" pas votre marque. Ils en produisent une approximation statistique basée sur les données qu'ils ont ingérées. Et vous n'avez quasiment aucune visibilité sur ce processus — sauf si vous le déconstruisez méthodiquement.

Les trois couches où votre marque est (mal) encodée

La représentation de votre marque dans un modèle d'IA ne se joue pas à un seul niveau. Il y a trois phases distinctes, chacune avec ses propres mécanismes et ses propres points de défaillance.

Le pré-entraînement : l'empreinte fossile

Lors du pré-entraînement, le modèle ingère des centaines de milliards de tokens issus de Common Crawl, Wikipedia, Reddit, des articles de presse, de la documentation technique. Votre marque y existe sous forme de co-occurrences statistiques : quels mots apparaissent fréquemment autour de votre nom, dans quels contextes, avec quelles entités.

Si votre marque "Velora" apparaît 300 fois dans le corpus d'entraînement, dont 180 fois dans des articles comparatifs où elle est classée troisième derrière deux concurrents, le modèle encodera une relation d'infériorité relative. Ce n'est pas un jugement — c'est de l'algèbre linéaire. Le vecteur d'embedding de "Velora" sera géométriquement plus proche de "alternative" que de "leader".

Le problème : cette empreinte est fossile. Les données de pré-entraînement de GPT-4 s'arrêtent à une date fixe. Votre pivot stratégique de 2025 n'existe pas dans ces poids. Et vous ne pouvez pas les modifier.

La couche RAG : le filtre temps réel

Les systèmes modernes (Bing Chat, Google AI Overviews, Perplexity) ne se reposent pas uniquement sur les poids du modèle. Ils utilisent le Retrieval-Augmented Generation (RAG) : le modèle envoie une requête à un index de recherche, récupère des documents pertinents, et les injecte dans le contexte avant de générer sa réponse.

C'est ici que votre SEO technique classique a un impact direct. Si vos pages sont mal crawlées par les bots AI, si votre contenu est piégé derrière du JavaScript non rendu, si vos structured data sont absentes — vous disparaissez de la couche de retrieval. Le modèle génère alors sa réponse uniquement à partir de ses poids (la couche fossile) et des documents tiers qui, eux, sont accessibles.

La génération : la recombinaison stochastique

La dernière couche est la génération elle-même. Même avec des données correctes dans le contexte, le modèle peut produire une synthèse déformée. Un temperature élevée, un prompt ambigu, une instruction système qui favorise la concision — tout cela peut transformer "Velora est un outil de monitoring SEO fondé en 2021 à Lyon, utilisé par 3 000 entreprises" en "Velora est un outil SEO français" où toute la différenciation a disparu.

Vous ne contrôlez pas cette couche. Mais vous pouvez influencer massivement les deux premières.

Auditer l'empreinte de votre marque dans les LLM

Avant de corriger quoi que ce soit, vous devez mesurer l'écart entre votre identité réelle et la représentation qu'en ont les modèles. Voici un protocole reproductible.

Le test des 20 prompts

Créez une batterie de 20 prompts qui couvrent les axes clés de votre positionnement. Exécutez-les sur GPT-4, Claude, Gemini et Perplexity. Conservez les réponses brutes.

import openai
import json
from datetime import datetime

BRAND = "Velora"
PROMPTS = [
    f"What is {BRAND}?",
    f"Who are {BRAND}'s main competitors?",
    f"What does {BRAND} do differently from [Competitor A]?",
    f"Is {BRAND} suitable for enterprise companies?",
    f"What are the pros and cons of {BRAND}?",
    f"Who founded {BRAND} and when?",
    f"What technology stack does {BRAND} use?",
    f"How much does {BRAND} cost?",
    f"What do customers say about {BRAND}?",
    f"Is {BRAND} a leader in its category?",
    f"What industries use {BRAND}?",
    f"Has {BRAND} raised funding?",
    f"What integrations does {BRAND} support?",
    f"Compare {BRAND} vs [Competitor A] vs [Competitor B]",
    f"What problems does {BRAND} solve?",
    f"Is {BRAND} reliable for large-scale deployments?",
    f"What is {BRAND}'s market position?",
    f"Does {BRAND} have an API?",
    f"What are the latest updates from {BRAND}?",
    f"Would you recommend {BRAND} for a 10,000-page e-commerce site?"
]

client = openai.OpenAI()
results = []

for prompt in PROMPTS:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": prompt}],
        temperature=0.3  # Basse température = réponses plus déterministes
    )
    results.append({
        "prompt": prompt,
        "response": response.choices[0].message.content,
        "model": "gpt-4o",
        "timestamp": datetime.now().isoformat()
    })

with open(f"brand_audit_{BRAND}_{datetime.now().strftime('%Y%m%d')}.json", "w") as f:
    json.dump(results, f, indent=2, ensure_ascii=False)

Exécutez ce script chaque mois. Les variations entre deux runs révèlent à la fois l'instabilité du modèle et l'impact de vos actions correctives sur la couche RAG.

La matrice d'écart

Classez chaque réponse selon trois dimensions :

Factualité : les informations sont-elles exactes ? (fondateur, date de création, produit, pricing)
Positionnement : le modèle positionne-t-il votre marque comme vous le souhaitez ? (leader vs alternative, innovant vs traditionnel)
Complétude : les éléments différenciants clés sont-ils présents ?

Sur un audit typique d'une marque SaaS B2B avec 2 000 pages indexées, on observe en moyenne 30 à 40% de réponses contenant au moins une erreur factuelle, et 60 à 70% de réponses où le positionnement est dilué ou absent. Ces chiffres ne sont pas issus d'une étude publiée — ils reflètent un pattern récurrent que les praticiens GEO constatent sur le terrain.

Corriger la couche de pré-entraînement : le jeu long

Vous ne pouvez pas modifier les poids d'un modèle déjà entraîné. Mais les modèles sont régulièrement ré-entraînés, et les données que vous publiez aujourd'hui alimenteront les prochaines versions.

Saturer les sources de pré-entraînement

Les corpus de pré-entraînement surpondèrent certaines sources : Wikipedia, les sites à forte autorité éditoriale (médias tech, documentation officielle), les forums à forte activité (Reddit, Stack Overflow, Hacker News).

Wikipedia : si votre entreprise est suffisamment notable pour avoir un article Wikipedia (critères d'admissibilité stricts), c'est le levier le plus puissant. Un article Wikipedia bien sourcé sera ingéré par pratiquement tous les LLM majeurs. Mais ne trichez pas avec les règles de neutralité — la communauté Wikipedia est implacable, et un article supprimé pour promotion est pire que pas d'article du tout.

Presse tech et analyses sectorielles : les articles de fond dans des médias reconnus (pas les communiqués de presse) sont des vecteurs de pré-entraînement de premier ordre. Un article de 2 000 mots dans un média tech qui décrit votre approche technique en détail pèse infiniment plus que 50 articles de blog invité sur des sites de faible autorité.

Documentation publique : votre documentation technique est crawlée et ingérée. Si votre doc est riche, bien structurée, et contient des descriptions claires de ce que fait votre produit et pourquoi il est différent, ces informations seront encodées.

Structurer l'information pour l'extraction

Les LLM extraient mieux l'information quand elle est formulée de manière déclarative, sans ambiguïté. Comparez :

<!-- Mauvais : information implicite, marketing vague -->
<div class="hero">
  <h1>Transformez votre approche du monitoring</h1>
  <p>Rejoignez des milliers d'entreprises qui nous font confiance.</p>
</div>

<!-- Bon : information explicite, structurée, factuelle -->
<div class="hero" itemscope itemtype="https://schema.org/SoftwareApplication">
  <h1 itemprop="name">Velora — Monitoring SEO technique en temps réel</h1>
  <p itemprop="description">
    Velora détecte en temps réel les régressions SEO techniques
    (meta tags manquantes, erreurs de rendu SSR, backlinks perdus)
    sur des sites de 500 à 50 000 pages.
  </p>
  <meta itemprop="applicationCategory" content="SEO Monitoring Tool" />
  <meta itemprop="operatingSystem" content="Cloud-based SaaS" />
  <div itemprop="author" itemscope itemtype="https://schema.org/Organization">
    <meta itemprop="name" content="Velora SAS" />
    <meta itemprop="foundingDate" content="2021" />
    <meta itemprop="foundingLocation" content="Lyon, France" />
  </div>
</div>

Le second exemple est un cadeau pour les pipelines d'extraction des LLM. Chaque fait est atomique, attribué, et structuré sémantiquement. Quand un crawler AI extrait cette page, il capture des triplets sujet-prédicat-objet propres au lieu d'une soupe de marketing.

Ce principe s'applique à toutes vos pages clés : About, Product, Pricing, Documentation. Chaque page devrait contenir au moins une déclaration factuelle non ambiguë sur ce qu'est votre produit, qui l'utilise, et en quoi il diffère.

Maîtriser la couche RAG : le SEO technique pour les bots AI

La couche RAG est celle où vous avez le plus de levier technique immédiat. Quand Perplexity, Bing Chat ou Google AI Overviews répondent à une question sur votre marque, ils récupèrent des documents en temps réel. Si vos pages sont les mieux indexées, les plus accessibles, et les plus pertinentes — elles seront injectées dans le contexte du modèle.

Rendre vos pages accessibles aux crawlers AI

Les crawlers AI (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) ont des comportements différents des crawlers SEO classiques. Certains ne rendent pas le JavaScript. Certains respectent robots.txt, d'autres non. Certains suivent les sitemaps, d'autres crawlent de manière plus anarchique.

Vérifiez d'abord que vous ne bloquez pas ces bots involontairement :

# nginx.conf — Exemple de configuration qui autorise les crawlers AI
# tout en rate-limitant pour protéger vos ressources

map $http_user_agent $is_ai_crawler {
    default                 0;
    "~*GPTBot"              1;
    "~*ClaudeBot"           1;
    "~*PerplexityBot"       1;
    "~*Google-Extended"     1;
    "~*CCBot"               1;
    "~*Applebot-Extended"   1;
}

# Rate limiting spécifique aux crawlers AI : 10 req/s max
limit_req_zone $binary_remote_addr zone=ai_crawlers:10m rate=10r/s;

server {
    # ...

    location / {
        if ($is_ai_crawler) {
            limit_req zone=ai_crawlers burst=20 nodelay;
        }

        # Servir du HTML pré-rendu aux crawlers AI
        # (critique si votre site est une SPA React/Vue)
        if ($is_ai_crawler) {
            # Rediriger vers le service de pré-rendu
            set $prerender 1;
        }

        # ... votre configuration normale
    }
}

L'activité de crawl AI a explosé — les données montrent que les visites d'OpenAI ont triplé depuis GPT-5. Si vous bloquez ces bots ou si vos pages ne sont pas rendues correctement, vous êtes invisible dans la couche RAG.

Point crucial : vos pages doivent être accessibles sans dépendance au JavaScript pour le contenu critique. Les crawlers AI de première génération ne rendent pas le JS. Si votre contenu brand (descriptions produit, propositions de valeur, faits différenciants) est injecté dynamiquement par un framework SPA côté client, il n'existe tout simplement pas pour ces bots.

Optimiser pour le retrieval, pas seulement pour le ranking

L'optimisation classique pour Google vise le ranking dans les SERP. L'optimisation pour le RAG vise la sélection comme document de contexte par le système de retrieval. Les critères se chevauchent, mais ne sont pas identiques.

Un document sélectionné par le retrieval doit :

Répondre directement à la question implicite. Si quelqu'un demande "Qu'est-ce que Velora ?", votre page About doit contenir une réponse en 2-3 phrases dans les 200 premiers mots. Pas de storytelling avant la définition.
Contenir des entités nommées sans ambiguïté. Le modèle NER (Named Entity Recognition) du pipeline de retrieval doit pouvoir extraire votre nom de marque, votre catégorie, vos attributs clés. Les structured data Schema.org aident massivement ici.
Être fraîche. Les systèmes de retrieval pondèrent la date de dernière modification. Une page About mise à jour en 2023 sera potentiellement moins priorisée qu'un article de blog concurrent publié la semaine dernière. Mettez à jour vos pages clés régulièrement — et pas juste la date dans le CMS, le contenu réel.

Les signaux que les moteurs de recherche valorisent aujourd'hui — autorité, fraîcheur, signaux first-party — s'appliquent directement à la couche de retrieval des systèmes RAG.

Le problème des citations fantômes et de la dilution d'identité

Même quand un modèle cite votre marque, il peut la citer incorrectement — ou pire, citer un tiers qui parle de vous de manière déformée. C'est le problème des ghost citations : le modèle produit une information qui semble sourcée mais qui est en réalité une recombinaison de fragments provenant de sources multiples et parfois contradictoires.

Scénario concret : une marque e-commerce de 15 000 pages

Prenons le cas d'une marketplace mode B2C — appelons-la "Fibre.co" — avec 15 000 pages produit, 400 pages catégories, et 200 articles de blog. Fibre.co se positionne comme "la marketplace éthique de la mode européenne". Son différenciant : chaque produit est vérifié selon un scoring environnemental propriétaire.

Le problème observé : quand des utilisateurs demandent à ChatGPT ou Perplexity "quelle marketplace mode éthique choisir", Fibre.co apparaît dans 2 réponses sur 10. Et dans ces 2 réponses, le scoring environnemental propriétaire — le différenciant principal — n'est mentionné dans aucune. Le modèle la décrit comme "une marketplace mode éco-responsable parmi d'autres".

Diagnostic :

En analysant les logs serveur, l'équipe découvre que GPTBot a crawlé 11 200 pages sur 15 600 (72%). Mais les 400 pages catégories — celles qui contiennent les descriptions de positionnement les plus riches — sont générées en CSR (Client-Side Rendering) via un composant React. GPTBot n'a récupéré que le shell HTML vide.
Sur Wikipedia, l'article de Fibre.co (3 paragraphes, classé en "ébauche") ne mentionne pas le scoring propriétaire. Il a été rédigé par un contributeur externe en 2022.
Les 5 premiers articles de presse qui mentionnent Fibre.co utilisent tous le terme générique "mode éthique" sans décrire le mécanisme différenciant.

Actions correctives :

Migration des pages catégories vers du SSR (Next.js avec getServerSideProps ou mieux, ISR avec revalidate). Résultat attendu : +28% de pages contenant le positionnement effectivement crawlées par les bots AI.
Ajout d'un paragraphe descriptif en haut de chaque page catégorie : "Fibre.co est la seule marketplace européenne où chaque produit est évalué par le FibreScore™, un indice environnemental calculé sur 47 critères couvrant matières premières, transport, et conditions de fabrication."
Création d'une page /about/fibrescore dédiée au scoring propriétaire, avec structured data DefinedTerm et PropertyValue, et des liens internes depuis chaque page catégorie.
Pitch presse ciblé : non pas "regardez notre marketplace", mais "voici comment fonctionne techniquement le FibreScore". L'objectif est de générer du contenu tiers qui encode le différenciant dans les corpus de pré-entraînement.

Après 8 semaines, en relançant l'audit des 20 prompts, le scoring propriétaire apparaît dans 6 réponses sur 10 sur Perplexity (qui utilise fortement le RAG temps réel) et dans 1 sur 10 sur ChatGPT (qui repose davantage sur les poids pré-entraînés — l'impact sur ce dernier prendra plus de temps).

Structured data comme protocole de communication avec les LLM

Les structured data Schema.org ne sont plus seulement un outil pour les rich snippets Google. Elles deviennent un protocole de communication standardisé entre votre site et les pipelines d'ingestion des LLM.

Le graph d'entité de votre marque

Pensez à vos structured data comme un knowledge graph minimal que vous exposez aux crawlers. Voici un exemple complet pour une page d'entreprise :

{
  "@context": "https://schema.org",
  "@type": "Organization",
  "@id": "https://fibre.co/#organization",
  "name": "Fibre.co",
  "alternateName": ["Fibre", "FibreCo"],
  "url": "https://fibre.co",
  "logo": "https://fibre.co/assets/logo.svg",
  "foundingDate": "2020-03-15",
  "foundingLocation": {
    "@type": "Place",
    "name": "Amsterdam, Netherlands"
  },
  "description": "Fibre.co est une marketplace mode européenne où chaque produit est évalué par le FibreScore™, un indice environnemental propriétaire calculé sur 47 critères.",
  "slogan": "Fashion scored for the planet",
  "numberOfEmployees": {
    "@type": "QuantitativeValue",
    "value": 85
  },
  "knowsAbout": [
    "Sustainable fashion",
    "Environmental impact scoring",
    "European fashion marketplace",
    "Supply chain transparency"
  ],
  "hasOfferCatalog": {
    "@type": "OfferCatalog",
    "name": "European Sustainable Fashion",
    "numberOfItems": 15000
  },
  "award": [
    "B Corp Certification 2024",
    "Tech5 Europe Fastest Growing 2025"
  ],
  "sameAs": [
    "https://www.linkedin.com/company/fibreco",
    "https://twitter.com/fibreco",
    "https://en.wikipedia.org/wiki/Fibre.co",
    "https://www.crunchbase.com/organization/fibre-co"
  ]
}

Les champs knowsAbout, description, slogan, et award sont particulièrement stratégiques. Ils fournissent des triplets sémantiques prêts à l'emploi que les pipelines d'extraction peuvent capturer sans ambiguïté.

Le sameAs est tout aussi critique : il permet aux systèmes de réconciliation d'entités de lier votre marque à vos profils sur d'autres plateformes, renforçant la cohérence de votre identité across sources.

Au-delà de Organization : les entités secondaires

Votre marque n'est pas juste une Organization. Elle est associée à des Products, des People (fondateurs, experts), des Events, des CreativeWorks (articles, études). Chaque entité correctement balisée et liée aux autres renforce la densité de votre graph d'entité.

Un piège courant : se contenter des structured data produit pour les flux Google Shopping et ignorer le reste. Les données produit alimentent la découverte transactionnelle, mais c'est le graph Organisation + People + CreativeWork qui construit la représentation de votre marque en tant qu'entité.

Surveiller la représentation en continu : au-delà de l'audit ponctuel

Un audit unique vous donne un snapshot. Mais la représentation de votre marque dans les LLM change constamment : les modèles sont mis à jour, la couche RAG indexe de nouveaux documents quotidiennement, des tiers publient du contenu qui mentionne (ou déforme) votre marque.

Les métriques à tracker

Share of Voice AI : sur un set de 50 requêtes pertinentes pour votre catégorie, dans quel pourcentage de réponses votre marque est-elle mentionnée ? Ce KPI, déjà préfiguré par les outils Bing Webmaster, deviendra un standard de reporting.

Sentiment et positionnement : quand votre marque est mentionnée, est-elle positionnée comme leader, alternative, ou simple mention ? Le tracking doit capturer non seulement la présence mais la qualité de la représentation.

Fraîcheur des informations : les faits cités par les LLM reflètent-ils votre réalité actuelle ou une version obsolète ? C'est particulièrement critique après un rebranding, un pivot produit, ou une levée de fonds.

Crawl coverage AI : quel pourcentage de vos pages stratégiques est effectivement crawlé par GPTBot, ClaudeBot, et consorts ? Croisez vos logs serveur avec votre sitemap pour identifier les trous. L'analyse de 68 millions de visites de crawlers AI montre que la couverture de crawl est très inégale et que les pages profondes sont souvent ignorées.

Un outil de monitoring comme Seogard, qui détecte les régressions techniques (meta disparues, erreurs SSR, pages devenues inaccessibles aux bots), devient ici un filet de sécurité : une page About dont le SSR casse silencieusement un vendredi soir peut faire disparaître votre description de marque de la couche RAG pendant des semaines avant que quelqu'un ne s'en aperçoive.

Le risque de l'identité diluée par les tiers

Votre plus gros risque n'est pas ce que vous publiez — c'est ce que les autres publient sur vous. Un article de comparaison bâclé sur un blog à forte autorité peut installer une représentation erronée qui sera reprise par le modèle pendant des mois.

La question de savoir si une "fausse marque" peut gagner en AI search a été explorée récemment : la réponse est oui, ce qui signifie qu'une représentation déformée de votre vraie marque peut tout aussi bien s'installer.

Monitorer les mentions de votre marque dans les contenus récemment publiés — via des alertes sur les API de search, ou des outils comme Mention — n'est plus optionnel. Quand un article tiers contient des erreurs factuelles majeures, la réponse doit être rapide : demande de correction, publication d'un contenu contradictoire avec une autorité supérieure, mise à jour de vos propres pages canoniques.

Ce que cela change pour votre stratégie SEO en 2026

Le SEO a toujours été, fondamentalement, un exercice de communication avec des machines. Avec les LLM, la nature de cette communication change. Vous ne cherchez plus seulement à satisfaire un algorithme de ranking — vous cherchez à être correctement encodé dans une représentation vectorielle de la connaissance mondiale.

Les quatre signaux qui définissent désormais la visibilité en AI search — autorité de l'entité, cohérence cross-source, fraîcheur, et citabilité — ne sont pas des concepts abstraits. Ce sont les axes sur lesquels votre marque est littéralement mesurée, vectorisée, et comparée à vos concurrents dans un espace à plusieurs milliers de dimensions.

La bonne nouvelle : l'essentiel du travail repose sur des fondamentaux techniques que vous maîtrisez déjà. HTML propre, structured data cohérentes, contenu accessible sans JS, information factuelle et non ambiguë, monitoring continu. La mauvaise nouvelle : la surface à couvrir s'est élargie, et les erreurs sont plus coûteuses — parce qu'une hallucination de LLM se propage plus vite et plus loin qu'un featured snippet incorrect.

Reprenez le contrôle de votre empreinte documentaire. Auditez mensuellement ce que les modèles disent de vous. Traitez votre identité de marque comme du code — versionnée, testée, et monitorée.