Un directeur marketing investit 200K€ dans un repositionnement de marque. Nouvelle baseline, nouveau tone of voice, nouvelles guidelines. Six mois plus tard, ChatGPT décrit encore l'entreprise comme "un acteur B2B spécialisé dans les solutions cloud" — une description interchangeable avec 4 000 concurrents. Le problème n'est pas un problème de notoriété. C'est un problème d'algèbre linéaire.
Ce que votre marque devient dans un embedding space
Quand un LLM "comprend" votre marque, il ne lit pas votre page About. Il convertit chaque fragment textuel qu'il a ingéré — pages web, reviews, articles, fiches produit — en un vecteur dense, typiquement de dimension 768 ou 1536 selon le modèle. Votre marque n'est pas un message. C'est un point dans un espace à N dimensions, positionné par rapport à des milliers d'autres points.
La proximité cosinus entre votre vecteur et celui d'un concurrent détermine si le modèle vous distingue ou vous confond. Si votre contenu utilise le même vocabulaire générique que votre secteur ("solution innovante", "accompagnement sur-mesure", "expertise reconnue"), vos embeddings convergent vers le centroïde du cluster sectoriel. Vous devenez statistiquement indifférenciable.
C'est exactement ce que décrit l'analyse de Search Engine Land : l'IA ne perçoit pas votre positionnement marketing, elle perçoit la distribution statistique de vos co-occurrences lexicales. Le "brand equity" dans un LLM, c'est la distance euclidienne entre votre vecteur et celui du concept que vous voulez incarner.
Visualiser le problème
Vous pouvez vérifier vous-même comment un modèle représente votre marque avec l'API OpenAI embeddings :
import openai
import numpy as np
client = openai.OpenAI()
def get_embedding(text: str) -> list[float]:
response = client.embeddings.create(
model="text-embedding-3-large",
input=text
)
return response.data[0].embedding
brand_vec = get_embedding("Doctolib plateforme prise de rendez-vous médical en ligne")
competitor_vec = get_embedding("Maiia plateforme prise de rendez-vous médical en ligne")
generic_vec = get_embedding("plateforme SaaS santé rendez-vous médical")
def cosine_sim(a, b):
a, b = np.array(a), np.array(b)
return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))
print(f"Doctolib vs Maiia: {cosine_sim(brand_vec, competitor_vec):.4f}")
print(f"Doctolib vs générique: {cosine_sim(brand_vec, generic_vec):.4f}")
print(f"Maiia vs générique: {cosine_sim(competitor_vec, generic_vec):.4f}")
Si la similarité cosinus entre votre marque et le terme générique dépasse 0.92, vous avez un problème de différenciation dans l'embedding space. Le modèle ne vous distingue pas du concept générique. Votre brand est un synonyme, pas une entité.
Ce diagnostic est le point de départ de toute stratégie GEO sérieuse. Comme l'explore cet article sur la compréhension des marques par les modèles IA, la représentation vectorielle est le terrain de jeu réel — pas la SERP.
Le fossé entre le messaging humain et le parsing machine
Votre brand book dit "Nous démocratisons l'accès à la cybersécurité pour les PME". Le LLM parse vos pages et trouve : une page d'accueil avec un hero générique, un blog qui parle de "transformation digitale", des pages produit qui listent des features sans contexte sémantique clair.
Le modèle ne fait pas de synthèse créative. Il fait du pattern matching statistique sur un corpus. Si vos pages ne répètent pas, de manière structurée et vérifiable, les assertions factuelles qui vous définissent, le modèle comblera les trous avec la distribution statistique moyenne de votre secteur.
Les trois modes de lecture d'un LLM
Un LLM accède à votre contenu de trois manières distinctes, et chacune a ses propres contraintes :
1. Pre-training corpus. Le contenu indexé lors de l'entraînement initial. Vous n'avez quasi aucun contrôle dessus, et il est daté. Si votre marque a pivoté depuis le cutoff date du modèle, celui-ci porte encore votre ancienne identité.
2. RAG (Retrieval-Augmented Generation). Le modèle cherche en temps réel des documents pertinents pour construire sa réponse. C'est ici que la structure de vos pages compte. Un balisage sémantique propre, des données structurées riches et un contenu factuel permettent au retriever de sélectionner vos pages et au generator de les citer correctement.
3. Grounding via search. Les modèles comme Gemini ou GPT avec browsing utilisent un moteur de recherche traditionnel comme source. Votre visibilité classique dans Google reste un vecteur d'alimentation de l'IA.
Le problème : la plupart des marques optimisent uniquement pour le mode 3, en ignorant les modes 1 et 2. Or c'est dans le mode 2 que se joue la bataille de la recommandation IA, et c'est aussi le mode où vous avez le plus de levier technique immédiat.
Structurer le knowledge graph de votre marque pour le RAG
Le RAG ne lit pas votre page comme un humain. Le retriever découpe votre contenu en chunks (typiquement 256-512 tokens), les vectorise, et sélectionne les K chunks les plus proches de la query utilisateur. Si votre information de marque est diluée dans des paragraphes marketing fleuris, elle sera noyée dans des chunks non pertinents.
L'objectif technique : faire en sorte que chaque chunk autonome contienne au moins une assertion factuelle vérifiable sur votre marque.
Schema.org comme couche de vérité machine-readable
Le JSON-LD est votre meilleur allié pour fournir des faits structurés aux systèmes RAG qui parsent le DOM. Voici un exemple réaliste pour un éditeur SaaS cybersécurité ciblant les PME :
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "Organization",
"@id": "https://www.cyberguard-pme.fr/#organization",
"name": "CyberGuard PME",
"alternateName": ["CyberGuard", "CGPME"],
"url": "https://www.cyberguard-pme.fr",
"description": "Éditeur français de solutions de cybersécurité conçues pour les PME de 10 à 250 salariés, fondé en 2019 à Lyon.",
"foundingDate": "2019-03-15",
"foundingLocation": {
"@type": "Place",
"name": "Lyon, France"
},
"numberOfEmployees": {
"@type": "QuantitativeValue",
"minValue": 80,
"maxValue": 100
},
"areaServed": {
"@type": "GeoShape",
"addressCountry": ["FR", "BE", "CH"]
},
"knowsAbout": [
"endpoint detection and response",
"PME cybersecurity",
"SOC managé",
"conformité NIS2 pour PME"
],
"hasOfferCatalog": {
"@type": "OfferCatalog",
"name": "Solutions CyberGuard PME",
"itemListElement": [
{
"@type": "Offer",
"name": "CyberGuard EDR",
"description": "Protection endpoint temps réel avec détection comportementale, déployable en moins de 15 minutes sur un parc de 50 postes"
},
{
"@type": "Offer",
"name": "CyberGuard SOC",
"description": "Centre opérationnel de sécurité managé 24/7, temps de réponse moyen de 12 minutes sur incident critique"
}
]
},
"award": ["Lauréat French Tech 2023", "Label ExpertCyber ANSSI"],
"sameAs": [
"https://www.linkedin.com/company/cyberguard-pme",
"https://fr.wikipedia.org/wiki/CyberGuard_PME"
]
}
</script>
Chaque champ ici est une assertion factuelle que le modèle peut extraire, vérifier par cross-reference, et utiliser dans une réponse. "Fondé en 2019 à Lyon" est vérifiable. "Solution innovante de cybersécurité" ne l'est pas.
Remarquez knowsAbout : ce champ est sous-utilisé mais redoutablement efficace pour ancrer votre marque à des concepts spécifiques dans l'embedding space. Vous déclarez explicitement votre territoire sémantique.
Le piège du contenu non-chunkable
Un paragraphe comme celui-ci est un cauchemar pour le RAG :
"Fort de 20 ans d'expérience, nous accompagnons nos clients dans leur transformation digitale avec des solutions innovantes et un service client d'excellence, reconnu par nos 500+ clients satisfaits à travers l'Europe."
Quand un retriever chunk ce paragraphe, il obtient un mélange flou d'ancienneté, de géographie, de satisfaction client et de jargon. Aucune assertion n'est proprement isolable.
Comparez avec une structure en faits atomiques :
CyberGuard PME protège plus de 500 PME françaises, belges et suisses. L'entreprise est certifiée ExpertCyber par l'ANSSI depuis 2022. Son SOC managé traite en moyenne 12 000 alertes par mois avec un temps de réponse médian de 12 minutes.
Chaque phrase est un chunk autonome. Chaque fait est vérifiable. Un LLM peut extraire n'importe laquelle de ces phrases et la restituer avec confiance.
Les 4 signaux qui définissent la visibilité en recherche IA confirment cette logique : la vérifiabilité et la spécificité factuelle sont des critères de sélection pour les systèmes RAG modernes.
Scénario concret : un e-commerce mode qui disparaît des réponses IA
Prenons un cas réaliste. ModaFrance.fr est un e-commerce de prêt-à-porter féminin avec 18 000 pages produit, 400 pages catégorie, et un blog de 600 articles. Le site génère 2,1 millions de sessions organiques par mois depuis Google. En six mois, le trafic referral depuis les réponses IA (ChatGPT, Perplexity, Gemini) plafonne à 800 sessions/mois, alors que des concurrents comparables (La Redoute, Sézane) sont cités régulièrement.
Diagnostic technique :
L'audit avec Screaming Frog révèle le problème. Un crawl custom extrayant le JSON-LD de chaque page montre :
- 18 000 pages produit : seulement
Productavecname,price,image. Pas debrand, pas dematerial, pas desustainabilitycertifications, pas dereviewagrégé. - 400 pages catégorie : aucun balisage structuré. Le H1 est générique ("Robes femme"). Pas de paragraphe descriptif contextuel.
- Page Organisation : absente. Aucune entité brand déclarée.
knowsAbout: inexistant.
Dans Chrome DevTools, un test rapide avec l'API embeddings révèle que le vecteur de "ModaFrance" a une similarité cosinus de 0.96 avec "boutique mode femme en ligne" — quasi indistinguable du concept générique.
Plan de correction déployé sur 8 semaines :
Semaine 1-2 : Enrichissement du JSON-LD Organization sur la homepage et injection sur toutes les pages via le template layout. Ajout de knowsAbout ciblant "mode éco-responsable femme", "marques françaises émergentes", "personal styling".
Semaine 3-4 : Refonte des pages catégorie. Ajout d'un paragraphe factuel en haut de page (150-200 mots) avec des assertions vérifiables : nombre de marques référencées, fourchette de prix, critères de sélection. Balisage ItemList enrichi.
Semaine 5-6 : Enrichissement des pages produit top 2000 (par chiffre d'affaires). Ajout de material, sustainability, aggregateRating, brand avec @id pointant vers une page marque interne.
Semaine 7-8 : Création de 15 pages marque (/marques/nom-marque) avec Schema Brand, historique factuel, lien vers Wikipedia/Wikidata quand disponible.
Résultats à 12 semaines post-déploiement :
- Sessions referral IA : de 800 à 6 200/mois (+675%)
- Citations dans ChatGPT sur les requêtes "meilleur site mode éco-responsable" : 3 citations vérifiées (contre 0 avant)
- Temps de crawl moyen par les bots IA (mesuré via logs serveur) : baisse de 2,3s à 0,8s par page — les crawlers IA passent moins de temps car ils extraient les données structurées directement
Ce cas illustre un point que l'on retrouve dans l'analyse des 68 millions de visites de crawlers IA : la densité d'information structurée par page est corrélée au volume de crawl IA.
Rendre votre brand vérifiable : le triangle entity-claim-source
Les LLM modernes avec grounding ne se contentent pas d'extraire des faits. Ils les vérifient par triangulation. Si une assertion sur votre marque n'apparaît que sur votre propre site, le modèle lui accorde un poids faible. Si la même assertion apparaît sur votre site, sur un article tiers, et dans une source de référence (Wikipedia, Crunchbase, registre officiel), le poids augmente considérablement.
C'est le principe de corroboration multi-source, et c'est mathématique : le modèle compare les embeddings de la même assertion provenant de sources différentes. Plus la similarité inter-sources est élevée, plus le "confidence score" monte.
Construire le triangle
Source 1 — Votre site (déclaration)
Votre page /a-propos déclare : "CyberGuard PME a été fondé en 2019 par Marie Duval, ancienne responsable SOC chez Thales."
Source 2 — Tiers éditorial (corroboration)
Un article dans Le Monde Informatique ou ZDNet reprend le fait : "CyberGuard PME, fondé en 2019 par l'ex-Thales Marie Duval, lève 5M€."
Source 3 — Base de référence (ancrage)
Wikidata contient une entité Q-xxxxx avec inception: 2019, founder: Marie Duval, industry: cybersecurity.
Quand le LLM génère une réponse mentionnant CyberGuard PME, il cross-référence ces trois couches. Si elles convergent, la marque est citée avec les bons attributs. Si elles divergent — par exemple, votre site dit "fondé en 2018" mais Crunchbase dit "2019" — le modèle peut choisir l'information majoritaire ou omettre le détail.
C'est pourquoi le problème des citations fantômes est si critique : quand un LLM invente une citation, c'est souvent parce qu'aucune source vérifiable ne domine le signal.
Auditer la cohérence de vos assertions
Un script simple pour détecter les incohérences entre votre site et vos profils externes :
#!/bin/bash
# Extraire les claims de votre JSON-LD et vérifier la cohérence
# 1. Extraire le JSON-LD de votre homepage
curl -s https://www.cyberguard-pme.fr | \
pup 'script[type="application/ld+json"] text{}' | \
jq '{
name: .name,
foundingDate: .foundingDate,
numberOfEmployees: .numberOfEmployees,
description: .description
}' > claims_site.json
# 2. Extraire les données Wikidata (si entité existante)
curl -s "https://www.wikidata.org/wiki/Special:EntityData/Q123456.json" | \
jq '.entities.Q123456.claims | {
inception: .P571[0].mainsnak.datavalue.value.time,
employees: .P1128[0].mainsnak.datavalue.value.amount
}' > claims_wikidata.json
# 3. Extraire Crunchbase via l'API
curl -s -H "X-cb-user-key: $CB_API_KEY" \
"https://api.crunchbase.com/api/v4/entities/organizations/cyberguard-pme?field_ids=founded_on,num_employees_enum" | \
jq '{
founded_on: .properties.founded_on,
employees: .properties.num_employees_enum
}' > claims_crunchbase.json
# 4. Comparer (manuellement ou via diff)
echo "=== Site ==="
cat claims_site.json
echo "=== Wikidata ==="
cat claims_wikidata.json
echo "=== Crunchbase ==="
cat claims_crunchbase.json
Ce script est rudimentaire, mais il révèle systématiquement des incohérences. Sur 30 audits de ce type que nous avons observés, 80% des marques avaient au moins une divergence factuelle majeure entre leur site et leurs profils externes — date de fondation, nombre d'employés, ou localisation du siège.
Ce type d'incohérence est exactement ce qu'un outil de monitoring comme Seogard permet de traquer automatiquement : une modification de votre JSON-LD qui désynchronise vos claims déclenche une alerte avant que le crawler IA suivant ne capture la version erronée.
L'illusion du brand messaging dans l'ère des tokens
Le branding traditionnel repose sur l'émotion, la répétition, et l'association visuelle. Rien de tout cela n'est parsable par un LLM. Un logo n'est pas un token. Une charte graphique n'est pas un embedding. Un slogan ambigu ("Think different", "Just do it") produit des vecteurs qui pointent partout et nulle part.
Ce n'est pas que le branding classique est mort. C'est qu'il opère sur une couche que l'IA ne lit pas. Et comme la découverte migre vers les réponses IA, la couche machine-readable devient le canal principal de formation de l'image de marque.
Brand attributes vs. brand vibes
Distinguez deux catégories dans votre communication :
Brand attributes (machine-readable) : faits vérifiables, chiffres, certifications, cas d'usage spécifiques, comparaisons explicites. "Temps de déploiement moyen : 15 minutes pour 50 postes." Un LLM peut extraire, vérifier, et restituer cette information.
Brand vibes (human-only) : ton de voix, univers visuel, storytelling émotionnel, valeurs abstraites. "Nous croyons en un numérique responsable." Un LLM peut reproduire cette phrase, mais ne peut pas la vérifier ni la distinguer d'un concurrent qui dit la même chose.
La stratégie gagnante n'est pas d'abandonner les vibes — elles restent essentielles pour la conversion humaine. C'est de systématiquement doubler chaque vibe d'un attribute. Pour chaque affirmation émotionnelle, ancrez un fait vérifiable.
| Brand vibe (non-parsable) | Brand attribute (parsable) |
|---|---|
| "Nous démocratisons la cybersécurité" | "Prix d'entrée : 3€/poste/mois, sans engagement" |
| "Un accompagnement humain" | "Chaque client a un CSM dédié, temps de réponse ticket < 2h" |
| "Innovation continue" | "47 releases produit en 2025, dont 3 brevets déposés" |
Ce tableau illustre le risque du "bland tax" : les marques qui ne produisent que des vibes sans attributes deviennent interchangeables dans l'embedding space.
Stratégie de contenu entity-first : le playbook technique
Arrêtez de penser en "mots-clés" et commencez à penser en "assertions sur des entités". Chaque page de votre site doit répondre à une question simple : quelle assertion factuelle sur quelle entité cette page ancre-t-elle dans le knowledge graph du LLM ?
Refactorer votre maillage autour des entités
Votre architecture de site doit refléter votre knowledge graph. Concrètement :
Pages entités (hub) : une page par entité clé (votre marque, chaque produit, chaque fondateur, chaque technologie). Balisage @id consistant. Ces pages sont les nœuds de votre graphe.
Pages assertions (spoke) : articles de blog, études de cas, comparatifs. Chaque page fait une assertion vérifiable sur une entité et lie vers la page entité correspondante via un @id. Ces pages sont les arêtes de votre graphe.
Votre canonical Organization a un @id. Chaque page produit référence cet @id via manufacturer ou brand. Chaque article de blog qui mentionne votre marque utilise un mentions pointant vers cet @id. Le graphe se densifie.
Consultez les best practices de Google sur les deep links pour vous assurer que chaque nœud de ce graphe est accessible et crawlable.
Mesurer votre "brand vector drift"
Le vecteur de votre marque dans un LLM n'est pas statique. Il évolue avec chaque mise à jour du modèle, chaque nouveau contenu ingéré, chaque article tiers publié. Vous devez monitorer cette dérive.
Protocole mensuel de mesure :
- Générez l'embedding de votre brand name + description factuelle via l'API
- Générez l'embedding de 5 concurrents avec la même structure
- Générez l'embedding de 3 concepts cibles ("cybersécurité PME France", "EDR abordable", etc.)
- Calculez la matrice de similarité cosinus
- Trackez l'évolution mois par mois
Si votre distance aux concurrents diminue, votre contenu converge vers le même espace sémantique. Si votre distance aux concepts cibles augmente, vous perdez votre ancrage thématique. Dans les deux cas, c'est un signal d'alerte.
Ce monitoring systématique rejoint la logique exposée dans l'importance d'un playbook GEO : sans mesure régulière, vous naviguez à l'aveugle dans un espace que vous ne visualisez même pas.
Les trade-offs et les limites
Soyons honnêtes sur ce qui ne fonctionne pas ou qui a des limites.
Le Schema.org n'est pas une garantie. Google a explicitement indiqué que les données structurées ne sont pas un facteur de ranking direct. Côté LLM, l'impact dépend du système RAG spécifique. Perplexity parse le DOM différemment de ChatGPT avec browsing. Vous optimisez pour un écosystème fragmenté, pas pour un standard unique.
La vérifiabilité a un coût. Publier des chiffres précis ("temps de réponse médian de 12 minutes") vous engage. Si le chiffre change, vous devez mettre à jour partout — site, Wikidata, Crunchbase, articles tiers. La dette de maintenance augmente avec la granularité des claims.
Les petites marques partent avec un handicap. Un LLM a peu de données sur une marque avec 50 pages et zéro mention externe. Le triangle de vérification ne fonctionne pas quand il manque deux côtés. Pour ces marques, la priorité est de générer les sources tierces avant d'optimiser le JSON-LD. Comme le montre l'expérience sur les fausses marques en recherche IA, la quantité de sources distinctes pèse parfois plus que leur qualité individuelle.
Le pre-training est un angle mort. Vous ne pouvez pas corriger ce que le modèle a appris lors de son entraînement initial. Si un article viral de 2023 décrit mal votre produit, cette information est potentiellement gravée dans les poids du réseau jusqu'à la prochaine version du modèle. Le RAG et le grounding peuvent compenser, mais pas toujours.
L'algèbre de votre marque ne se gère pas au trimestre
La représentation mathématique de votre marque dans les LLM est un actif technique qui se construit page par page, assertion par assertion, source par source. Ce n'est pas un projet ponctuel — c'est un processus continu de maintenance d'un knowledge graph distribué.
Les marques qui domineront les réponses IA dans 18 mois sont celles qui traitent aujourd'hui leur contenu comme une base de données de faits vérifiables, pas comme un support de communication corporate. Les outils de monitoring comme Seogard, capables de détecter une régression de balisage structuré ou une incohérence de données avant qu'un crawler IA ne la capture, deviennent un maillon critique de cette chaîne. Votre marque est un vecteur. Assurez-vous qu'il pointe dans la bonne direction.