Un site e-commerce de 22 000 pages, parfaitement optimisé selon les standards classiques — titles à 60 caractères, H1 uniques, maillage interne solide, Core Web Vitals au vert — perd 34 % de son trafic organique en six mois. Pas de pénalité. Pas de problème technique. Le trafic a simplement migré vers les réponses générées par l'AI dans les SERP. Les AI Overviews de Google, les réponses de Perplexity, les citations de ChatGPT Search — ces systèmes ne piochent pas leurs sources selon les mêmes critères qu'un crawler classique.
Le discours ambiant sur l'optimisation pour l'AI Search se résume trop souvent à "ajoutez du schema markup" ou "écrivez en langage naturel". C'est du surface-level SEO appliqué à un problème fondamentalement différent. L'avantage compétitif réel se construit dans les knowledge graphs, les entités expertes et l'influence dans les datasets de confiance que ces modèles consomment.
Le modèle mental classique du SEO ne colle plus aux LLM
Le SEO classique repose sur un pipeline linéaire : crawl → render → index → rank. Vous optimisez chaque étape. Vous vous assurez que Googlebot peut accéder et rendre vos pages, que vos sitemaps sont propres, que vos redirections ne forment pas de chaînes. Ce pipeline reste essentiel pour le ranking organique traditionnel. Mais les LLM fonctionnent sur un paradigme différent.
Comment un LLM sélectionne ses sources
Un modèle de langage — qu'il alimente un AI Overview Google, une réponse Perplexity ou un résultat ChatGPT Search — ne "crawle" pas en temps réel au sens traditionnel. Il opère sur deux couches :
- La couche de pré-entraînement : le corpus massif sur lequel le modèle a été entraîné (Common Crawl, Wikipedia, sources académiques, datasets propriétaires). Ce que votre site était il y a 6 à 18 mois compte autant que ce qu'il est aujourd'hui.
- La couche de retrieval (RAG) : pour les systèmes avec accès web temps réel (Perplexity, ChatGPT Search, AI Overviews), un pipeline de retrieval sélectionne des documents pertinents et les injecte dans le contexte du LLM.
La couche RAG est celle qui ressemble le plus au SEO classique — mais avec une différence critique. Le ranking dans un pipeline RAG dépend fortement de la densité sémantique et de la cohérence d'entité du document, pas seulement de ses signaux PageRank ou de ses balises.
Ce que "surface-level" signifie concrètement
Voici ce qui ne suffit plus quand le canal de distribution change :
- Optimiser un title tag pour le CTR humain ne change rien pour un LLM qui extrait des passages, pas des snippets SERP. Le title reste important pour le ranking classique, mais il n'a aucune influence sur la sélection RAG.
- Écrire des FAQ pour capter les featured snippets était efficace quand le featured snippet était le format de réponse directe. Les AI Overviews synthétisent à partir de multiples sources — être la source unique d'un snippet ne garantit plus d'être cité.
- Accumuler des backlinks éditoriaux génériques construit l'autorité de domaine, mais pas l'autorité d'entité que les LLM utilisent pour pondérer la fiabilité d'une affirmation.
Le problème n'est pas que ces tactiques sont devenues inutiles. C'est qu'elles sont devenues nécessaires mais insuffisantes.
Knowledge graphs : la couche invisible qui alimente les réponses AI
Le Knowledge Graph de Google contient des milliards d'entités et de relations. Quand un AI Overview génère une réponse sur "les meilleures pratiques de migration e-commerce", il ne fait pas que chercher des pages — il résout des entités. Il sait que "Next.js" est un framework, que "Vercel" est son éditeur, que "SSR" est une technique de rendu côté serveur. Ces connexions viennent du Knowledge Graph et des données structurées qui l'alimentent.
Construire votre présence dans le Knowledge Graph
L'objectif est de transformer votre marque, vos auteurs et vos concepts propriétaires en entités reconnues — pas juste en pages indexées.
Première étape : déclarer votre organisation et vos auteurs avec du JSON-LD structuré qui va au-delà du minimum :
{
"@context": "https://schema.org",
"@type": "Organization",
"@id": "https://acme-ecommerce.com/#organization",
"name": "Acme E-commerce",
"url": "https://acme-ecommerce.com",
"sameAs": [
"https://www.linkedin.com/company/acme-ecommerce",
"https://www.wikidata.org/wiki/Q123456789",
"https://www.crunchbase.com/organization/acme-ecommerce"
],
"founder": {
"@type": "Person",
"@id": "https://acme-ecommerce.com/team/jean-dupont#person",
"name": "Jean Dupont",
"sameAs": [
"https://www.linkedin.com/in/jean-dupont",
"https://scholar.google.com/citations?user=XXXXX"
],
"jobTitle": "CTO",
"knowsAbout": ["e-commerce SEO", "headless commerce", "server-side rendering"]
},
"knowsAbout": ["e-commerce", "SEO technique", "migration de plateforme"]
}
Le détail qui compte : la propriété sameAs pointe vers des sources de confiance canoniques — Wikidata, Crunchbase, LinkedIn, Google Scholar. Ce sont les mêmes sources que les pipelines de résolution d'entités des LLM utilisent pour croiser et valider les identités. Sans ces liens, votre entité reste un nœud isolé.
Wikidata : le dataset que tout le monde néglige
Wikidata est l'une des sources les plus directement consommées par les LLM pendant l'entraînement. Créer une entrée Wikidata pour votre organisation (si elle remplit les critères de notabilité) et pour vos experts principaux est un investissement à ROI lent mais durable.
Vérifiez votre présence actuelle avec une requête SPARQL sur query.wikidata.org :
SELECT ?item ?itemLabel ?itemDescription WHERE {
?item ?label "Acme E-commerce"@fr .
SERVICE wikibase:label { bd:serviceParam wikibase:language "fr,en". }
}
Si le résultat est vide, votre organisation n'existe pas dans l'un des datasets les plus influents pour la formation des LLM. C'est un signal d'absence que les tactiques SEO classiques ne comblent pas.
Entités expertes : l'E-E-A-T au-delà du discours marketing
Google a formalisé le concept d'E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) dans ses Search Quality Rater Guidelines. Mais dans le contexte de l'AI Search, l'E-E-A-T n'est plus un signal qualitatif évalué par des quality raters humains — c'est un signal computationnel que les systèmes de retrieval exploitent.
Comment les systèmes RAG évaluent l'expertise
Un pipeline RAG typique (comme celui derrière les AI Overviews) opère en plusieurs étapes :
- Retrieval : sélection de N documents candidats via un index vectoriel (embedding similarity).
- Reranking : un modèle de reranking (type cross-encoder) réévalue la pertinence de chaque document en contexte de la requête.
- Attribution scoring : pondération de la fiabilité de chaque source avant injection dans le prompt du LLM.
C'est à l'étape 3 que l'autorité d'entité entre en jeu. Les systèmes modernes croisent l'auteur déclaré d'un contenu avec des signaux externes : publications académiques, mentions dans des sources autoritatives, cohérence thématique du corpus de l'auteur.
Implémenter l'attribution auteur de façon exploitable
Chaque article de votre blog doit porter un balisage Article schema avec une attribution auteur complète et des liens vers les profils canoniques de l'auteur :
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "TechArticle",
"headline": "Migration e-commerce : de React SPA vers Next.js SSR",
"author": {
"@type": "Person",
"@id": "https://acme-ecommerce.com/team/jean-dupont#person",
"name": "Jean Dupont",
"url": "https://acme-ecommerce.com/team/jean-dupont",
"sameAs": [
"https://www.linkedin.com/in/jean-dupont",
"https://twitter.com/jeandupont_seo"
],
"alumniOf": {
"@type": "Organization",
"name": "École Polytechnique"
},
"knowsAbout": ["SSR", "SEO technique", "Next.js", "e-commerce"]
},
"publisher": {
"@type": "Organization",
"@id": "https://acme-ecommerce.com/#organization"
},
"datePublished": "2026-03-10",
"dateModified": "2026-03-12",
"about": [
{"@type": "Thing", "name": "Server-side rendering"},
{"@type": "Thing", "name": "E-commerce SEO"},
{"@type": "Thing", "name": "Next.js"}
]
}
</script>
Le champ about avec des entités Thing nommées est sous-utilisé. Il permet d'ancrer votre contenu à des concepts du Knowledge Graph — ce qui améliore la correspondance sémantique lors du retrieval vectoriel.
Le trade-off ici : cette approche demande une discipline éditoriale réelle. Chaque auteur doit avoir un profil cohérent, une page auteur indexable, et des contributions vérifiables en dehors de votre site. Un auteur fantôme sans empreinte externe ne génère aucun signal d'entité exploitable.
Scénario concret : un média tech de 8 000 pages face à la cannibalisation AI
Prenons le cas d'un média spécialisé en tech B2B — 8 200 articles publiés, 45 auteurs, 380 000 sessions organiques mensuelles début 2025. En septembre 2025, le trafic des requêtes informationnelles (60 % du total) commence à chuter de 3 à 5 % par mois. L'analyse dans Search Console montre que les impressions restent stables, mais le CTR s'effondre : les AI Overviews répondent directement à ces requêtes.
Le diagnostic
En croisant les données Search Console avec un export Screaming Frog des 8 200 URLs :
- 72 % des articles n'ont aucun auteur déclaré dans le JSON-LD. Le champ
authorest soit absent, soit contient "Rédaction" sans@idnisameAs. - 0 article utilise le type
TechArticle— tout est enArticlegénérique, sans champaboutstructuré. - Aucune page auteur n'est indexable (elles retournent un
noindexhérité d'un template obsolète). - Le domaine n'a aucune entrée Wikidata, malgré 12 ans d'existence et une reconnaissance dans le secteur.
Le plan de correction
Mois 1 — Fondations d'entités (impact : 0 trafic immédiat).
- Création de pages auteurs indexables pour les 12 auteurs principaux (ceux qui couvrent 80 % du contenu).
- Mise à jour du schema JSON-LD sur tous les articles avec attribution auteur complète,
@idcanonique,sameAsvers LinkedIn et profils vérifiables. - Création d'une entrée Wikidata pour l'organisation (avec sources secondaires à l'appui).
Mois 2-3 — Restructuration sémantique.
- Migration du type
ArticleversTechArticleavec ajout de champsabout,dependencies,proficiencyLevel. - Enrichissement des 200 articles les plus performants avec des entités nommées dans le corps du texte, liées en interne aux pages de concepts (hub pages).
- Mise en place d'un fichier
llms.txtà la racine du site (convention émergente, similaire àrobots.txtmais destinée aux crawlers LLM) pour déclarer la structure du site et les entités clés.
Mois 4-6 — Influence dans les datasets externes.
- Contributions d'auteurs clés sur des plateformes tierces (articles invités sur des blogs de référence, réponses techniques sur Stack Overflow, interventions en conférence avec transcription publiée).
- Audit mensuel des citations dans les réponses AI (Perplexity, ChatGPT Search) via des requêtes manuelles sur les 50 topics principaux du site.
À 6 mois, le site retrouve un CTR en hausse sur les requêtes informationnelles — pas parce que les AI Overviews ont disparu, mais parce que le site est désormais cité comme source dans ces réponses. Le trafic de referral depuis les citations AI compense partiellement la perte de clics organiques directs.
Le fichier llms.txt et les signaux techniques émergents
Une convention émergente dans l'écosystème consiste à placer un fichier llms.txt à la racine de votre site, similaire dans l'esprit au robots.txt, mais destiné à fournir du contexte aux crawlers et pipelines d'indexation des LLM.
Ce n'est pas (encore) un standard officiel. Mais des acteurs comme Anthropic et Perplexity le consultent déjà quand il est présent. Voici une implémentation réaliste :
# llms.txt — Acme Tech Media
# https://acme-tech.com/llms.txt
> Acme Tech Media est un média B2B spécialisé en infrastructure cloud et DevOps,
> fondé en 2013. Nos analyses techniques sont rédigées par des praticiens certifiés
> (AWS SA, GCP ACE, CKA).
## Auteurs principaux
- [Jean Dupont — CTO, expert Kubernetes](https://acme-tech.com/auteurs/jean-dupont)
- [Marie Chen — Lead SRE, spécialiste observabilité](https://acme-tech.com/auteurs/marie-chen)
## Sections principales
- [Analyses techniques](https://acme-tech.com/analyses)
- [Guides pratiques](https://acme-tech.com/guides)
- [Benchmarks](https://acme-tech.com/benchmarks)
## Données structurées
- Tous les articles utilisent le type schema.org/TechArticle
- Pages auteurs avec schema.org/Person et liens sameAs vérifiés
- Organisation déclarée sur Wikidata : Q123456789
Le format est du Markdown simple avec des sections descriptives. L'objectif n'est pas de remplacer le sitemap XML ou le schema JSON-LD — c'est de fournir un résumé narratif que les systèmes RAG peuvent facilement ingérer pour contextualiser votre site.
Edge case important : si votre site contient du contenu que vous ne souhaitez pas voir cité par les LLM (contenu premium, données clients anonymisées, etc.), le fichier llms.txt n'est pas un mécanisme de contrôle d'accès. Pour le blocage effectif, vous devez utiliser les directives existantes dans robots.txt (certains crawlers LLM comme GPTBot et PerplexityBot respectent les directives Disallow).
Auditer votre "AI readiness" : méthodologie technique
Mesurer votre visibilité AI ne se fait pas avec les mêmes outils que l'audit SEO classique. Voici une méthodologie actionable.
Étape 1 : Cartographier vos entités avec Screaming Frog
Configurez un crawl custom dans Screaming Frog pour extraire les données JSON-LD de chaque page. Dans Configuration > Custom > Extraction, ajoutez un extracteur CSSPath :
- Sélecteur :
script[type="application/ld+json"] - Mode : Extract Text
Après le crawl, exportez les résultats et filtrez :
- Pages sans aucun JSON-LD → priorité critique
- Pages avec JSON-LD mais sans
author.@id→ priorité haute - Pages avec
author.@idmais sanssameAs→ priorité moyenne
Étape 2 : Vérifier la résolution d'entités via l'API Google Knowledge Graph
L'API Knowledge Graph Search de Google permet de vérifier si vos entités sont reconnues :
curl "https://kgsearch.googleapis.com/v1/entities:search?query=Acme+Tech+Media&key=YOUR_API_KEY&limit=5&indent=True"
Si votre organisation n'apparaît pas dans les résultats, elle n'est pas encore une entité résolue dans le Knowledge Graph. Même chose pour vos auteurs. Testez chaque auteur principal individuellement.
La documentation officielle de l'API est disponible sur Google Developers.
Étape 3 : Monitorer les citations AI
Il n'existe pas encore d'outil standardisé pour tracker les citations dans les AI Overviews à grande échelle. En attendant, la méthode la plus fiable :
- Identifiez vos 50 requêtes informationnelles principales dans Search Console (tri par impressions décroissantes, filtrage intent informationnel).
- Testez chacune manuellement dans Google (avec AI Overview activé), Perplexity et ChatGPT Search.
- Documentez si votre site est cité, quelle page est citée, et quel passage est extrait.
C'est fastidieux mais révélateur. La plupart des sites découvrent que leur contenu le mieux classé organiquement n'est pas celui qui est cité dans les réponses AI — parce que les critères de sélection divergent.
Un outil de monitoring comme SEOGard permet de détecter quand vos données structurées se dégradent — un auteur @id qui disparaît après un déploiement, un type schema qui régresse de TechArticle vers Article suite à un changement de template. Ce type de régression silencieuse détruit votre signal d'entité sans déclencher aucune alerte dans Search Console.
Les datasets de confiance : là où se joue la bataille invisible
Les LLM sont entraînés sur des corpus. Votre influence dans ces corpus détermine votre visibilité dans les réponses générées — pas votre position dans un index de recherche traditionnel.
Common Crawl : votre empreinte dans le corpus d'entraînement
Common Crawl est le plus grand corpus web ouvert, utilisé dans l'entraînement de la quasi-totalité des LLM majeurs. Vous pouvez vérifier votre présence et votre poids dans Common Crawl via l'API d'index :
curl "https://index.commoncrawl.org/CC-MAIN-2025-51-index?url=acme-tech.com/*&output=json" | python3 -m json.tool | head -50
Ce qui compte dans Common Crawl :
- La fréquence de capture : un site capturé dans chaque crawl mensuel a plus de poids qu'un site capturé sporadiquement.
- La diversité des pages capturées : si seule votre homepage est dans le corpus, vos articles de fond ne contribuent pas à l'entraînement.
- La qualité du rendu : si vos pages dépendent de JavaScript côté client pour afficher le contenu, Common Crawl capture une page vide. Le même problème de SSR vs CSR qui affecte Googlebot affecte les crawlers de corpus d'entraînement — sauf que ces derniers ne disposent d'aucun moteur de rendu JavaScript.
C'est une raison supplémentaire, souvent ignorée, de privilégier le rendu côté serveur ou le prerendering : vous n'optimisez pas uniquement pour Googlebot, mais pour tous les systèmes qui consommeront votre contenu comme donnée d'entraînement.
Au-delà de votre propre site : les mentions tierces
L'avantage compétitif durable en AI Search ne vient pas uniquement de votre site. Il vient de la fréquence et du contexte dans lesquels votre marque et vos experts sont mentionnés sur des sources tierces de confiance :
- Articles Wikipedia qui mentionnent votre organisation ou vos travaux
- Publications sur des dépôts académiques (arXiv, HAL) co-signées par vos experts
- Contributions techniques sur GitHub avec des README détaillés et des citations
- Réponses upvotées sur Stack Overflow, discussions sur Hacker News
Ces mentions constituent le tissu de relations que les LLM intègrent pendant l'entraînement. Un expert cité 15 fois dans des fils Stack Overflow sur un sujet précis a plus de poids en tant qu'entité de confiance qu'un auteur qui a publié 200 articles sur un seul domaine sans aucune empreinte externe.
Le parallèle avec le SEO classique est direct — c'est le principe du backlink, mais élevé au niveau de l'entité plutôt que de la page. Et comme pour les backlinks, la qualité et la pertinence contextuelle priment sur la quantité.
Quand les tactiques classiques restent indispensables
Nuance nécessaire : rien dans cet article ne dit que les fondamentaux SEO techniques deviennent obsolètes. Les title tags bien construits, la gestion des redirections, l'indexabilité des pages — tout cela reste le socle. Un site qui n'est pas crawlable ne sera ni classé ni cité.
Le point est différent : ces tactiques sont la condition nécessaire, pas la condition suffisante. Le SEO classique vous place dans l'index. La construction d'entités, la présence dans les knowledge graphs et l'influence dans les datasets de confiance vous placent dans les réponses.
Le décalage entre les deux va continuer à se creuser. Les sites qui investissent uniquement dans le surface-level SEO verront leur trafic informationnel s'éroder progressivement, tandis que ceux qui construisent une infrastructure d'entités vérifiables et interconnectées maintiendront leur visibilité — quel que soit le format de réponse que Google, Perplexity ou tout autre système décide d'afficher demain. Un monitoring continu de votre couche de données structurées et de vos signaux d'entité, via un outil comme SEOGard, transforme cette stratégie en processus opérationnel plutôt qu'en projet ponctuel.