Framework 5 couches pour mesurer la performance GEO

La plupart des équipes SEO qui investissent dans le GEO (Generative Engine Optimization) mesurent aujourd'hui une seule chose : la présence ou l'absence de leur marque dans les réponses AI. C'est comme mesurer la performance d'un e-commerce en comptant le nombre de fois où la vitrine est allumée. Le vrai problème n'est pas la visibilité — c'est le chemin entre une mention dans une réponse ChatGPT et une conversion attribuable dans votre CRM.

Pourquoi les dashboards d'AI visibility créent une illusion de mesure

Les outils qui trackent la "visibilité AI" — apparition dans les AI Overviews de Google, citations dans ChatGPT, mentions dans Perplexity — répondent à une question binaire : êtes-vous mentionné, oui ou non ? C'est une couche nécessaire mais radicalement insuffisante.

Le problème structurel est triple.

Absence de données de clic. Google ne fournit toujours pas de données de clic spécifiques aux AI Overviews dans Search Console. Le rapport de performance agrège les impressions et clics sans distinguer un clic classique d'un clic provenant d'une réponse générée. Bing a commencé à exposer certaines métriques via le concept de "grounding", mais la granularité reste faible.

Fragmentation des moteurs génératifs. Votre contenu peut être cité par ChatGPT via Bing, par Perplexity via son propre index, par Google AI Overviews, par Gemini dans Google Workspace. Chaque surface a ses propres règles de citation, son propre taux de clic, son propre profil d'utilisateur. Agréger tout ça dans un score unique de "AI visibility" revient à additionner des impressions TV et des clics display.

Confusion entre citation et influence. Une mention de votre marque dans une réponse AI n'implique pas que l'utilisateur a cliqué, ni qu'il a retenu votre marque, ni qu'il a converti. La corrélation entre "être cité" et "générer du revenu" est non prouvée dans la majorité des cas.

C'est exactement pourquoi un framework multi-couches est indispensable : chaque couche répond à une question différente, avec des données différentes, et un niveau de confiance différent.

Couche 1 : AI Visibility Index — mesurer la présence brute

La première couche est la plus simple et la plus répandue : détecter si votre contenu ou votre marque apparaît dans les réponses génératives. C'est le socle sans lequel rien d'autre ne peut être mesuré.

Ce qu'il faut tracker concrètement

Pas juste "est-ce qu'on apparaît", mais avec quelle fréquence, sur quels types de requêtes, et avec quel positionnement dans la réponse (source primaire citée vs mention secondaire vs absence).

Voici un script Node.js qui interroge périodiquement un ensemble de prompts sur l'API Perplexity et stocke les résultats pour analyse temporelle :

import Anthropic from "@anthropic-ai/sdk";

interface VisibilityCheck {
  prompt: string;
  engine: string;
  brandMentioned: boolean;
  position: "primary_source" | "secondary_mention" | "absent";
  citationUrl: string | null;
  checkedAt: string;
}

async function checkPerplexityVisibility(
  prompts: string[],
  brand: string,
  apiKey: string
): Promise<VisibilityCheck[]> {
  const results: VisibilityCheck[] = [];

  for (const prompt of prompts) {
    const response = await fetch("https://api.perplexity.ai/chat/completions", {
      method: "POST",
      headers: {
        Authorization: `Bearer ${apiKey}`,
        "Content-Type": "application/json",
      },
      body: JSON.stringify({
        model: "llama-3.1-sonar-large-128k-online",
        messages: [{ role: "user", content: prompt }],
      }),
    });

    const data = await response.json();
    const answer = data.choices?.[0]?.message?.content || "";
    const citations: string[] = data.citations || [];

    const brandRegex = new RegExp(brand, "gi");
    const mentioned = brandRegex.test(answer);
    const citationUrl = citations.find((c: string) =>
      c.toLowerCase().includes(brand.toLowerCase())
    ) || null;

    results.push({
      prompt,
      engine: "perplexity",
      brandMentioned: mentioned,
      position: citationUrl
        ? "primary_source"
        : mentioned
        ? "secondary_mention"
        : "absent",
      citationUrl,
      checkedAt: new Date().toISOString(),
    });
  }

  return results;
}

// Usage avec un set de prompts métier
const prompts = [
  "Quel est le meilleur outil de monitoring SEO technique ?",
  "Comment détecter une régression de meta descriptions à grande échelle ?",
  "Comparatif des outils de détection de soft 404",
];

checkPerplexityVisibility(prompts, "seogard", process.env.PERPLEXITY_API_KEY!)
  .then((results) => console.log(JSON.stringify(results, null, 2)));

Ce type de monitoring doit tourner de manière régulière (quotidienne ou hebdomadaire) pour capter les variations temporelles. Les réponses des LLM ne sont pas déterministes : une même requête peut citer votre marque un jour et l'omettre le lendemain.

Métriques de cette couche

AI Mention Rate : pourcentage de prompts trackés où la marque est mentionnée
Primary Source Rate : pourcentage de mentions avec lien direct en citation
Volatilité : écart-type du mention rate sur une fenêtre de 30 jours

Ces métriques sont détaillées dans les 8 KPIs GEO à suivre en 2026. La couche 1 correspond aux métriques de "présence" — nécessaires mais pas suffisantes.

Couche 2 : Content Eligibility Score — qualifier ce qui peut être cité

La visibilité AI ne tombe pas du ciel. Elle dépend d'un ensemble de facteurs techniques et sémantiques qui déterminent si votre contenu est "éligible" à la citation par un moteur génératif. Cette couche mesure votre degré de préparation.

Les signaux d'éligibilité technique

Google a publié un guide officiel sur l'optimisation pour les fonctionnalités d'IA générative qui confirme que les mêmes fondamentaux techniques (indexabilité, données structurées, contenu de qualité) restent le socle. Mais le GEO ajoute des exigences spécifiques.

Le "grounding" — le processus par lequel un LLM ancre sa réponse dans une source vérifiable — favorise les contenus qui présentent certaines caractéristiques structurelles :

Réponses directes et factuelles dans les premiers paragraphes (pattern "inverted pyramid")
Données structurées exploitables (Schema.org Article, FAQPage malgré la fin des rich results FAQ, HowTo)
Autorité topicale vérifiable (auteurs identifiés, citations vers des sources primaires)
Fraîcheur du contenu signalée par datePublished/dateModified

Voici un audit automatisé qui vérifie l'éligibilité GEO d'une page :

import requests
from bs4 import BeautifulSoup
import json
from datetime import datetime, timedelta

def audit_geo_eligibility(url: str) -> dict:
    """Audite l'éligibilité GEO d'une page sur les critères techniques clés."""
    
    response = requests.get(url, headers={
        "User-Agent": "Mozilla/5.0 (compatible; GEOAuditBot/1.0)"
    })
    soup = BeautifulSoup(response.text, "html.parser")
    
    score = 0
    findings = []
    
    # 1. Vérifier la présence de Schema.org JSON-LD
    ld_scripts = soup.find_all("script", type="application/ld+json")
    schemas = []
    for script in ld_scripts:
        try:
            data = json.loads(script.string)
            schemas.append(data)
        except json.JSONDecodeError:
            findings.append("WARN: JSON-LD invalide détecté")
    
    has_article_schema = any(
        d.get("@type") in ["Article", "NewsArticle", "TechArticle"]
        for d in schemas
    )
    if has_article_schema:
        score += 20
    else:
        findings.append("FAIL: Pas de schema Article/NewsArticle")
    
    # 2. Vérifier dateModified < 90 jours
    for schema in schemas:
        date_mod = schema.get("dateModified")
        if date_mod:
            try:
                mod_date = datetime.fromisoformat(date_mod.replace("Z", "+00:00"))
                if (datetime.now(mod_date.tzinfo) - mod_date) < timedelta(days=90):
                    score += 15
                else:
                    findings.append(f"WARN: dateModified > 90j ({date_mod})")
            except ValueError:
                findings.append(f"WARN: dateModified non parseable ({date_mod})")
    
    # 3. Réponse directe dans les 150 premiers mots
    main_content = soup.find("main") or soup.find("article") or soup.find("body")
    if main_content:
        first_paras = main_content.find_all("p")[:3]
        first_text = " ".join(p.get_text() for p in first_paras)
        word_count = len(first_text.split())
        if word_count >= 40:
            score += 15
            # Vérifier la présence de faits/chiffres dans les premiers paragraphes
            import re
            has_numbers = bool(re.search(r'\d+[%$€]|\d+\s*(pages?|URLs?|requêtes?)', first_text))
            if has_numbers:
                score += 10
                findings.append("OK: Données factuelles dans l'intro")
        else:
            findings.append("WARN: Intro trop courte pour le grounding")
    
    # 4. Vérifier les headers structurés (H2/H3)
    h2_count = len(soup.find_all("h2"))
    h3_count = len(soup.find_all("h3"))
    if h2_count >= 3:
        score += 15
    if h3_count >= 2:
        score += 5
    
    # 5. Auteur identifié
    author_schema = any(d.get("author") for d in schemas)
    author_tag = soup.find(attrs={"rel": "author"}) or soup.find(class_=lambda c: c and "author" in c.lower() if c else False)
    if author_schema or author_tag:
        score += 10
        findings.append("OK: Auteur identifié")
    else:
        findings.append("FAIL: Pas d'auteur identifiable")
    
    # 6. Canonical et indexabilité
    canonical = soup.find("link", rel="canonical")
    robots_meta = soup.find("meta", attrs={"name": "robots"})
    if canonical and robots_meta:
        robots_content = robots_meta.get("content", "")
        if "noindex" in robots_content:
            score -= 50
            findings.append("CRITICAL: Page en noindex")
    
    return {
        "url": url,
        "geo_eligibility_score": min(score, 100),
        "findings": findings,
        "schema_types": [d.get("@type") for d in schemas],
    }

Le lien entre éligibilité et visibilité

L'intérêt de cette couche est de mesurer l'écart entre votre potentiel d'éligibilité et votre visibilité réelle (couche 1). Un score d'éligibilité élevé avec une visibilité basse pointe vers un problème d'autorité ou de couverture topicale. Une visibilité haute avec une éligibilité basse signale que vous bénéficiez probablement de la notoriété de marque — situation fragile que n'importe quel concurrent mieux structuré peut renverser.

Ce type d'audit technique rejoint les recommandations du guide d'audit tech SEO pour l'ère AI, mais avec un focus spécifique sur les signaux de grounding.

Couche 3 : Traffic Attribution — tracer le chemin du clic AI

C'est la couche la plus douloureuse. Les moteurs génératifs cassent le modèle d'attribution classique basé sur le referrer HTTP.

Le problème technique

Quand un utilisateur clique sur un lien dans une réponse de ChatGPT, le referrer est généralement https://chatgpt.com. Quand il clique dans un AI Overview de Google, le referrer reste https://www.google.com — indistinguable d'un clic organique classique. Perplexity envoie son propre referrer, mais GA4 ne le catégorise pas automatiquement comme un canal dédié.

Google a commencé à exposer le trafic provenant des assistants AI dans GA4 — un sujet couvert dans l'analyse du tracking AI assistant dans GA4. Mais la couverture reste partielle.

Construire une attribution multi-signal

La solution pragmatique combine trois approches :

1. Segmentation GA4 par source/medium non standard

// Configuration GTM : tag personnalisé pour classifier le trafic AI
// À déployer via Google Tag Manager comme Custom HTML tag

(function() {
  var referrer = document.referrer.toLowerCase();
  
  var aiSources = {
    'chatgpt.com': 'chatgpt',
    'chat.openai.com': 'chatgpt',
    'perplexity.ai': 'perplexity',
    'you.com': 'you_ai',
    'phind.com': 'phind',
    'bing.com/chat': 'bing_copilot',
    'gemini.google.com': 'gemini',
    'claude.ai': 'claude'
  };
  
  var detectedSource = null;
  
  for (var domain in aiSources) {
    if (referrer.indexOf(domain) !== -1) {
      detectedSource = aiSources[domain];
      break;
    }
  }
  
  // Détecter aussi les paramètres UTM spécifiques aux AI
  var urlParams = new URLSearchParams(window.location.search);
  var utmSource = urlParams.get('utm_source') || '';
  
  if (utmSource.match(/ai|chatgpt|perplexity|copilot/i)) {
    detectedSource = utmSource;
  }
  
  if (detectedSource) {
    // Push vers dataLayer pour GA4
    window.dataLayer = window.dataLayer || [];
    window.dataLayer.push({
      'event': 'ai_referral_detected',
      'ai_source': detectedSource,
      'landing_page': window.location.pathname,
      'timestamp': new Date().toISOString()
    });
    
    // Stocker en session pour attribution multi-page
    sessionStorage.setItem('ai_entry_source', detectedSource);
    sessionStorage.setItem('ai_entry_page', window.location.pathname);
  }
})();

2. Analyse des patterns de comportement

Le trafic provenant des moteurs génératifs a des patterns comportementaux distincts du trafic organique classique. Les sessions sont généralement plus courtes, le taux de rebond plus élevé, et les pages d'entrée sont des pages deep-content plutôt que des pages hub. En construisant un segment GA4 qui isole ces patterns, vous pouvez approximer le volume de trafic AI même sans referrer explicite.

3. Corrélation temporelle

Quand votre mention rate (couche 1) augmente sur un prompt spécifique, le trafic organique vers la page correspondante devrait augmenter avec un décalage de quelques jours. Cette corrélation n'est pas une preuve de causalité, mais sur un échantillon suffisant de pages, elle devient statistiquement significative.

Scénario concret : un média B2B de 8 000 pages

Prenons le cas d'un éditeur B2B spécialisé cybersécurité avec 8 000 articles indexés. Après implémentation du tag GTM ci-dessus sur l'ensemble du site :

Mois 1 : le tag détecte 340 sessions avec referrer Perplexity, 180 avec referrer ChatGPT, 45 avec Phind. Total identifié : 565 sessions AI / mois.
Mois 2 : en croisant avec les données de la couche 1 (monitoring de 200 prompts métier), l'équipe constate que 23 pages concentrent 78% du trafic AI identifié. Ce sont des guides techniques longs (2500+ mots) avec des données structurées Article et des auteurs identifiés.
Mois 3 : en appliquant l'analyse de patterns comportementaux au trafic organique Google non attribué, l'équipe estime un trafic AI "invisible" supplémentaire de 1 200 à 1 800 sessions — provenant d'AI Overviews où le referrer se confond avec le trafic organique classique.

Total estimé du trafic AI : 1 800 à 2 400 sessions/mois. Soit environ 3% du trafic organique total. Modeste en volume, mais concentré sur des pages à forte intention commerciale (guides comparatifs, évaluations d'outils).

Couche 4 : Engagement Depth — mesurer ce que le visiteur AI fait vraiment

Une session issue d'une réponse AI n'a pas la même valeur qu'une session organique classique. La couche 4 mesure la qualité de l'engagement post-clic spécifiquement pour le trafic AI.

Métriques d'engagement différenciées

Les KPIs standard (pages/session, durée, taux de rebond) ne suffisent pas. Pour le trafic GEO, vous devez mesurer :

Scroll depth pondéré : est-ce que le visiteur lit au-delà du paragraphe cité par l'AI ?
Interaction secondaire : clic sur un CTA, visite d'une page pricing, téléchargement de ressource
Retour direct : le visiteur revient-il dans les 7 jours via un accès direct (signe de mémorisation de marque)

L'hypothèse à tester : le trafic AI arrive avec un niveau de pré-qualification supérieur (l'utilisateur a déjà lu un résumé de votre contenu dans la réponse AI) mais un engagement initial plus faible (il a déjà obtenu une partie de la réponse). Le vrai signal de valeur est la conversion vers une action secondaire — inscription newsletter, demande de démo, ajout au panier.

Implémentation via GA4 custom events

Dans GA4, créez des événements personnalisés qui se déclenchent uniquement pour les sessions identifiées comme "AI referral" via le tag de la couche 3 :

// Trigger conditionnel GA4 : engagement avancé pour sessions AI uniquement
// À utiliser avec le sessionStorage posé par le tag de la couche 3

(function() {
  var aiSource = sessionStorage.getItem('ai_entry_source');
  if (!aiSource) return; // Pas une session AI, on ne tracke rien de plus
  
  // 1. Scroll depth tracking granulaire
  var scrollThresholds = [25, 50, 75, 90];
  var firedThresholds = new Set();
  
  window.addEventListener('scroll', function() {
    var scrollPercent = Math.round(
      (window.scrollY / (document.body.scrollHeight - window.innerHeight)) * 100
    );
    
    scrollThresholds.forEach(function(threshold) {
      if (scrollPercent >= threshold && !firedThresholds.has(threshold)) {
        firedThresholds.add(threshold);
        gtag('event', 'ai_visitor_scroll', {
          'ai_source': aiSource,
          'scroll_depth': threshold,
          'page_path': window.location.pathname
        });
      }
    });
  });
  
  // 2. Tracking des interactions à forte valeur
  document.addEventListener('click', function(e) {
    var target = e.target.closest('a, button');
    if (!target) return;
    
    var href = target.getAttribute('href') || '';
    var isHighValue = (
      href.includes('/pricing') ||
      href.includes('/demo') ||
      href.includes('/signup') ||
      href.includes('/contact') ||
      target.classList.contains('cta-primary')
    );
    
    if (isHighValue) {
      gtag('event', 'ai_visitor_high_value_click', {
        'ai_source': aiSource,
        'click_target': href || target.textContent.trim().substring(0, 50),
        'entry_page': sessionStorage.getItem('ai_entry_page'),
        'pages_viewed': history.length
      });
    }
  });
  
  // 3. Temps passé qualifié (au-delà de 30s = engagement réel)
  setTimeout(function() {
    gtag('event', 'ai_visitor_engaged_time', {
      'ai_source': aiSource,
      'engaged_seconds': 30,
      'page_path': window.location.pathname
    });
  }, 30000);
})();

Cette instrumentation vous permet de construire un tableau comparatif : trafic AI vs trafic organique classique vs trafic direct, sur les mêmes métriques d'engagement. C'est dans cette comparaison que réside la vraie intelligence : si vos visiteurs AI scrollent à 90% et cliquent sur la page pricing 2x plus souvent que le trafic organique moyen, vous avez un argument ROI solide pour investir davantage dans le GEO.

Couche 5 : Revenue Impact Model — connecter la visibilité AI au P&L

La couche finale est celle que votre CFO attend. Elle transforme les données des couches 1 à 4 en estimation de revenu.

Le modèle d'attribution incrémentale

L'erreur classique est d'attribuer 100% du revenu d'une conversion au dernier canal touché. Pour le GEO, c'est particulièrement problématique : un utilisateur peut découvrir votre marque via une mention ChatGPT, revenir via Google organique, et convertir via un accès direct. L'approche correcte est l'attribution incrémentale.

Le principe : isoler l'impact GEO en comparant le comportement de deux groupes :

Groupe exposé : utilisateurs dont la première interaction identifiée provient d'une source AI
Groupe contrôle : utilisateurs avec un profil comportemental similaire mais une première interaction organique classique

La différence de taux de conversion entre les deux groupes, multipliée par le volume du groupe exposé, donne l'impact incrémental.

Calcul pratique pour notre média B2B

En reprenant le scénario de la couche 3 :

Trafic AI estimé : 2 100 sessions/mois (médiane de l'estimation)
Taux de conversion vers "demande de démo" du trafic AI : 4,2% (mesuré via les events de la couche 4)
Taux de conversion baseline du trafic organique : 2,8%
Conversion incrémentale attribuable au GEO : (4,2% - 2,8%) × 2 100 = 29,4 demandes de démo / mois
Valeur moyenne d'une démo qualifiée (pipeline) : 3 200 €
Impact pipeline mensuel estimé : 94 080 €

Ce chiffre est une estimation, pas une certitude. Mais c'est une estimation construite sur des données mesurées à chaque couche, avec des hypothèses explicites et auditables. C'est exactement ce qu'un comité de direction peut challenger et accepter.

Les limites honnêtes de ce modèle

Le modèle 5 couches a des faiblesses qu'il faut assumer :

Couche 1 : échantillonnage des prompts. Vous ne pouvez pas monitorer tous les prompts possibles. Le choix des 100-500 prompts trackés introduit un biais de sélection. Atténuation : faire varier les prompts régulièrement et inclure des prompts "longue traîne" détectés via les logs Search Console.

Couche 3 : dark traffic AI. Une part significative du trafic AI est invisible (AI Overviews, intégrations Gemini dans Android, Copilot dans Edge). L'estimation par patterns comportementaux reste approximative. Le jour où Google exposera des données de clic spécifiques aux AI Overviews avec plus de liens, cette couche gagnera en précision.

Couche 5 : attribution incrémentale vs assistée. Le modèle mesure l'incrément de conversion, pas la totalité de la valeur. Une mention AI qui ne génère pas de clic mais installe la marque dans l'esprit de l'utilisateur (brand lift) n'est pas captée. C'est un choix conservateur — mieux vaut sous-estimer le ROI que le sur-vendre.

Connecter les couches : l'architecture de données

Les 5 couches ne fonctionnent que si elles partagent un identifiant commun permettant de suivre le parcours utilisateur de bout en bout. En pratique, cet identifiant est le client_id GA4 enrichi par les données de session AI.

L'architecture cible ressemble à ceci :

Couche 1 (AI visibility) → base de données dédiée (PostgreSQL, BigQuery) avec les résultats de monitoring des prompts, stockés par prompt × moteur × date
Couches 2-4 (éligibilité, trafic, engagement) → GA4 + BigQuery Export, avec les custom events AI
Couche 5 (revenue) → CRM (HubSpot, Salesforce) connecté via l'identifiant client GA4

La jointure entre la couche 1 (quelle page est citée) et les couches 3-4 (quel trafic cette page reçoit) se fait par URL. C'est pourquoi le monitoring de la couche 1 doit stocker l'URL citée, pas seulement la mention de marque.

Pour les équipes qui gèrent des sites de grande envergure — 10K+ pages potentiellement éligibles au grounding — l'automatisation de ce monitoring est critique. Un outil de monitoring comme Seogard peut détecter les régressions techniques (perte de données structurées, canonical cassé, page qui passe en noindex) qui affectent directement le score d'éligibilité de la couche 2. Sans cette surveillance continue, vous optimisez le GEO sur des fondations techniques potentiellement instables.

Au-delà du framework : les questions ouvertes

Le modèle 5 couches n'est pas un produit fini. C'est un cadre de pensée qui doit évoluer avec la maturité des outils et des données disponibles.

Trois évolutions à surveiller :

L'émergence du WebMCP comme protocole standard de communication entre agents AI et sites web pourrait transformer la couche 3 en rendant le trafic AI explicitement identifiable. Si votre site expose un endpoint MCP, l'agent AI qui le consomme peut s'identifier proprement. C'est un sujet à suivre de près — les implications du WebMCP dépassent largement la seule question de la mesure.

La distinction entre les trois types de problèmes AI visibility — visibilité dans les réponses, précision des citations, et contrôle du message — nécessite des couches de mesure distinctes. Le framework présenté ici se concentre sur la visibilité et le trafic, mais la couche 2 devrait idéalement intégrer aussi un scoring de fidélité des citations.

Le quality threshold de Google affecte directement l'éligibilité au grounding. Les contenus générés par AI à grande échelle qui ne passent pas ce seuil de qualité sont aussi ceux qui ont le moins de chances d'être cités dans les AI Overviews. La couche 2 du framework doit intégrer un proxy de ce quality threshold.

Le takeaway clé : arrêtez de mesurer le GEO avec un seul chiffre. Construisez les 5 couches, même imparfaitement, et vous aurez un modèle que votre direction peut comprendre et financer — et qu'un outil de monitoring comme Seogard peut alimenter en continu sur la couche technique.