Schema FAQ et AI Search : ce que les données révèlent vraiment

En août 2023, Google a retiré les FAQ rich results pour la quasi-totalité des sites. Deux ans et demi plus tard, une étude Ahrefs vient enfoncer le clou : le schema markup — FAQ inclus — ne montre aucune corrélation significative avec les citations dans les AI Overviews. Pour les équipes SEO qui ont investi des mois à déployer du structured data à grande échelle, c'est un moment de remise en question nécessaire.

La chronologie d'une dépréciation annoncée

Le retrait des FAQ rich results n'est pas arrivé du jour au lendemain. La séquence mérite d'être détaillée parce qu'elle illustre un pattern récurrent chez Google : expansion généreuse d'une fonctionnalité SERP, puis contraction brutale quand l'abus devient systémique.

De l'âge d'or à la suppression

Entre 2019 et 2023, le FAQPage schema était le cheat code le plus rentable du SEO. Un site pouvait occuper jusqu'à 50 % de l'espace visible d'un résultat SERP en empilant des questions-réponses. Des plugins WordPress comme Rank Math ou Yoast généraient du FAQPage schema en un clic. Le résultat prévisible : une inflation massive. Des pages produit avec 15 FAQ artificielles, des landing pages SaaS où chaque variation de mot-clé devenait une "question fréquente".

Google a d'abord restreint l'affichage aux sites "d'autorité" (gouvernements, santé), puis a coupé le robinet pour tout le monde en août 2023. La documentation officielle reste en ligne — le schema n'est pas invalide — mais il ne génère plus de rich results pour la majorité des sites.

Ce retrait a eu un impact immédiat. Nous avons couvert cette suppression en détail dans notre analyse du retrait des FAQ rich results ainsi que dans le suivi des changements SERP associés.

Ce que les données Ahrefs révèlent

L'étude Ahrefs publiée récemment va plus loin que le simple constat de la suppression des rich results. Leur analyse porte sur la corrélation entre la présence de structured data (tous types confondus) et deux métriques :

Le positionnement organique classique (rankings SERP)
La probabilité d'être cité dans une AI Overview

Sur les deux axes, le constat est le même : aucune corrélation statistique significative. Des pages sans aucun schema markup apparaissent dans les AI Overviews avec la même fréquence que des pages bardées de JSON-LD.

Ce résultat n'est pas surprenant pour qui comprend comment fonctionnent les LLM derrière les AI Overviews. Ces modèles travaillent sur le texte extrait (passage retrieval), pas sur le balisage structuré. Le schema aide Google à comprendre le type d'entité (produit, recette, événement), mais le contenu qui alimente les réponses génératives vient du texte brut.

Le schema ne sert pas à ce que vous croyez (et c'est le vrai problème)

La confusion vient d'un amalgame entre trois fonctions distinctes du structured data :

Affichage SERP (rich results) : étoiles, prix, FAQ dépliables, breadcrumbs visuels
Compréhension sémantique : aide Google à catégoriser et désambiguïser le contenu
Alimentation des systèmes AI : fournir des données structurées exploitables par les LLM

L'étude Ahrefs ne mesure que la corrélation avec les rankings et les citations AI. Elle ne mesure pas l'impact du schema sur la compréhension sémantique, qui est par nature invisible dans les métriques de positionnement.

Le cas Product schema : toujours rentable

Contrairement au FAQPage schema, le Product schema avec ses variantes (Offer, AggregateRating, Review) continue de générer des rich results actifs. Un e-commerce de 15 000 pages produit qui retire son Product schema perd immédiatement les étoiles, les prix et la disponibilité dans les SERP — et avec eux, un CTR différentiel significatif.

Voici un exemple de Product schema correctement implémenté pour une fiche produit :

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Product",
  "name": "Chaussure de trail Salomon Speedcross 6",
  "image": "https://shop.outdoor-expert.fr/images/speedcross-6.webp",
  "description": "Chaussure de trail running avec grip Contagrip MA, drop 10mm, 310g.",
  "brand": {
    "@type": "Brand",
    "name": "Salomon"
  },
  "sku": "SAL-SC6-42-BLK",
  "offers": {
    "@type": "Offer",
    "url": "https://shop.outdoor-expert.fr/salomon-speedcross-6",
    "priceCurrency": "EUR",
    "price": "139.95",
    "priceValidUntil": "2026-12-31",
    "availability": "https://schema.org/InStock",
    "seller": {
      "@type": "Organization",
      "name": "Outdoor Expert"
    }
  },
  "aggregateRating": {
    "@type": "AggregateRating",
    "ratingValue": "4.6",
    "reviewCount": "347"
  }
}
</script>

Ce schema reste exploité par Google pour les product packs, qui sont devenus un canal de vente à part entière. Le retirer serait une erreur factuelle.

Le FAQPage schema : garder ou supprimer ?

La question pragmatique est : faut-il nettoyer le FAQPage schema existant ? La réponse est nuancée.

Argument pour le retrait : moins de JSON-LD dans le DOM = page plus légère, moins de bruit dans le Rich Results Test de Google, signal plus propre lors d'un audit technique.

Argument pour le maintien : le schema reste valide, ne provoque aucune erreur dans Search Console, et pourrait redevenir actif pour certaines catégories de sites. Le coût de retrait (développement, déploiement, QA) est rarement justifié par le gain.

Pour un site avec un CMS headless qui génère le FAQPage schema dynamiquement, le retrait est simple :

// Avant : génération automatique du FAQPage schema
function generateFAQSchema(faqs: FAQ[]): JsonLd | null {
  // Suppression conditionnelle : ne plus générer de FAQPage schema
  // sauf pour les pages éligibles (sites gouvernementaux, santé)
  const ELIGIBLE_CATEGORIES = ['health', 'government', 'emergency'];
  
  if (!ELIGIBLE_CATEGORIES.includes(getCurrentPageCategory())) {
    // Log pour monitoring — ne pas supprimer silencieusement
    console.info('[Schema] FAQPage schema skipped — non-eligible category');
    return null;
  }

  return {
    '@context': 'https://schema.org',
    '@type': 'FAQPage',
    mainEntity: faqs.map((faq) => ({
      '@type': 'Question',
      name: faq.question,
      acceptedAnswer: {
        '@type': 'Answer',
        text: faq.answer,
      },
    })),
  };
}

L'approche recommandée : ne pas supprimer massivement, mais cesser d'en générer de nouveau et prioriser les types de schema qui ont encore un impact SERP mesurable.

AI Overviews : ce qui influence réellement les citations

Si le schema ne corrèle pas avec les citations AI, qu'est-ce qui corrèle ? Les observations convergentes de plusieurs études et expérimentations terrain pointent vers trois facteurs.

La densité informationnelle du passage

Les AI Overviews fonctionnent par passage retrieval. Le système extrait des segments de texte (typiquement 50 à 200 mots) qui répondent directement à l'intent de la requête. Un paragraphe dense, factuel, qui contient la réponse en langage naturel a plus de chances d'être extrait qu'une page bien structurée mais verbeuse.

Cela rejoint le concept de "consensus gap" — quand votre contenu formule une réponse que les autres sources ne fournissent pas avec la même clarté, le système AI vous favorise. Nous avons exploré ce mécanisme en profondeur dans notre article sur le consensus gap.

L'autorité topique du domaine

Les données montrent que les domaines avec une couverture thématique large et cohérente sont sur-représentés dans les AI Overviews. Ce n'est pas le schema qui signale l'expertise — c'est le corpus. Un site qui publie 200 articles techniques sur le trail running a plus de chances de voir ses passages cités dans une AI Overview sur "meilleure chaussure de trail pour terrain boueux" qu'un site généraliste avec un Product schema parfait.

Google a d'ailleurs publié un guide d'optimisation pour les fonctionnalités AI génératives qui confirme implicitement cette approche : le contenu doit être "helpful, reliable, and people-first" — aucune mention du structured data comme levier.

Pour approfondir ce sujet, notre guide d'optimisation pour les fonctionnalités AI de Google détaille les recommandations officielles.

Le grounding : le vrai pipeline de sélection

Le terme "grounding" — utilisé par les équipes Bing et de plus en plus par les équipes Google — désigne le processus par lequel un LLM ancre sa réponse dans des sources vérifiables. Ce processus est fondamentalement différent de l'indexation classique. Bing l'a décrit en détail : le grounding sélectionne des passages en fonction de leur capacité à servir de preuve, pas en fonction de leur balisage.

Nous avons couvert cette distinction dans notre analyse du grounding chez Bing et dans l'article détaillant les différences entre grounding et indexation.

Scénario concret : audit schema post-FAQ removal sur un média de 8 000 pages

Prenons le cas d'un média spécialisé en finance personnelle — 8 200 pages indexées, 45 % du trafic organique provenant de requêtes informationnelles. L'équipe SEO avait déployé du FAQPage schema sur 3 400 articles entre 2020 et 2023. Depuis la suppression des rich results, ces schemas ne génèrent plus aucun bénéfice SERP visible. La question : que faire ?

Étape 1 : quantifier le schema existant

Screaming Frog permet d'extraire tous les schemas présents sur le site. Configuration de l'extraction custom :

# Configuration Screaming Frog — Extraction structured data
# Menu : Configuration > Custom > Extraction

# Extraction 1 : Type de schema
Regex: "@type"\s*:\s*"([^"]+)"
Scope: Response Body (JSON-LD)

# Extraction 2 : Présence FAQPage spécifiquement
Contains: "FAQPage"
Scope: Response Body

# Lancer un crawl complet puis exporter :
# Bulk Export > Custom Extraction
# Filtrer sur les URLs contenant FAQPage

Résultat typique sur ce type de site :

3 400 pages avec FAQPage schema
1 200 pages avec Article schema
800 pages avec BreadcrumbList uniquement
2 800 pages sans aucun schema

Étape 2 : croiser avec les données Search Console

L'objectif est de vérifier si les pages avec FAQPage schema performent différemment de celles sans. Exportez les données de performance de Search Console (Pages > Exporter) et croisez avec l'extraction Screaming Frog.

Sur ce site, les résultats étaient les suivants sur une période de 6 mois post-suppression :

Pages avec FAQPage schema : CTR moyen 3,2 %, position moyenne 14,7
Pages avec Article schema uniquement : CTR moyen 3,4 %, position moyenne 13,9
Pages sans schema : CTR moyen 2,8 %, position moyenne 18,2

La différence entre FAQPage et Article schema est statistiquement non significative. La différence entre "schema présent" et "aucun schema" est légèrement significative mais s'explique probablement par un biais de sélection : les pages qui ont reçu du schema étaient aussi celles qui avaient reçu le plus d'attention éditoriale.

Étape 3 : décision et implémentation

Pour ce site, la recommandation a été :

Cesser la génération de nouveau FAQPage schema
Conserver le FAQPage existant (coût de retrait non justifié)
Ajouter du Article schema sur les 2 800 pages orphelines de structured data
Monitorer les erreurs schema dans Search Console (un outil comme Seogard peut automatiser cette surveillance et alerter si des schemas valides deviennent soudainement invalides après une mise à jour du CMS)

Le gain attendu n'est pas sur le ranking — c'est sur la compréhension sémantique et la future-proofing au cas où Google réactiverait certains rich results pour des catégories spécifiques.

Ce que le schema apporte encore (et ce qu'il n'apporte plus)

Il serait réducteur de conclure "le schema est mort". Ce qui est mort, c'est le schema comme hack de visibilité SERP. Ce qui reste vivant, c'est le schema comme couche de compréhension machine.

Les types de schema encore actifs en SERP (mai 2026)

Type de schema	Rich result actif	Impact CTR estimé
Product + Offer	Oui (prix, étoiles, dispo)	+15-35 % selon le secteur
Recipe	Oui (image, temps, calories)	+20-40 %
Event	Oui (date, lieu, prix)	+10-20 %
HowTo	Non (retiré en août 2023)	0 %
FAQPage	Non (retiré en août 2023)	0 %
Article	Partiel (date, auteur)	+5-10 %
BreadcrumbList	Oui (fil d'Ariane SERP)	+3-8 %
LocalBusiness	Oui (Knowledge Panel)	Variable

Le schema comme signal pour les AI bots

Un angle souvent négligé : les bots AI (GPTBot, ClaudeBot, PerplexityBot) parsent le contenu des pages qu'ils crawlent. Un JSON-LD bien structuré fournit un résumé machine-readable qui peut faciliter l'extraction d'informations factuelles.

Ce n'est pas un signal de ranking — c'est un signal de compréhension. La nuance est cruciale. Si votre Product schema indique clairement le prix, la disponibilité et la marque, un système AI qui cherche "prix du Salomon Speedcross 6" a une source structurée à exploiter.

Pour maximiser cette visibilité auprès des bots AI, encore faut-il s'assurer que ces bots ne sont pas bloqués par votre infrastructure. Un problème plus courant qu'on ne le croit — certains hébergeurs WordPress managés bloquent les bots AI sans que vous le sachiez.

La question de l'accès des bots aux contenus est d'ailleurs en pleine évolution, avec Google qui teste un nouveau standard d'autorisation pour les bots.

La stratégie schema post-2026 : pragmatisme et monitoring

Prioriser par ROI mesurable

Le temps passé sur le structured data doit être proportionnel au retour attendu. Voici un framework de priorisation :

Priorité haute (ROI immédiat et mesurable) :

Product/Offer schema pour les pages e-commerce
LocalBusiness pour les entreprises avec présence physique
BreadcrumbList pour tous les sites avec une arborescence profonde

Priorité moyenne (ROI indirect) :

Article schema pour les contenus éditoriaux
Organization schema sur la page À propos
SiteNavigationElement pour les mega-menus

Priorité basse (ROI nul ou incertain) :

FAQPage sur des pages non-gouvernementales
HowTo schema (plus de rich results)
Schema "décoratif" ajouté uniquement pour la complétude

Automatiser la détection de régressions schema

Le vrai risque n'est pas l'absence de schema — c'est la cassure silencieuse. Un déploiement frontend qui modifie le template de page peut supprimer le JSON-LD sans que personne ne s'en aperçoive. Sur un site de 15 000 pages, ce type de régression peut affecter des milliers d'URLs avant d'être détecté dans Search Console (qui ne remonte les erreurs de structured data qu'avec un délai de plusieurs jours).

Un pipeline de CI/CD devrait inclure une vérification du schema :

#!/bin/bash
# Script de vérification schema post-déploiement
# À intégrer dans votre pipeline CI/CD (GitHub Actions, GitLab CI, etc.)

SITE_URL="https://shop.outdoor-expert.fr"
SAMPLE_URLS=(
  "/salomon-speedcross-6"
  "/hoka-speedgoat-5"
  "/category/trail-running"
  "/"
)

ERRORS=0

for path in "${SAMPLE_URLS[@]}"; do
  FULL_URL="${SITE_URL}${path}"
  
  # Extraction du JSON-LD via curl + grep
  SCHEMA_COUNT=$(curl -s "$FULL_URL" | grep -c 'application/ld+json')
  
  if [ "$SCHEMA_COUNT" -eq 0 ]; then
    echo "❌ ERREUR: Aucun JSON-LD trouvé sur $FULL_URL"
    ERRORS=$((ERRORS + 1))
  else
    echo "✅ $FULL_URL — $SCHEMA_COUNT bloc(s) JSON-LD détecté(s)"
    
    # Validation via l'API Schema.org validator (ou un outil local)
    SCHEMA_CONTENT=$(curl -s "$FULL_URL" | \
      sed -n '/<script type="application\/ld+json">/,/<\/script>/p' | \
      head -1 | sed 's/<[^>]*>//g')
    
    # Vérification que le JSON est parseable
    echo "$SCHEMA_CONTENT" | python3 -m json.tool > /dev/null 2>&1
    if [ $? -ne 0 ]; then
      echo "⚠️  WARNING: JSON-LD invalide sur $FULL_URL"
      ERRORS=$((ERRORS + 1))
    fi
  fi
done

if [ "$ERRORS" -gt 0 ]; then
  echo ""
  echo "🚨 $ERRORS erreur(s) schema détectée(s). Déploiement à vérifier."
  exit 1
fi

echo ""
echo "✅ Toutes les vérifications schema passées."

Ce script est un filet de sécurité minimal. Pour un monitoring continu en production, Seogard détecte automatiquement la disparition ou la corruption de structured data sur l'ensemble de vos URLs indexées, sans attendre que Search Console remonte l'alerte.

L'AI Search change la donne — mais pas comme prévu

L'erreur serait de conclure que le structured data est inutile parce qu'il ne corrèle pas avec les citations AI. La vraie conclusion est différente : les citations AI sont pilotées par la qualité du contenu textuel et l'autorité topique, pas par le balisage technique.

Cela ne rend pas le schema inutile. Cela repositionne son rôle : le schema reste un outil de communication machine-to-machine pour les rich results actifs et pour la compréhension d'entités. Il n'est simplement plus un levier de visibilité AI.

La stratégie gagnante combine les deux approches :

Un contenu optimisé pour le passage retrieval (phrases denses, factuelles, sans fluff)
Un balisage schema maintenu proprement pour les rich results encore actifs

Les équipes qui ont compris comment les liens dans les AI Overviews évoluent et ce que cela implique pour le SEO savent que la visibilité AI se joue sur le contenu, pas sur le markup.

Pour explorer méthodiquement où votre contenu échoue dans le pipeline de sélection AI, le framework des 10 gates du pipeline AI Search reste la référence.

Le schema n'est pas mort. Mais son âge d'or comme hack SERP est définitivement terminé. La prochaine étape pour les équipes techniques : auditer ce qui reste rentable, supprimer ce qui ne l'est plus, et investir le temps libéré dans l'optimisation du contenu pour les systèmes de grounding AI.