Le 'bland tax' : pourquoi l'IA efface les marques génériques

Un site e-commerce de 18 000 pages, premier sur 340 requêtes transactionnelles, voit son trafic organique chuter de 31 % en trois mois sans aucune pénalité manuelle, sans core update défavorable, sans régression technique. La cause : AI Overviews ne le cite plus. Pas parce que son contenu est mauvais — parce qu'il est indifférencié. Bienvenue dans l'ère du bland tax.

Le concept, mis en lumière par Search Engine Land, désigne le coût invisible que paient les marques dont les signaux sont trop génériques pour qu'un LLM les sélectionne comme source dans une réponse synthétisée. Ce n'est pas un filtre algorithmique punitif. C'est pire : c'est une absence de signal suffisamment distinctif pour mériter d'être mentionné.

Comment un LLM décide de citer une marque

Les moteurs de recherche classiques rankent des URLs. Les systèmes de recherche IA synthétisent des réponses en agrégeant des sources — et le processus de sélection est radicalement différent.

Le pipeline de sélection dans AI Overviews

Un LLM génératif intégré à la recherche (Gemini dans AI Overviews, GPT dans Bing Chat) ne parcourt pas un index de la même façon que l'algorithme de ranking classique. Le processus simplifié :

Retrieval : le système extrait des passages pertinents depuis un corpus (souvent via un modèle d'embedding, pas uniquement BM25).
Grounding : les passages sont vérifiés contre des sources factuelles pour réduire les hallucinations.
Synthesis : le LLM compose une réponse en sélectionnant les sources qui apportent une information distincte, vérifiable, et cohérente avec le consensus ou l'expertise établie.

C'est à l'étape 3 que le bland tax frappe. Quand cinq sources disent exactement la même chose avec les mêmes formulations, le modèle n'a aucune raison de privilégier l'une plutôt qu'une autre. Il choisit alors sur des critères de notoriété d'entité (entity salience), de fraîcheur des données, et de singularité de l'information apportée.

Ce que le LLM « voit » dans vos pages

Prenez cette structure HTML typique d'une page produit e-commerce :

<article itemscope itemtype="https://schema.org/Product">
  <h1 itemprop="name">Chaussures de trail imperméables</h1>
  <meta itemprop="brand" content="TrailMax">
  <div itemprop="description">
    <p>Découvrez nos chaussures de trail imperméables, idéales pour 
    la randonnée et les sentiers boueux. Semelle Vibram, membrane 
    imperméable, confort optimal.</p>
  </div>
  <div itemprop="review" itemscope itemtype="https://schema.org/Review">
    <meta itemprop="author" content="Un client satisfait">
    <span itemprop="reviewBody">Très bon produit, je recommande.</span>
  </div>
</article>

Ce markup est techniquement correct. Mais il est sémantiquement vide pour un LLM. La description pourrait appartenir à n'importe quelle marque. L'avis n'apporte aucune donnée spécifique. Il n'y a aucune propriété distinctive — aucun test terrain, aucune donnée de performance, aucune comparaison.

Comparez avec cette version enrichie :

<article itemscope itemtype="https://schema.org/Product">
  <h1 itemprop="name">TrailMax Apex GT — Trail imperméable 320g</h1>
  <meta itemprop="brand" content="TrailMax">
  <meta itemprop="weight" content="320 g">
  <meta itemprop="material" content="Gore-Tex Invisible Fit, Vibram Megagrip">
  <div itemprop="description">
    <p>L'Apex GT utilise une construction Gore-Tex Invisible Fit collée 
    directement sur l'upper mesh, réduisant le poids de 18% par rapport 
    à la V2. Drop de 6mm. Testée sur 400km de sentiers GR20 en conditions 
    hivernales — zéro infiltration sous pluie continue de 4h.</p>
    <p>La semelle Vibram Megagrip avec crampons de 5mm offre une adhérence 
    mesurée à 0.78 de coefficient de friction sur roche humide (test interne, 
    protocole ASTM F2913).</p>
  </div>
  <div itemprop="review" itemscope itemtype="https://schema.org/Review">
    <meta itemprop="author" content="Marc Dupont, ultra-traileur UTMB 2025">
    <span itemprop="reviewBody">Utilisée sur les 170km de l'UTMB 2025. 
    Pieds secs jusqu'au km 140 malgré 6h de pluie cumulée. Seul point 
    faible : la languette se décale après 10h de course.</span>
  </div>
</article>

La deuxième version contient des données propriétaires (test terrain, mesures de friction, retour d'usage nommé). Un LLM qui doit recommander une chaussure de trail imperméable a ici une raison factuelle de citer TrailMax plutôt qu'un concurrent dont la page dit juste « confort optimal ».

Mesurer le bland tax sur votre site

Le bland tax n'apparaît dans aucun rapport standard. Il faut le mesurer indirectement, en croisant plusieurs sources de données.

Audit de distinctivité sémantique

L'idée : comparer le contenu de vos pages avec celui des concurrents qui apparaissent dans les AI Overviews sur les mêmes requêtes. Voici un script Python qui utilise l'API de Search Console pour identifier les requêtes où vous avez des impressions classiques mais zéro citation IA :

import json
from google.oauth2.credentials import Credentials
from googleapiclient.discovery import build

def get_declining_queries(property_url: str, creds_path: str):
    """
    Compare les performances sur 2 périodes de 90 jours.
    Identifie les requêtes avec perte de CTR > 40% sans perte de position.
    Signal probable de bland tax : vous rankez mais l'AI Overview 
    vous ignore, captant les clics.
    """
    creds = Credentials.from_authorized_user_file(creds_path)
    service = build('searchconsole', 'v1', credentials=creds)
    
    def fetch_period(start: str, end: str):
        response = service.searchanalytics().query(
            siteUrl=property_url,
            body={
                'startDate': start,
                'endDate': end,
                'dimensions': ['query'],
                'rowLimit': 5000,
                'dimensionFilterGroups': [{
                    'filters': [{
                        'dimension': 'searchAppearance',
                        'operator': 'notContains',
                        'expression': 'AIO'  # Exclure les lignes AI Overview
                    }]
                }]
            }
        ).execute()
        return {row['keys'][0]: row for row in response.get('rows', [])}
    
    current = fetch_period('2026-01-22', '2026-04-22')
    previous = fetch_period('2025-10-22', '2026-01-21')
    
    bland_tax_candidates = []
    for query, curr_data in current.items():
        if query in previous:
            prev = previous[query]
            pos_change = curr_data['position'] - prev['position']
            ctr_change = (curr_data['ctr'] - prev['ctr']) / prev['ctr'] * 100
            
            # Position stable ou améliorée mais CTR en chute libre
            if pos_change <= 1 and ctr_change < -40 and prev['clicks'] > 20:
                bland_tax_candidates.append({
                    'query': query,
                    'position_change': round(pos_change, 1),
                    'ctr_change': round(ctr_change, 1),
                    'lost_clicks': round(prev['clicks'] - curr_data['clicks'])
                })
    
    return sorted(bland_tax_candidates, key=lambda x: x['lost_clicks'], reverse=True)

Le pattern à chercher : position stable + CTR en chute libre. C'est le signe qu'un AI Overview capture les clics que vous receviez auparavant, et que votre marque n'y figure pas comme source citée.

D'après les analyses détaillées sur les données de centaines de sites après les dernières core updates, les sites avec un contenu homogène et peu différencié sont systématiquement ceux qui perdent le plus de visibilité dans les résultats enrichis par l'IA.

Les métriques concrètes à suivre

Avec des outils comme Screaming Frog, vous pouvez extraire des indicateurs de « blandness » à l'échelle du site :

Ratio de contenu dupliqué interne : crawlez le site, exportez les near-duplicates (seuil 85%+). Un site e-commerce avec 40% de descriptions produit quasi-identiques paie un bland tax massif.
Densité de données propriétaires : comptez le nombre de pages contenant des <table>, des listes de spécifications uniques, des éléments schema.org enrichis au-delà du minimum. Un score inférieur à 15% des pages signale un problème.
Diversité des entités nommées : utilisez un outil NER (spaCy, Google Cloud Natural Language API) sur vos pages. Si vos pages ne mentionnent que des entités génériques (« chaussure », « qualité », « confort ») et jamais des entités spécifiques (noms de technologies, de personnes, de lieux, de tests), le LLM n'a rien de distinctif à extraire.

Le rôle des signaux d'entité dans la sélection IA

Google utilise depuis longtemps le Knowledge Graph pour résoudre l'ambiguïté des entités. Avec l'intégration de Gemini dans la recherche, ce graphe d'entités joue un rôle encore plus central : il aide le LLM à déterminer quelles marques sont des autorités légitimes sur un sujet donné.

Construire un signal d'entité robuste

Le bland tax frappe particulièrement les marques qui n'ont pas de nœud d'entité fort dans le Knowledge Graph. Vérifiez le vôtre : tapez le nom de votre marque dans Google et observez si un Knowledge Panel apparaît. Si ce n'est pas le cas, votre marque est invisible pour le graphe d'entités — et donc pour le LLM.

Trois leviers techniques pour renforcer ce signal :

1. Structured data avec identifiants de désambiguïsation

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Organization",
  "@id": "https://trailmax.fr/#organization",
  "name": "TrailMax",
  "url": "https://trailmax.fr",
  "sameAs": [
    "https://www.wikidata.org/wiki/Q123456789",
    "https://www.linkedin.com/company/trailmax",
    "https://www.crunchbase.com/organization/trailmax"
  ],
  "foundingDate": "2018",
  "founder": {
    "@type": "Person",
    "name": "Sophie Martin",
    "sameAs": "https://www.linkedin.com/in/sophie-martin-trailmax"
  },
  "knowsAbout": [
    "Trail running shoes",
    "Waterproof footwear technology",
    "Vibram sole engineering"
  ],
  "hasCredential": {
    "@type": "EducationalOccupationalCredential",
    "credentialCategory": "certification",
    "name": "ISPO Award 2025 Gold Winner"
  }
}
</script>

Le champ sameAs vers Wikidata est crucial. C'est le pont entre votre site et le Knowledge Graph. Le champ knowsAbout n'est pas dans la spécification officielle schema.org pour Organization, mais Google le traite comme un signal topique (documenté dans les recommandations de Google sur les données structurées).

2. Cohérence des signaux cross-platform

Un LLM synthétise des informations de multiples sources. Si votre marque est décrite différemment sur votre site, sur LinkedIn, sur vos profils d'annuaire, et dans la presse, le modèle a du mal à consolider une identité d'entité claire. Ce problème de cohérence est d'autant plus critique dans le contexte de la recherche locale alimentée par l'IA, où les incohérences entre sources détruisent la confiance du système.

3. Publication de données first-party citables

Les LLMs privilégient les sources qui contiennent des données originales — études, benchmarks, tests, analyses statistiques. Comme l'ont montré les analyses récentes sur ce que les moteurs de recherche considèrent comme signaux de confiance, les données first-party et l'autorité démontrée sont les facteurs dominants dans la sélection des sources par les systèmes IA.

Scénario concret : un média vertical de 8 500 pages face au bland tax

Prenons le cas d'un média B2B spécialisé dans l'industrie logistique : LogiScope (nom fictif, métriques réalistes basées sur des cas clients agrégés).

Situation initiale

8 500 pages indexées, dont 6 200 articles informationnels
Trafic organique : 185 000 sessions/mois
Position moyenne : 4.2 sur les requêtes cibles
CTR moyen : 3.8%

L'effondrement (janvier-mars 2026)

Trafic organique : 127 000 sessions/mois (-31%)
Position moyenne : 4.0 (stable, voire légèrement améliorée)
CTR moyen : 2.1% (-45%)
Aucune pénalité manuelle, aucun changement technique

L'analyse révèle que les AI Overviews se sont déployées sur 73% des requêtes cibles du site. LogiScope n'apparaît comme source citée dans aucune d'entre elles, malgré ses bonnes positions classiques.

Diagnostic

Un crawl Screaming Frog couplé à une analyse NER révèle :

78% des articles utilisent des structures identiques : intro généraliste → 3 points en H2 → conclusion
Le ratio de contenu « unique » (passages non retrouvés chez les concurrents via une analyse de similarité cosinus) est de 12%
Zéro article contient des données propriétaires (études, enquêtes, interviews exclusives)
Les auteurs n'ont pas de profils schema.org Person avec signaux d'expertise

LogiScope produisait un contenu techniquement correct, bien optimisé pour le SEO classique, mais fonctionnellement interchangeable avec celui de ses cinq concurrents directs. Le bland tax dans toute sa splendeur.

Le plan de correction (6 semaines)

Semaine 1-2 : audit et priorisation

Identification des 200 pages à plus fort potentiel de trafic perdu (via le script Python ci-dessus). Analyse manuelle des AI Overviews sur les 50 requêtes les plus impactées pour identifier quelles sources sont citées et pourquoi.

Semaine 3-4 : enrichissement de contenu

Pour chaque page prioritaire :

Ajout de données propriétaires (résultats d'enquêtes terrain, interviews d'experts nommés du secteur)
Intégration de tableaux comparatifs avec des données chiffrées vérifiables
Réécriture des introductions pour inclure un insight ou une donnée que personne d'autre ne publie

Semaine 5-6 : renforcement des signaux d'entité

Déploiement de structured data Person pour chaque auteur avec sameAs vers LinkedIn et profils sectoriels
Création d'une page /about/methodology détaillant les processus éditoriaux (signal E-E-A-T)
Publication d'un rapport trimestriel exclusif avec des données issues de leurs propres analyses

Résultats à 90 jours

Trafic organique : 161 000 sessions/mois (récupération de 59% de la perte)
CTR moyen : 3.1%
LogiScope apparaît comme source citée dans 18% des AI Overviews sur ses requêtes cibles

La récupération n'est pas complète, et ne le sera probablement jamais à 100%. Une partie du trafic a migré définitivement vers la réponse synthétisée. Mais la différence entre 0% de citations IA et 18% représente un écart concurrentiel majeur.

Adapter votre architecture technique pour les agents IA

Le bland tax ne concerne pas que le contenu. L'architecture technique de votre site détermine aussi la capacité des crawlers IA à extraire et attribuer vos informations distinctives.

Rendre vos données propriétaires crawlables par les agents IA

Les bots IA (GPTBot, Google-Extended, ClaudeBot, ByteSpider) ont des comportements de crawl différents des crawlers classiques. L'analyse de vos logs de crawl par les bots IA est une étape indispensable pour comprendre quelles pages ils consultent — et lesquelles ils ignorent.

Un point technique souvent négligé : si vos données propriétaires sont enfermées dans des composants JavaScript rendus côté client, certains crawlers IA ne les verront jamais. Vérifiez avec Chrome DevTools en désactivant JavaScript (onglet Sources > Command Menu > Disable JavaScript) que vos données différenciantes sont présentes dans le HTML initial.

Pour les sites utilisant des frameworks modernes, assurez-vous que le SSR inclut bien les éléments distinctifs. Le sujet de l'architecture machine-first pour les agents IA est directement lié : si votre site n'est pas conçu pour être consommé par des agents, vos signaux distinctifs n'atteignent tout simplement pas le pipeline de sélection du LLM.

Le fichier llms.txt comme levier anti-bland tax

Le standard émergent llms.txt (proposé par Jeremy Howard) permet de guider les agents IA vers vos contenus les plus distinctifs :

# TrailMax
> Fabricant français de chaussures trail haute performance. 
> Spécialiste Gore-Tex Invisible Fit et semelles Vibram custom.

## Données propriétaires et tests
- [Test GR20 hivernal — 400km](https://trailmax.fr/lab/test-gr20-2025): 
  Résultats terrain complets avec mesures d'imperméabilité
- [Benchmark adhérence 2025](https://trailmax.fr/lab/grip-benchmark-2025): 
  Tests ASTM F2913 sur 12 surfaces, comparatif 8 marques
- [Rapport durabilité semelles](https://trailmax.fr/lab/durability-report): 
  Usure mesurée à 500km, 1000km, 1500km

## Expertise éditoriale
- [Guide choix drop](https://trailmax.fr/guide/drop-chaussure-trail): 
  Par Dr. Claire Renaud, podologue du sport
- [Anatomie semelle trail](https://trailmax.fr/guide/anatomie-semelle): 
  Schémas techniques exclusifs

## À propos
- [Méthodologie de test](https://trailmax.fr/about/methodology)
- [Équipe R&D](https://trailmax.fr/about/team)

Ce fichier agit comme un sommaire éditorial pour les agents IA. Il met en avant ce qui vous distingue, pas ce qui est générique. C'est une démarche cohérente avec l'évolution vers la recherche agentique décrite par Google, où les agents sélectionnent activement les sources les plus pertinentes pour accomplir une tâche.

Les trade-offs et limites de la stratégie anti-bland tax

Quelques nuances essentielles avant de restructurer toute votre stratégie éditoriale.

Le bland tax n'affecte pas tous les secteurs de la même façon

Les requêtes transactionnelles pures (« acheter [produit] ») sont moins touchées que les requêtes informationnelles et comparatives. Si votre trafic provient principalement de requêtes navigationnelles (les gens cherchent votre marque), le bland tax est quasi inexistant — par définition, le LLM doit vous citer.

Le bland tax est maximal sur les requêtes informationnelles mid-funnel : « meilleure chaussure trail imperméable 2026 », « comment choisir un WMS pour entrepôt e-commerce ». C'est là que le LLM doit choisir entre 10 sources qui disent à peu près la même chose.

Le risque de sur-différenciation

Pousser la différenciation trop loin peut nuire à votre topical authority. Si chaque page tente d'être « unique » au point de s'éloigner du consensus sectoriel ou de contenir des affirmations non vérifiables, le grounding du LLM va vous exclure pour un autre motif : manque de fiabilité. L'équilibre est entre dire la même chose que les experts (pour passer le filtre de cohérence) et apporter un angle ou des données que personne d'autre n'a (pour passer le filtre de sélection).

La dépendance au facteur marque

Pour les petites marques sans notoriété pré-existante, le bland tax est un cercle vicieux : pas de notoriété → pas de citation IA → pas de visibilité → pas de notoriété. La seule sortie est de produire des données propriétaires suffisamment remarquables pour être reprises par des sources tierces qui, elles, ont déjà une entity salience forte. C'est l'équivalent IA du link building : vous ne cherchez plus des liens, vous cherchez des citations d'entité.

Le multilingue amplifie le problème

Si vous opérez sur des marchés non-anglophones, le bland tax est souvent pire : les corpus d'entraînement des LLMs sont dominés par l'anglais, ce qui rend les signaux de marque dans d'autres langues plus faibles. La question de la visibilité IA hors de l'anglais est directement liée au bland tax — les marques qui ne sont pas distinctives en anglais le sont encore moins dans les langues sous-représentées.

Monitoring continu : détecter le bland tax avant qu'il ne coûte du trafic

Le bland tax est insidieux parce qu'il s'installe progressivement. Vos positions restent stables, vos pages restent indexées, rien ne casse techniquement. Seul votre CTR et vos citations IA se dégradent silencieusement.

Un monitoring efficace combine trois couches :

Suivi des citations IA : surveillez manuellement ou via des outils spécialisés si votre marque apparaît dans les AI Overviews sur vos requêtes cibles. Comparez mois par mois.
Alertes sur les écarts position/CTR : configurez des alertes quand le CTR chute de plus de 30% sur des requêtes où votre position est stable. C'est le signal d'alerte précoce du bland tax.
Audit continu des régressions de structured data : une balise schema.org manquante, un champ sameAs supprimé lors d'une mise en production, un auteur retiré d'un article — ces micro-régressions érodent vos signaux distinctifs. Un outil de monitoring comme Seogard détecte automatiquement ces régressions sur chaque déploiement, avant qu'elles n'affectent votre visibilité IA.

Le bland tax n'est pas une pénalité. C'est le coût de l'indifférenciation dans un monde où l'IA doit choisir une source parmi dix. La seule protection durable : des données que personne d'autre ne possède, des signaux d'entité cohérents et vérifiables, et une architecture technique qui les rend accessibles aux agents qui décident de votre visibilité.