68 millions de visites de crawlers IA : le vrai fonctionnement de la visibilité ChatGPT et Perplexity

Share
Robot-crawler industriel 3D scannant un panneau de données holographique — illustration éditoriale visibilité IA ChatGPT Perplexity
Un projecteur nouvelle génération projette une interface holographique. Une vision futuriste de l’affichage numérique.

En février 2026, Duda a analysé 68,9 millions de visites de crawlers IA sur 858 457 sites. 41% de ces sites n’ont reçu aucune visite d’un bot IA. Pas à cause de leur contenu. À cause de l’absence de données structurées, de schéma local et de synchronisation Google Business Profile. OpenAI capte 81% du trafic de crawl IA, soit 55,8 millions de visites sur 68,9 millions. La visibilité dans ChatGPT, Perplexity ou Claude ne fonctionne pas comme Google. Et les données le prouvent maintenant chiffres à l’appui.

Ce que révèlent vraiment 68 millions de visites

L’étude Duda couvre l’intégralité de sa base clients : 858 457 sites web, un mois de données (février 2026), 68,9 millions de visites tracées. C’est à ce jour l’analyse la plus large publiée sur le comportement des bots IA à l’échelle du web (analyse détaillée sur Search Engine Journal).

L’étude Duda porte sur 858 457 sites hébergés sur sa plateforme, majoritairement des TPE/PME locales. Les résultats (importance du GBP, du schema local, de Yext) sont donc surreprésentatifs des requêtes LocalBusiness et peuvent être moins généralisables aux sites corporate ou e-commerce.

59% des sites ont reçu au moins une visite. Les 41% restants sont invisibles pour l’ensemble des crawlers IA, quelle que soit la plateforme. Ce n’est pas un problème de contenu ni d’autorité de domaine au sens classique. Les sites crawlés affichent en moyenne 527,7 sessions humaines mensuelles, contre 164,9 pour les sites ignorés, un rapport de 3,2. Le trafic humain existant est le premier prédicteur du crawl IA, avant même les optimisations techniques.

La distribution entre crawlers est très concentrée. OpenAI (GPTBot + ChatGPT-User) totalise 55,8 millions de visites, soit 81% du total. Anthropic (ClaudeBot / anthropic-ai) suit avec 11,5 millions (16,6%). Perplexity atteint 1,3 million (1,8%). Google-Extended (Gemini) représente 380 000 visites, soit 0,6%.

Les trois types de crawl ont des logiques distinctes. Le User Fetch, crawl déclenché en temps réel par une requête utilisateur, représente 56,9% des visites. Le crawl Training (entraînement de modèles) pèse 28,8%. La Discovery (indexation initiale) atteint 14,3%. La majorité du crawl IA sert à répondre à des requêtes maintenant, pas à construire des corpus d’entraînement futurs.

GPTBot, PerplexityBot, ClaudeBot : trois comportements radicalement différents

Comparer ces crawlers uniquement par volume conduit à de fausses conclusions. Le ratio crawl-to-referral, nombre de visites crawler pour générer un clic humain, révèle des écarts énormes entre plateformes.

OpenAI présente un ratio de 152 crawls pour 1 clic référant dans le secteur news. Anthropic atteint 2 500:1 sur ce même secteur. Dans l’informatique et l’électronique, le ratio Anthropic monte à 8 800:1, contre 401:1 pour OpenAI. Sur l’ensemble des données Cloudflare (août 2025), le ratio global d’Anthropic s’établit à près de 50 000:1 (approximation Cloudflare, valeur exacte 38 065:1 en juillet 2025).

Ce n’est pas une anomalie. Claude crawle massivement pour constituer son contexte de réponse mais génère peu de clics sortants vers les sources. Perplexity connaît une croissance notable sans atteindre les volumes d’OpenAI/Anthropic, là où ChatGPT progresse de +66,7% en volume absolu.

Google-Extended (le crawler de Gemini) joue différemment : volume faible (380 000 visites) mais ciblage précis. Googlebot (crawler classique Google) a progressé de +96% sur la période mai 2024 → mai 2025 selon Cloudflare, ce qui ne reflète pas l’activité de Google-Extended, massivement bloqué via robots.txt. Google construit encore son corpus de données fraîches pour les AI Overviews.

Comparatif des crawlers IA, volume, croissance et ratio crawl/référral (données Duda + Cloudflare, février–août 2026)
Crawler Visites (fév. 2026) Part du total Croissance trafic référant (YoY) Ratio crawl/clic (news)
GPTBot / ChatGPT-User (OpenAI) 55,8 millions 81,0% +66,7% 152:1
anthropic-ai / ClaudeBot 11,5 millions 16,6% +2 300% (x23) 2 500:1 (news) / 50 000:1 (global)
PerplexityBot 1,3 million 1,8% Croissance notable (non chiffrée Cloudflare) Ratio le plus favorable
Google-Extended (Gemini) 380 000 0,6% +96% (volume crawler) N/D

Les cinq signaux qui multiplient le crawl par 4

L’étude Duda isole cinq variables corrélées à un taux de crawl significativement plus élevé. Leur présence simultanée est associée à un volume de crawl 400% supérieur à la médiane.

Les cinq signaux qui multiplient le crawl par 4

Un blog actif change tout. Les sites avec plus de 50 articles reçoivent en moyenne 1 373,7 visites de crawlers IA. Les sites sans blog : 41,6 visites. Chaque article supplémentaire est associé à une hausse de 7% des visites crawler. La fréquence de publication signale la fraîcheur du contenu, un critère mesuré explicitement par GPT-4o, LLaMA-3 et Qwen-2.5 selon les données de position.digital (2026).

Le schéma local compte plus que le schéma éditorial. Les sites avec 10 à 11 champs de schéma local renseignés présentent un taux de crawl de 82%, contre 55,2% pour ceux sans schéma. Le type prioritaire ici n’est pas Article ou FAQPage, c’est LocalBusiness avec adresse, horaires et coordonnées structurées. Les crawlers IA traitent ces pages comme des sources fiables sur des entités réelles.

La synchronisation Google Business Profile est le signal le plus fort de l’étude. Les sites connectés à un GBP affichent un taux de crawl de 92,8% et une moyenne de 415,6 visites crawler. La cohérence NAP (nom, adresse, téléphone) entre le site et les données GBP agit comme un indicateur de fiabilité pour les bots IA.

Les pages dynamiques attirent davantage de crawls. Le taux atteint 69,4% pour les sites avec du contenu généré dynamiquement (pages de services, pages de localisation), contre 58,2% pour les sites statiques. Chaque page supplémentaire apporte une hausse de 4% des visites crawler.

Les intégrations d’avis ferment la liste. Les sites intégrant des plateformes comme Yext atteignent 97,1% de taux de crawl, soit +38,9 points par rapport à la moyenne. Les sites avec intégration d’avis obtiennent 89,8% de taux de crawl, contre 58,8% pour les autres. Les signaux de réputation structurée comptent autant que les signaux de contenu.

Ce que les crawlers IA font réellement avec robots.txt

La plupart des équipes techniques abordent le robots.txt et les crawlers IA de façon binaire : bloquer ou laisser passer. La réalité est plus granulaire que ça.

Selon Cloudflare, seuls 14% des 10 000 domaines les plus visités utilisent des directives robots.txt spécifiques aux crawlers IA. GPTBot est le bot le plus souvent ciblé : 312 domaines l’ont explicitement bloqué, 61 l’ont explicitement autorisé. Cette asymétrie 5:1 reflète une posture défensive, pas une stratégie réfléchie.

Le point que peu de guides mentionnent : bloquer GPTBot via robots.txt supprime le crawl Training mais n’affecte pas nécessairement le crawl User Fetch si ChatGPT dispose déjà d’un cache ou utilise d’autres sources. Les trois User-agents d’OpenAI (GPTBot, ChatGPT-User, OAI-SearchBot) ont des directives robots.txt indépendantes. Bloquer GPTBot sans bloquer ChatGPT-User n’empêche donc pas l’apparition dans les réponses ChatGPT.

« Quand les utilisateurs se tournent vers ces plateformes IA avec des requêtes qui allaient autrefois aux moteurs de recherche, ils ne cliquent souvent pas sur la source originale une fois la réponse fournie et c’est en supposant qu’un lien soit fourni. » Cloudflare, analyse crawl-to-click, août 2025

La vraie question du robots.txt n’est plus technique : c’est de savoir si la visibilité sans clic a de la valeur pour votre activité.

Les implications SEO concrètes pour les équipes techniques

Plusieurs priorités techniques changent à la lumière de ces données.

Les sitemaps XML restent le meilleur signal de Discovery. Sur les 14,3% de visites catégorisées dans cette phase, les bots IA partent des pages listées en sitemap et explorent en profondeur les sites avec une architecture cohérente. Un sitemap à jour avec des dates lastmod précises communique directement la fraîcheur du contenu aux crawlers.

Les données structurées Schema.org ne servent plus uniquement les rich snippets Google. Les crawlers IA utilisent le markup pour identifier les entités (auteur, organisation, produit, localisation) et juger la crédibilité de la source. Les types Article, FAQPage et LocalBusiness sont les plus corrélés au crawl IA dans les données Duda. Les pages comparatives avec au moins 3 tableaux de données structurées obtiennent 25,7% de citations supplémentaires dans les réponses ChatGPT, selon les données de position.digital (2026).

La fraîcheur est mesurée directement. GPT-4o, LLaMA-3 70B et Qwen-2.5 72B utilisent un score de fraîcheur comme signal de classement explicite pour les réponses factuelles. Un article mis à jour sans modification du champ dateModified dans le schéma Article ne communique pas cette fraîcheur aux crawlers.

Le fichier llms.txt, apparu en 2025, est une convention émergente : un équivalent robots.txt conçu pour les LLM, permettant de spécifier quelles sections du site peuvent être utilisées pour l’entraînement ou la réponse. Anthropic publie son propre fichier llms.txt pour sa documentation. Aucun grand crawler (GPTBot, ClaudeBot, PerplexityBot) n’a confirmé à ce jour lire opérationnellement les llms.txt tiers des sites éditeurs.

Qui est réellement crawlé et pourquoi c’est contre-intuitif

Une entreprise locale avec synchronisation GBP peut être mieux crawlée qu’un média national sans données structurées. Un site e-commerce avec pages de service dynamiques surpasse un blog d’autorité sur le taux de crawl. Ce résultat contredit l’intuition SEO classique.

Les crawlers IA ne hiérarchisent pas selon la popularité des liens entrants. Ils hiérarchisent selon la densité d’entités vérifiables et la cohérence des données structurées. Un restaurant avec un schéma LocalBusiness complet, un GBP synchronisé et 12 avis intégrés sera crawlé plus souvent qu’un blog tech avec 500 backlinks et aucune donnée structurée.

Les sites avec intégration Yext atteignent 97,1% de taux de crawl dans les données Duda. Yext distribue les données NAP sur des centaines d’annuaires. Ce que les crawlers IA valorisent, c’est la cohérence des données d’entité à travers le web, pas uniquement sur le site source.

Dans la catégorie News et Publications, ChatGPT-User représente 14,9% du trafic crawler, bien au-dessus de sa part globale. Les crawlers IA priorisent activement les contenus d’actualité pour alimenter leurs réponses en temps réel, quelle que soit l’autorité SEO traditionnelle du domaine.

La question que personne ne pose encore

En février 2026, les crawlers IA représentent 51,7% de l’ensemble du trafic crawler web. Ils ont dépassé les crawlers de moteurs de recherche traditionnels. Cette bascule s’est produite sans déclaration officielle ni communiqué de presse.

ChatGPT-User, le crawler de réponse temps réel d’OpenAI, a progressé de +2 825% en volume sur un an. Pas GPTBot, le crawler d’entraînement. Le crawler qui répond aux requêtes maintenant. Les sites que ce bot visite aujourd’hui sont des sites dont le contenu apparaît dans les réponses ChatGPT la même heure.

Les équipes SEO qui mesurent leur visibilité uniquement via Google Search Console observent une portion de plus en plus petite de leur exposition réelle. Les outils existent : Cloudflare Radar, logs serveur filtrés par User-agent. La plupart des équipes ne les regardent pas encore.

Le schéma Schema.org devient un contrat de données entre un site et les modèles qui en parlent. La capacité à apparaître dans une réponse ChatGPT dépend moins du contenu que de la précision avec laquelle ce contenu décrit des entités réelles. C’est une compétence technique, pas éditoriale.

Comments
Add a comment

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *