Pourquoi ChatGPT cite certaines pages : étude de 1,4M prompts

Share
Main insérant carte lumineuse dans surface bleue
Une carte brillante glissée dans une surface géométrique bleue. Une illustration évoquant l’accès, l’énergie ou la technologie.

Tu crées du contenu depuis des mois. ChatGPT répond à des dizaines de questions dans ton domaine. Il ne te cite jamais. Tu te demandes ce qui cloche.

Ce n’est pas ton autorité de domaine. Ce ne sont pas tes backlinks. Ce n’est pas ce que tu crois.

Ahrefs a analysé 1,4 million de prompts ChatGPT en février 2025 avec Xibeijia Guan, data scientist. Résultat : 4 signaux séparent les pages citées des pages ignorées. Le premier va te surprendre.

ChatGPT se pose des questions que tu ne lui poses pas

Quand tu tapes un prompt, ChatGPT ne cherche pas une réponse directe. Il génère des fan-out queries, des sous-questions internes qu’il se pose pour construire sa réponse.

Tu demandes : « Comment améliorer mon taux de conversion ? »

ChatGPT se demande en arrière-plan : « Quelles sont les causes d’un faible taux de conversion ? », « Comment ça varie selon le secteur ? », « Quels éléments de page influencent les conversions ? »

Les pages citées ont leurs titres alignés sur ces sous-questions invisibles, pas sur la question initiale. La similarité sémantique entre le titre et les fan-out queries atteint 0,656 pour les pages citées, contre 0,484 pour celles qui ne le sont pas. 35% d’écart.

Tu optimises pour ce que les gens écrivent. Tu devrais optimiser pour ce que ChatGPT pense.

88% des citations viennent d’un seul endroit

ChatGPT récupère du contenu via plusieurs canaux : search, news, Reddit, YouTube, Academia.

88% des citations viennent d'un seul endroit

88,46% des citations viennent du canal search. Des pages indexées sur Google.

Reddit illustre le paradoxe. ChatGPT y récupère 16,2 millions d’URLs, l’un des volumes les plus élevés de l’étude. Taux de citation : 1,93%.

Reddit est massivement consulté. Presque jamais crédité. Être lu n’est pas être cité.

67,8% des URLs non-citées proviennent de Reddit. ChatGPT s’en sert comme matière première pour comprendre un sujet. Mais il cite les sources qui rankent sur Google.

La première condition pour être cité : exister dans les SERPs. Pas de raccourci.

La fausse piste de l’ancienneté

Les pages citées dans le canal search ont une médiane d’âge de 500 jours, environ 16 mois. Les pages non-citées sont souvent bien plus récentes.

Conclusion évidente : ChatGPT préfère le contenu établi.

Ce n’est pas aussi simple. Dans un même lot de résultats pour un prompt donné, ChatGPT cite les pages les plus anciennes et les plus stables. Mais à l’échelle globale, il penche vers la fraîcheur.

Ce qui compte vraiment : ancienneté + pertinence sémantique. Une page récente mais bien alignée sur les fan-out queries sera citée. Une vieille page hors-sujet ne le sera pas.

Pour les contenus news, la fraîcheur pèse davantage. Les pages citées ont une médiane de 200 jours, contre 300 pour les non-citées. Être récent est alors un avantage direct.

L’URL que ChatGPT peut lire

Les URLs avec un slug en langage naturel, des mots lisibles séparés par des tirets, ont un taux de citation de 89,78%.

Les URLs sans slug naturel (IDs, paramètres, chaînes techniques) : 81,11%.

8,67 points d’écart pour un changement qui prend dix secondes.

Un slug lisible signale la pertinence avant que ChatGPT lise quoi que ce soit. chatgpt-cite-pages transmet une information. post?id=4872 n’en transmet aucune.

Ce que l’étude ne mesure pas

Ahrefs est transparent : l’étude n’analyse pas les backlinks, l’autorité de domaine ou le trafic organique. Ces données n’étaient pas dans les champs accessibles à ChatGPT lors de la récupération.

Ce silence est lui-même une information. Les signaux qui dominent le SEO traditionnel (DA, liens entrants, ancrage) ne sont pas les leviers mesurés ici. Ce qui compte, c’est ce que ChatGPT peut lire directement : le titre, l’URL, le snippet.

« Les pages citées sont celles dont les titres et le contenu correspondent aux questions que ChatGPT pose en arrière-plan. » : Analyse Ahrefs, 1,4M prompts, février 2025

L’optimisation GEO n’est pas une discipline séparée du SEO. C’en est une couche plus exigeante. Rank d’abord. Puis optimise le titre pour les fan-out queries.

Par où commencer

Identifier les fan-out queries de ton sujet. Ahrefs propose Brand Radar pour ça. Sinon, demande directement à ChatGPT quelles sous-questions il se pose avant de répondre à ta requête cible.

Réécrire les titres existants pour couvrir ces sous-questions. Pas un titre par fan-out query. Un titre qui contient la réponse directe à la sous-question la plus fréquente.

Nettoyer les slugs. Supprimer les IDs, les stop words, les dates dans l’URL. Garder 3 à 5 mots qui décrivent le contenu avec précision.

Et surtout : ranker sur Google d’abord. 88% des citations viennent du canal search. Sans visibilité organique, les trois autres actions ne servent à rien.

50% des URLs récupérées par ChatGPT ne sont jamais citées. La moitié du travail de récupération ne produit aucune mention visible.

ChatGPT consulte probablement déjà ton contenu.

La question est : pour faire quoi avec ?

Comments
Add a comment

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *