Blog des articles

#M015 Développement croissant de la méthodologie des études observationnelles d’évaluation de l’efficacité des traitements : à propos de deux exemples récents.

De quoi parle-t-on ?

Krüger N, Schneeweiss S, Fuse K, Matseyko S, Sreedhara SK, Hahn G, et al. Semaglutide and Tirzepatide in Patients With Heart Failure With Preserved Ejection Fraction. JAMA. 2025 Aug 31
Jourdain H, Di Meglio A, Mansouri I, Desplas D, Zureik M, Haddy N. Real-world efficacy and safety of trastuzumab deruxtecan versus trastuzumab emtansine and tucatinib as second-line and third-line treatments for HER2-positive metastatic breast cancer: two target trial emulation studies. The Lancet Regional Health - Europe. nov 2025;58:101455.

Pourquoi a-t-on choisi ces articles ?

Deux publications récentes d’études observationnelles visant à évaluer l’intérêt clinique de traitements doivent attirer notre attention en raison de l’utilisation d’éléments de méthodologie sophistiqués et encore trop rarement employés visant à renforcer nettement la crédibilité de leurs résultats et de les rendre, peut-être, exploitables pour la prise de décision. Ces éléments étant jusqu’à présent assez peu présents dans ce type d’étude méritent une discussion à part entière à propos de ces exemples.

Ce qu’en pense la SFPT

Ces deux études mettent en évidence les avancées méthodologiques et perspectives des études observationnelles inférentielles appliquées à l’évaluation des traitements. Si les exemples étudiés illustrent l’apport des concepts récents d’épidémiologie théorique, aucune étude n’intègre à ce jour l’ensemble des exigences méthodologiques qui pourrait suffire à une décision régulatoire [1]. Ces nouvelles approches sont pourtant indispensables, car elles apportent des solutions aux faiblesses qui limitaient jusque-là l’acceptabilité des études observationnelles pour guider la décision thérapeutique ou réglementaire.

La mise en œuvre de ces méthodes suppose des données particulières, rarement disponibles dans les bases actuelles. Par exemple, les contrôles négatifs exigent des événements cliniques indépendants de la pathologie étudiée, souvent absents des registres. De même, les facteurs de confusion pertinents peuvent être éloignés des variables habituellement recueillies. Pour atteindre un niveau de fiabilité suffisant, il faut donc anticiper ces besoins dès la conception des bases, en prévoyant variables, contrôles et critères de jugement pertinents. L’objectif étant de passer d’une logique opportuniste, fondée sur les données disponibles, à une démarche hypothético-déductive où la question de recherche guide la collecte et l’usage des données.

Lire la suite : #M015 Développement croissant de la méthodologie des études observationnelles d’évaluation de...

Dernière mise à jour le 20 octobre 2025.

#M014 Essai de non-infériorité : choix du seuil de non-infériorité et expression en différence de risques ou en rapport de risques

De quoi parle-t-on ?

Silvain J, Cayla G, et al.; ABYSS Investigators of the ACTION Study Group. Beta-Blocker Interruption or Continuation after Myocardial Infarction. N Engl J Med. 2024;391(14):1277-1286. doi: https://doi.org/10.1056/NEJMoa2404204

Pourquoi a-t-on choisi cet article ?

L’étude ABYSS est un essai clinique visant à évaluer la non-infériorité de l’arrêt des bétabloquants par rapport à leur poursuite chez des patients ayant présenté un infarctus du myocarde il y a plus de six mois et sans insuffisance cardiaque chronique. Dans ce blog, nous analyserons en détail le choix du seuil de non-infériorité, et utiliserons cet exemple pour illustrer l’importance du mode d’expression du seuil de non-infériorité, selon qu’il soit exprimé en termes absolus ou relatifs.

Ce qu’en pense la SFPT : principaux messages de l’article

Le choix du seuil de non-infériorité est un élément clé du design des essais de non-infériorité. S’il est généralement bien connu que l’amplitude maximale de l’effet que l’on consent à perdre relève avant tout d’une décision clinique, les conséquences liées à son mode d’expression – en rapport de risques ou en différence de risques absolue – sont peut-être moins connues. Pourtant, le choix d’exprimer le seuil de non-infériorité en termes relatifs ou absolus peut avoir un impact important dans les cas où la proportion d’événements attendue dans le bras contrôle est différente de celle réellement observée dans l’essai. En effet, lorsque la proportion d’événements dans le bras contrôle a été :

sous-estimée (fréquence dans le bras contrôle supérieure à ce qui était attendu), l’expression du seuil de non-infériorité en différence de risques est plus conservatrice;
surestimée (fréquence dans le bras contrôle inférieure à ce qui était attendu), l’expression du seuil de non-infériorité en risque relatif est donc plus conservatrice.

	Sous-estimation	Surestimation
Proportion d’évènements attendus dans le bras contrôle	20 %	20 %
Seuil de non-infériorité absolu	+5 % en absolu soit 25 %	+5 % en absolu soit 25 %
Seuil de non-infériorité relatif	+25 % en relatif soit 25 %	+25 % en relatif soit 25 %
Proportion d’évènements observés dans le bras contrôle	40 %	10 %
Seuil de non-infériorité absolu	+5 % en absolu soit 45 %	+5 % en absolu soit 15 %
Seuil de non-infériorité relatif	+25 % en relatif soit 50 %	+25 % en relatif soit 12,5%

études randomisées

Pour approfondir ...#M014 Essai de non-infériorité : choix du seuil de non-infériorité et expression en différence de...

Dernière mise à jour le 17 janvier 2025.

#M013 Critères de jugements négatifs: une méthode d’évaluation de la confusion résiduelle

De quoi parle-t-on ?

De l'article « Comparative effectiveness of third doses of mRNA-based COVID-19 vaccines in US veterans » Dickerman, B.A., Gerlovin, H., Madenci, A.L. et al. . Nat Microbiol 8, 55–63 (2023). https://doi.org/10.1038/s41564-022-01272-z

Pourquoi a-t-on choisi cet article ?

Dans un précédent blog (#M006 Emuler un essai clinique randomisé à partir des données observationnelles, une bonne idée ?) on vous a exposé le principe de l’émulation d’essai cible qui est une méthode rigoureuse visant à structurer la formulation d’une question causale à partir de données observationnelles.
Dans ce blog, nous allons voir une analyse de sensibilité permettant d’argumenter en faveur ou en défaveur d’un biais résiduel dans l’analyse : les « negative outcomes» (critères de jugement négatifs); appliqué ici dans un contexte d’émulation d’essai cible. Nous présenterons d’abord les aspects théoriques puis une application avec un article.

Ce qu’en pense la SFPT

Pour répondre à une question causale les essais randomisés restent le gold standard. Cependant dans certaines situations une randomisation est impossible ou encore l’urgence de la question n’est pas compatible avec le montage et le recrutement d’un essai. L’émulation d’essai cible peut donc être un moyen de répondre à une question causale à partir de données observationnelles. Les critères de jugement négatifs sont des critères de jugement avec une structure de confusion supposée similaire à celle du traitement et du critère de jugement principal. Sous cette hypothèse après ajustement, s’il existe un effet du traitement sur le critère de jugement négatif cela renforce la possibilité d’une confusion résiduelle.
L’utilisation et le choix de critères de jugement négatifs dans une étude observationnelle nécessitent néanmoins une connaissance approfondie du domaine, mis en graphique par les DAG. De plus, l’absence de signal ne permet pas formellement d’éliminer la possibilité de toute confusion résiduelle qui est impossible. Cependant ce type d’analyse de sensibilité est un argument scientifique en faveur ou défaveur de l’hypothèse de confusion résiduelle permettant de débattre rationnellement sur notre confiance ou non en la causalité d’un effet estimé par des données observationnelles.

pharmacoépidémiologie

Pour approfondir ...#M013 Critères de jugements négatifs: une méthode d’évaluation de la confusion résiduelle

Dernière mise à jour le 20 novembre 2023.

#M012 Utilisation prolongée de médicaments protecteurs gastriques (les IPP) et augmentation potentielle du risque de développer une démence

De quoi parle-t-on ?

De la publication Cumulative Use of Proton Pump Inhibitors and Risk of Dementia: The Atherosclerosis Risk in Communities Study. (Northuis C, Bell E, Lutsey P, George KM, Gottesman RF, Mosley TH, Whitsel EA, Lakshminarayan K. Neurology. 2023 Aug 9:10.1212/WNL.0000000000207747. doi: 10.1212/WNL.0000000000207747. Epub ahead of print. PMID: 37558503)
par le GT Pharmacoépidémiologie de la SFPT

Pourquoi a-t-on choisi cet article ?

Lorsqu’un médicament fait courir un risque particulier d’effet indésirable, l’importance sanitaire de ce risque s’évalue en termes d’impact.
Pour simplifier, cet impact reflète le nombre de cas d’une maladie dont la survenue aurait théoriquement été provoquée par la prise du médicament, dans le cas d’une relation causale entre prise de médicament et risque de développer une maladie.
Il s’agit d’une mesure théorique calculée sur la base de trois éléments de connaissance. Le premier de ces éléments est l’importance de l’augmentation du risque de développer la maladie lorsque l’on prend le médicament (par exemple, une multiplication par deux de ce risque correspondant à une augmentation de 100 %, ou une augmentation de 20 % correspondant à une multiplication par 1,2). Le second est ce que l’on appelle le risque de base de développer une maladie, qui correspond à la fréquence de survenue « naturelle » de la maladie au cours de la vie en dehors de la prise du médicament étudié. Le dernier est la fréquence de l’utilisation du médicament dans une population. Les deux derniers éléments constituent des déterminants majeurs de l’impact du risque lié à l’utilisation d’un médicament.
De façon synthétique, pour un médicament très peu utilisé, une augmentation très forte du risque de développer une maladie concernant une maladie extrêmement rare aura un impact sanitaire très faible. A l’inverse, pour un médicament très utilisé, une augmentation même très faible du risque de développer une maladie concernant une maladie très fréquente pourra avoir un impact sanitaire considérable.
Or l’étude rapportée dans cet article concerne une classe médicamenteuse extrêmement utilisée en France et dans le monde. Les inhibiteurs de pompe à protons (IPP) sont en effet utilisés chaque année par plus de 15 millions d’utilisateurs en France (dans la moitié des cas sans que l’on puisse identifier un motif de prescription correspondant aux indications reconnues). Elle concerne par ailleurs une maladie très fréquente, la démence, qui est de surcroît une cause majeure de dépendance.
L’existence d’une association sur ce sujet avec suffisamment d’arguments en faveur d’une relation causale nécessiterait de revoir totalement la place des IPP dans la prise en charge des patients, et de ré-évaluer un grand nombre de traitements en cours.
Il était donc indispensable de voir si cette étude est à même d’apporter ce type d’informations, ce d’autant qu’elle a reçu un certain écho dans les médias généralistes.
Rappel : dans l’évaluation d’une étude observationnelle, la question n’est pas de savoir si l’étude démontre une relation causale (elle ne le peut pas) mais si elle met en évidence une relation avec une méthodologie suffisamment forte pour que le caractère causal soit considéré comme très probable.

Ce qu’en pense la SFPT :

Une étude intéressante sur un sujet important, mais qui présente des carences et des incohérences
Il s’agit d’une étude de cohorte de terrain, schéma observationnel solide où tous les individus bénéficient des mêmes conditions de suivi et d’évaluations pour la mesure des caractéristiques de santé, de prise médicamenteuse et de survenue de la maladie. Elle conclue à une augmentation du risque de développer une démence chez les sujets ayant utilisé des IPP pendant plus de 4,4 ans.

Forces et limites de l’étude :

Le diagnostic de démence fait ici l’objet d’une procédure bien détaillée, identique entre tous les sujets ; il a été validé sans que l’historique de consommation de médicament ait été connu ce qui permet d’éliminer un biais de dépistage. Les deux variables (diagnostic et utilisation médicamenteuse) ont été recueillies prospectivement à l’aide de procédure standardisée, c’est un aspect très important en termes de qualité et niveau de preuve.
La démence est une maladie dont le développement est lent et débute longtemps avant le diagnostic. Pour ne considérer que des prises médicamenteuses ayant un effet plausible sur son développement, les auteurs ont uniquement relevé les prises médicamenteuses dans la période de 11 ans précédant celle où les nouveaux cas de démence ont été recherchés. C’est un choix correct mais de meilleures options existent. Une période de censure (ou de lag time) dans laquelle on ne prend pas à compte les cinq ou dix années précédant la date de diagnostic aurait été plus robuste. Le fait que l’association n’ait été retrouvée que pour les cumuls d’utilisation les plus importants (plus de 4,4 ans d’utilisation cumulée) compense en partie cette faiblesse puisqu’elle implique que l’utilisation ait débuté au minimum 4,4 ans avant le diagnostic.
La quantification de la durée d’utilisation des IPP pose question. En cas de visite (ou appel) non réalisé (et donc d’ignorance concernant l’utilisation médicamenteuse à un temps du suivi), les auteurs utilisaient la procédure du last observation carried forward. Celle-ci consiste à reporter à l’identique la mesure précédente, qui pouvait ici dater d’une ou plusieurs années. L’erreur d’évaluation de la durée cumulée d’utilisation est donc potentiellement très importante.
Des facteurs de confusion potentiels ont été pris en compte tels qu’ils étaient présents en début de suivi. Ceci permet par exemple d’éliminer des analyses l’influence potentielle du sexe, de l’âge, du niveau d’éducation, des antécédents d’hypertension artérielle, de diabète, de la prise d’aspirine ou d’autres médicaments. On regrette cependant que cette recherche de confusion n’ait pas considéré les antécédents de syndrome coronaire aigu (infarctus du myocarde et apparentés) par exemple. C’est une autre limite, d’autant que nous n’avons pas identifié de protocole enregistré au préalable (ce n’est pas une obligation mais il permettrait de connaître les modalités de choix de ces variables d’ajustement).
Quand on étudie le risque potentiel lié à l’utilisation d’un médicament, on court dans les études pharmaco-épidémiologiques le risque d’un biais spécifique, le biais d’indication. En résumé ici, si l’indication (la raison de la prescription des IPP) est une maladie augmentant le risque de développer une démence, alors les sujets traités par IPP apparaitront à risque augmenté de démence simplement du fait de leur maladie, sans que cela implique un rôle des IPP. Ici encore, une bonne manière d’éliminer ce biais est de comparer le risque de développer une démence chez des sujets traités par IPP et chez des sujets traités par d’autres médicaments avec la même indication. C’est ce que les auteurs ont fait dans leur analyse de sensibilité en utilisant comme comparateurs d’autres médicaments antisécrétoires, les antihistaminiques H2. Et c’est une grande force de l’étude. Or l’association retrouvée initialement disparaît totalement dans ces analyses, ce qui est présenté de manière très contradictoire dans l’article (mention de la disparition puis mention de résultats conservés avec augmentation du risque).

En conclusion, cette étude observationnelle présente des forces certaines mais également une faiblesse importante concernant la mesure cumulée de l’exposition. Il y a en outre une contradiction majeure concernant les analyses de sensibilité telles que présentés dans la section résultats/tableaux et dans la discussion.

Cette étude n’offre donc pas suffisamment de garanties méthodologiques pour pouvoir envisager une relation causale. Elle ne peut conduire à reconsidérer les prescriptions effectuées dans un cadre dans lequel le bénéfice est évident et a été clairement démontré.

La SFPT rappelle que c’est avant tout cette question qu’il faut se poser indépendamment de cette étude : toute prescription ne présentant pas de bénéfice avéré est une prescription à risque certain et injustifié (les IPP ont d’autres effets indésirables qui ne font pas débat) et à coût certain et tout aussi injustifié.

Pour approfondir ...#M012 Utilisation prolongée de médicaments protecteurs gastriques (les IPP) et augmentation...

Dernière mise à jour le 11 septembre 2023.

#M011 DUPLICATE-RCT : Peut-on se passer des essais contrôlés randomisés ?

De quoi parle-t-on ?

Shirley V. Wang, Sebastien Schneeweiss, and the RCT-DUPLICATE Initiative, Emulation of Randomized Clinical Trials With Nonrandomized Database Analyses, Results of 32 Clinical Trials, JAMA. 2023;329(16):1376-1385. doi:10.1001/jama.2023.4221

Pourquoi a-t-on choisi cet article ?

Depuis la naissance de l’evidence based medicine, les essais contrôlés randomisés règnent en haut de la pyramide du niveau de preuve^1,2. Et si, à l’heure de l’émulation d’essais contrôlés par les méthodes de pharmaco-épidémiologie, cette ère était révolue ? C’est la question à laquelle Shirley V. Wang et Sebastian Schneeweiss, au sein de RCT-Duplicate Initiative, ont essayé de répondre dans leur article du JAMA publié en avril 2023.
Leur idée est la suivante : reproduire le plus fidèlement possible 32 essais contrôlés randomisés via 3 bases de données d’assurances santé américaines (Optum Clinformatics, MarketScan et Medicare), et comparer les résultats obtenus. Verdict ?

Ce qu’en pense la SFPT : principaux messages de l’article

Les résultats de cette étude étaient attendus avec impatience, car ils devaient représenter l’aboutissement d’une discussion vieille de plus de 20 ans^3–5 au sujet de la possibilité de produire des preuves de l’efficacité des traitements par des études observationnelle (« real world evidence »⁶)
Ce qui est remarquable c’est que durant cette période, la question a été abordée de manière rationnelle en cherchant 1) ce qui pourrait expliquer la non-confirmation par des RCT de résultats d’études observationnelles qui paraissaient cependant robustes et 2) qu’elles étaient les solutions aux problèmes identifiées.
Cette démarche rigoureuse, souvent théorique (comme la théorie de l’inférence causale) a permis de mettre en évidence que les problèmes ne résidaient pas uniquement au niveau de la confusion et du manque de randomisation, mais concernaient aussi des points de démarche scientifique de base (approche exploratoire, rétrospective, p-hacking) qui pouvaient être facilement solutionnés par l’application des mêmes principes que ceux employés dans l’essai contrôlé randomisé (étude de confirmation d’hypothèse^7,8, protocole et plan d’analyse établis a priori avec une attestation de non-dérogation des analyses, utilisation d’estimands causal, etc.²). Ces réflexions ont débouché sur l’approche de l’émulation de l’essai cible^9,10.
Nous sommes donc face à un article d’une qualité méthodologique rare, associé à une quantité de travail qui l’est tout autant (32 émulations d’essais cliniques dans un seul article !). S’il n’y avait qu’un message à retenir : Lorsque l’on s’approche au plus près possible des conditions du RCT cible, la performance de l’émulation est bonne voire très bonne… Malheureusement, cela est rarement possible. Les auteurs nous livrent en toute transparence les nombreuses difficultés rencontrées pour émuler l’essai cible (Comment mimer un placebo ? Comment suivre les titrations de posologie ? comment approximer les critères d’inclusion ou les critères de jugements ?), qui limitent la capacité de ces études de pharmaco-épidémiologie à se glisser « dans la peau » des RCT.
En revanche, les exemples de concordance devraient inciter à mener un nouveau cycle de réflexion/développement/validation en commençant par essayer de comprendre les causes des discordances afin d’identifier, si c’est possible, des conditions de validité de cette approche. Ce cycle devant déboucher sur une nouvelle validation empirique, qui devra comporter quelques cas de validations prospectives (par exemple avec des phases 4 randomisées en cours)

pharmacoépidémiologie, études randomisées

Pour approfondir ...#M011 DUPLICATE-RCT : Peut-on se passer des essais contrôlés randomisés ?

Dernière mise à jour le 22 juin 2023.

Menu principal

Menu blog de la méthodologie

#M015 Développement croissant de la méthodologie des études observationnelles d’évaluation de l’efficacité des traitements : à propos de deux exemples récents.

De quoi parle-t-on ?

Pourquoi a-t-on choisi ces articles ?

Ce qu’en pense la SFPT

#M014 Essai de non-infériorité : choix du seuil de non-infériorité et expression en différence de risques ou en rapport de risques

De quoi parle-t-on ?

Pourquoi a-t-on choisi cet article ?

Ce qu’en pense la SFPT : principaux messages de l’article

#M013 Critères de jugements négatifs: une méthode d’évaluation de la confusion résiduelle

De quoi parle-t-on ?

Pourquoi a-t-on choisi cet article ?

Ce qu’en pense la SFPT

#M012 Utilisation prolongée de médicaments protecteurs gastriques (les IPP) et augmentation potentielle du risque de développer une démence

De quoi parle-t-on ?

Pourquoi a-t-on choisi cet article ?

Ce qu’en pense la SFPT :

Cette étude n’offre donc pas suffisamment de garanties méthodologiques pour pouvoir envisager une relation causale. Elle ne peut conduire à reconsidérer les prescriptions effectuées dans un cadre dans lequel le bénéfice est évident et a été clairement démontré.

#M011 DUPLICATE-RCT : Peut-on se passer des essais contrôlés randomisés ?

De quoi parle-t-on ?

Pourquoi a-t-on choisi cet article ?

Ce qu’en pense la SFPT : principaux messages de l’article