Accéder au contenu principal
Recevez par mail les nouveaux posts du blog

#M015 Développement croissant de la méthodologie des études observationnelles d’évaluation de l’efficacité des traitements : à propos de deux exemples récents.

De quoi parle-t-on ?

  1. Krüger N, Schneeweiss S, Fuse K, Matseyko S, Sreedhara SK, Hahn G, et al. Semaglutide and Tirzepatide in Patients With Heart Failure With Preserved Ejection Fraction. JAMA. 2025 Aug 31
  2. Jourdain H, Di Meglio A, Mansouri I, Desplas D, Zureik M, Haddy N. Real-world efficacy and safety of trastuzumab deruxtecan versus trastuzumab emtansine and tucatinib as second-line and third-line treatments for HER2-positive metastatic breast cancer: two target trial emulation studies. The Lancet Regional Health - Europe. nov 2025;58:101455.

Pourquoi a-t-on choisi ces articles ?

Deux publications récentes d’études observationnelles visant à évaluer l’intérêt clinique de traitements doivent attirer notre attention en raison de l’utilisation d’éléments de méthodologie sophistiqués et encore trop rarement employés visant à renforcer nettement la crédibilité de leurs résultats et de les rendre, peut-être, exploitables pour la prise de décision. Ces éléments étant jusqu’à présent assez peu présents dans ce type d’étude méritent une discussion à part entière à propos de ces exemples.

Ce qu’en pense la SFPT

Ces deux études mettent en évidence les avancées méthodologiques et perspectives des études observationnelles inférentielles appliquées à l’évaluation des traitements. Si les exemples étudiés illustrent l’apport des concepts récents d’épidémiologie théorique, aucune étude n’intègre à ce jour l’ensemble des exigences méthodologiques qui pourrait suffire à une décision régulatoire [1]. Ces nouvelles approches sont pourtant indispensables, car elles apportent des solutions aux faiblesses qui limitaient jusque-là l’acceptabilité des études observationnelles pour guider la décision thérapeutique ou réglementaire.

La mise en œuvre de ces méthodes suppose des données particulières, rarement disponibles dans les bases actuelles. Par exemple, les contrôles négatifs exigent des événements cliniques indépendants de la pathologie étudiée, souvent absents des registres. De même, les facteurs de confusion pertinents peuvent être éloignés des variables habituellement recueillies. Pour atteindre un niveau de fiabilité suffisant, il faut donc anticiper ces besoins dès la conception des bases, en prévoyant variables, contrôles et critères de jugement pertinents. L’objectif étant de passer d’une logique opportuniste, fondée sur les données disponibles, à une démarche hypothético-déductive où la question de recherche guide la collecte et l’usage des données.

Pour approfondir

Etude 1 : Kruger et al.

L’étude par Kruger et al dans le JAMA vise à évaluer l’effectiveness de deux SGLT2 inhibiteurs dans l’insuffisance cardiaque à fraction d’éjection préservée et dans les conditions de leur utilisation. <<< Elle aborde donc une question de transposabilité (ou généralisabilité) de l’effet de ces traitements observé dans leurs essais cliniques à une population plus large et diverse.>>> Pour répondre à cette question avec un degré de crédibilité maximal, la méthodologie a été particulièrement bien soignée.

Mitigation des limites liées à l’analyse rétrospective des données

Bien que leur étude porte sur une analyse rétrospective, ils garantissent l’absence de HARKing et de p-hacking en attestant explicitement que le protocole et le plan d’analyse statistique ont été établis a priori avant toute analyse inférentielle.
« The study protocols, design, and coding algorithms were aligned across all 3 databases and deposited in ClinicalTrials.gov (NCT06914102, NCT06914154, NCT06914141) before any inferential outcome analyses were started »
En effet, une des limites majeures des études rétrospectives, qui sont des études conçues alors que les données sont déjà disponibles, est la possibilité de choisir l’objectif et la méthodologie de l’étude à partir d’une analyse préalable des données. À partir de ce moment, l’étude ne respecte plus la démarche hypothético-déductive, et devient tautologique : l’étude teste une hypothèse à partir de données qui ont servi à la générer. L’étude ne peut être que positive et ne confronte en rien l’hypothèse à la réalité des faits. On parle de HARking : hypothesing after the resuts are known [2]. De même l’analyse des données peut être adaptée en fonction des résultats produits (p-hacking) [3, 4]. Garantir l’absence de ces problèmes n’est pas simple avec les analyses rétrospectives, car rien ne prouve qu’un protocole a été effectivement bien élaboré avant l’analyse étant donné que les données sont disponibles au moment de la genèse de l’idée de l’étude, sauf une attestation explicite des auteurs [5]. En effet, si cette attestation est faite abusivement, on se retrouve dans une situation de fraude et non pas de « simple » méconduite scientifique.
Par cette attestation explicite, cette étude rejoint la robustesse des études prospectives sur ces points.
Par ailleurs, pour contrôler le risque alpha global en situation de multiplicité des comparaisons (nombreux critères de jugement) cette étude a adopté la même rigueur qu’un essai clinique. Une approche simple a été utilisée en définissant à priori un critère de jugement primaire. Ainsi, seul celui-ci permettra de conclure de manière statistiquement significative. Tous les autres critères sont, par opposition, secondaires et donc sans contrôle du risque alpha global à leur niveau. Ils ne peuvent conduire qu’à des résultats non inférentiels, ne pouvant pas être utilisé comme justification pour faire changer les stratégies thérapeutiques. Une approche plus sophistiquée de gestion de la multiplicité aurait pu être employée, comme une hiérarchisation ou une répartition du risque alpha (par exemple à l’aide d’un Bonferroni employé dans d’autres études [14, 15])

Contrôle positif (benchmarking)

Une limite connue des études observationnelles, en particulier sur bases de données, est la qualité des données en termes d’exactitude, de précision et de complétude. La validation de la qualité des données nécessite en toute rigueur des études de validation spécifique comparant le contenu des bases aux données patient (couramment les dossiers médicaux, mais qui peuvent être aussi inexacts et incomplets) [6]. Bref, une validation lourde, ayant des limites et rarement faite.
Pour ce point cette étude adopte une approche complètement différente qui aura aussi d’autres intérêts. Les mêmes données et la même méthode, que celles qui seront utilisées pour répondre à la question d’intérêt, sont employées pour reproduire les résultats d’essais cliniques connus. Le fait de retrouver les résultats attendus apporte une validation forte non seulement de la qualité des données, mais à propos du design utilisé et de la prise en compte des facteurs de confusion potentiels. Une approche d’émulation d’essai cible est utilisée pour cette validation, mais il convient de noter que l’émulation ne désigne pas cette approche de validation mais une méthode plus générale de conception des études observationnelles. L’approche de validation par rapport à des résultats connus est souvent appelée benchmarking ou contrôle positif [7]. Compte tenu de leur intérêt pour rassurer sur l’aptitude des données et de la méthode à produire des résultats fiables, ces analyses de contrôle positif devraient être systématiques dans les études à but inférentiel et décisionnel. À condition, bien sûr, qu’elles soient réalisées avec des garanties d’absence de HARKing et p-hacking, car il est bien évidement presque toujours possible d’obtenir des résultats que l’on connait déjà par p-hacking. Retrouver des résultats attendus dans une étude ne garantissant pas l’absence de HARKing et de p-hacking n’a aucune valeur scientifique [8].

Évaluation du biais de confusion résiduel, les contrôles négatifs

Une autre limite importante des études observationnelles provient des limites de la prise en compte par l’analyse et/ou la conception de la cohorte d’étude des facteurs de confusion : difficulté à identifier tous ces facteurs de confusion, difficulté à disposer de la mesure de tous ces facteurs dans les bases de données et incertitudes sur le fait que le modèle utilisé correspond bien à la forme des relations existantes dans les données (notion de bonne spécification du modèle) [9].
Pour cette question, cette étude utilise des contrôles négatifs, c’est-à-dire la mesure d’associations que l’on sait ne pas exister, mais qui sont sous l’influence de la totalité ou d’une partie, des mêmes facteurs de confusion que les associations d’intérêts [10, 11].
« To assess potential residual confounding, we evaluated negative control outcomes: new occurrence of lumbar radiculopathy and abdominal hernia. Neither has a biologically plausible association with the study drugs »
Dans ce cas, si une association non nulle est retrouvée au niveau des contrôles négatifs, cela signe (et pour certains, mesure) l’existence d’un biais de confusion résiduel (invalidant la possibilité de conclure sur la base de résultats d’intérêt). Mais retrouver l’absence d’association permet de rassurer sur l’absence de biais de confusion résiduel avec l’analyse « ajustée » effectuée (sans vraiment le démontrer formellement).
« No associations were observed for the 2 negative controls: lumbar radiculopathy occurrence (HR for semaglutide vs sitagliptin, 1.01 [95% CI, 0.91 to 1.12]; HR for tirzepatide vs sitagliptin, 0.99 [95% CI, 0.79 to 1.23]; HR for tirzepatide vs semaglutide, 0.98 [95% CI, 0.88 to 1.09]) and abdominal hernia (HR for semaglutide vs sitagliptin, 1.00 [95%CI,0.89 to 1.12]; HR for tirzepatide vs sitagliptin, 0.92 [95% CI, 0.71 to 1.19]; HR for tirzepatide vs semaglutide, 0.96 [95% CI, 0.83 to 1.10]), supporting the validity of the analyses (eTable 16 in Supplement 1). »
Les auteurs ont de plus conduit une analyse post hoc afin d’évaluer la force et le déséquilibre qu’un facteur de confusion résiduel devrait avoir pour nullifier les résultats (équivalent à une E-value avec plusieurs scénarios (FigureA).
“In our analysis, we assumed a prevalence of the unmeasured confounder of 20% after adjustment and explored parameter combinations for two observed effect sizes from emulating STEP-HFpEF DM and SUMMIT (ARR = 0.58 and ARR = 0.42). As shown in Figure A, to nullify these associations, a hypothetical unmeasured confounder would need to be:

  • Very strongly associated with both exposure and outcome, e.g., OREC > 10 and RRCD > 70% for ARR = 0.58.
  • These values lie in the extreme upper-left region of the sensitivity curve, suggesting that such a confounder would have to be implausibly strong and imbalanced after covariate adjustment."

Approche multibases

Cette étude a aussi utilisé une approche multibase : la même association est recherchée avec la même méthode générale sur 3 bases différentes [12, 13].
« The study was completed using 3 US claims data sources: Medicare Parts A, B, and D (2018 through 2020), Optum Clinformatics  Data Mart (2018 through November 2024), and Merative Market Scan (2018 through 2022). »
Le résultat de l’étude ne sera pas choisi parmi les 3 résultats obtenus, mais bien leur méta-analyse afin d’éviter un biais de « selective reporting ».
L’intérêt de ces approches multibases est de limiter le risque de conclure sur un résultat purement artéfactuel n’existant que dans une base de données particulière. Cette approche augmente ainsi la reproductibilité des résultats d’une étude à l’autre. De plus elle participe à la prévention du biais de publication. Si le standard de ces études est de rapporter plusieurs analyses sur des sources différentes, cela pourrait limiter les risques de non-publication de certaines analyses en fonction de leur résultat.  Ce type d’étude pose néanmoins des problèmes de définition d’estimands et d’inférence causale (voir Downes, Am J Epidemiol 2025 https://doi.org/10.1093/aje/kwae405 pour approfondir).

Etude 2: Jourdain et al.

L’étude par Jourdain et collaborateurs avait pour objectif de comparer 3 traitements dans le cancer du sein métastatiques HER2+ en deuxième et troisième ligne.
Cette étude met aussi en œuvre des éléments méthodologiques avancés et encore peu employés.

Émulation d’un essai cible

Les 2 études rapportées par cet article ont eu recours à une approche d’émulation d’un essai cible [16–18].
« We emulated two target trials using the French National Health Data System: T-DXd versus T-DM1 and TDXd versus tucatinib, for second- and third-line HER2+ mBC treatment »
L’émulation d’un essai cible est un cadre conceptuel d’aide à la construction des études observationnelles inférentielles permettant d’éviter des erreurs de conception induisant des biais, notamment liés au temps [16–18]. La première étape consiste à élaborer le protocole d’un essai clinique randomisé hypothétique qui répondrait à la question d’intérêt puis de concevoir l’étude observationnelle afin d’émuler au plus près ce qui se passerait dans cet essai en termes de constitution des groupes, de début, fin de suivi et d’identification des critères de jugement. Cette approche est particulièrement aidante pour limiter les biais liés au temps, et pour la compréhension du biais de sélection et de ses conséquences en termes de définition du suivi des patients dans les 2 groupes.
Au-delà de ses intérêts théoriques, cette approche a aussi fait l’objet d’évaluations empiriques [19–21]. Elle est maintenant mentionnée dans plusieurs recommandations méthodologiques sur les études inférentielles des bénéfices des traitements [22, 23].

Identification des facteurs de confusion potentiels par un réseau de causalité

Un point fort de cette étude est l’utilisation de graph orienté acyclique (directed acyclic graph, DAG) pour l’identification des covariables à prendre en compte dans l’analyse [24, 25].
« A directed acyclic graph (DAG), developed using DAGitty (https://dagitty.net/), was used to identify potential confounders and precision variables for inclusion in the propensity score model, based on clinical and causal hypotheses »
L’identification des facteurs de confusion est une étape cruciale et les résultats seront d’autant plus convaincants que tous les facteurs de confusion auront été pris en compte dans l’analyse. Pour s’assurer de ce point, le lecteur à besoin de la liste des facteurs de confusion potentiels. Cette liste ne peut pas s’inventer et doit découler d’une analyse fine des interrelations qui pourraient exister entre le traitement donné par les médecins, le critère de jugement et d’autres variables qui pourraient jouer le rôle, entre autres, de facteur de confusion. Il est donc nécessaire de montrer que la liste des covariables utilisées découle bien d’un processus formalisé d’identification des variables à prendre en compte dans la construction de la cohorte et n’est pas seulement la liste des variables disponible ou considérée arbitrairement comme devant être prise en compte (comme c’est trop souvent le cas). De plus cette approche permet d’éviter l’ajustement sur certaines variables qui induiraient un biais (collisionneurs et intermédiaire).
Pour formaliser cette démarche, ont été élaborées des méthodologies comme les DAGs utilisés dans cette étude. Pour le lecteur de ces études, qui ne peut pas avoir une connaissance infuse des facteurs de confusion de tous les domaines, l’utilisation correcte par les investigateurs d’un processus formalisé standardisé lui donne une certaine assurance que la liste présentée est cohérente avec les connaissances sur la pathologie d’intérêt et ses potentielles associations avec le facteur étudié. Ensuite il sera simple de juger si tous les facteurs de confusion ont pu être pris en compte et d’en déduire le risque de biais de confusion.
Ce qui est important de noter c’est que les DAG sont un outil d’identification des covariables pertinentes et non pas une représentation graphique des variables choisies arbitrairement ou tout du moins sans approche formalisée. Néanmoins, on peut dans cette étude se poser la question de l’exhaustivité des facteurs de confusion présentés dans le DAG et de leur bonne identification par les algorithmes proposés (qui ne contiennent dans le SNDS, on le rappelle, pas de données biologiques).

E value pour évaluer le biais de confusion résiduel

Pour la question du diagnostic du biais de confusion résiduel, cette étude n’a pas utilisé des contrôles négatifs comme la précédente, mais une analyse quantitative de biais avec le calcul de la E-value [26, 27].
« We computed the e-value to quantify the minimum strength of association that an unmeasured confounder would need to have with the exposure and the outcome, in order to explain the observed association. »
Contrairement aux analyses de falsification avec des contrôles négatif qui cherchent à montrer que les résultats produits par l’étude sont faux, l’analyse quantitative de biais éprouve la robustesse du résultat produit en montrant qu’il ne peut être expliqué entièrement, ou difficilement, par un biais de confusion résiduel. La e value est cependant difficile à interpréter [25], représente potentiellement l’effet conjugué de multiples facteurs de confusions non mesurés, et peut être moins convaincante que l’utilisation de contrôles négatifs [26].

Autres points

À côté de ces points forts, restent en suspens quelques questions concernant la démarche hypothético-déductive et les garanties d’absence de HARKing et p-hacking. Sur ce dernier point, la publication et son supplément ne référencent pas de protocole et ne mentionnent pas non plus d’enregistrement [28]. Contrairement à l’article précédent, celui-ci ne garantit donc pas formellement l’absence de HARKing et de p-hacking. Compte tenu de la conclusion à la supériorité du trastuzumab deruxtecan (T-DXd) par rapport au trastuzumab emtansine (T-DM1) en deuxième ligne et au tucatinib en troisième ligne, ce point est aussi assez crucial pour savoir qu’elle était l’hypothèse originelle testée par cette étude. En effet, l’évaluation à but inférentiel des traitements nécessite impérativement des études de confirmation, spécialement réalisées pour tester une hypothèse de supériorité ou de non-infériorité d’un traitement par rapport à l’autre, afin de bénéficier de la solidité épistémologique apportée par la démarche hypothético-déductive. C’est ainsi que dans le cadre des essais cliniques, ICH E9 [29] fait clairement la distinction entre les essais de confirmation et les essais exploratoires, ces derniers étant insuffisamment robustes, du fait de leur approche purement inductive, pour constituer des études pivots prises en compte dans la décision. Cette distinction étant d’ordre épistémologique, elle s’applique de facto aux études observationnelles [30, 31]. Ainsi le guide IPSOR/ISPE sur les études observationnelles dites de comparative effectiveness fait la même distinction entre les études de confirmation « Hypothesis Evaluating Treatment Effectiveness (HETE) studies » et les études exploratoires « Exploratory Treatment Effectiveness Studies » [32].
La pré-formulation de l’hypothèse est indispensable dans un cadre de comparaison de 2 traitements. Sans cela l’étude ne peut jamais être « négative », non concluante, ne cherchant à réfuter aucune hypothèse. La conclusion à la supériorité d’un traitement par rapport à l’autre (ou à son infériorité ou à la non-différence entre les 2 traitements) reposera alors uniquement sur un raisonnement inductif qui est faible, car non logiquement contraint (modus tollens).
Dans cette étude, la formulation utilisée pour décrire l’essai cible « we emulated two target trials from real-world data for patients with HER2 + mBC, to compare the efficacy and safety of T-DXd with those of T-DM1 for second-line treatment, and the tucatinib combination for third-line treatment» est insuffisamment précise pour s’assurer que l’hypothèse était bien la supériorité du T-DXd, certitude que seule peut apporter un protocole établi a priori [28, 33, 34].

Conclusion et perspectives

Le but de cette analyse n’était pas de statuer sur le niveau de démonstration (degré de crédibilité) des résultats produits par ces études en termes de décision. Chacune de ces études à des points forts comme nous venons de le voir, mais l’analyse croisée montre qu’aucune n’intègre simultanément tous les éléments de méthodologie abordée.
Cependant, ces deux exemples montrent clairement que les concepts développés ces dernières années en épidémiologie théorique peuvent être mis en œuvre dans les études observationnelles à but inférentiel sur les bénéfices et les effets délétères des traitements. Ces nouveaux éléments de méthodologie doivent ainsi être impérativement utilisés, car ils apportent des solutions à plusieurs problématiques des études observationnelles qui limitaient jusqu’à présent leur acceptabilité pour l’élaboration des stratégies thérapeutiques et la régulation. Il n’est pas encore certain que ces solutions corrigent en totalité ces problématiques et des travaux complémentaires de méta-recherche sont encore nécessaires pour apporter cette confirmation et appréhender avec précision la fiabilité des résultats produits par les études observationnelles de ce type [35].
En pratique il apparait que la réalisation de ce type d’études nécessite des données assez particulières qui ne sont pas forcément présentes dans les sources actuelles. Par exemple, la réalisation de contrôles négatifs nécessite la disponibilité d’événements cliniques qui sont sans aucune relation causale avec l’exposition médicamenteuse. De ce fait ces variables ne sont pas envisagées lorsque l’on constitue un registre de pathologie ou traitement par exemple. De même pour les facteurs de confusion, qui peuvent être assez éloignés des variables d’intérêt habituelles d’une pathologie. Un exemple est donné en oncologie par les facteurs de confusion de la survie globale (critère le plus cliniquement pertinent et le plus fiable métrologiquement en observationnel). Si le cancer est de relativement bon pronostic (cancer du sein précoce par exemple), surviendront des décès non liés à la pathologie comme des décès cardiovasculaires, neurologiques, etc. Les facteurs de confusion potentiels de la mortalité totale pourront alors comprendre des facteurs de risque de ces causes non liées à la maladie (par exemple des facteurs de risque cardiovasculaires si un des traitements comparés à des contre-indications cardiovasculaires en raison d’un surcroit d’hypertension artérielle).
Sans ces variables, qui sont indispensables pour mettre en œuvre ces éléments méthodologiques qui permettent d’établir la fiabilité des résultats produits, il va être impossible de réaliser des études inférentielles sur les bénéfices des traitements de niveau de fiabilité nécessaire pour les prendre en compte dans la décision. Ces variables peuvent être ajoutées par chainage de différentes sources de données, mais il est aussi possible de les recueillir directement si elles sont anticipées. Cette anticipation nécessite seulement d’envisager cet usage à la conception du recueil des données et de réfléchir dès ce stade aux facteurs de confusion possibles (établissement d’un DAG générique par exemple) et aux contrôles négatifs et positifs. Il conviendrait aussi d’inclure les critères de jugement qui seront nécessaire pour juger correctement de l’intérêt des traitements (cf. les 4 domaines de relevance des données que l’on retrouve entre autres dans le guide FDA [36]).
Cette évolution méthodologique des études inférentielles sur les bénéfices des traitements met ainsi en évidence qu’il est nécessaire de changer d’optique avec les études sur données de santé concernant les traitements et de passer d’une approche plutôt opportuniste : « quelles études puis-je faire avec ces données ? », qui au mieux ne peut produire que des résultats exploratoires impropre à la décision, à une approche plus conforme à la démarche scientifique habituelle hypothético-déductive : « où puis-je, éventuellement, trouver des données appropriées à l’étude qu’il est nécessaire de réaliser pour répondre à cette question d’intérêt ? » [5].
Bref, de passer, d’une approche partant des données vers les études, à une approche inverse, partant de la question et descendant vers des données si, éventuellement, les données nécessaires pour répondre à cette question avec le niveau de fiabilité compatible avec l’intégrité scientifique existent déjà. La finalité de la démarche scientifique est de produire des réponses factuelles à des questions, pas simplement de produire des études [37–39].
<<<Bref de passer d’une approche où l’étude sert de prétexte à la collection de données à une approche où la collection des données est un outil au service de la recherche de réponses aux questions qui se posent dans le processus de génération des connaissances.>>>
Il est un principe immuable en épidémiologie, maintes fois vérifié, qui est que la question et l’étude doivent précéder la collecte des données. Autrement, le risque est de constituer un cimetière de données, inutilisable pour répondre aux questions qui se posent.

REFERENCES

  1. Cucherat M, Demarcq O, Chassany O, et al. Methodological expectations for demonstration of health product effectiveness by observational studies. Therapie 2025;80(1):47–59. doi:10.1016/j.therap.2024.10.062 [published Online First: 5 December 2024].
  2. Kerr NL. HARKing: hypothesizing after the results are known. Pers Soc Psychol Rev 1998;2(3):196–217.
  3. Head ML, Holman L, Lanfear R, et al. The extent and consequences of p-hacking in science. PLoS Biol 2015;13(3):e1002106. doi:10.1371/journal.pbio.1002106 [published Online First: 13 March 2015].
  4. Huebner M, Vach W, Le Cessie S, et al. Hidden analyses: a review of reporting practice and recommendations for more transparent reporting of initial data analyses. BMC Med Res Methodol 2020;20(1):61. doi:10.1186/s12874-020-00942-y [published Online First: 13 March 2020].
  5. Desai RJ, Wang SV, Sreedhara SK, et al. Process guide for inferential studies using healthcare data from routine clinical practice to evaluate causal effects of drugs (PRINCIPLED): considerations from the FDA Sentinel Innovation Center. BMJ 2024;384:e076460. doi:10.1136/bmj-2023-076460 [published Online First: 12 February 2024].
  6. FDA/ CDER CBER OCE. Real-World Data: Assessing Electronic Health Records and Medical Claims Data to Support Regulatory Decision-Making for Drug and Biological Products.
  7. Dahabreh IJ, Robins JM, Hernán MA. Benchmarking Observational Methods by Comparing Randomized Trials and Their Emulations. Epidemiology 2020;31(5):614–19. https://journals.lww.com/epidem/Citation/2020/09000/Benchmarking_Observational_Methods_by_Comparing.2.aspx.
  8. Breznau N, Rinke EM, Wuttke A, et al. Observing many researchers using the same data and hypothesis reveals a hidden universe of uncertainty. Proc Natl Acad Sci U S A 2022;119(44):e2203150119. doi:10.1073/pnas.2203150119 [published Online First: 28 October 2022].
  9. Kyriacou DN, Lewis RJ. Confounding by Indication in Clinical Research. JAMA 2016;316(17):1818–19.
  10. Lipsitch M, Tchetgen ET, Cohen T. Negative Controls: A Tool for Detecting Confounding and Bias in Observational Studies. Epidemiology 2010;21(3):383–88. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3053408/.
  11. Piccininni M, Stensrud MJ. Using Negative Control Populations to Assess Unmeasured Confounding and Direct Effects. Epidemiology (Cambridge, Mass.) 2024;35(3):313–19. doi:10.1097/EDE.0000000000001724 [published Online First: 7 March 2024].
  12. Wang SV, Verpillat P, Rassen JA, et al. Transparency and Reproducibility of Observational Cohort Studies Using Large Healthcare Databases. Clin Pharmacol Ther 2016;99(3):325–32.
  13. Schuemie MJ, Ryan PB, Hripcsak G, et al. Improving reproducibility by using high-throughput observational studies with empirical calibration. Philos Trans A Math Phys Eng Sci 2018;376(2128).
  14. Tiihonen J, Taipale H, Mehtälä J, et al. Association of Antipsychotic Polypharmacy vs Monotherapy With Psychiatric Rehospitalization Among Adults With Schizophrenia. JAMA Psychiatry 2019;76(5):499–507.
  15. Hripcsak G, Suchard MA, Shea S, et al. Comparison of Cardiovascular and Safety Outcomes of Chlorthalidone vs Hydrochlorothiazide to Treat Hypertension. JAMA Intern Med 2020.
  16. Hernán MA, Dahabreh IJ, Dickerman BA, et al. The Target Trial Framework for Causal Inference From Observational Data: Why and When Is It Helpful? Ann Intern Med 2025;178(3):402–07. doi:10.7326/ANNALS-24-01871 [published Online First: 18 February 2025].
  17. Hernán MA, Wang W, Leaf DE. Target Trial Emulation: A Framework for Causal Inference From Observational Data. JAMA 2022;328(24):2446–47.
  18. Hernán MA. Methods of Public Health Research - Strengthening Causal Inference from Observational Data. The New England journal of medicine 2021. doi:10.1056/NEJMp2113319 [published Online First: 2 October 2021].
  19. Wang SV, Schneeweiss S, Franklin JM, et al. Emulation of Randomized Clinical Trials With Nonrandomized Database Analyses: Results of 32 Clinical Trials. JAMA 2023;329(16):1376–85 (accessed 26 Apr 2023).
  20. Franklin JM, Patorno E, Desai RJ, et al. Emulating Randomized Clinical Trials With Nonrandomized Real-World Evidence Studies: First Results From the RCT DUPLICATE Initiative. Circulation 2021;143(10):1002–13. doi:10.1161/CIRCULATIONAHA.120.051718 [published Online First: 17 December 2020].
  21. Heyard R, Held L, Schneeweiss S, et al. Design differences and variation in results between randomised trials and non-randomised emulations: meta-analysis of RCT-DUPLICATE data. bmjmed 2024;3(1):e000709. https://bmjmedicine.bmj.com/content/3/1/e000709.
  22. Center for Drug Evaluation and Research (CDER), Center for Biologics Evaluation and Research (CBER), Oncology Center of Excellence (OCE). Real-World Evidence: Considerations Regarding Non-Interventional Studies for Drug and Biological Products Guidance for Industry. https://www.fda.gov/media/177128/download (accessed 20 Mar 2024).
  23. Vanier A, Fernandez J, Kelley S, et al. Rapid access to innovative medicinal products while ensuring relevant health technology assessment. Position of the French National Authority for Health. BMJ Evidence-Based Medicine 2024;29(1):1–5. doi:10.1136/bmjebm-2022-112091 [published Online First: 19 January 2024].
  24. Greenland S, Pearl J, Robins JM. Causal diagrams for epidemiologic research. Epidemiology 1999;10(1):37–48.
  25. Lipsky AM, Greenland S. Causal Directed Acyclic Graphs. JAMA 2022;327(11):1083–84.
  26. VanderWeele TJ, Ding P. Sensitivity Analysis in Observational Research: Introducing the E-Value. Ann. Intern. Med. 2017;167(4):268–74. doi:10.7326/M16-2607 [published Online First: 11 July 2017].
  27. Haneuse S, VanderWeele TJ, Arterburn D. Using the E-Value to Assess the Potential Effect of Unmeasured Confounding in Observational Studies. JAMA 2019;321(6):602–03.
  28. Naudet F, Patel CJ, DeVito NJ, et al. Improving the transparency and reliability of observational studies through registration. BMJ 2024;384:e076123. doi:10.1136/bmj-2023-076123 [published Online First: 9 January 2024].
  29. INTERNATIONAL COUNCIL FOR HARMONISATION OF TECHNICAL REQUIREMENTS FOR PHARMACEUTICALS FOR HUMAN USE. ADDENDUM ON ESTIMANDS AND SENSITIVITY ANALYSIS IN CLINICAL TRIALS TO THE GUIDELINE ON STATISTICAL PRINCIPLES FOR CLINICAL TRIALS E9(R1).
  30. Schwab S, Held L. Different Worlds Confirmatory Versus Exploratory Research. Significance 2020;17(2):8–9.
  31. Panagiotou OA, Heller R. Inferential Challenges for Real-world Evidence in the Era of Routinely Collected Health Data: Many Researchers, Many More Hypotheses, a Single Database. JAMA Oncol 2021;7(11):1605–07.
  32. Berger ML, Sox H, Willke RJ, et al. Good practices for real-world data studies of treatment and/or comparative effectiveness: Recommendations from the joint ISPOR-ISPE Special Task Force on real-world evidence in health care decision making. Pharmacoepidemiol Drug Saf 2017;26(9):1033–39.
  33. Orsini LS, Monz B, Mullins CD, et al. Improving transparency to build trust in real-world secondary data studies for hypothesis testing-Why, what, and how: recommendations and a road map from the real-world evidence transparency initiative. Pharmacoepidemiol Drug Saf 2020;29(11):1504–13. doi:10.1002/pds.5079 [published Online First: 13 September 2020].
  34. Leducq S, Zaki F, Hollestein LM, et al. The majority of observational studies in leading peer-reviewed medicine journals are not registered and do not have a publicly accessible protocol: a scoping review. Journal of Clinical Epidemiology 2024:111341. doi:10.1016/j.jclinepi.2024.111341 [published Online First: 29 March 2024].
  35. Hernán M. Introduction to causal inference from observational data.
  36. Center for Drug Evaluation and Research (CDER), Center for Biologics Evaluation and Research (CBER), Oncology Center of Excellence (OCE). Considerations for the Use of Real-World Data and Real-World Evidence to Support Regulatory Decision-Making for Drug and Biological Products (accessed 17 Sep 2023).
  37. Abbasi AB, Curtis LH, Califf RM. The Promise of Real-World Data for Research - What Are We Missing? N Engl J Med 2025;393(4):318–21. doi:10.1056/NEJMp2416479 [published Online First: 19 July 2025].
  38. Dahly DL, Wilkinson J. Nonrandomized studies of interventions - complementary or just convenient? Fertility and Sterility 2025;0(0). doi:10.1016/j.fertnstert.2025.07.019 [published Online First: 18 July 2025].
  39. Altman DG. The scandal of poor medical research. BMJ 1994;308(6924):283–84.
  • Dernière mise à jour le .