2 TL ; DR - Guide d’évaluation des comparaisons à un groupe contrôle externe
3 Les études de comparaison externe, de quoi s’agit-il ?
5 Les problématiques méthodologiques soulevées par les comparaisons externes
6 Les comparaisons externes sont des études observationnelles
7 Position des agences de régulation et de HTA
8 De la nécessité d’avoir des preuves de l’intérêt cliniques des nouveaux traitements
9 Les sources de données utilisables
10 Les problématiques liées à l’aspect rétrospectif de ces études
12 Démarche hypothético déductive
13 L’inférence causale et les hypothèses sous-jacentes
15 Les techniques d’analyses statistiques
15.1 Les techniques basées sur l’appariement (matching )
15.2.2 Le calcul du score de propension
15.2.3 L’importance du chevauchement des distributions des scores de propension
15.3 L’appariement sur le score de propension
§ Limites de l’appariement sur le score de propension
15.4 Les méthodes de pondération
15.4.1 Principes
§ L’effective sample size (ESS)
§ Distribution des poids, hypothèse de positivité
15.4.2 Pondérations non basées sur le score de propension
15.5 La g computation (g formula)
15.6 Les méthodes doubles robustes
15.7 Les méthodes de régression
15.8 Les techniques d e maching learning (IA)
16 Le diagnostic d’absence de biais de confusion résiduel
18 Identifications des patients dans la source de données
21 Les outils d’évaluation du risque de biais
22 L’émulation d’un essai cible
23 Le benchmarking et les contrôles positifs
24 Analyses de sensibilité , analyses quantitatives du biais
26 Contrôle du risque alpha global
Les méthodes de pondération s’apparentent à des techniques de redressement d’échantillon qui permettent d’obtenir deux échantillon « virtuel » comparables en appliquant des poids bien choisis aux patients d’une étude [151] .
Dans le cas des comparaisons à un groupe contrôle externe, les poids sont seulement appliqués au groupe contrôle afin de le rendre comparable au groupe traité (cf. ci-dessous) et d’obtenir l’estimand ATT attendu (cf. section 13.4).
On peut présenter l’intuition qui est derrière cette approche de la façon simplifiée suivante. Imaginons que le groupe contrôle à un âge moyen plus faible que celui du groupe traité, car il ne comprend qu’un seul patient de 80 ans contre 4 dans le groupe traité. L’idée générale est d’augmenter virtuellement le nombre de patients de 80 ans dans le groupe contrôle en surpondérant (en surreprésentant) celui qui est présent. Pour cela il lui sera donné un poids supérieur à 1, 4 par exemple. Cela conduira à avoir 4 patients virtuels de 80 ans issus de ce patient. Bien sûr, le même poids sera donné au critère de jugement de ce patient. S’il était décédé, cela conduira à 4 décès dans le groupe virtuel. S’il n’était pas décédé, cela ne rajoutera pas de décès au groupe virtuel. Évidemment la méthode réellement employée est bien plus complexe que cela, car les poids appliqués aux patients doivent tenir compte des déséquilibres initiaux sur toutes les variables pour lesquelles l’équilibrage est recherché.
Pour obtenir une comparabilité sur plusieurs variables, la pondération utilisera le score de propension qui repose sur ces variables. De manière générale on parle de techniques de IPW (inverse probability weighting ), de IPTW (inverse probability of treatment weighting).
Une étude monobras évaluant le monocertinib a été comparée à un groupe contrôle externe traité par le « standard of care » issu de la base de données Flatiron [8] . Une méthode de pondération basée sur le score de propension a été utilisée pour corriger les résultats du biais de confusion.

Le groupe contrôle externe est composé de 50 patients peu comparables à ceux du groupe traité (il manque les SMD dans ce tableau). Après pondération, un groupe redressé « virtuel » de 109 patients est obtenu qui s’avère davantage comparable au groupe traité (l’article utilise à tort des p values pour analyser la comparabilité des groupes, l’utilisation de SMD aurait été plus appropriée, cf. ci-dessus).
Le critère de jugement est le taux de réponses objectives (ORR), cf. table 3 de la publication ci-dessous. Initialement, avant pondération (unweighted), ce « taux » était de 14%. Avec les poids appliqués aux patients, le taux redressé (weighted) devient 11.9%., conduisant à un odds ratio de 3.75 (contre 3.32 avant pondération, avec les données brutes).

Si tous les facteurs de confusion affectant l’étude ont été pris en considération dans le score de propension produisant les poids utilisés et si le groupe contrôle pondéré obtenu peut être considéré comme similaire au groupe traité, l’odds ratio de 3.75 serait corrigé du biais de confusion affectant la valeur brute (non pondérée).
De nombreuses variantes calculatoires existent en fonction de la façon dont sont calculés les poids à partir du score de propension. Chacune de ces variantes correspond à un effet causal différent (ATE, ATT, ATC, etc.). Dans les comparaisons externes, l’effet causal d’intérêt est l’average treatment effect among treated (ATT). Le poids utilisé doit donc correspondre à cet effet causal. La méthode utilisant le poids approprié est parfois appelée SMRW standardized mortality ratio weighting (à la place de l’appellation générique IPTW ou IPW) [152] .
Comme avec le matching, il n’est pas attendu que ces méthodes augmentent la comparabilité sur des covariables non incluses dans le score de propension. Des améliorations (ou des aggravations) de la comparabilité peuvent cependant être observées sur de telles variables du fait de leur interrelation avec celle incluse dans le score de propension.
La précision des estimations de l’effet traitement peut être améliorée en utilisant des poids stabilisés. Cela est obtenu en multipliant les poids par les probabilités marginales d’être traité ou non (dans l’échantillon global).