2 TL ; DR - Guide d’évaluation des comparaisons à un groupe contrôle externe
3 Les études de comparaison externe, de quoi s’agit-il ?
5 Les problématiques méthodologiques soulevées par les comparaisons externes
6 Les comparaisons externes sont des études observationnelles
7 Position des agences de régulation et de HTA
8 De la nécessité d’avoir des preuves de l’intérêt cliniques des nouveaux traitements
9 Les sources de données utilisables
10 Les problématiques liées à l’aspect rétrospectif de ces études
12 Démarche hypothético déductive
13 L’inférence causale et les hypothèses sous-jacentes
15 Les techniques d’analyses statistiques
15.1 Les techniques basées sur l’appariement (matching )
15.2.2 Le calcul du score de propension
15.2.3 L’importance du chevauchement des distributions des scores de propension
15.3 L’appariement sur le score de propension
§ Limites de l’appariement sur le score de propension
15.4 Les méthodes de pondération
§ L’effective sample size (ESS)
§ Distribution des poids, hypothèse de positivité
15.4.2 Pondérations non basées sur le score de propension
15.5 La g computation (g formula)
15.6 Les méthodes doubles robustes
15.7 Les méthodes de régression
15.8 Les techniques d e maching learning (IA)
16 Le diagnostic d’absence de biais de confusion résiduel
18 Identifications des patients dans la source de données
21 Les outils d’évaluation du risque de biais
22 L’émulation d’un essai cible
23 Le benchmarking et les contrôles positifs
24 Analyses de sensibilité , analyses quantitatives du biais
26 Contrôle du risque alpha global
Les techniques d’IA, et plus exactement les techniques de causal machine learning , sont utilisables à plusieurs niveaux dans l’analyse statistique des études observationnelles et donc des comparaisons externes [159] .
Ces techniques permettent de construire des outils de prédiction. L’utilisation d’un modèle prédictif apparait dans plusieurs méthodes utilisées pour prendre en compte les facteurs de confusion.
Le score de propension est un modèle de prédiction du traitement étudié en fonction de covariable. Classiquement ce modèle est construit avec la régression logistique (qui est d’ailleurs un outil d’IA), mais toutes techniques permettant de construire un modèle (algorithme) de prédiction à partir de données sont potentiellement utilisables. Cependant les méthodes d’IA ne permettent pas de modéliser facilement la variance, mais des solutions existent maintenant (TMLE). Ainsi de nombreuses approches peuvent être utilisées en remplacement de la régression logistique pour la construction du modèle (apprentissage) puis le calcul du score de propension de chaque patient (inférence) comme par exemple des modèle paramétrique ou LASSO ou des méthodes plus flexibles comme les random forests , le support vector machine , gradient boosting (XGBoost), les réseaux neuronaux (neural network, deep learning) ou des approches plus classiques de régulation (L1-regularized regression ) [160] .
L’approche des SuperLearner mixe plusieurs méthodes de bases pour augmenter les performances prédictives.
La g computation se base sur un modèle prédictif de l’outcome qui peut être construit avec une de ces techniques de machine learning .
Un inconvénient de ces outils prédictifs basés sur le machine learning est qu’ils ne permettent pas en général de calculer la précision de leur estimation. Cette problématique a été solutionnée dans des approches comme l’AIWP ou le TMLE [161] [162] [163] , approche qui s’applique aux comparaisons externes [117] .
Ces approches ne représentent pas une solution magique garantissant automatiquement la suppression du biais de confusion. Elles permettent peut-être d’obtenir des modèles mieux spécifiés, car plus flexibles. Cependant cette flexibilité peut être contreproductive en augmentant la variance des estimations nécessitant de trouver un équilibre en biais et variance. De plus, même avec ces techniques, la problématique reste la prise en compte (et donc la mesure) de tous les facteurs de confusion affectant l’étude.
L’analyse des performances intrinsèques des différentes méthodes et de leur cas d’usage dépasse le cadre de ce document.