Comparaisons à un groupe contrôle externe

Les techniques d’IA, et plus exactement les techniques de causal machine learning , sont utilisables à plusieurs niveaux dans l’analyse statistique des études observationnelles et donc des comparaisons externes [159] .

Ces techniques permettent de construire des outils de prédiction. L’utilisation d’un modèle prédictif apparait dans plusieurs méthodes utilisées pour prendre en compte les facteurs de confusion.

Le score de propension est un modèle de prédiction du traitement étudié en fonction de covariable. Classiquement ce modèle est construit avec la régression logistique (qui est d’ailleurs un outil d’IA), mais toutes techniques permettant de construire un modèle (algorithme) de prédiction à partir de données sont potentiellement utilisables. Cependant les méthodes d’IA ne permettent pas de modéliser facilement la variance, mais des solutions existent maintenant (TMLE). Ainsi de nombreuses approches peuvent être utilisées en remplacement de la régression logistique pour la construction du modèle (apprentissage) puis le calcul du score de propension de chaque patient (inférence) comme par exemple des modèle paramétrique ou LASSO ou des méthodes plus flexibles comme les random forests , le support vector machine , gradient boosting (XGBoost), les réseaux neuronaux (neural network, deep learning) ou des approches plus classiques de régulation (L1-regularized regression ) [160] .

L’approche des SuperLearner mixe plusieurs méthodes de bases pour augmenter les performances prédictives.

La g computation se base sur un modèle prédictif de l’outcome qui peut être construit avec une de ces techniques de machine learning .

Un inconvénient de ces outils prédictifs basés sur le machine learning est qu’ils ne permettent pas en général de calculer la précision de leur estimation. Cette problématique a été solutionnée dans des approches comme l’AIWP ou le TMLE [161] [162] [163] , approche qui s’applique aux comparaisons externes [117] .

Ces approches ne représentent pas une solution magique garantissant automatiquement la suppression du biais de confusion. Elles permettent peut-être d’obtenir des modèles mieux spécifiés, car plus flexibles. Cependant cette flexibilité peut être contreproductive en augmentant la variance des estimations nécessitant de trouver un équilibre en biais et variance. De plus, même avec ces techniques, la problématique reste la prise en compte (et donc la mesure) de tous les facteurs de confusion affectant l’étude.

L’analyse des performances intrinsèques des différentes méthodes et de leur cas d’usage dépasse le cadre de ce document.