23 Le benchmarking et les contrôles positifs

Compte tenu des nombreuses problématiques méthodologiques, il existe toujours un doute sur la réelle fiabilité de la démarche mise en œuvre (sources de données, validité du critère de jugement, qualités des données, choix du t0, etc.) pour constituer un groupe contrôle externe. Une possibilité pour évaluer cette fiabilité, et l’aptitude de la méthodologie employée à solutionner les différentes problématiques méthodologiques, est de recourir à des contrôles positifs, à un benchmarking [251] [252] .

Cette approche consiste à montrer que la même méthodologie permet de retrouver un résultat connu. Ce résultat connu est appelé contrôle positif et cette démarche de vérification « benchmarking ». Il s’agit par exemple de retrouver les résultats d’un essai randomisé d’un autre traitement précédent à partir d’une émulation d’essai cible réalisée avec les données pressenties pour constituer le groupe contrôle externe. Reproduire le résultat de référence donne quelques réassurances indirectes sur la qualité des données, leur pertinence, les erreurs de classification des critères de jugement, etc. La validation de la capacité à pouvoir corriger du biais de confusion n’est que très partielle, car la structure de confusion affectant une comparaison de deux groupes issus des mêmes données n’est pas comparable à celle d’une comparaison externe où tous les facteurs pronostiques rentrent en ligne de compte (cf. section 14.1).

Cette approche de benchmarking est aussi proposée comme approche de recalibration dont le but est de corriger les résultats de l’étude du biais estimé par l’utilisation des contrôles de falsification (contrôles positifs, mais surtout contrôles négatifs) [253] [254] [255] . Ces approches reposent sur l’estimation empirique du biais et de son incertitude statistique (variance), permettant ensuite de corriger le résultat obtenu par l’étude ainsi que son intervalle de confiance (et la p value). La validité de la correction dépend bien entendu d’hypothèses comme l’échangeabilité du biais entre la comparaison contrôle et la comparaison d’intérêt. Une première validation empirique de cette proposition est planifiée dans le contexte de l’émulation d’essais et non pas de comparaison externe [256] . Ses résultats ne sont pas encore connus à la date de rédaction de ce document.

Le benchmarking peut aussi être utilisée comme point de repère pour ajuster la méthode d’analyse en fonction des écarts entre les résultats obtenus et les résultats attendus, par exemple, en choisissant la définition du critère de jugement (ou l’algorithme phénotypique) permettant le retrouver au mieux le résultat attendu, ou d’adapter la liste des covariables prises en compte, etc.

Cette démarche soulève deux problématiques. La modification itérative du plan d’analyse statistique qu’elle induit peut-être le point d’ancrage de p-hacking. Il est donc indispensable que cette adaptation soit prévue au protocole et au plan d’analyse statistique initial et qu’elle se fasse impérativement sans aucune analyse inférentielle. Elle devra être aussi rapportée de façon très transparente (historique détaillé des adaptations et des résultats produits).

L’autre problématique est le risque de surdétermination, appelée aussi bias-variance tradeoff . Cette problématique, bien connue dans le domaine de la construction des outils prédictifs et de l’apprentissage statistique, survient lorsqu’un modèle statistique, ou une analyse statistique, est optimisés afin d’expliquer le mieux possible des données d’étalonnage (ici le résultat servant au benchmark). Cette optimisation (réduction/suppression du biais sur les données d’étalonnage) va faire perdre en généralisabilité du modèle, entrainant une chute de ses performances sur de nouvelles données. Il s‘agit de l’illustration en statistique du vieil adage « le mieux est l’ennemi du bien » ! L’optimisation conduit à un modèle (à une analyse) adapté au bruit particulier affectant la comparaison d’étalonnage et ne devient plus du tout adapté à d’autres situations où le bruit sera différent par définition.

Bien entendu retrouver le résultat connu n’apporte pas une garantie absolue de l’exactitude du résultat de la future comparaison externe. En revanche l’impossibilité de retrouver le résultat connu doit conduire à de sérieuses réserves sur la possibilité d’exploiter le résultat de la comparaison externe d’intérêt.

Lorsque la comparaison externe est réalisée à partir d’un RCT dont le groupe contrôle n’est pas/plus approprié, un autre type de contrôle positif peut consister à rechercher le résultat produit par cet essai avec son groupe contrôle randomisé en émulant un groupe contrôle externe traité avec le même traitement. Par exemple, si l’essai randomisé compare un nouveau traitement N au traitement standard A, il est certainement possible de trouver des patients traiter par A dans la source de données envisagées pour faire le groupe externe d’intérêt (traité par le traitement standard actuel B qui a montré sa supériorité à A durant la réalisation de cet essai randomisé par exemple). À l’aide de ce groupe contrôle externe il est possible de faire la comparaison externe N versus A et de comparer le résultat à celui de l’essai randomisé lui-même (comparant aussi N versus A).

Pour les comparaisons externes partant d’une étude monobras, il n’est pas possible de suivre une telle démarche. Au mieux, le benchmarking pourra consister à retrouver le résultat concernant le traitement contrôle d’intérêt (c’est-à-dire le résultat de l’essai randomisé l’ayant évalué si un tel essai a lui lieu). Dans ce cas la source de données est utilisée pour émuler un tout autre essai que celui qui concerne la comparaison externe d’intérêt, mais un tel benchmarking permet dans une certaine mesure de valider la qualité des données, les critères de jugement utilisés et dans une certaine mesure les ajustements statistiques.