2 TL ; DR - Guide d’évaluation des comparaisons à un groupe contrôle externe
3 Les études de comparaison externe, de quoi s’agit-il ?
5 Les problématiques méthodologiques soulevées par les comparaisons externes
6 Les comparaisons externes sont des études observationnelles
7 Position des agences de régulation et de HTA
8 De la nécessité d’avoir des preuves de l’intérêt cliniques des nouveaux traitements
9 Les sources de données utilisables
10 Les problématiques liées à l’aspect rétrospectif de ces études
12 Démarche hypothético déductive
13 L’inférence causale et les hypothèses sous-jacentes
15 Les techniques d’analyses statistiques
16 Le diagnostic d’absence de biais de confusion résiduel
18 Identifications des patients dans la source de données
20.1.2 Origine des erreurs de classification
20.2 Complétudes, exhaustivité
20.3 Informativité, pertinence (relevance )
20.3.1 Critères de jugement
20.3.2 Critères d’éligibilité (de sélection des patients de la population visée)
20.5 La validation des données
20.6 Recommandations pour la constitution des sources de données
21 Les outils d’évaluation du risque de biais
22 L’émulation d’un essai cible
23 Le benchmarking et les contrôles positifs
24 Analyses de sensibilité , analyses quantitatives du biais
26 Contrôle du risque alpha global
Les critères de jugement nécessaire pour l’évaluation des nouveaux traitements sont parfois très spécifiques et non utilisés en pratique médicale courante. Dans ce cas aucune source de données de vraie vie ne contiendra les données nécessaires à la réalisation d’une comparaison externe.
Dans la maladie d’Alzheimer, les essais cliniques utilisent des échelles spécifiques comme l’ADAS-cog, le CDR-SB, l’échelle NPI, ou dans les formes précoces l’ADAS-Cog + ADCS-ADL, le CDR-SB, etc. qui ne sont pas employées en pratique courante. Les registres ou autres données de vraie vie sur l’Alzheimer ne sont donc pas utilisables comme groupe contrôle externe d’une étude monobras ou d’un RCT.
Dans les études observationnelles classiques, cette difficulté est moindre, car il n’y a pas nécessité de se comparer à une étude ayant déjà utilisé un certain critère de jugement. Il est alors possible d’utiliser un autre critère en postulant qu’il s’agit d’un proxy et que l’effet relatif mesuré sur ce proxy est une bonne approximation de l’effet relatif sur le vrai critère de jugement, car il s’agira du même proxy dans les 2 groupes.
En oncologie, la PFS n’est pas disponible dans les données de vraie vie (cf. section 20.7) mais il est possible de définir un autre critère la rwPFS à partir des progressions telles qu’identifiées en vraie vie. Dans une étude classique, les 2 groupes seront comparés avec ce même critère et le hazard ratio obtenu peut éventuellement être acceptable comme approximation du HR de PFS. Mais dans une comparaison externe cela conduirait à comparer la PFS dans le groupe traité avec la rwPFS dans le groupe contrôle ; sans aucune possibilité de savoir en quoi la rwPFS diffère de la vraie PFS, car il est impossible de mesurer la rwPFS dans les études mesurant la PFS. Il est possible en vraie vie que les progressions soient constatées plus tardivement que dans les études mettant en œuvre la fréquence régulière de l’imagerie nécessaire à l’application des critères RECIST de progression. Mais il est aussi possible qu’en vraie vie les traitements soient arrêtés plus précocement pour différentes raisons allant d’un souci de minimiser les effets indésirables à la volonté d’accélérer la mise en œuvre d’un traitement de ligne ultérieure plus puissant note n° 23 . Il est donc impossible d’anticiper la direction du biais qu’aurait une comparaison PFS versus rwPFS.
Mais pour une comparaison externe, l’utilisation d’un proxy ne solutionnera pas la question, car la comparaison impliquera toujours deux critères de jugement différents. Il faudrait que le proxy utilisé donne exactement les mêmes valeurs que le critère de jugement qu’il remplace ce qui est une hypothèse forte.
Ce point conduit à l’existence d’un « effet étude » souvent irréductible, mis en évidence par l’inférence causale (cf. section 13.3.1).
Les critères nécessaires pour apprécier la safety sont rarement disponibles dans les sources de données de vraie vie. Par exemple en oncologie les notions d’effet indésirable de grade 1, 2, 3, 4 sont impossible à retrouver dans les données de vraie vie ainsi que la notion d’arrêt de traitement liée à un effet indésirable ou la notion d’effet indésirable d’attribuable ou non au traitement. Or ces informations de safety sont indispensables pour apprécier correctement la balance bénéfice risque d'un nouveau traitement. Ce point peut être très pénalisant et empêcher l’utilisation de la voie de la comparaison externe pour baser un changement de pratique.
[23] Dans beaucoup de cancer, les immunothérapies ont été d’abord développées en 2eme ligne où elles ont démontré des bénéfices notables en survie. Cependant tant que les essais de premières lignes ne sont pas disponibles, les prises en charge commencent avec les traitements validés de première qui peuvent être de simple chimiothérapie dont le bénéfice démontré est parfois assez ténu. On peut imaginer dans ce cas une certaine volonté de recourir à la 2ème ligne le plus rapidement possible, conduisant en vraie vie à noter une progression avant le moment où elle aurait identifié par l’imagerie programmée ou, voire, même avant le moment où elle remplirait les critères RECIST.