Comparaisons à un groupe contrôle externe

1 Introduction

2 TL ; DR - Guide d’évaluation des comparaisons à un groupe contrôle externe

3 Les études de comparaison externe, de quoi s’agit-il ?

4 Pour quels usages

5 Les problématiques méthodologiques soulevées par les comparaisons externes

5.1 Solutions potentielles pour les comparaisons externes

5.2 Hypothèses des comparaisons indirectes

5.3 Solutions générales aux problématiques de l’évaluation du bénéfice clinique des nouveaux traitements

6 Les comparaisons externes sont des études observationnelles

7 Position des agences de régulation et de HTA

8 De la nécessité d’avoir des preuves de l’intérêt cliniques des nouveaux traitements

9 Les sources de données utilisables

10 Les problématiques liées à l’aspect rétrospectif de ces études

11 Rédaction du protocole

12 Démarche hypothético déductive

13 L’inférence causale et les hypothèses sous-jacentes

14 Le biais de confusion

15 Les techniques d’analyses statistiques

16 Le diagnostic d’absence de biais de confusion résiduel

17 Les biais de sélection

18 Identifications des patients dans la source de données

19 Biais liés aux données

20 La qualité des données

21 Les outils d’évaluation du risque de biais

22 L’émulation d’un essai cible

23 Le benchmarking et les contrôles positifs

24 Analyses de sensibilité , analyses quantitatives du biais

25 Calcul d’effectif

26 Contrôle du risque alpha global

27 Pertinence clinique

28 Méta-épidémiologie et étude de cas

29 Synopsis - les critères d’acceptabilité des études de comparaisons externes pour la modification des stratégies thérapeutiques

Références

30 Annexes

PDF

5.3 Solutions générales aux problématiques de l’évaluation du bénéfice clinique des nouveaux traitements

Ces problématiques ne sont que le reflet, au niveau des comparaisons externes, des problématiques générales qui surgissent lorsque l’on cherche à évaluer le bénéfice clinique des traitements de façon rigoureuse (Tableau 2).

En effet, de nombreuses problématiques surgissent lorsque l’on veut savoir si un traitement est efficace et quel est le bénéfice clinique qu’il apporte aux patients. Elles ne sont pas anodines, car elles peuvent toutes concourir à donner à tort des résultats en faveur de l’efficacité avec des traitements qui en sont dépourvus. Sans solutions, il serait impossible de conclure sur ces questions d’efficacité et de bénéfice.

Dans le but de pouvoir quand même produire des preuves de l’efficacité des traitements au-delà de tout doute raisonnable malgré ces problématiques, il a été cherché des solutions efficaces et robustes pour empêcher par design la production de résultats positifs à tort. Ces solutions ont progressivement conduit, au fil des années, à la méthodologie standard actuelle d’évaluation des traitements basée sur l’essai randomisé (cf. Tableau 2).

Procéder autrement pour produire des preuves de la même fiabilité nécessite donc de trouver d’autres solutions à ces problématiques consubstantielles à la recherche de l’efficacité d’un traitement.

Le Tableau 2, décrit pour chacune de ces problématiques les solutions apportées par la méthodologie actuelle basée sur l’essai randomisé et les solutions envisageables lorsqu’une approche de comparaisons externes est envisagée à la place d’un essai randomisé.

Tableau 2 – Les problématiques survenant lorsque l’on cherche à savoir ce qu’apporte comme bénéfice aux patients un nouveau traitement, avec en regards les solutions 1) mises en œuvre dans l’approche classique basée sur l’essai randomisé et 2) envisageables pour les comparaisons externes

Problématiques survenant quand on veut évaluer un traitement

Solution apportée par l’approche classique basée sur l’essai randomisé note n° 6

Solution envisagée dans les comparaisons externes

Sans évaluation clinique il est impossible d’apprécier le réel bénéfice clinique qu’apporte un nouveau traitement aux patients :

Limites des raisonnements sur les mécanismes d’action des traitements qui sont peu prédictifs de la réelle efficacité et sécurité des traitements

Vérifier de façon factuelle que le traitement apporte bien le bénéfice clinique escompté en confrontant l’hypothèse à la réalité par une étude expérimentale de confirmation dédiée

Même démarche de vérification par les faits avec une étude de confirmation dédiée, mais qui ne pourra pas être expérimentale par définition et donc tributaire de la disponibilité et de la qualité des données

L’évaluation factuelle de ce que cause un traitement chez des patients débouche sur les problématiques suivantes :

Facteurs de confusion multiples (effet placebo, évolution naturelle de la maladie, autres traitements, régression à la moyenne, effet Hawthorne) affectant en même temps que le traitement étudié l’évolution des patients et empêchant d’isoler l’effet que cause spécifiquement le traitement

Raisonnement contrefactuel

Recours à une comparaison à un groupe contrôle, subissant les effets des mêmes facteurs de confusion, pour isoler l’effet spécifique du traitement parmi toutes les autres influences que subit l’évolution des patients traités

  • Essai contrôlé
  • Recherche d’un raisonnement contrefactuel en utilisant un groupe contrôle externe à l’étude observant l’évolution de patients sous traitement.

    Inscription de l’étude dans une démarche d’inférence causale

    La réalisation d’études comparatives (essais contrôlés) débouche sur les problématiques suivantes :

    Les patients des deux groupes ont un risque de base (pronostic) différent

    Randomisation imprévisible (protégeant par design la comparaison d’un biais de confusion et garantissant le respect de l’hypothèse d’échangeabilité de l’inférence causale)

    En l’absence de randomisation le traitement reçu n’est pas indépendant des déterminants du critère de jugement entrainant un biais de confusion impliquant de corriger du biais de confusion les résultats en prenant en compte tous les facteurs de confusion par l’analyse

    Le critère de jugement est évalué/mesuré différemment entre les deux groupes, favorisant le groupe traité

    Double aveugle

    Standardisation du processus de mesure du critère de jugement

    Difficile à prendre en compte (cf. section 19 )

    Éléments constitutifs d’un effet étude probablement irréductible (cf. section 13.3.1 )

    Asymétrie de prise en charge favorisant le groupe traité

    Double aveugle

    Protocolisation des traitements

    Exclusion d’analyse (biais d’attrition) favorisant le groupe traité : données manquantes et censures informatives (perdus de vue)

    Analyse en intention de traiter

    Remplacement conservateur des données manquantes sur le critère de jugement

    Gestion conservatrice des événements intercurrents

    Idem

    Les événements intercurrents peuvent fausser l’évaluation

    Définition précise de l‘estimand

    Idem

    Il existe plusieurs estimands causal, population cible pour définir l’effet d’un traitement

    Dans l’essai randomisé, tous les estimands causaux ont la même valeur (ATE = ATT = ATC)

    L’ATT correspond à la question posée par les comparaisons externes (chercher le contrefait au groupe traité)

    Nécessité de comparaisons avec une puissance statistique suffisante pour séparer le signal du bruit

    Calcul d’effectifs

    Recrutement de l’effectif ou du nombre d’événements nécessaire pour garantir le puissance

    Idem

    Multiplicité des comparaisons statistique induisant une inflation du risque alpha global

    Control du risque alpha global

    Idem

    Début du suivi différent entre les traitements par rapport à l’histoire « naturelle » de la maladie introduisant des temps d’immortalité et autres biais de sélection

    Solutionnée par design, le suivi débute à la randomisation. Il est parfaitement synchronisé entre les 2 groupes et cette synchronisation est maintenue par l’analyse en ITT

    Recherche d’un t0 de début de suivi émulant ce qui se passe dans l’essai randomisé.

    HARKing

    Réalisation d’une étude prospective

    Réalisation en prospectif

    Si réalisation rétrospective à nécessité d’apporter des garanties solides d’absence de HARKing

    P hacking

    Plan d’analyse statistique élaboré a priori

    Idem

    Si réalisation rétrospective à nécessité d’apporter des garanties solides d’absence de p hacking

    Disponibilité des données nécessaires pour répondre directement à la question de recherche

    Les données nécessaires sont recueillies spécifiquement du fait de la nature prospective

    Disponibilité non garantie,

    Choix de données « fit-to-purpose »

    Appel à des approches indirectes pouvant introduire des erreurs

    Indépendamment de l’efficacité, les traitements comportent des risques

    Évaluation et décision sur la balance bénéfice risque

    Idem

    Les effets des traitements sur des critères intermédiaires ne se traduisent pas toujours en bénéfice clinique

    Évaluer sur des critères cliniquement pertinents

    Idem

    Population de l’étude différente de la population cible

    Essai pragmatique

    Idem (mais les études monobras hypersélectionnent les patients)

    En plus, surviennent aussi des problématiques spécifiques de l’approche par comparaisons externes : utilisation de deux échantillonnages indépendants, utilisation de deux recueils d’information indépendants, contrôles non contemporains des patients traités, etc.

    Tableau 3 – Problématiques méthodologiques des comparaisons externes et potentielles solutions De nombreuses problématiques méthodologiques peuvent conduire à conclure à tort à l’intérêt du nouveau traitement avec une comparaison à un groupe contrôle externe. Ce tableau liste ces problématiques et mets en regard les solutions théoriques potentielles.

    Problématiques posées par les comparaisons externes

    Mécanisme conduisant à conclure à tort à l’efficacité du nouveau traitement

    Éléments de solution théorique

    Pour mémoire, la question des comparaisons externes se pose en l’absence de groupe contrôle (ou de contrôle approprié)

    Impossibilité de faire un raisonnement contrefactuel permettant d’isoler l’effet causé par le traitement

    En l’absence de groupe contrôle interne, utilisation d’un groupe contrôle externe pour s’inscrire quand même dans un raisonnement contrefactuel indispensable pour avancer sur la voie de la causalité

    Possibilité de HARKing et de p hacking liée à l’aspect rétrospective de l’approche

    La source de données utilisée pour constituer le groupe contrôle externe a été choisie, car une analyse inférentielle préalable des données montre que ce choix permet d’en tirer la conclusion recherchée

    Attestation explicite de l’élaboration du protocole et du plan d’analyse statistique avant toutes analyses inférentielles

    Protocole daté, signé et enregistré

    Éventuellement traçabilité des accès aux données

    Transparence

    Le résultat de la comparaison peut être connu sans réelle analyse inférentielle, car le résultat du groupe traité est déjà connu ainsi que celui du groupe contrôle, car il a déjà publié pour son propre compte (étude de registre par exemple)

    Rends inutilisable le groupe contrôle envisagé. Seuls seraient exploitables les nouveaux patients inclus dans le registre après la publication des résultats.

    p hacking dans un contexte d’analyse rétrospective

    L’analyse statistique a été adaptée en fonction des résultats produits jusqu’à obtenir la conclusion recherchée. Les nombreux tâtonnements ne sont pas rapportés (hidden analyses)

    Plan d’analyse statistique (SAP) garantissant qu’il a été élaboré a priori, avant toute analyse inférentielle

    SAP daté et signé et enregistré

    Réalisation d’étude exploratoire

    Non-respect de la démarche hypothético déductive. L’étude risque de conclure sur une découverte fortuite purement artéfactuelle et sans réelle existence en dehors du jeu de données particulier analysé.

    Réalisation d’étude de confirmation réalisée spécifiquement pour confirmer ou infirmer une hypothèse explicite de supériorité ou de non-infériorité

    Objectifs clairement spécifiés (et conclusion portant uniquement sur des résultats correspondant à ces objectifs)

    Association statistique n’est pas causalité

    Une étude observationnelle ne montre qu’une association statistique

    Inférence causale par une étude et des données rendant raisonnablement plausible les hypothèses fondamentales de l’inférence causale

    Biais de confusion

    Existence de différences dans le risque de base des patients du groupe contrôle externe par rapport à ceux du groupe du traitement étudié (biais de confusion à la baseline)

    Correction des résultats par l’analyse statistique prenant en compte tous les facteurs de confusion affectant la comparaison externe

    Nécessité d’identifier tous les facteurs qui devront être contrôlés (ajustés) pour tenter de supprimer le biais de confusion

    La liste des facteurs de confusion ne s’impose pas d’elle-même. Les facteurs de confusion sont à identifier cas par cas en raison de leur association connue avec le critère de jugement et avec le traitement.

    Revue systématique des facteurs pronostiques des critères de jugement et établissement d’un réseau de causalité (DAG ou autres) à partir des connaissances et non pas des données

    Possibilité de biais de confusion résiduelle

    L’ajustement n’a pas pu corriger complètement le biais de confusion, car certains facteurs de confusion n’ont pas été identifiés, ou mesurés, ou en raison d’une mauvaise spécification du ou des modèles statistiques

    Tenter de renforcer les arguments en faveur d’un faible risque de confusion résiduelle par des contrôles négatifs et/ou des analyses quantitatives des biais (E value ou autres).

    Pour certains, le biais de confusion résiduel persiste dans tous les cas, empêchant de considérer ces études comme à faible risque de biais (ROBINS-I).

    Possibilité de biais de sélection, en particulier de biais de temps d’immortalité

    L’inclusion des patients et/ou les périodes d’observation dans l’étude dépendent à la fois du critère de jugement (ou de facteurs de risque du critère de jugement) et du traitement

    Le suivi a débuté dans les 2 groupes lorsque l’éligibilité est vérifiée et le traitement assigné

    Le t0 du groupe contrôle externe est synchrone de l’inclusion dans la monobras (ou de la randomisation)

    L’émulation d’un essai cible satisfaisante

    Possibilité de biais de sélection par censures informatives (perdus de vue)

    Remplacement des données manquantes suivant un scénario du pire

    Déplétion des susceptibles ou censures à gauche

    New user design (incident ou prévalent)

    Alignement du temps zéro (top départ du suivie) avec les critères d’éligibilité, l’assignation des traitements.

    Prévention de la censure à gauche

    Biais de classification des expositions

    Les patients du groupe contrôle n’ont pas eu le traitement qui définit ce groupe (à remise en cause de l’hypothèse de cohérence de l’inférence causale)

    Étude de validation des données

    Contrôles positifs et les techniques de benchmarking

    Biais d’information (classification de l’outcome)

    Le critère de jugement disponible dans la source de données pour constituer le groupe contrôle n’est pas le même ou n’est pas mesuré de la même façon que le critère de jugement du groupe traité

    Utilisation du même critère de jugement pour le groupe contrôle que celui du groupe traité s (parfois impossible)

    Mesure de l’exactitude des données dans une étude de validation à VPP, VPN, Sensibilité, Spécificité

    Analyse quantitative de biais

    Biais de réalisation, asymétrie de prise en charge des patients

    Différence dans la fréquence et l’efficacité des traitements de base, concomitants ou post-échec et des prises en charge entre le groupe traité (étude monobras contemporaine) et le groupe contrôle (données historique)

    Utilisation de données les plus comptemporain possible et provenant de contexte de soins identiques

    Utilisation d’un estimand non approprié

    L’estimand doit correspondre à la question causale : quel bénéfice clinique supplémentaire cause la prescription par le médecin du nouveau traitement par rapport à la stratégie actuelle chez les patients visés par le nouveau traitement

    Estimation de l’effet du traitement moyen dans la population cible des patients traités (ATT average treatment effect among the treated )

    Analyse en intention de traité avec une stratégie de gestion des événements intercurrents de type « policy treatment » pour les hypothèses de supériorité

    Pertinence des données

    Les variables nécessaires pour faire l’étude ne sont pas présentent dans la source de données (critère de jugement, facteurs de confusion, contrôles négatifs, variable de sélection des patients, etc.), conduisant à la réalisation d’une étude de méthodologie sous optimale

    Choisir une source de données « fit-to-purpose » après l’élaboration du protocole

    Faire un recueil prospectif des données

    Compléter les données historiques par une chart review si l’identification des patients est possible

    Chainer des bases de données entre elles

    Utiliser des données multibases

    Non-contemporanéité des données

    Les données du groupe contrôle historique ont été recueillies dans le passé où le contexte de soins, les prises en charge de patients et les traitements subséquents ne sont plus d’actualité. Il y a une tendance séculaire

    Prise en compte/modélisation de la tendance séculaire dans l’analyse (introduis une hypothèse de validité supplémentaire)

    Restriction temporelle des données historiques aux périodes les plus récentes

    Effet étude non réductible

    Le recueil des données s’effectuant dans 2 études différentes il peut exister des différences entre les 2 études influençant les critères de jugement (par exemple différence de critère de jugement entre les 2 études)

    Pas de solution. Éventuellement analyse quantitative de biais

    À anticiper à la construction de la monobras (externally controlled trial ) en adoptant le même critère de jugement que celui disponibles dans le groupe contrôle mais soulève d’autres questions

    Inflation du risque alpha liée à une multiplicité de comparaisons statistiques

    La multiplicité des comparaisons augmente le risque alpha global de trouver un quelconque intérêt au traitement à tort du fait du hasard

    Plan de contrôle du risque alpha global (répartition, hiérarchisation, recyclage du risque alpha global)

    Selective reporting

    Sélection des résultats rapportés dans le rapport ou la publication parmi un grand nombre de résultats produits

    Enregistrement du protocole et du SAP

    Biais de publication

    Plusieurs études de comparaison externe ont été réalisées et leur présentation, publication au sens large dépend de leurs résultats

    Enregistrement prospectif des protocoles

    Réalisation d’études multibases


    [6] Pour une démonstration de supériorité avec un estimand « policy treatment » (analyse en intention de traiter).