5.3 Solutions générales aux problématiques de l’évaluation du bénéfice clinique des nouveaux traitements

Ces problématiques ne sont que le reflet, au niveau des comparaisons externes, des problématiques générales qui surgissent lorsque l’on cherche à évaluer le bénéfice clinique des traitements de façon rigoureuse (Tableau 2).

En effet, de nombreuses problématiques surgissent lorsque l’on veut savoir si un traitement est efficace et quel est le bénéfice clinique qu’il apporte aux patients. Elles ne sont pas anodines, car elles peuvent toutes concourir à donner à tort des résultats en faveur de l’efficacité avec des traitements qui en sont dépourvus. Sans solutions, il serait impossible de conclure sur ces questions d’efficacité et de bénéfice.

Dans le but de pouvoir quand même produire des preuves de l’efficacité des traitements au-delà de tout doute raisonnable malgré ces problématiques, il a été cherché des solutions efficaces et robustes pour empêcher par design la production de résultats positifs à tort. Ces solutions ont progressivement conduit, au fil des années, à la méthodologie standard actuelle d’évaluation des traitements basée sur l’essai randomisé (cf. Tableau 2).

Procéder autrement pour produire des preuves de la même fiabilité nécessite donc de trouver d’autres solutions à ces problématiques consubstantielles à la recherche de l’efficacité d’un traitement.

Le Tableau 2, décrit pour chacune de ces problématiques les solutions apportées par la méthodologie actuelle basée sur l’essai randomisé et les solutions envisageables lorsqu’une approche de comparaisons externes est envisagée à la place d’un essai randomisé.

Tableau 2 – Les problématiques survenant lorsque l’on cherche à savoir ce qu’apporte comme bénéfice aux patients un nouveau traitement, avec en regards les solutions 1) mises en œuvre dans l’approche classique basée sur l’essai randomisé et 2) envisageables pour les comparaisons externes

Problématiques survenant quand on veut évaluer un traitement	Solution apportée par l’approche classique basée sur l’essai randomisé note n° 6	Solution envisagée dans les comparaisons externes
Sans évaluation clinique il est impossible d’apprécier le réel bénéfice clinique qu’apporte un nouveau traitement aux patients :
Limites des raisonnements sur les mécanismes d’action des traitements qui sont peu prédictifs de la réelle efficacité et sécurité des traitements	Vérifier de façon factuelle que le traitement apporte bien le bénéfice clinique escompté en confrontant l’hypothèse à la réalité par une étude expérimentale de confirmation dédiée	Même démarche de vérification par les faits avec une étude de confirmation dédiée, mais qui ne pourra pas être expérimentale par définition et donc tributaire de la disponibilité et de la qualité des données
L’évaluation factuelle de ce que cause un traitement chez des patients débouche sur les problématiques suivantes :
Facteurs de confusion multiples (effet placebo, évolution naturelle de la maladie, autres traitements, régression à la moyenne, effet Hawthorne) affectant en même temps que le traitement étudié l’évolution des patients et empêchant d’isoler l’effet que cause spécifiquement le traitement	Raisonnement contrefactuel Recours à une comparaison à un groupe contrôle, subissant les effets des mêmes facteurs de confusion, pour isoler l’effet spécifique du traitement parmi toutes les autres influences que subit l’évolution des patients traités Essai contrôlé	Recherche d’un raisonnement contrefactuel en utilisant un groupe contrôle externe à l’étude observant l’évolution de patients sous traitement. Inscription de l’étude dans une démarche d’inférence causale
La réalisation d’études comparatives (essais contrôlés) débouche sur les problématiques suivantes :
Les patients des deux groupes ont un risque de base (pronostic) différent	Randomisation imprévisible (protégeant par design la comparaison d’un biais de confusion et garantissant le respect de l’hypothèse d’échangeabilité de l’inférence causale)	En l’absence de randomisation le traitement reçu n’est pas indépendant des déterminants du critère de jugement entrainant un biais de confusion impliquant de corriger du biais de confusion les résultats en prenant en compte tous les facteurs de confusion par l’analyse
Le critère de jugement est évalué/mesuré différemment entre les deux groupes, favorisant le groupe traité	Double aveugle Standardisation du processus de mesure du critère de jugement	Difficile à prendre en compte (cf. section 19 ) Éléments constitutifs d’un effet étude probablement irréductible (cf. section 13.3.1 )
Asymétrie de prise en charge favorisant le groupe traité	Double aveugle Protocolisation des traitements
Exclusion d’analyse (biais d’attrition) favorisant le groupe traité : données manquantes et censures informatives (perdus de vue)	Analyse en intention de traiter Remplacement conservateur des données manquantes sur le critère de jugement Gestion conservatrice des événements intercurrents	Idem
Les événements intercurrents peuvent fausser l’évaluation	Définition précise de l‘estimand	Idem
Il existe plusieurs estimands causal, population cible pour définir l’effet d’un traitement	Dans l’essai randomisé, tous les estimands causaux ont la même valeur (ATE = ATT = ATC)	L’ATT correspond à la question posée par les comparaisons externes (chercher le contrefait au groupe traité)
Nécessité de comparaisons avec une puissance statistique suffisante pour séparer le signal du bruit	Calcul d’effectifs Recrutement de l’effectif ou du nombre d’événements nécessaire pour garantir le puissance	Idem
Multiplicité des comparaisons statistique induisant une inflation du risque alpha global	Control du risque alpha global	Idem
Début du suivi différent entre les traitements par rapport à l’histoire « naturelle » de la maladie introduisant des temps d’immortalité et autres biais de sélection	Solutionnée par design, le suivi débute à la randomisation. Il est parfaitement synchronisé entre les 2 groupes et cette synchronisation est maintenue par l’analyse en ITT	Recherche d’un t0 de début de suivi émulant ce qui se passe dans l’essai randomisé.
HARKing	Réalisation d’une étude prospective	Réalisation en prospectif Si réalisation rétrospective à nécessité d’apporter des garanties solides d’absence de HARKing
P hacking	Plan d’analyse statistique élaboré a priori	Idem Si réalisation rétrospective à nécessité d’apporter des garanties solides d’absence de p hacking
Disponibilité des données nécessaires pour répondre directement à la question de recherche	Les données nécessaires sont recueillies spécifiquement du fait de la nature prospective	Disponibilité non garantie, Choix de données « fit-to-purpose » Appel à des approches indirectes pouvant introduire des erreurs
Indépendamment de l’efficacité, les traitements comportent des risques	Évaluation et décision sur la balance bénéfice risque	Idem
Les effets des traitements sur des critères intermédiaires ne se traduisent pas toujours en bénéfice clinique	Évaluer sur des critères cliniquement pertinents	Idem
Population de l’étude différente de la population cible	Essai pragmatique	Idem (mais les études monobras hypersélectionnent les patients)

En plus, surviennent aussi des problématiques spécifiques de l’approche par comparaisons externes : utilisation de deux échantillonnages indépendants, utilisation de deux recueils d’information indépendants, contrôles non contemporains des patients traités, etc.

Tableau 3 – Problématiques méthodologiques des comparaisons externes et potentielles solutions De nombreuses problématiques méthodologiques peuvent conduire à conclure à tort à l’intérêt du nouveau traitement avec une comparaison à un groupe contrôle externe. Ce tableau liste ces problématiques et mets en regard les solutions théoriques potentielles.

Problématiques posées par les comparaisons externes	Mécanisme conduisant à conclure à tort à l’efficacité du nouveau traitement	Éléments de solution théorique
Pour mémoire, la question des comparaisons externes se pose en l’absence de groupe contrôle (ou de contrôle approprié)	Impossibilité de faire un raisonnement contrefactuel permettant d’isoler l’effet causé par le traitement	En l’absence de groupe contrôle interne, utilisation d’un groupe contrôle externe pour s’inscrire quand même dans un raisonnement contrefactuel indispensable pour avancer sur la voie de la causalité
Possibilité de HARKing et de p hacking liée à l’aspect rétrospective de l’approche	La source de données utilisée pour constituer le groupe contrôle externe a été choisie, car une analyse inférentielle préalable des données montre que ce choix permet d’en tirer la conclusion recherchée	Attestation explicite de l’élaboration du protocole et du plan d’analyse statistique avant toutes analyses inférentielles Protocole daté, signé et enregistré Éventuellement traçabilité des accès aux données Transparence
Le résultat de la comparaison peut être connu sans réelle analyse inférentielle, car le résultat du groupe traité est déjà connu ainsi que celui du groupe contrôle, car il a déjà publié pour son propre compte (étude de registre par exemple)	Rends inutilisable le groupe contrôle envisagé. Seuls seraient exploitables les nouveaux patients inclus dans le registre après la publication des résultats.
p hacking dans un contexte d’analyse rétrospective	L’analyse statistique a été adaptée en fonction des résultats produits jusqu’à obtenir la conclusion recherchée. Les nombreux tâtonnements ne sont pas rapportés (hidden analyses)	Plan d’analyse statistique (SAP) garantissant qu’il a été élaboré a priori, avant toute analyse inférentielle SAP daté et signé et enregistré
Réalisation d’étude exploratoire	Non-respect de la démarche hypothético déductive. L’étude risque de conclure sur une découverte fortuite purement artéfactuelle et sans réelle existence en dehors du jeu de données particulier analysé.	Réalisation d’étude de confirmation réalisée spécifiquement pour confirmer ou infirmer une hypothèse explicite de supériorité ou de non-infériorité Objectifs clairement spécifiés (et conclusion portant uniquement sur des résultats correspondant à ces objectifs)
Association statistique n’est pas causalité	Une étude observationnelle ne montre qu’une association statistique	Inférence causale par une étude et des données rendant raisonnablement plausible les hypothèses fondamentales de l’inférence causale
Biais de confusion	Existence de différences dans le risque de base des patients du groupe contrôle externe par rapport à ceux du groupe du traitement étudié (biais de confusion à la baseline)	Correction des résultats par l’analyse statistique prenant en compte tous les facteurs de confusion affectant la comparaison externe
Nécessité d’identifier tous les facteurs qui devront être contrôlés (ajustés) pour tenter de supprimer le biais de confusion	La liste des facteurs de confusion ne s’impose pas d’elle-même. Les facteurs de confusion sont à identifier cas par cas en raison de leur association connue avec le critère de jugement et avec le traitement.	Revue systématique des facteurs pronostiques des critères de jugement et établissement d’un réseau de causalité (DAG ou autres) à partir des connaissances et non pas des données
Possibilité de biais de confusion résiduelle	L’ajustement n’a pas pu corriger complètement le biais de confusion, car certains facteurs de confusion n’ont pas été identifiés, ou mesurés, ou en raison d’une mauvaise spécification du ou des modèles statistiques	Tenter de renforcer les arguments en faveur d’un faible risque de confusion résiduelle par des contrôles négatifs et/ou des analyses quantitatives des biais (E value ou autres). Pour certains, le biais de confusion résiduel persiste dans tous les cas, empêchant de considérer ces études comme à faible risque de biais (ROBINS-I).
Possibilité de biais de sélection, en particulier de biais de temps d’immortalité	L’inclusion des patients et/ou les périodes d’observation dans l’étude dépendent à la fois du critère de jugement (ou de facteurs de risque du critère de jugement) et du traitement	Le suivi a débuté dans les 2 groupes lorsque l’éligibilité est vérifiée et le traitement assigné Le t0 du groupe contrôle externe est synchrone de l’inclusion dans la monobras (ou de la randomisation) L’émulation d’un essai cible satisfaisante
Possibilité de biais de sélection par censures informatives (perdus de vue)		Remplacement des données manquantes suivant un scénario du pire
Déplétion des susceptibles ou censures à gauche		New user design (incident ou prévalent) Alignement du temps zéro (top départ du suivie) avec les critères d’éligibilité, l’assignation des traitements. Prévention de la censure à gauche
Biais de classification des expositions	Les patients du groupe contrôle n’ont pas eu le traitement qui définit ce groupe (à remise en cause de l’hypothèse de cohérence de l’inférence causale)	Étude de validation des données Contrôles positifs et les techniques de benchmarking
Biais d’information (classification de l’outcome)	Le critère de jugement disponible dans la source de données pour constituer le groupe contrôle n’est pas le même ou n’est pas mesuré de la même façon que le critère de jugement du groupe traité	Utilisation du même critère de jugement pour le groupe contrôle que celui du groupe traité s (parfois impossible) Mesure de l’exactitude des données dans une étude de validation à VPP, VPN, Sensibilité, Spécificité Analyse quantitative de biais
Biais de réalisation, asymétrie de prise en charge des patients	Différence dans la fréquence et l’efficacité des traitements de base, concomitants ou post-échec et des prises en charge entre le groupe traité (étude monobras contemporaine) et le groupe contrôle (données historique)	Utilisation de données les plus comptemporain possible et provenant de contexte de soins identiques
Utilisation d’un estimand non approprié	L’estimand doit correspondre à la question causale : quel bénéfice clinique supplémentaire cause la prescription par le médecin du nouveau traitement par rapport à la stratégie actuelle chez les patients visés par le nouveau traitement	Estimation de l’effet du traitement moyen dans la population cible des patients traités (ATT average treatment effect among the treated ) Analyse en intention de traité avec une stratégie de gestion des événements intercurrents de type « policy treatment » pour les hypothèses de supériorité
Pertinence des données	Les variables nécessaires pour faire l’étude ne sont pas présentent dans la source de données (critère de jugement, facteurs de confusion, contrôles négatifs, variable de sélection des patients, etc.), conduisant à la réalisation d’une étude de méthodologie sous optimale	Choisir une source de données « fit-to-purpose » après l’élaboration du protocole Faire un recueil prospectif des données Compléter les données historiques par une chart review si l’identification des patients est possible Chainer des bases de données entre elles Utiliser des données multibases
Non-contemporanéité des données	Les données du groupe contrôle historique ont été recueillies dans le passé où le contexte de soins, les prises en charge de patients et les traitements subséquents ne sont plus d’actualité. Il y a une tendance séculaire	Prise en compte/modélisation de la tendance séculaire dans l’analyse (introduis une hypothèse de validité supplémentaire) Restriction temporelle des données historiques aux périodes les plus récentes
Effet étude non réductible	Le recueil des données s’effectuant dans 2 études différentes il peut exister des différences entre les 2 études influençant les critères de jugement (par exemple différence de critère de jugement entre les 2 études)	Pas de solution. Éventuellement analyse quantitative de biais À anticiper à la construction de la monobras (externally controlled trial ) en adoptant le même critère de jugement que celui disponibles dans le groupe contrôle mais soulève d’autres questions
Inflation du risque alpha liée à une multiplicité de comparaisons statistiques	La multiplicité des comparaisons augmente le risque alpha global de trouver un quelconque intérêt au traitement à tort du fait du hasard	Plan de contrôle du risque alpha global (répartition, hiérarchisation, recyclage du risque alpha global)
Selective reporting	Sélection des résultats rapportés dans le rapport ou la publication parmi un grand nombre de résultats produits	Enregistrement du protocole et du SAP
Biais de publication	Plusieurs études de comparaison externe ont été réalisées et leur présentation, publication au sens large dépend de leurs résultats	Enregistrement prospectif des protocoles Réalisation d’études multibases

[6] Pour une démonstration de supériorité avec un estimand « policy treatment » (analyse en intention de traiter).