2.2 Cas d’un essai concluant (« positif »)

     

Dans le cas d’un essai concluant (qui a obtenu un résultat statistiquement significatif en faveur de la supériorité du nouveau traitement), les analyses en sous-groupes peuvent être utilisées pour chercher d’éventuels patients chez lesquels le traitement n’apporterait pas, ou trop peu, de bénéfice et qui ne serait pas donc pas à traiter avec ce traitement.

La problématique statistique sous-jacente est triple.

Il existe, tout d’abord, une inflation du risque beta, qui est le risque de ne pas trouver une différence alors que cette différence existe réellement. En multipliant les comparaisons, le risque de conclure à tort à une absence d’effet dans au moins un cas de figure où le traitement est réellement efficace augmente.

La Figure 4 illustre les conséquences en termes d’erreur beta globale des fluctuations aléatoires d’échantillonnages liées à la multiplicité des sous-groupes. Il s’agit d’un essai simulé avec un traitement efficace (vrai risque ratio de 0.50) et qui globalement, sur l’ensemble des patients inclus, amène à faire la bonne conclusion. Cet essai a été divisé de manière purement aléatoire en 12 parties. Comme cette division est purement aléatoire, il n’y a aucune raison mécanistique que l’efficacité du traitement soit modifiée dans ces sous-groupes. Cependant, l’estimation ponctuelle du risque ratio fluctue entre ces sous-groupes purement du fait du hasard. Plusieurs sous-groupes pourraient amener à conclure à l’absence de bénéfice devant un résultat du sous-groupe nominalement non significatif.

IMG

Figure 4 – Illustration des conséquences des fluctuations aléatoires sur les résultats des sous-groupes dans un essai simulé avec un traitement réellement efficace (vrai risque ratio de 0.5). Plusieurs de ces résultats pourraient conduire à conclure à tort à l’absence d’effet.

La deuxième problématique statistique est celle de la réduction d’effectif dans les sous-groupes qui potentialise l’inflation du risque beta. Étant de taille inférieure à l’essai, la précision des estimations est moindre (les intervalles de confiance sont plus larges que celui du résultat de l’essai). Par exemple dans la Figure 4, le sous-groupe n°12 donne la même estimation d’effet traitement que l’essai, mais par réduction de son effectif le résultat n’est plus significatif.

La troisième problématique est celle de conclure à l’absence d’effet devant une différence non significative. Elle est le corolaire de la problématique précédente. En effet il n’est pas possible de conclure à l’absence d’effet devant une différence non significative, car une l’absence de signification peut provenir de 2 phénomènes non distinguables : une réelle absence d’effet ou un manque de puissance. Une conclusion d’absence d’effet devrait se baser sur une approche type essai de non-infériorité pour gérer correctement cette problématique.

Dans un essai concluant (montrant l’intérêt du traitement au niveau global), les analyses en sous-groupe ne permettent pas de conclure à l’absence d’effet pour certains sous-types de patients en raison de : 1) Inflation du risque beta (de ne pas conclure à tort à l’effet du traitement) liée à la multiplicité ; 2) Réduction d’effectif, entrainant une réduction de la précision des estimations (largeur des intervalles de confiance) et de la puissance statistique ; 3) Conclusion à l’absence d’effet à partir d’une différence non significative impossible

Ces problématiques ont été illustrées par plusieurs analyses de sous-groupes pédagogiques basées sur des variables insolites (comme les signes du zodiaque [5] ).

Dans un essai montrant la supériorité de la chirurgie d’endartériectomie par rapport au traitement médical chez des patients ayant un antécédent d’AVC et une sténose serrée d’une artère carotide. L’essai démontre une réduction absolue de la fréquence de récidive des AVC de 12%. Une analyse en sous-groupe a été réalisée en fonction du jour de la semaine de la naissance [6] .

IMG

Il est peu probable que le bénéfice de la chirurgie soit modifié, 50-70 après, par le jour de la semaine de la naissance, mais les résultats obtenus pourraient conduire à conclure à l’absence de bénéfice pour ceux nés un dimanche, un mardi, un jeudi ou un samedi. Le but de cette démonstration par l’absurde et de montrer les dangers auxquels exposent les analyses en sous-groupe en cas d’essais positifs. Leurs résultats peuvent être le pur produit du hasard et ne refléter en rien une absence de bénéfice pour certains patients. Bien sûr s’il existe une véritable modification de l’effet, cela va conduire à des différences d’effet entre les sous-groupes (avec de potentielles distorsions du fait du hasard). Mais en pratique, la problématique est que devant des résultats différents entre les sous-groupes, il est impossible de savoir si cela provient que du hasard ou d’un vrai déterminisme.

L’association dabrafenib trametinib a été évaluée en 1 er ligne dans le mélanome métastatique versus vemurafenib [7] . L’essai montre une réduction de la mortalité totale avec un hazard ratio de 0.69 95% CI, 0.53 to 0.89; P = 0.005. Cependant le résultat suivant est obtenu dans les analyses en sous-groupe au niveau du performance status ECOG :

IMG

L’analyse en sous-groupe en fonction du performance statuts ECOG suggère l’absence de bénéfice chez les ECOG de 1 avec à la fois un hazard ration très proche de 1 (1.03) et un résultat nominalement non significatif. Aucune décision de restriction de l’utilisation aux patients ECOG de 0 n’a été prise devant ce résultat qui a été considéré comme étant de l’ordre des fluctuations aléatoires.


Il n’est donc pas possible de conclure que certains patients ne sont pas répondeurs au traitement à partir d’analyse en sous-groupes ordinaires sans utilisation d’une méthode statistique adaptée.