4 Risque alpha global (overall type I error rate)

     

Il existe en fait deux niveaux de risque alpha.

Risque alpha nominal

Risque que l’on prend de conclure à tort à l’existence d’un effet du traitement au niveau d’un test particulier, dans le cas où le traitement n’a pas d’effet au niveau de ce test particulier.

Risque alpha global de l’essai

Risque que l’on prend de conclure à tort à un quelconque intérêt du traitement à l’issue de l’essai.

C’est l’unique risque alpha d’intérêt dans l’essai thérapeutique, qu’il convient de garder strictement inférieur à 5% en bilatéral.

Le risque alpha au niveau d’un test (sur un critère de jugement par exemple) est le risque de conclure à tort à une différence au niveau de ce test particulier. Ce niveau correspond à la présentation classique du risque alpha dans les cours de statistique.

L’autre niveau est celui du risque alpha global de l’essai. Celui-ci est au centre de la problématique statistique de l’essai. Un essai est entrepris pour faire la conclusion de l’intérêt du traitement. Or cette conclusion va reposer sur un test statistique. Elle pourra donc être prise à tort du fait du hasard. C’est le risque alpha global de l’essai qui doit être parfaitement bien contrôlé à moins de 5% en bilatéral (2.5% en unilatéral sur la conclusion à l’intérêt du nouveau traitement).

“To control the overall type I error, …”

“to preserve the overall type I error rate at 0.05 (two-sided) after accounting for one interim analysis.”

Si la conclusion de l’essai ne peut être faite qu’à partir d’un seul et unique test statistique, le risque de conclure à tort au niveau de l’essai est celui de conclure à tort au niveau du test.

Dans les essais modernes, on souhaite aller au-delà de la contrainte de la conclusion unique et pouvoir conclure à l’intérêt du traitement à partir de plusieurs tests (par exemple à partir de plusieurs critères de jugement, ou en effectuant plusieurs analyses et éventuellement en considérant des sous -groupes de patients). Il est donc nécessaire d’autoriser une multiplicité des comparaisons sans que cela entraine une inflation du risque alpha global.

Statistical testing in the COMPASS study [ 10.1056/NEJMoa1709118 supplement] involves multiple testing in 3 main areas:

1. Multiple intervention comparisons: Rivaroxaban 2.5 mg bid + aspirin 100 mg od (rivaroxaban plus aspirin) compared to active control aspirin 100 mg od (aspirin); Rivaroxaban 5.0 mg bid (rivaroxaban) compared to active control aspirin 100 mg od (aspirin)

2. Multiple outcomes: One primary efficacy outcome and 3 key secondary efficacy outcomes.

3. Multiple decision points: A first interim analysis was to be conducted after approximately 50% of the target number of subjects had experienced an unrefuted primary efficacy outcome, a second interim analysis was to be conducted after approximately 75% of the target number of outcomes, and a final analysis was to be conducted after the target number of 2,200 unrefuted primary efficacy outcomes.

Testing multiple hypotheses may increase the Type I error rate and we used a variety of statistical procedures to control the overall Type I error.

Cependant cette multiplicité des tests statistiques, où chacun pourrait conduire à la conclusion de l’intérêt du traitement, augmente le risque alpha global, même si les tests unitaires ont toujours le même risque alpha nominal de 0.05. On parle d’inflation du risque alpha global (voir section suivante). On pourrait exposer la situation de façon provocante pour aider à la compréhension : je veux montrer que le traitement est efficace, il suffit de faire plusieurs tests et de conclure au premier test statistique significatif que l’on trouve, du fait du hasard.

En multipliant les tests, on augmente le risque de trouver au moins un test avec un p<0.05 même si le traitement n’a aucun effet. 5% c’est 1/20. Sous l’hypothèse nulle d’absence d’effet traitement, on s’attend à avoir en moyenne un p<0.05 tous les 20 tests réalisés, simple faux positif uniquement dû au hasard.

Dans un essai thérapeutique, un résultat statiquement significatif signifie qu’il permet de conclure à l’intérêt du traitement avec un risque alpha global parfaitement bien contrôlé.

Ainsi des p<0.05 pourront ne pas être statistiquement significatifs, car il ne contrôle pas le risque alpha global note n° 1 .

Figure 1 – Les deux niveaux de risque alpha et les conséquences de la multiplication des tests pour conclure à l’intérêt du traitement Le risque alpha global au niveau de l’essai (colonne de gauche) peut conduire à conclure à tort à l’intérêt du traitement et à recommander l’utilisation d’un traitement en réalité sans intérêt. C’est le risque alpha qui doit être parfaitement contrôlé dans l’essai. Quand on dit qu’un résultat est statiquement significatif dans un essai randomisé, cela signifie qu’il permet de conclure à l’intérêt du traitement avec ce risque alpha global parfaitement bien contrôlé . Cependant ce risque alpha global peut augmenter abusivement si cette conclusion est effectuée à partir de multiples tests (partie inférieure du schéma). Il faut donc mettre en œuvre des techniques particulières pour gérer la multiplicité et empêcher cette inflation du risque alpha global (cf. section 6 ).

IMG

Signification statistique nominale

Contrôle le risque alpha de conclure à tort sur le test considéré

H0 : absence d’effet sur ce test particulier

Signification statistique en termes de risque alpha global de l’essai

Contrôle le risque alpha de conclure à tort à l’intérêt du traitement à l’issue de l’essai

H0 : absence d’intérêt du traitement, c’est-à-dire absence d’effet sur tous les tests qui sont réalisés

Contrairement à ce que l’on imagine couramment, la signification statistique ne renseigne en rien sur la réalité du résultat. La signification statistique ne cherche pas à déterminer quelle est la plausibilité de l’effet du traitement, elle évite seulement de conclure à tort trop fréquemment si le traitement n’a pas d’effet.

Le test d’hypothèse est en fait un outil bancal qui n’évalue pas la plausibilité que le traitement ait un effet », mais qui indique seulement qu’elle est la plausibilité d’obtenir un tel résultat du fait uniquement du hasard si le traitement n’a pas d’effet. Il existe une autre approche statistique, l’inférence bayésienne, qui répond directement à la question en donnant la probabilité que le traitement soit efficace compte tenu du résultat observé. Mais cette approche est aussi bancale car elle nécessite d’introduire une idée a priori du résultat. Pour éviter que le résultat obtenu ne dépende que de l’idée préconçue de l’investigateur et non pas des données, un a-priori non informatif (qui ne fait aucune hypothèse a priori sur l’efficacité du traitement) doit être impérativement utilisé.


[1] on peut dire à la rigueur qu’ils sont nominalement significatifs