2.2.2 Le risque alpha et son contrôle

     

La première cause des résultats faussement positifs est le risque alpha note n° 12 , risque qu’une différence apparaisse entre les 2 groupes comparés uniquement du fait du hasard. Ce risque alpha provient des fluctuations aléatoires d’échantillonnage et ne peut pas être totalement évité.

Il n’est pas raisonnable de conclure à l’effet du traitement simplement en regardant s’il existe une différence en faveur du traitement étudié entre les 2 groupes au niveau du critère de jugement. Pour éviter de conclure à tort et à travers devant toutes les différences en réalité dues au hasard, il est nécessaire de s’appuyer sur les tests statistiques d’hypothèses. Ainsi, il ne sera possible de conclure à la réalité statistique d’une différence, et donc à l’effet du traitement, que si cette différence est statistiquement significative. À ce moment-là, le risque encouru de conclure à tort est considéré comme suffisamment petit pour être acceptable (moins de 2.5% pour un test classique bilatéral à 5%). La significativité statistique est obtenue quand le paramètre p (la p value ), calculé à partir des résultats de l’étude, est inférieur au seuil de la significativité statistique dont la valeur correspond au risque alpha consenti (en général 0.05 bilatéral).

La significativité statistique est donc classiquement présentée comme p<0.05 dans les ouvrages et les cours de statistique générale. Mais cette présentation ne se préoccupe que du risque de conclure à tort au niveau d’un test statistique donné et uniquement à son niveau.

Dans l’essai thérapeutique, un résultat est statistiquement significatif lorsqu’il permet de conclure au niveau de l’essai à l’intérêt du traitement avec un risque alpha global contrôlé et suffisamment faible (<2.5%)

Dans l’essai thérapeutique, la situation est plus complexe, car l’objectif général est de conclure à l’intérêt ou non du traitement évalué, globalement, à l’issu de l’interprétation de tous les résultats de l’essai. Cette conclusion générale peut donc se faire à partir de multiples comparaisons (multiples critères de jugement par exemple, ou multiples temps de mesure, multiples sous-groupes, multiples analyses intermédiaires, etc.). Cette multiplicité fait que les risques de conclure à tort, que l’on consent à prendre au niveau de chacune de ces multiples comparaisons (chaque comparaison donnant lieu à un test), vont s’accumuler, conduisant à un risque général (global) de conclure à tort à un quelconque intérêt du traitement fortement augmenté. Cette inflation du risque alpha global de l’essai liée à la multiplicité des comparaisons augmente donc les risques de tirer à tort une conclusion positive de l’essai (cf. dossier n° 1 du document compagnon).

Si cette inflation n’était pas prise en compte, il serait presque toujours possible de trouver une comparaison avec un p<0.05 parmi les multiples p values disponibles (car avec un traitement sans intérêt, 5%, soit 1/20° des comparaisons note n° 13 donne un résultat significatif au niveau du test). Presque tous les essais seraient positifs même en l’absence d’efficacité réelle. L’essai thérapeutique n’aurait donc plus aucun sens.

Pour éviter cette situation, la signification statistique dans l’essai thérapeutique est envisagée au niveau global, en termes de risque alpha global de conclure à tort à un (quelconque) intérêt du traitement à l’issu de l’essai, et non plus au niveau d’un critère de jugement particulier (niveau du risque alpha nominal de conclure à tort à un effet du traitement sur ce critère particulier).

Il existe plusieurs risques alpha. Celui qui est pertinent dans l’essai thérapeutique est le risque alpha global, risque de conclure à tort à l’intérêt du traitement, globalement, à l’issue de l’essai

Des techniques de gestion de la multiplicité sont alors utilisées et font que la p value obtenue au niveau d’un test particulier (p value nominale) ne donne plus la signification statistique recherchée. La signification statistique en termes de risque alpha global sera déduite de cette p value nominale en fonction de la méthode de gestion de la multiplicité qui aura été fixée dans le protocole : répartition du risque alpha entre des co-critères principaux (co-primary endpoints ) , hiérarchisation des comparaisons qui seront effectuées selon une séquence prédéfinie, combinaison des deux méthodes avec ou sans réallocation (« recyclage ») du risque alpha. Ces méthodes sont détaillées dans le dossier compagnon n° 1.

Ces méthodes font souvent que la p value à atteindre pour conclure à la significativité (seuil ajusté de la signification) est différente pour chaque critère de jugement et pour les analyses intermédiaires par exemple. Ces seuils ajustés sont très souvent inférieurs à 0.05 en bilatéral et fréquemment des valeurs de p inférieurs à 0.05, mais supérieurs au seuil ajusté, ne sont donc pas statistiquement significatifs en termes de risque alpha global.

p<0.05 n’est plus synonyme de signification statistique avec les méthodes mises en œuvre dans les essais modernes pour contrôler le risque alpha global

Seuls les résultats statistiquement significatifs en termes de contrôle du risque alpha global peuvent être considéré comme une démonstration du bénéfice du traitement. Les résultats qui sont seulement nominalement significatifs ne permettent pas de conclure. Les p values correspondantes sont d’ailleurs de moins en moins rapportées dans les publications (pour éviter une mauvaise interprétation).

Seuls les résultats significatifs en termes de contrôle du risque alpha global permettent de conclure à l’intérêt du traitement évalué


[12] En toute rigueur, il s’agirait plutôt de l’erreur statistique alpha, le risque alpha étant la probabilité de survenue d’une erreur alpha. Dans le langage courant, les 2 termes (risque et erreur) sont utilisés sans trop de distinction, car une erreur alpha est un « risque » qui menace les conclusions (le même terme désigne le risque, l’erreur alpha, et la quantification de ce risque).

[13] Des comparaisons indépendantes entre elles