2 Risque alpha (type I error rate )
2.1 Signification statistique et pertinence clinique
3 L’exploitation de l’erreur alpha pour obtenir à coup sûr des résultats positifs
4 Risque alpha global (overall type I error rate)
5 Multiplicité et inflation du risque alpha global
6 Technique de contrôle du risque alpha global gérant la multiplicité
7 Nouvelle politique de présentation des p value
La détermination qu’un traitement à un effet sur un critère de jugement s’effectue en comparant la valeur du critère de jugement entre les 2 bras de l’essai pour chercher s’il y a une différence en faveur d’un effet bénéfique du traitement (moins de décès dans le groupe traité que dans le groupe contrôlé par exemple).
Une telle différence peut néanmoins survenir du fait des fluctuations aléatoires d’échantillonnage (liées purement au hasard) même si le traitement n’a aucun effet en réalité sur le critère de jugement. Si l’on ne prenait pas ce risque en compte, on pourrait conclure à tort à l’existence d’une différence dans les cas où le traitement n’a pas d’effet. C’est l’erreur statistique alpha (aussi appelé de première espèce ou de type 1, type I error ) : conclure à tort à une différence qui n’existe pas en réalité.
Cette erreur statistique a de lourdes conséquences dans le cadre d’un essai clinique, car elle conduit à conclure à tort que le nouveau traitement apporte un bénéfice aux patients et donc conduit à le recommander et à l’utiliser indument en pratique.
Pour limiter au maximum cette possibilité catastrophique, on utilise un test statistique qui va limiter le risque de commettre une erreur alpha en deçà d’une valeur faible (on parle de contrôle du risque alpha), 5% en bilatéral en général. Ainsi dans le cas où le traitement n’a pas d’effet sur le critère considéré, on ne conclura à une différence que dans 5% des cas.
N.B. : En absence de prise en considération du risque d’erreur alpha, on serait amené à utiliser tous les traitements qui n’apportent pas de bénéfice car, du fait des fluctuations aléatoires d’échantillonnage, la moitié des résultats produits serait peu ou prou en faveur de la supériorité du nouveau traitement.
En travaillant avec un seuil de la signification statistique bilatéral à 5%, on n’accepte plus que 2.5% des traitements sans effet (car, sous l’hypothèse nulle, seule la moitié des différences dues au hasard sont statistiquement significativement en faveur du nouveau traitement et conduisent à l’utiliser ; l’autre moitié suggérant une infériorité du nouveau traitement).
L’utilisation de la signification statistique permet de réduire le risque de conclure à tort du fait du hasard, mais ne le réduit pas à zéro. Avec un seuil de signification à 5% bilatéral, on admet encore 2.5% des traitements sans effet.
Un résultat significatif ne signifie pas qu’il est démontré avec certitude.