2.2 p value et probabilité que le traitement soit efficace

     

Hormis l’aspect inélégant de la réponse apportée par la p value, elle a aussi une valeur de preuve toute relative en fonction de paramètres autres que le résultat de l’essai : la puissance de l’étude et le degré spéculatif de l’hypothèse thérapeutique testée. Ainsi un « p<0.05 » ne conduit pas toujours au même degré de certitude. Il existe des circonstances où le risque qu’un résultat statistiquement significatif (p<0.05) soit un résultat faussement positif est très élevé [14 , 15 , 16] .

Le calcul du risque qu’un résultat soit faussement positif peut être présenté de manière empirique, sans faire appel au calcul des probabilités, en faisant appel au dénombrement. Pour un ensemble fini de traitements développés, il y a p% de ces traitements qui apporte un bénéfice et 1-p% de traitement sans intérêt. Le risque alpha est la fréquence avec laquelle les essais des traitements sans intérêt donneront un résultat significatif (soit 5%). La puissance est a fréquence avec laquelle les essais des traitements apportant un bénéfice donneront un résultat positif (statistiquement significatif). La fréquence des résultats faussement positifs dans une situation donnée sera le rapport entre le nombre d’essais positifs (statistiquement significatifs) obtenus avec un traitement sans intérêt divisé par le nombre total d’essais positifs obtenus sur l’ensemble des traitements testés (ceux avec bénéfice et ceux sans intérêt).

Les calculs nécessaires sont illustrés avec une approche bilatérale sur le graphique suivant.

IMG

Dans cet exemple la probabilité qu’un traitement apporte un bénéfice est de 70%. Sur l’ensemble des traitements testés (un seul essai par traitement, 70% des essais seront donc conduits sur des traitements apportant un bénéfice et 30% sur un traitement sans intérêt. Avec un risque alpha note n° 2 de 5%, 5% de ces essais donneront à tort un résultat positif. Ces résultats seront des faux positifs (FP) et 95% de ces essais seront négatifs et sont des vrais négatifs. Soixante-dix pour cent des essais seront conduits avec un traitement apportant un bénéfice. Si ces essais ont une puissance de 80%, sur l’ensemble des essais réalisés, 80% des 70% conduiront à un résultat vrai positif. La fréquence des essais faux négatifs sera 20% de 70%.

Au total, 57.5% des essais auront produit un résultat apparemment positif (statistiquement significatif). Mais parmi ces essais positifs, seule une partie correspond à un traitement apportant réellement un bénéfice. Ainsi quand l’essai est positif (statistiquement significatif), le traitement apporte un bénéfice que dans 97.4% des cas. Dans cette situation numérique, la probabilité que le traitement apporte un bénéfice quand l’essai est positif est de 97.4%. Le taux de fausse découverte est donc 100%-97.4%= 2.6%.

La probabilité que le traitement soit efficace à l’issue d’un essai concluant (appelée probabilité à postériori) est donc IMG, avec VP qui dépend de la probabilité à priori que le traitement a un intérêt et de la puissance, tandis que FP dépend du risque alpha et de la probabilité à priori.

Dans l’exemple numérique précédent, la probabilité que le traitement apporte un bénéfice après un essai significatif était très élevée ce qui semble donner de la valeur à p<0.05. Mais ce n’est pas toujours le cas dans d’autres configurations de puissance ou de probabilité à priori. Le tableau suivant explore quelques situations différentes.

Situation

Probabilité à priori

Puissance

Alpha (unilatéral)

Probabilité de bénéfice réel à la suite d’un essai significatif

1

70%

80%

2.5%

98.7%

2

70%

50%

2.5%

97.9%

3

70%

50%

30%

79.5%

4

20%

80%

2.5%

88.9%

5

20%

80%

40%

33.3%

6

20%

50%

2.5%

83.3%

7

20%

50%

20%

38.5%

Dans la situation n° 2, la puissance est réduite (50%). Dans ce cas la probabilité que le traitement ait un bénéfice avec un résultat significatif diminue légèrement. Les études peu puissantes sont donc moins probantes même si elles sont significatives. En n° 3, le risque alpha est augmenté par exemple en raison d’une multiplicité non contrôlée. La probabilité à postériori chute alors à moins de 80%, montrant l’importance du contrôle strict du risque alpha.

Pour les autres situations (4 à 7), la probabilité à priori est bien plus faible (seulement 20%), car il s’agit, par exemple, d’un nouveau mécanisme d’action spéculatif, testé pour la première fois. Seul un essai avec une forte puissance et un strict contrôle du risque alpha (n° 4) sera relativement probant, avec une probabilité à postériori assez faible de l’ordre de 90% (par analogie à l’approche fréquentiste standard, le seuil à atteindre pourrait être fixé à 97.5%). Dans toutes les autres situations, la probabilité à postériori est faible, voire très faible. Cela illustre bien la faible valeur probante que peut avoir un essai significatif dans certaines situations.

En conclusion, défaut de puissance et risque alpha non contrôlé enlèvent tout degré de certitude dans un résultat statistiquement significatif.


[2] Unilatéral en faveur de l’hypothèse de supériorité, mais ce point est sans importance pour la suite de l’explicitation du raisonnement