2.6 Le jugement « clinique » peut-il dispenser d’une validation statistique des résultats ?

     

Parfois il est plaidé qu’un résultat non statistiquement significatif, mais correspondant à une différence importante sur un critère cliniquement important et compatible avec le mécanisme d’action, a un « sens clinique » et doit être pris en considération note n° 23 .

Exemples de surinterprétation des résultats non concluants

« Bien que non statistiquement significatif en raison du faible nombre d'évènements note n° 24 , un plus faible taux d'hospitalisation est également observé chez les sujets traités par la bithérapie par rapport au placebo. »

«Bien que non statistiquement significatif, ce résultat est cliniquement important. »

« Bien que non statistiquement significatif, le traitement a montré une réduction cliniquement significative dans la progression de l'invalidité confirmée à 12 semaines, telle que mesurée par l'Échelle élargie de l'état d'invalidité (EDSS). »

C’est par exemple un Hazard Ratio de 0.4 sur la mortalité dans un essai de petite taille. Il est argumenté alors qu’il n’y a pas besoin de signification statistique pour considérer que ce résultat est réel, car il s’agit des décès (critère objectif et cliniquement important), que la réduction est importante et que le résultat est attendu compte tenu du mécanisme d’action. En fait, aucun de ces arguments ne permet de garantir que ce résultat est réel.

Ce n’est pas parce que le critère de jugement est cliniquement important qu’une comparaison de 2 groupes de patients n’est plus sujette aux fluctuations aléatoires d’échantillonnage.

Les fluctuations aléatoires d’échantillonnage n’affectent pas les évènements, mais bien les statistiques et en particulier ce qui est observé dans un échantillon (un groupe) de patients. Quelle que soit la nature du critère de jugement, la valeur statistique d’un échantillon est sujette à des fluctuations (des sur- ou sous-estimations) dues uniquement au hasard.

En l’absence de signification statistique, il est risqué de conclure à l’existence de l’effet. De plus, dans un essai de faible puissance (cf. dossier compagnon n° 8), un résultat significatif est peu en faveur de l’effet (faible valeur prédictive positive). Dans une approche d’inférence bayésienne les résultats de ce type (grande différence non significative dans un essai de faible puissance) sont associés à une probabilité a posteriori que le traitement soit efficace faible.

Ce point est illustré de manière empirique par une étude de méta-épidémiologie, portant sur des traitements pour lesquels un effet de grande taille « very large effect » avait été observé dans une étude préliminaire (phase 2 le plus souvent) et pour lesquels une étude de confirmation avait aussi été réalisée. L’objectif était d’évaluer si les résultats préliminaires de grande taille sont prédictifs à coup sûr d’un véritable effet du traitement [64] . Ce travail ne trouve pas de corrélation entre les premiers résultats de grande taille et la taille du résultat de l’essai de confirmation. Seulement 43% des essais de confirmation obtiennent un résultat statistiquement significatif. Un effet de grande taille dans un essai préliminaire ne permet donc pas de conclure qu’un essai de confirmation n’est pas nécessaire.

De la même façon, la plausibilité biologique n’est pas non plus un argument très probant compte tenu de sa faible valeur prédictive d’un bénéfice clinique (cf. section 2.3.2) [25] .


[23] Soit comme argument « primaire », soit comme argument secondaire pour renforcer un premier résultat cliniquement peu pertinent par exemple.

[24] Le raisonnement est ici complètement fallacieux. Le résultat non significatif est expliqué par un manque de puissance en partant du principe implicite que le traitement est efficace. Ce n’est pas le résultat qui induit la conclusion mais une justification tautologique : si le traitement était efficace on aurait quand même pu obtenir un résultat négatif par manque de puissance, donc ce résultat non-concluant montre que le traitement est efficace ! Le traitement est considéré comme étant efficace car une différence est observée. Mais cette conclusion purement intuitive néglige complètement la justification des tests statistiques qui sont nécessaires par la possibilité de fausses différences dues au hasard. Elle considère implicitement que ce qui est observé ne peut pas être faux et qu’il n’y a donc pas de fluctuations aléatoires d’échantillonnages.