#M001 Comment interpréter un essai bayésien ? l’exemple de l’ivermectine dans la COVID-19
De quoi parle-t-on ?
Accelerating COVID-19 Therapeutic Interventions and Vaccines (ACTIV)-6 Study Group, Susanna Naggie. Ivermectin for Treatment of Mild-to-Moderate COVID-19 in the Outpatient Setting: A Decentralized, Placebo-controlled, Randomized, Platform Clinical Trial. medRxiv 2022.06.10.22276252; doi: 10.1101/2022.06.10.22276252
https://www.medrxiv.org/content/10.1101/2022.06.10.22276252v1
Pourquoi a-t-on choisi cet article ?
Les essais bayésiens sont encore assez inhabituels. L’interprétation de leur résultat est particulière. Cet essai récent permet d’illustrer les points sensibles de l’interprétation de ces essais et complète ainsi le dossier du livre blanc dédié aux essais bayésiens (dossier 19).
Ce qu’en pense la SFPT
Le résultat d’un essai bayésien est une distribution de probabilité de la taille d’effet du traitement étudié. La décision de conclure à l’intérêt du traitement repose sur la probabilité a posteriori d’efficacité et qui doit être, au moins, supérieure à 97.5%.
Le résultat doit avoir été produit à partir d’un apriori non informatif (voire même “sceptique”, qui doute apriori de l’effet du traitement).
Pour approfondir
L’essai ACTIV-6 a évalué l’ivermectine versus placebo chez des patients COVID-19 non hospitalisés. Le critère de jugement principal était le temps jusqu’à la guérison (« sustained recovery »), définie comme l’absence de symptômes pendant au moins 3 jours. Un composite hospitalisation ou décès à 28 jours a été utilisé comme critère secondaire.
L’essai est bayésien et le résultat principal est une probabilité a posteriori d’une amélioration dans le temps de guérison de 0.91 : « The posterior probability for any improvement in time to recovery was 0.91 (hazard ratio 1.07, 95% credible interval 0.96–1.17) ».
Comme avec une analyse standard de temps jusqu’à événement, l’effet du traitement a été évalué par un hazard ratio (HR). Avec le critère de jugement utilisé, un HR supérieur témoignant d’un effet bénéfique (le critère de jugement, la guérison, ayant valeur de succès thérapeutique, le but du traitement est d’augmenter la probabilité de guérison chaque jour afin d’obtenir des temps jusqu’à guérison plus courts).
Le résultat princeps de l’approche bayésienne est une distribution a posteriori de l’effet du traitement, donc ici une distribution du hazard ratio (cf. figure 2B de l’article, reproduite ci-dessous). Il s’agit de la distribution de probabilité des valeurs d’effet traitement compatibles avec ce qui a été observé dans l’étude. Plus les résultats sont en faveur de l’effet du traitement, plus cette distribution est décalée vers les valeurs en faveur de l’effet du traitement (ici les valeurs supérieures à 1).
On parle de distribution a posteriori en référence au processus d’estimation bayésienne, qui, en partant d’une distribution de l’effet traitement à priori, l’enrichit avec les données amassées par l’essai pour produire cette distribution a posteriori. Le terme « apriori » correspond donc à ce que l’on imagine de l’effet du traitement avant de faire l’essai. Après l’avoir réalisé, les données recueillies permettent d’estimer cette distribution « après l’essai », c’est-à-dire a posteriori.
Ici la distribution des hazard ratio est centrée sur 1.07 et elle est donc légèrement décalée vers la zone d’efficacité du traitement.
À partir de cette distribution est calculée la probabilité a posteriori que le traitement soit « efficace », c’est-à-dire la probabilité que le hazard ratio soit supérieur à 1. Il s’agit de la surface sous la courbe de la partie située ici à droite du 1. Cette probabilité permet de quantifier directement l’incertitude statistique liée aux fluctuations aléatoires d’échantillonnage. Elle est utilisée pour éviter de conclure à l’effet du traitement alors que le résultat de l’essai pourrait simplement provenir du hasard. On attend une valeur très élevée comme preuve de la certitude statistique de « l’efficacité ». Le seuil attendu est par convention (et par analogie avec le seuil unilatéral de risque alpha de 2.5% des essais fréquentistes) de 97.5%, mais il peut être adapté (à la hausse) en cas de multiplicité. Ici cette probabilité est de 91%. Bien que cette valeur puisse paraître importante, elle est insuffisante pour conclure avec certitude à un bénéfice du traitement suivant cette convention.
Le seuil, pourtant primordial pour l’interprétation de ce résultat, n’est pas précisé dans cet article ni dans son supplément (toujours en preprint à la date de publication de ce billet, octobre 2022). La notion d’un « decision threshold » apparait, mais aucune valeur n’est rapportée ! Bien que l’habitude soit d’interpréter cette probabilité a posteriori par rapport à un seuil préfixé au protocole, certains courants de pensée du monde Bayésien réfutent cette nécessité et se contentent d’interpréter cette valeur, dans la nuance, pour conclure à l’efficacité du traitement et recommander son utilisation. Ainsi, d’aucuns pourraient voir dans cette probabilité, la « preuve » d’un effet non nul de l’ivermectine.
L’intervalle de crédibilité permet d’apprécier la pertinence clinique du résultat. Il donne l’ensemble des valeurs de l’effet traitement raisonnablement compatibles (avec une certitude de 95%) avec les données produites par l’essai. Au passage, on peut noter qu’il s’agit donc de l’interprétation de l’intervalle de confiance très souvent faite et qui, pour un intervalle de confiance, est erronée. Un des intérêts de l’approche bayésienne est de produire des résultats d’appropriation plus intuitive que ceux de l’approche fréquentiste. Ici l’intervalle de crédibilité du HR est compris entre 0.96 et 1.17. Il englobe donc la valeur 1 suggérant l’absence d’efficacité du traitement.
Un autre point crucial de l’approche bayésienne est l’apriori. Comme évoqué plus haut, il s’agit d’une première idée de l’effet du traitement qui est introduite dans le processus d’estimation. L’estimation a posteriori ne dépend donc pas que des données de l’étude, mais aussi, de cette idée préconçue de l’effet du traitement. Pour éviter tout arbitraire dans la conclusion, il est nécessaire que cet apriori ne privilégie aucune valeur particulière de l’effet du traitement. Autrement, le résultat de l’essai pourrait davantage dépendre des croyances ou espoirs des investigateurs que de ce qui a été effectivement observé dans l’essai.
Il est donc particulièrement important, lorsqu'on lit un essai bayésien, d’identifier le type d’apriori qui a été utilisé et de juger de son caractère non informatif. Dans cet article, cette information n’est pas rapportée dans la section méthode statistique. Elle apparaît en revanche dans le tableau de résultats 2, où il semblerait que 2 apriori (prior) ont été utilisés.
L’un de ces deux est un apriori est dit non informatif, sans que l’on puisse juger s’il l’est effectivement. En effet, il est attendu que la définition numérique de l’apriori utilisé soit rapportée afin de juger s’il est vraiment non informatif. Ainsi il doit être précisé quelle est la variance (ou la précision qui est l’inverse de la variance) de l’apriori utilisé. Plus la variance est importante (ou la précision faible) plus l’apriori est non informatif. Évaluer ce point nécessite une certaine expertise statistique que tous les lecteurs de ces essais n’ont pas. D’où la nécessité de faire confiance aux reviewers, mais encore faut-il que ces valeurs soient rapportées pour qu’ils puissent juger ce point. Ici on reste donc sur notre faim !
L’autre apriori utilisé est dit « skeptical » (sceptique, ou pessimiste). Il s’agit d’un apriori qui suppose que le traitement n’est pas efficace. Il correspond à une distribution centrée sur l’absence d’efficacité (1 ou 0 suivant l’indice d’efficacité) et est plutôt informatif, dans le sens où il correspond à un présupposé où l’on croit plutôt avec certitude que le traitement n’a pas d’effet. Ici cet apriori a été utilisé pour l’analyse primaire. Bien qu’il soit informatif, il reste acceptable pour la recherche des preuves « d’efficacité » puisqu’il handicape l’obtention de celles-ci. Il est donc plus conservateur qu’une analyse fréquentiste.
Ainsi les résultats produits par les essais bayésiens (distribution a posteriori, probabilité a posteriori, intervalle de crédibilité, etc.) sont différents de ceux de l’approche fréquentiste. Il n’existe plus de p-value et c’est la probabilité a posteriori qui permet de juger de la possibilité que le résultat puisse être seulement dû au hasard (résultat en faveur de l’efficacité alors que le traitement ne l’est pas en réalité).
Cette probabilité ne donne aucune information sur l’importance du bénéfice: il ne s’agit pas, par exemple, de la probabilité d’avoir un bénéfice pour un patient donné, même si son appellation pourrait le faire croire. La taille du bénéfice s’apprécie de la même façon que dans un essai classique : mêmes indices d’efficacité donnant une estimation (ponctuelle) et un intervalle (de crédibilité).
À l’occasion de la publication d’autres essais bayésiens, nous reviendrons sur les points de vigilance et les autres éléments d’interprétation de ces études encore inhabituelles.
essais bayésiens, études randomisées
- Dernière mise à jour le .