#M004 Vitamine D, COVID-19 et p-hacking

De quoi parle-t-on ?

Annweiler C, Beaudenon M, Gautier J, et al. High-dose versus standard-dose vitamin D supplementation in older adults with COVID-19 (COVIT-TRIAL): A multicenter, open-label, randomized controlled superiority trial.
PLoS Med. 2022 May 31;19(5):e1003999 https://doi.org/10.1371/journal.pmed.1003999

Pourquoi a-t-on choisi cet article ?

Ce récent essai randomisé évaluant une forte dose de vitamine D pour le traitement de la COVID-19 chez le sujet âgé illustre parfaitement bien les problématiques du p hacking résultant de la multiplication des analyses.

Ce qu’en pense la SFPT

Le résultat mis en avant par les auteurs, et repris dans la communication promotionnelle faite autour de cet article, est une réduction statistiquement significative de la mortalité à 14 jours mais ce résultat est issu d'une pratique de p-hacking et n'est donc pas démontré. Il est insuffisamment fiable pour pouvoir guider la construction de la stratégie thérapeutique.
En effet, il n’est pas précisé (dans l’article et dans le protocole publiés) quelle était l’analyse principale et quelles étaient les analyses de sensibilité. Si une autre analyse avait été choisie, la conclusion aurait été tout autre. Un essai de confirmation doit parfaitement définir son analyse principale. Sans cela, les analyses statistiques sont multiples et les plus « favorables » peuvent être choisies par les auteurs, voire être modifiées jusqu’à obtenir les résultats escomptés (p-hacking), toutes les analyses effectuées avant d’obtenir la bonne restant cachées (voir https://www.youtube.com/watch?v=5IcYIM-47J0 pour une illustration humoristique de ce concept ...).

Pour approfondir…

Le résultat mis en avant par les auteurs, et repris dans la communication promotionnelle faite autour de cet article, est une réduction statistiquement significative de la mortalité à 14 jours qui était le critère de jugement principal de l’essai.
Ce résultat a été produit par l’une des trois analyses différentes de la mortalité à J14 qui sont rapportées dans la publication et correspond à la seule de ces trois qui atteint la signification statistique.

004 001

Figure 1 – Tableau de résultat présenté dans l’article. Le statut des 3 analyses n’est pas mentionné dans la partie méthode.

Il n’est pas précisé (dans l’article et dans le protocole publiés) quelle était l’analyse principale et quelles étaient les analyses de sensibilité. Si une autre analyse avait été choisie, la conclusion aurait été tout autre.
Dans le protocole publié (10.1186/s13063-020-04928-5), la description de la méthode statistique mentionne, pour la mortalité, une approche simple qui correspond à l’analyse de la 3^ème colonne du tableau de résultat de la publication :
The effect of high-dose vitamin D supplementation compared to standard-dose vitamin D supplementation will be determined using evaluation criteria, which are the mortality rates and the changes in OSCI score within 14 and 28 days of inclusion, using respectively the chi-square test or exact Fischer test, and independent samples t test or Mann-Whitney U test, as appropriate.

La réalisation d’un modèle de Cox est mentionnée avec un recul de 28 jours et non pas de 14j:
Survival curves will be plotted from baseline to day 28 using the Kaplan-Meier method, and a Cox proportional hazards model will be used to compare clinical outcomes between groups.

Cette situation illustre ainsi parfaitement bien la problématique du p hacking (livre blanc section 3.1) qui consiste à multiplier les analyses à la recherche de celle qui conduit au résultat escompté. Tous les résultats possibles en faisant varier les options d’analyse sont produits, puis le résultat à retenir est choisi parmi eux. Éventuellement, une justification post hoc de ce choix est élaborée.
Compte tenu de la complexité et de la variabilité des données, cette pratique expose au risque de découverte fortuite d’un simple artéfact d’analyse propre au jeu de données de l’étude et n’ayant aucune existence en dehors de ce jeu de données.
La possibilité de conditionner le résultat obtenu en choisissant astucieusement les options d’analyse (méthode statistique, modèle et variables d’ajustement) est bien connue. Il a été objectivé dans plusieurs études où un même jeu de données était soumis à différentes équipes qui étaient libres de choisir leurs options d’analyse. Les résultats ainsi produits se sont avérés différents les uns des autres avec même des résultats diamétralement opposés.

004 002

Figure 2 – Exemple d’étude mettant en évidence la possibilité de p-hacking lorsque les options d’analyse sont laissées libres (https://blog.richmond.edu/physicsbunn/2015/08/24/538-on-p-hacking/)

De plus, dans cet essai, le résultat statistiquement significatif mis en avant provient d’une analyse ajustée sur des caractéristiques des patients choisies de manière post hoc, en fonction de leur déséquilibre entre les groupes de traitement, renforçant ainsi l’idée que de nombreuses analyses « cachées » ont pu être réalisées avant d’obtenir celle qui convenait en termes de résultat.
Cette problématique est connue depuis longtemps dans le domaine des essais thérapeutiques et a été solutionnée par l’élaboration d’un plant d'analyse statistique (SAP) rédigé à priori, avant l’obtention des données. Ainsi, il est impossible d’ajuster l’analyse en fonction des résultats produits (sauf à rentrer dans le domaine de la méconduite scientifique, voire de la fraude si le SAP est modifié sans mentionner qu’il s’agit d’un changement post hoc).
Le SAP définit, de plus, une analyse principale (primary analysis) qui sera l’analyse retenue pour décider ou non du bénéfice du traitement. Des analyses de sensibilité sont en général prévues afin d’explorer des variantes possibles d’analyses. Le but de ces analyses de sensibilité est de confirmer la robustesse du résultat en montrant que, quelle que soit l’option d’analyse qui aurait été retenue à la place de l’analyse principale, la conclusion aurait été la même. Cela permet ainsi d’écarter un choix astucieux de l’analyse principale qui serait la seule option permettant de conclure. Ainsi la conclusion au bénéfice du traitement ne sera possible que si l’analyse principale est concluante et non remise en cause par une analyse de sensibilité (toutes les analyses doivent donner un résultat similaire). Il convient d’insister sur ce point, car les analyses de sensibilité sont parfois utilisées pour tenter de récupérer un résultat d’analyse principale non concluant. Cette utilisation n’est pas acceptable, car elle consiste à faire, justement, ce pour quoi ces principes ont été mis en place : du p hacking !
Pour les ajustements, dont le but dans l’essai randomisé est d’optimiser la puissance/précision statistique, les covariables doivent être déterminées à priori et listées dans le protocole et le SAP. Leur choix à postériori, d’après les données de l’étude, par exemple en fonction des déséquilibres observés, est à proscrire, car entrainant un biais dans l’estimation de l’effet traitement (cf. par exemple guideline EMA section 5.4 et le concept de vibration des effets livre blanc section 3.1).
De plus, dans cette étude, toutes les analyses de la mortalité à 28 jours (critère de jugement secondaire) se révèlent non concluantes, renforçant ainsi le caractère fortuit du résultat à J14 mis en avant.

004 003

Ainsi, du fait de l’absence de la rigueur d’analyse nécessaire compte tenu des enjeux médicaux de ce type d’étude, cet essai ne permet en rien de conclure à un quelconque bénéfice de la vitamine D en termes de mortalité dans ce contexte clinique. L’utilisation de ce résultat pour revendiquer un intérêt clinique de la vitamine D dans ce contexte clinique relève à la fois de la méconduite scientifique (section 1 du livre blanc) et du spin de conclusion (section 3.3 du livre blanc). En effet, le résumé de l'article met en avant une efficacité de la supplémentation en vitamine D sur la mortalité à 14 jours, sans les nuances pourtant présentes dans la conclusion de la publication. Pourtant, compte-tenu de la méthodologie, le résultat mis en avant est tout au plus exploratoire et ne peut conduire à un changement de pratique (section 4.1 et suivantes du livre blanc).
Cet essai permet aussi d’illustrer de toutes autres problématiques survenant de plus en plus fréquemment au niveau de la recherche clinique.
Bien que cet essai n’apporte aucune preuve de l’intérêt de la vitamine D dans ce contexte clinique, il a fait cependant l’objet d’une communication promotionnelle très active, sous la forme d’un communiqué de presse et sur les réseaux sociaux. De façon non justifiée, le communiqué de presse officiel met en avant un résultat positif démontrant un bénéfice sur la mortalité, sans même reprendre les nuances pourtant présentes dans la conclusion de la publication :
COVIT-TRIAL, dont les conclusions sont publiées dans la revue scientifique Plos Medicine (accessible ici) ce mardi 31 mai 2022, montre avec un très haut niveau de preuves l’intérêt d’une forte dose de vitamine D, administrée dans les 72h du diagnostic de Covid-19, aux personnes âgées fragiles qui ont contracté l'infection. Les résultats rapportent une réduction significative du taux de décès chez les patients ayant reçu une forte dose de vitamine D par rapport à ceux ayant reçu une dose standard de vitamine D. (https://www.chu-angers.fr/medias/fichier/cp-chu-angers-resultat-etude-covit-trial-forte-dose-vit-d-effet-deces-covid-19-01062022-vdef_1654073889900-pdf?ID_FICHE=8321&INLINE=FALSE).

Ce communité de presse a ensuite été largement repris par de nombreux média grand public ou professionnels^[1], sans aucune analyse critique non plus, comme dans le quotidien du médecin :
« L’étude Covit-Trial, menée par le CHU d’Angers, met en évidence le bénéfice en termes de mortalité d'une forte dose de vitamine D, administrée dès le diagnostic de Covid, dans une population de patients âgés. »
(https://www.lequotidiendumedecin.fr/specialites/infectiologie/covid-la-vitamine-d-dans-les-72-heures-de-linfection-protectrice-chez-les-patients-ages-selon-le-chu )

Toute cette chaine a ainsi véhiculé un message complétement erroné, renforçant auprès des médecins et du grand public la confusion autour des traitements de la COVID et échouant, in fine, dans les méandres de la désinformation.
D’autres exemples similaires, tout aussi malheureux, existent dans d’autre domaines et conduisent à s’interroger sur plusieurs points.
Les enjeux de la recherche clinique dépassent actuellement largement le cadre de la production des connaissances et recouvrent des enjeux financiers, de notoriété, de carrière, de compétition entre chercheurs, entre institutions, entre pays ^[2]^[3].
Dans ce cadre-là (cf. section 3.4 du livre blanc), les résultats des études sont alors exploités dans une logique, non plus scientifique ou médicale, mais purement promotionnelle, sans forcément l’expertise nécessaire à la compréhension de leur réelle portée. Certains exemples extrêmes peuvent faire craindre que la finalité première de la recherche soit alors complètement évincée par une logique, qui se suffit à elle-même : publier pour être financé …. afin de publier !
Le système d’évaluation de la recherche et la mise en compétition des chercheurs et des institutions a conduit à changer complètement les enjeux perçus de la recherche : de produire de la connaissance fiable pour améliorer avec certitude les soins des malades, le but de la recherche est devenu, sous cette pression, produire les points assurant sa survie. En corolaire, la communication devient un impératif, avec un objectif plus d’affichage de la marque que de dissémination d’information pour l’amélioration des soins. Cela serait assez innocent si tous les destinataires de cette communication de marque étaient bien en mesure de la relativiser à sa juste valeur. Mais ce n’est pas le cas et beaucoup de patients, de décideurs publics et de politiques y voient plutôt une réelle information et en tirent les conséquences qui leur semblent s’imposer à eux. Dans ces conditions, cette communication purement promotionnelle peut avoir de réelles conséquences sociétales et pose aussi un problème éthique.Des solutions ont déjà été proposées en réaction à ces constations comme la déclaration DORA (https://sfdora.org/) qui a été largement adoptée mais qui peine à produire ses effets.
Pourtant, avec cet article, la simple lecture de la conclusion de l’abstract permettait probablement à quiconque ayant la volonté de s’intéresser au sujet, et non pas uniquement de chercher du sensationnel, de s’apercevoir qu’il n’était pas possible d’affirmer que la vitamine D réduisait vraiment les décès :
“we observed that the early administration of high dose versus standard-dose vitamin D3 to at-risk older patients with COVID-19 improved overall mortality at day 14. The effect was no longer observed after 28 days.”

^[1] https://www.doctissimo.fr/sante/maladies/virus-emergeants/covid-19/traitements-covid/covid-19-lutilite-de-la-vitamine-d-demontree-par-le-chu-dangers/f99a64_ar.html

^[2] Fischer A. Évaluation de la recherche et publications scientifiques : quantité ou qualité ? Bulletin De L’académie Nationale De Médecine 2022; 206: 898–901.

^[3] Brissot P. Pourquoi et comment publier dans le domaine médico-scientifique ? Bulletin De L’académie Nationale De Médecine 2022; 206: 889–93.

études randomisées

Dernière mise à jour le 28 novembre 2022.

Menu principal

Menu blog de la méthodologie

#M004 Vitamine D, COVID-19 et p-hacking

De quoi parle-t-on ?

Pourquoi a-t-on choisi cet article ?

Ce qu’en pense la SFPT

Pour approfondir…