3.1 P hacking , data dredging

Les termes « p hacking » ou « data dredging » désignent l’adaptation de l’analyse statistique en cours de réalisation, en fonction des résultats qu’elle produit. Ces adaptations peuvent concerner aussi bien la méthode statistique (choix de la méthode, transformation de variables, choix des covariables d’ajustement, etc.) que le jeu de données (exclusion de patients, gestion des évènements intercurrents, restriction de l’analyse à une sous population, etc.). Ces adaptations sont d’autant plus faciles à effectuer que l’étude nécessite une analyse statistique complexe, comme avec les études observationnelles par exemple. Sur le plan de l’intégrité scientifique, ces pratiques questionnables de recherche (mentionnées dans le rapport Corvol 2016) contribuent à produire des résultats faux positifs.

Avec cette pratique, il est ainsi possible d’orienter les résultats dans la direction souhaitée, tout du moins en termes de signification statistique (d’où le nom de p hacking ) [65 , 66] . Il a ainsi été montré qu’avec un même jeu de données, confié à des équipes scientifiques différentes ayant des conceptions théoriques antithétiques, il était possible d’obtenir des résultats très différents et même opposés [67 , 68] . L’étude perd ainsi sa valeur scientifique (assurée par le fait que la réponse à la question posée est fournie uniquement par les données) pour devenir une simple opération pour produire les résultats escomptés. Il ne s’agit plus d’un test loyal d’une hypothèse thérapeutique où seule la réalité pourra la réfuter ou la confirmer, mais d’une démarche de recherche active de la façon d’analyser des données afin d’obtenir un résultat le plus proche de la réponse voulue ! Un p-hacking reverse a aussi été mis en évidence où l’analyse statistique est construite pour ne pas donner de différence significative [69] .

Cette potentialité peut être illustrée par le concept de vibration des effets [66] . Il s’agit de visualiser l’ampleur suivant laquelle « vibrent » les différents résultats (taille d’effet et p value) obtenus par toutes les possibilités d’analyse d’une même recherche d’association. Ces vibrations peuvent déboucher dans certains cas sur des effets Janus où des résultats opposés sont obtenus à partir du même jeu de données.

Effet Janus produits par la Vibration des résultats de la recherche d’une association entre le tocopherol et la mortalité totale à partir des données de la National Health and Nutrition Examination Survey [66] . L’abscisse représente le Hazard Ratio et l’axe des ordonnées la p value (échelle logarithmique, 0.05 correspond à 1.3, trait plein horizontal)

Dans la littérature ces aspects sont souvent introduits par l’aphorisme dû à Ronald Coase : « if you torture the data long enough, it will confess to anything » note n° 25 . On parle aussi de data-dredging ou partie de pêche [70 , 71] .

Cette problématique est assez pernicieuse, car l’analyse statistique est parfois présentée comme une démarche dont la finalité est de rechercher ce qu’un jeu de données est à même de révéler. Cette conception est inappropriée aux questionnements d’évaluation des médicaments, domaine où les données sont éminemment bruitées (la variabilité du vivant), et où les effets à détecter sont petits par rapport au bruit. Ainsi le rapport signal bruit est faible et propice à donner de nombreux artéfacts. Une analyse purement exploratoire va vouloir proposer comme fait généralisable un artéfact de découverte fortuite (qui n’apparait que dans les données concernées, avec la méthode d’analyse utilisée). Cette problématique représente aussi la limite des approches de fouilles de données (« data mining » ) et elle est connexe à l’opposition entre raisonnement inductif et raisonnement déductif (cf. dossier n° 4).

Le site WEB « spurious correlations » (https://www.tylervigen.com/spurious-correlations ) réalise à but pédagogique une recherche intensive de corrélations entre toutes les données rendues publiques dans le cadre de la politique d’open data. Les corrélations très importantes avec un coefficient de corrélation supérieur à 0.9 sont présentées. Il est ainsi possible de s’apercevoir de l’existence de très nombreuses relations insoupçonnées que seul le « data mining » permet d’identifier, par exemple une parfaite corrélation entre le niveau de consommation de margarine et le taux de divorce dans le Maine entre 2000 et 2009.

L’explication a posteriori d’une découverte plus ou moins fortuite est souvent considérée comme une validation. Ici, il est bien évident que si, dans un couple, l’un impose la margarine au petit déjeuner à la place du beurre cela ne peut que mal finir, d’où cette corrélation. CQFD !

La solution réside dans la conception a priori de l’analyse statistique, complètement indépendante des données et des résultats produits. Cela est obtenu par l’élaboration d’un plan d’analyse statistique (« statistical analysis plan » , SAP) en amont de la disponibilité des données elles-mêmes rendues disponible pour la reproduction des analyses. Ainsi aucune adaptation de la stratégie d’analyse ne peut s’effectuer au moment de sa réalisation (sans que cela soit détectable en comparant le plan d’analyse statistique et l’analyse effectivement réalisée).

Pour les études observationnelles, particulièrement exposées au « p hacking » en raison de la complexité des analyses réalisées, la solution réside aussi dans l’approche du SAP. Cependant, pour les études sur données historiques (rétrospectives), le SAP sera par définition élaboré alors que les données sont déjà disponibles. Pour donner la garantie de l’absence de tout « p hacking » ou autre opération de « data dredging » , il est impératif que soit explicitement mentionné dans le protocole et le rapport de l’étude que l’analyse a été conçue indépendamment des données et des résultats produits [72] . On pourrait aussi concevoir un SAP écrit par un comité indépendant dès lors que l’analyse va concerner des données déjà recueillies. Il est possible que des changements soient nécessaires dans le SAP au moment de l’analyse. Le SAP fera alors l’objet d’un amendement et l’analyse initialement prévue sera elle aussi rendue disponible pour assurer la transparence de ces changements.

La méta-analyse (cf. dossier compagnon n° 9) est le plus souvent une démarche purement rétrospective entreprise, par définition, après la disponibilité des données (ici les résultats des études) et souvent après la prise de connaissance des résultats de ces études. Le » p hacking » et le « data dredging » sont des points sensibles de ces études [73] . La potentialité de pouvoir obtenir le résultat souhaité en faisant « les bons choix » dans le protocole, en particulier au niveau des critères d’éligibilité des études, est visualisable par le concept de vibration des effets. Il s’agit de réaliser toutes les méta-analyses possibles en fonction des différentes combinaisons des critères d’éligibilité des études réalisables. La représentation graphique de tous ces résultats visualise alors dans quelle mesure il est possible de produire des résultats différents, voir opposés, dans « la même » méta-analyse. Dans une comparaison indirecte [55] comparant nalmefene et naltrexone pour la réduction de la consommation d’alcool, 9217 méta-analyses en réseau différentes sont possibles à partir des 9 essais du nalmefene et 51 du naltrexone. Les résultats produits par toutes ces méta-analyses (cf. ci-dessous) permettraient de faire toutes les conclusions possibles en termes de supériorité d’un produit ou de l’autre, de manière significative ou non significative.

[25] https://en.wikiquote.org/wiki/Ronald_Coase