6.4.2 Exemple 2

L’essai DECLARE [3] a évalué la sécurité et l’efficacité de la dapagliflozine sur les évènements cardiovasculaires dans le diabète de type 2.

Au total, 5 critères de jugement étaient potentiellement décisionnels :

« The two primary efficacy outcomes were MACE and a composite of cardiovascular death or hospitalization for heart failure. Two secondary efficacy outcomes were prespecified. The first was a renal composite outcome, defined as a sustained decrease of 40% or more in estimated glomerular filtration rate (eGFR) —calculated by means of the Chronic Kidney Disease Epidemiology Collaboration equation22 —to less than 60 ml per minute per 1.73 m2 of body-surface area, new end-stage renal disease, or death from renal or cardiovascular causes. The other secondary outcome was death from any cause. A prespecified additional renal composite outcome included all the criteria described for the secondary renal outcome except for cardiovascular death. »

Cette multiplicité a été gérée par un mélange de hiérarchisation et de répartition avec réallocation :

« the two efficacy outcomes of MACE and the composite of cardiovascular death or hospitalization for heart failure were to be tested in parallel, each at a two-sided alpha level of 0.023. If either was significant, the alpha value could be recycled24 to test the other efficacy outcome at a two-sided alpha level of 0.046. If after this procedure both efficacy outcomes were significant, the secondary outcomes were to be tested, at a two-sided alpha level of 0.046, in a hierarchical fashion.”

L’approche choisie correspond donc au schéma suivant :

Les résultats obtenus sont les suivants :

Il apparait donc qu’il est possible de conclure à l’intérêt de la dapagliflozine du fait d’une réduction du critère composite décès et hospitalisation, car le p est inférieur au risque alpha alloué à ce critère par la répartition, soit 2.3% bilatéral. Un recyclage est alors possible ce qui donne un seuil de 4.6% bilatéral pour le test du 2eme critère du même niveau, les MACE. Le p obtenu est supérieur à ce seuil (p=0.17) et donc il n’est pas possible de conclure sur ce critère. De plus la hiérarchie s’arrête à ce niveau, car il était prévu que le 2eme niveau de la hiérarchie ne pouvait être testé que si les 2 coprimary endpoints du 1 ^er niveau étaient significatifs. Tous les autres critères sont donc non statistiquement significatifs, quelle que soit leur valeur de p. On notera que ces p-values ne sont d’ailleurs pas rapportées dans la figure suivant la nouvelle politique du NEJM, puisque ces critères deviennent non décisionnels (non inférentiel) du fait de l’arrêt de la hiérarchie avec les MACE.

Il ne faut surtout pas essayer de deviner à partir des intervalles de confiance si le p nominal était inférieur ou non à 5%, car dans ce cas on outrepasserait la méthode de contrôle strict du risque alpha global et les conclusions que l’on pourrait en tirer seraient faites avec un risque alpha non contrôlé. Cela montre que le principe qui a été enseigné par le passé qu’un intervalle de confiance qui n’englobait pas l’absence d’effet (un ratio de 1 ou une différence de 0) est faux. L’intervalle de confiance ne permet pas de déterminer la signification statistique autre que nominale.