6.2 Hiérarchisation (closed testing )

     

L’approche par hiérarchisation consiste à hiérarchiser dans le protocole les critères de jugement (le 1 er , le 2 ème , le 3 ème , etc.).

“We used a closed testing procedure, with prespecified hierarchical testing of the primary and secondary outcomes.”

“a hierarchical sequential testing approach of outcomes was used to control for the type 1 error rate, with testing of outcomes as described in the order listed in the Outcomes section, beginning with the CDR-SB score” [10.1056/NEJMoa1812840]

“Analyses followed a predefined hierarchical hypothesis-testing strategy to adjust for multiplicity to maintain a familywise type I error of 5%. According to this strategy, the statistical significance of each secondary end point could be investigated only if the previous end point was significant (P<0.05 for pooled analyses). The statistical-hierarchy testing order was as follows: ACR20 response, PASI 75, PASI 90, DAS28-CRP, physical component summary of SF-36, HAQ-DI, ACR50, mTSS, dactylitis and enthesitis, and mTSS.” Adapté à partir de [10.1056/NEJMoa1412679]


Une fois les résultats obtenus, ils sont analysés dans l’ordre de la hiérarchie. Tous les premiers critères de la hiérarchie où p<0.05 sont alors significatifs et permettent de conclure au bénéfice du traitement sur ces critères. Dès l’obtention d’un p>=0.05, l’analyse s’interrompt et tous les autres critères situés en dessous dans la hiérarchie sont non concluants (quelle que soit la valeur du p, y compris si p<0.05).

For the primary and key secondary outcomes only, the type I error was controlled by a hierarchical gate-keeping procedure, wherein each successive outcome was tested only if the preceding comparison was significant at a two-sided P value of 0.05. [10.1056/NEJMoa1714631]


L’essai DAPA-HF [ 10.1056/NEJMoa1911303 ] a utilisé une hiérarchisation pour contrôler le risque alpha global sur plusieurs critères  :

« We used a closed testing procedure, with prespecified hierarchical testing of the primary and secondary outcomes. The type I error was controlled at a two-sided alpha level of 0.0499 for multiple comparisons across primary and secondary outcomes, with one interim efficacy analysis taken into account. »

NB : Le seuil de signification dans la hiérarchie n’est pas 0.05, mais 0.0499, car une partie du risque alpha global a été attribué à une analyse intermédiaire (cf. section 2.1).

Pour interpréter les résultats, il convient en premier d’identifier les critères inclus dans la hiérarchie et leur position respective :

“The primary outcome was 1 a composite of worsening heart failure or death from cardiovascular causes. …. A key secondary outcome was 2 a composite of hospitalization for heart failure or cardiovascular death. The additional secondary outcomes were the total number of 3 hospitalizations for heart failure and cardiovascular deaths; 4 the change from baseline to 8 months in the total symptom score on the Kansas City Cardiomyopathy Questionnaire; 5 a composite of worsening renal function; and 6 death from any cause”

Le tableau des résultats se lit alors dans l’ordre de cette hiérarchie. Le p pour les critères 1 à 5 est inférieur au seuil de 0.0499 et permet donc de conclure au bénéfice du traitement sur ces critères. Dans ce tableau (cf. note de bas de tableau) le sigle NA est utilisé pour les tests qui ne permettent pas de conclure. Il s’avère donc que le p du critère n° 5 ne permettait pas de conclure (il n’est pas rapporté, mais c’est le premier NA de la hiérarchie). De ce fait le p du critère n° 6 n’est pas rapporté (cf. section 6.4).

IMG

Dans cet exemple, il ne faut surtout pas tomber dans le piège de conclure à un résultat significatif pour les décès de toute cause (critère n° 6) en se basant sur l’intervalle de confiance. En effet il s’agirait d’une signification nominale qui n’a rien à voir avec la signification en termes de risque alpha global. Sur ce critère aucune conclusion ne peut être portée, car le test de la hiérarchie s’arrête au-dessus (au niveau du critère n° 5).


Il ne faut pas déduire la signification statistique de l’intervalle de confiance quand le p n’est pas rapporté

Les p<0.05 pour des critères situés dans la hiérarchie en dessous du premier « non significatif » ne doivent pas être considérés et ne permettent pas de conclure au bénéfice du traitement.

Les résultats de l’essai Odyssey Outcome ont d’abord été présentés à un congrès de cardiologie avec la diapositive suivante :

IMG

http://clinicaltrialresults.org/Slides/ACC2018/ODYSSEY_Steg.pdf

Un bénéfice de l’alirocumab a été montré sur les 4 premiers critères de jugement secondaires. La valeur du p sur le premier critère de mortalité (CHD, coronary heart disease death) interrompt la hiérarchie et il est donc impossible de conclure sur les 3 derniers critères, y compris sur les décès de toute cause, même si son p nominal est inférieur à 0.05. Cette subtilité statistique n’a cependant pas été perçue par tout le monde et ce résultat de mortalité a ensuite été largement repris dans des sources secondaires note n° 4 et en communication promotionnelles pour mettre en avant une réduction de la mortalité de toute cause comme le montre les titres suivants :

IMG

IMG

http://www.news.sanofi.us/2018-11-11-ODYSSEY-OUTCOMES-investigators-highlight-at-AHA-that-Praluent-R-alirocumab-Injection-was-associated-with-fewer-deaths-from-any-cause

Dans la publication dans le NEJM [ 10.1056/NEJMoa1801174 ], aucune p value n’est rapportée pour les décès de toutes causes conformément aux pratiques de ce journal (cf. section 6.4) afin de prévenir ce genre de surinterprétation des résultats et les spins de conclusions qui pourraient être engendrés.

IMG

Cet exemple illustre bien les dangers des sources secondaires et de la communication promotionnelle et montre l’intérêt de pouvoir interpréter par soi-même les résultats des essais pour se forger sa propre opinion sur le réel intérêt clinique d’un nouveau traitement, en toute indépendance.


Dans les méthodes hiérarchiques, le seuil de la signification n’est pas toujours 0.05. Il peut être plus petit en raison, par exemple, de la réalisation d’analyses intermédiaires ou d’une répartition en amont pour gérer plusieurs doses de traitement (cf. section 0).

We used a closed testing procedure, with prespecified hierarchical testing of the primary and secondary outcomes. The type I error was controlled at a two-sided alpha level of 0.0499 for multiple comparisons across primary and secondary outcomes, with one interim efficacy analysis taken into account.


La hiérarchisation permet de valider des bénéfices supplémentaires contrairement à la répartition qui permet d’aménager plusieurs possibilités pour démontrer que le traitement à un intérêt (même si ce n’est pas sur un critère au moins sur l’autre éventuellement).

Ces 2 situations, montrer qu’un traitement apporte plusieurs bénéfices et pouvoir conclure à l’intérêt d’un traitement sur un critère ou un autre, entrainent toutes les deux une multiplicité, mais leur finalité n’est pas la même. La répartition permet de conclure sur l’un ou l’autre des tests impliqués (donne plus de flexibilité pour obtenir au moins un résultat pour justifier l’enregistrement ou l’utilisation du traitement). La hiérarchisation permet de montrer qu’éventuellement un traitement apporte un 1 er bénéfice et un 2 ème et un 3éme, etc. Cependant, si le 1 er critère ne permet pas de conclure, les autres tests prévus dans la hiérarchie ne sont d’aucun secours (contrairement à la répartition où, en cas de non-significativité sur un critère, le ou les autres peuvent éventuellement rattraper le coup !).


[4] Les sources secondaires sont des revues journalistiques ou des revues professionnelles, très nombreuses et souvent distribuées gratuitement aux médecins. Elles sont souvent des revues promotionnelles (publirédactionnel).