1 Introduction

     

Le moment de l’analyse d’un essai doit être parfaitement bien défini a priori pour éviter que l’essai soit poursuivi ou arrêté en fonction des résultats du moment.

Si le moment de l’analyse n’est pas préfixé, l’essai sera alors analysé a un moment arbitraire qui peut dépendre des résultats (des analyses sont répétées régulièrement jusqu’à ce que le résultat s’avère satisfaisant si cela arrive).

Cette analyse survient, après l’inclusion de tous les patients nécessaires, soit à une date de point prédéfini, soit lorsque la durée de suivi voulue (mortalité à 1an par exemple) a été atteinte pour tous les patients, soit, le plus souvent actuellement, lorsque le nombre d’évènements nécessaires a été atteint (tous groupes confondus).

« We estimated that 288 events would be required to detect a hazard ratio for death of 0.675 with an alpha level of 0.05” [ 10.1056/NEJMoa1412690 ]


Calibration, calcul d’effectif

Dans les essais modernes, la calibration de l’étude, afin de lui garantir une puissance élevée, ne s’effectue plus en termes d’effectifs (nombre de sujets à inclure), mais en termes de nombres d’évènements nécessaires.

Un effectif arbitraire est déterminé en fonction de la fréquence attendue des évènements et de la durée de suivi voulu. Par exemple, si 300 évènements sont nécessaires, dont la fréquence est estimée à environ 5%/an, un effectif de 2000 patients sera nécessaire pour obtenir ces 300 évènements au bout de 3 ans de suivi. Si un suivi de 2 ans est envisagé, il faudra 3000 patients.

L’intérêt de cette approche est d’éviter qu’un essai, bien qu’arrêté à la date prévue, s’avère non concluant, non pas parce que l’effet du traitement est moindre qu’attendu, mais parce que sa puissance statistique a été réduite en raison d’une fréquence des évènements plus faible qu’attendu. Il aurait été nécessaire que l’essai dure plus longtemps pour atteindre la fréquence nécessaire permettant d’obtenir la puissance souhaitée avec l’effectif inclus. L’ajustement de la date de fin de l’essai sur le nombre d’évènements effectivement obtenus évite cette situation. Cette approche a l’inconvénient de devoir tenir compte de la variabilité de la durée de suivi ou du nombre de sujet à inclure en cas de durée de suivi constant dans l’estimation budgétaire initiale. Elle nécessite par conséquent de définir aussi précisément que possible la fréquence des évènements attendus, ce qui se révèle souvent difficile en dehors de registres prospectifs sur les populations étudiées dans les pays concernés par les essais.

Lors de cette analyse finale de l’essai, le bénéfice du traitement est recherché en comparant le critère de jugement entre les 2 groupes et la signification statistique de la différence observée est appréciée en calculant le p.

Parfois d’autres analyses sont réalisées avant cette analyse finale. Il s’agit des analyses intermédiaires (AI) qui sont en général au nombre d’une ou deux. Ces analyses ont aussi pour but de mettre en évidence le bénéfice du traitement (analyse d’efficacité) si les résultats le permettent et reposent donc sur une comparaison statistique des 2 groupes.

Si le bénéfice du traitement est démontré à une analyse intermédiaire, l’objectif de l’essai est atteint et il n’ait plus nécessaire de le poursuivre (pour cet objectif, mais parfois l’étude se poursuit pour répondre à un autre objectif, sur un autre co primary endpoint par exemple). On dit que l’essai a été arrêté prématurément pour démonstration anticipée de l’efficacité.

Cependant si une analyse intermédiaire ne permet pas de conclure au bénéfice du traitement, l’essai se poursuit jusqu’à la prochaine analyse intermédiaire ou jusqu’à l’analyse finale.

Le but de ces analyses intermédiaires est triple :

1            Le premier est de pouvoir détecter au plus tôt le bénéfice du traitement afin d’éviter de continuer à traiter des patients par un traitement inférieur (placebo par exemple) alors que les données amassées sont suffisantes pour conclure à l’efficacité du traitement étudié (arrêt pour efficacité). De plus, la confirmation au plus tôt du bénéfice apporté par un traitement permet d’accélérer sa mise à disposition pour tous les patients. La décision d’arrêt de l’étude pour efficacité doit cependant prendre en compte la notion de durée d’exposition pour les traitements chroniques. Par exemple, un essai prévu pour exposer des patients pendant 5 ans à un médicament arrêté après 2 ans d’exposition et de suivi en moyenne permettra de conclure à une efficacité uniquement pour 2 ans d’exposition.

2            Le deuxième objectif est de se donner les moyens de détecter au plus tôt un éventuel effet délétère afin de limiter le nombre de patients exposés au risque (arrêt pour toxicité).

3            Le troisième objectif est d’arrêter une étude dont on peut prédire avec une certitude raisonnable qu’elle ne pourra pas aboutir (arrêt pour futilité). L’arrêt précoce permettra de diriger les ressources vers le test de nouvelles hypothèses.

La réalisation des AI entraîne une répétition potentielle des comparaisons statistiques cherchant à conclure au bénéfice du traitement. Il y a donc potentiellement une inflation du risque alpha global de l’essai.

Les AI sont réalisées à l’aide de méthode statistique adaptée (O’Brien et Flemming, Peto Haybittle, etc.) qui ajuste le seuil de la signification statistique.

Pour pouvoir conclure à une analyse intermédiaire, il faut que le p (nominal) soit inférieur au seuil ajusté calculé par la méthode statistique (on dit alors que la frontière de la signification a été franchie). Le seuil ajusté est en général assez faible (0.0025 par exemple) et il est calculé en fonction du nombre d’évènements observé au moment de l’analyse. Il est rapporté dans la publication. Il peut être intégré dans une analyse hiérarchique.

“At the data-cutoff date of April 17, 2014, the interim analysis was performed after 222 events had occurred. For the overall survival analysis, 100 patients (28%) in the combination-therapy group and 122 (35%) in the vemurafenib group had died (hazard ratio for death in the combination-therapy group, 0.69; 95% confidence interval [CI], 0.53 to 0.89; P=0.005) (Figure 1A). The prespecified stopping boundary (P<0.0214) was crossed, and the study was stopped for efficacy on July 14, 2014” [10.1056/NEJMoa1412690]


Si l’essai n’est pas arrêté lors des analyses intermédiaires et arrive à l’analyse finale, le seuil de la signification est aussi ajusté à la baisse pour prendre en compte le risque alpha « consommé » lors des analyses intermédiaires (répartition du risque alpha global entre les différentes analyses). Une exception est l’analyse hiérarchique dans laquelle analyse intermédiaire et finale sont liées de façon anticipée (fallback procedure avec conservation d’un risque alpha global), dans le cas où l’analyse intermédiaire est positive.

During the course of the trial, two interim analyses were conducted after 50% and 75%, respectively, of the target number of 1,400 participants had experienced a primary cardiovascular endpoint. To conserve alpha for the final analysis and to limit the possibility of a chance positive interim finding, each interim analysis followed the same closed testing procedure, with a one-sided significance level of 0.01% allotted to the first efficacy interim analysis, and a one sided significance level of 0.04% allotted to the second efficacy interim analysis, and thus a one-sided significance level of 2.45% retained for the final analysis. [10.1056/NEJMoa1707914 supplement]


Des spins de conclusion sont fréquemment observés quand l’analyse intermédiaire ne permet pas de conclure formellement, car le p nominal n’est pas inférieur au seuil ajusté, mais qu’il est cependant inférieur à 0.05.

“Although the difference in overall survival did not cross the prespecified superiority boundary (P<0.0096), continuous lenalidomide–dexamethasone reduced the risk of death, as compared with MPT (hazard ratio, 0.78; 95% CI, 0.64 to 0.96; P=0.02)” [ 10.1056/NEJMoa1402551 ]