3 L’interaction statistique

     

Les analyses en sous-groupes peuvent être abordées d’une façon complètement différente, bien au-delà de la simple recherche de la démonstration statistique de l’effet à l’intérieur des sous-groupes (qui comme nous venons de le voir dans la section précédente est très problématique).

Il s’agit de la recherche d’une interaction, c’est-à-dire de savoir si la variable, en fonction de laquelle sont définis les sous-groupes (âge, sexe, etc.), modifie l’intensité de l’effet du traitement. Par exemple si un hazard ratio de 0.45 est observé dans le sous-groupe des hommes et 0.80 dans celui des femmes, la question est de savoir si ces 2 valeurs sont statistiquement différentes, compte tenu de leur incertitude statistique (matérialisée, par exemple, par leur intervalle de confiance respectif).

La réponse à cette question est apportée par le test d’interaction qui est significatif (p<0.05) lorsque les effets traitements sont significativement différents les uns des autres. Ce test permet de savoir s’il y a autre chose que le hasard derrière les différences observées entre les sous-groupes. Ce test n’a donc aucune relation avec le test d’existence d’un effet non nul qui peut être fait au sein de chaque sous-groupe (et qui a les limitations que nous venons d’exposer dans la section précédente).

La Figure 5 illustre trois situations différentes d’interaction. En A, le même hazard ratio a été observée dans les deux sous-groupes. Il y a absence d’interaction avec une p velue du test d’interaction proche de 1. En B, le hazard ratio n’est pas le même dans les 2 sous-groupes, mais les intervalles de confiance se chevauchent largement. Ces 2 estimations ne sont pas vraiment différentes, compte tenu de l’incertitude entourant ces estimations. Le test d’interaction n’est pas significatif. En C cependant, les résultats des sous-groupes sont significativement différents comme le témoigne le test d’interaction avec une p value <0.05. Les intervalles de confiance ne se chevauchent plus note n° 3 . L’effet du traitement est donc vraisemblablement différent entre ces 2 sous-groupes.

On constate qu’il ne s’agit pas de rechercher un bénéfice du traitement dans un des sous-groupes, l’effet traitement étant observé pour les deux modalités du sous-groupe. De ce fait, l’existence d’un test d’interaction significatif ne signifie pas que le traitement est efficace dans un sous-groupe et sans effet dans un autre sous-groupe comme le montre la Figure 5-C. L’interaction signifie simplement que les effets sont différents quantitativement et cela ne préjuge pas de l’existence ou non d’un effet dans un sous-groupe.

IMG

Figure 5 – Différents cas de figure d’interaction

De ce fait l’interaction ne permet pas de conclure à l’existence de l’efficacité au sein des sous-groupes. Son utilisation ne pose pas les problèmes statistiques évoqués plus haut. L’interaction à a une vocation uniquement exploratoire, pour documenter et non pas pour décider de changement dans la pratique. Cette exploration n’a donc pas d’enjeu décisionnel. Mais le risque de découverte de fausse interaction existe bel et bien exposant au risque de discussion fondée sur des artefacts statistiques induits par la multiplicité des comparaisons

La Figure 7 montre un exemple de graphique des résultats des sous-groupes.

IMG

Figure 6 – Exemple d’analyse en sous-groupes avec test d’interaction. Pour l’analyse en sous-groupe en fonction des antécédents d’insuffisance cardiaque, le p du test d’interaction est de 0.60, ne permettant pas de conclure qu’il existe une différence statistiquement significative entre l’effet du traitement chez les patients ayant un antécédent (HR=0.79) par rapport à l’effet chez les patients sans antécédents (HR=0.84). Compte tenu de l’incertitude entourant ces 2 estimations, il n’est pas possible de conclure que ces 2 hazard ratio (0.79 et 0.84) sont différents. [ 10.1056/NEJMoa1812389 ]

IMG

Figure 7 – Exemple d’analyses en sous-groupe présentées avec le test d’interaction.

La multiplicité des analyses en sous-groupes expose à une inflation du risque alpha au niveau des tests d’interaction [8] , mais comme ces tests ne contribuent pas directement à la décision d’utiliser ou non le traitement, cette inflation n’a pas de conséquences sérieuses. Cependant la multiplicité expose au risque de trouver une interaction uniquement du fait du hasard parmi tous les tests réalisés au niveau de l’essai. La Figure 8 montre un exemple d’une telle interaction avec une variable qui certainement ne modifie en rien l’efficacité de la chirurgie d’endartériectomie dans la prévention de la récidive de l’AVC [6] .

IMG

Figure 8 – Illustration du risque de trouver une interaction uniquement du fait du hasard [6] .


[3] Il y a interaction à partir du moment où l’estimation ponctuelle d’un résultat n’est pas comprise dans l’intervalle de confiance de l’autre résultat. Il n’est pas nécessaire que les 2 intervalles soient complètement disjoints.