20.5 La validation des données

Pour juger de la qualité des données utilisées en général et de la possibilité de biais liés aux données en particulier, il est nécessaire de documenter numériquement le degré d’exactitude et de complétudes des données utilisées pour créer le groupe contrôle externe [87] [51] .

Cette approche quantitative est complémentaire de la description transparente du processus de constitution de la source de données, des algorithmes utilisés pour créer les variables, de la gestion des données, de leur protection, de leur anonymisation et du respect de la législation, etc. Ces aspects informatiques et de data management, fondamentaux eux aussi, ne sont pas abordés dans ce document, mais doivent être suivis et documentés [52] [213] .

Plusieurs métriques sont utilisables pour mesurer l’exactitude (accuracy ) des données comme les indices de performance diagnostique (sensibilité, spécificité, valeur prédictive positive, valeur prédictive négative) ou la différence des temps jusqu’à événements réels et rapportés dans les données pour les variables en « time-to-events » [214] [87] .

Tous ces indices nécessitent de comparer le contenu des données avec un standard de référence (reference standard, gold standard, ground truth ) constitué des vraies valeurs des patients. Cela implique la réalisation d’étude de validation des données ayant accès à ces vraies valeurs (par retour aux dossiers médicaux ou autres démarches) [215] .

Ces études de validation pose la question du choix de métrique (Se,SP ou VPP,VPN, de la dépendance de VPP et VPN à la prévalence de la variable, du design de l’étude de validation et de la transportabilité des résultats entre études de validation [214] .

Dans le contexte des études de validation des données, la valeur prédictive positive (VPP) mesure le pourcentage de valeurs exactes pour un catégorie donnée. Par exemple une VPP de 80% sur la catégorie « fibrillation auriculaire » signifie que seulement 80% des patients qui seront étiquetés dans la source de données « fibrillation auriculaire » ont bien en réalité une fibrillation auriculaire.

Une valeur de VPP élevée assure que la classification des patients dans une catégorie est correcte.

VPP = Vrais Positifs / (Vrais Positifs + Faux Positifs)

Par exemple, si l’algorithme/l’extraction identifie 100 patients diabétiques dans une base de données et que la validation par rapport aux dossiers confirme que 90 d'entre eux sont réellement diabétiques, la VPP est de 90%.

La VPP dépend fortement de la prévalence de la catégorie dans la population. Une catégorie rare aura tendance à avoir une VPP plus faible même avec un bon algorithme. Ainsi les valeurs de VPP pour un algorithme donné rapportée dans la littérature ne correspondent pas forcément à la VPP de cet algorithme sur une nouvelle base de données [214] . Sensibilité et spécificité (qui rentre dans le calcul de la VPP) sont davantage transposable, car elles ne dépendent pas de la prévalence de la catégorie à détecter.

La valeur prédictive négative VPN mesure la proportion des cas classés comme négatifs par l’algorithme qui sont réellement des vrais négatifs lors de la vérification par l’étude de validation.

VPN = Vrais Négatifs / (Vrais Négatifs + Faux Négatifs)

Par exemple, si l’algorithme/l’extraction identifie 1000 patients comme "non-diabétiques" et que la validation confirme que 700 ne le sont effectivement pas, la VPN est de 70%.

Comme la VPP, la VPN dépend de la prévalence.

La VPN est importante quand il s’agit d’identifier les patients qui n’ont pas la maladie ou qui n’ont pas fait l’événement.

On trouve facilement des exemples d’études de validation de ce type dans la littérature [216] [217] [218] [219] [220] [221] [222] , y compris des revues systématiques de ces études [223] [224] .

En plus de documenter la qualité des données, ces indices quantitatifs permettront de paramétrer les analyses quantitatives du biais destinées à éprouver la robustesse des résultats produits (cf. section 16.2) [225] .

Cette validation des données peut concerner toute la population analytique ou seulement un sous échantillon aléatoire [51] .

Lorsque la validation par rapport à une référence standard n’est vraiment pas possible comme avec les données anonymisées, d’autres approches peuvent être mises en œuvre [226] :

Comparaison de différente définitions, codes, etc.
Comparaison des distributions des valeurs de l’échantillon avec la distribution de cette variable dans la population générale ou dans d’autres études
Évaluation de la plausibilité des données
Évaluation de la cohérence des données au niveau patient

Des outils sont aussi disponibles pour évaluer la fiabilité du processus d’extraction de sources non structurées (par exemple par IA, TAL) comme le framework VALID [227] .

L’initiative PRINCIPLED des réseaux sentinels FDA détaille les aspects pratiques de la mise en œuvre de ces principes [87] .

Une autre approche de validation des données est celle du benchmarking (cf. section 23) qui consiste à montrer qu’une source de données permet de retrouver les mêmes résultats d’efficacités et de safety (hazard ratio par exemple) que les essais randomisés de traitements précédents.

Bien que fondamental, l’exactitude et la complétude des données ne suffisent pas à elles-mêmes à garantir la fiabilité des résultats des comparaisons externes, encore faut-il que les autres problématiques méthodologiques aient pu être solutionnées (confusion, biais de sélection, limites de la démarche rétrospectives, défaut de conception de l’étude, etc.). En revanche, quelle que soit la méthodologie de l’étude, des données de qualité limitée interrogeront sur la fiabilité des résultats.

Dans les guides des agences, ces aspects de la validation des données sont systématiquement mentionnés :

EMA Data Quality Framework for EU medicines regulation: application to Real-World Data [213]
NICE NICE real-world evidence framework [64] (chapitre data validity)
FDA Real-World Data: Assessing Electronic Health Records and Medical Claims Data to Support Regulatory Decision-Making for Drug and Biological Products [51]
FDA Real-World Data: Assessing Registries to Support Regulatory Decision-Making for Drug and Biological Products [52]