Comparaisons à un groupe contrôle externe

Les données manquantes ont la potentialité de fausser les résultats de l’étude de plusieurs manières en introduisant un biais de sélection et/ou un biais d’attrition. Les techniques utilisées pour gérer les données manquantes entrainent soit une réduction de puissance/précision soit une sous-estimation des tailles d’effet quand ces données manquantes sont remplacées de manière conservatrice.

Les données manquantes rendent inutilisable pour l’analyse des patients (à partir du moment où il y a une donnée manquante sur une des variables nécessaires à cette analyse) ce qui conduit à les remplacer/imputer à l’aide d’une méthode statistique. L’imputation des données manquantes est un sujet très technique et les méthodes disponibles reposent sur des hypothèses fondamentales difficiles à vérifier. Ainsi même après remplacement les données manquantes sont susceptibles de fausser les résultats de l’étude.

La présence de données manquantes n’est vraiment identifiable que dans les sources de données structurées comme les registres, les cohortes où elles correspondent à une valeur d’une variable dont la saisie était prévue, mais qui n’a pas été renseignée. Ces valeurs manquantes font l’objet d’un code particulier. En revanche dans les sources non structurées comme les dossiers médicaux ou les bases administratives, le concept même de données manquantes n’existe pas en tant que-t-elle, étant donné qu’il n’y a pas de liste de variable à saisir. Dans ces sources, l’absence d’une information pourtant existante comme un diagnostic, un traitement ne sera pas identifiable. Sur ces variables d’occurrence aléatoire, une information existante oubliée ou non mentionnée se traduira, in fine, par la modalité d’absence de la variable, donc par un faux négatif. Par exemple la non-mention dans le dossier médical de la survenue d’une hémorragie conduira à la notion d’absence d’hémorragie et non pas à la notion de données manquantes. Dans un recueil structuré, l’absence d’hémorragie sera renseignée quand cette absence aura été vérifiée explicitement et sera codée « données manquantes » quand cette vérification explicite n’aura pas été effectuée ou s’avère impossible à faire.

Les données manquantes sont fréquentes (voire très fréquente) dans beaucoup de sources de données type registre de maladie car la saisie des informations dans ces bases de données est un travail supplémentaire à réaliser lors des consultations ou des hospitalisations des patients sans qu’une aide spécifique soit disponible. Le data management est en général inexistant ou très limité ainsi que le monitorage. Au total, beaucoup de ces bases, attractives car étant théoriquement conçues pour faire de la recherche, s’avère inutilisable à cause des données manquantes.