Origine des données manquantes - TRAITEMENT DES DONNEES MANQUANTES EN EPIDEMIOLOGIE : REVUE DE

TRAITEMENT DES DONNEES MANQUANTES EN EPIDEMIOLOGIE : REVUE DES METHODES

1. Origine des données manquantes

Malgré des collectes de données qui se veulent aussi performantes que possible et pour des raisons souvent hors de tout contrôle, les données manquantes sont fréquemment rencontrées en épidémiologie. C’est le cas pour tous les types d’enquêtes épidémiologiques : enquêtes de cohorte avec des patients perdus de vue à l’origine du phénomène d’attrition, enquêtes cas-témoins et enquêtes transversales avec des problèmes de non-réponse aux questionnaires. Ce phénomène est également prégnant dans le cadre des essais cliniques avec des sorties d’étude ou des problèmes de non-compliance au traitement. On observe le même phénomène dans des systèmes de surveillance lié à des défauts de déclaration ou bien à des déclarations incomplètes. Les données manquantes peuvent découler soit d’une non-réponse réelle, soit d’une réponse inexploitable.

Dans le cas d’une non-réponse réelle, la non-réponse est dite totale lorsque toutes les variables d’intérêt sont manquantes ou lorsque la quantité d’information utilisable est jugée insuffisante. C’est le cas lorsqu’une personne refuse de répondre à une enquête dans sa globalité, ou lorsque la variable d’intérêt (par exemple un test biologique) est manquante alors que les autres variables ont été recueillies. Face à une non-réponse totale, il est important de rechercher si les répondants et les non-répondants diffèrent selon les variables recueillies. On dispose le plus souvent de quelques informations concernant la personne qui ne souhaite pas répondre à l’enquête, soit recueillies lors du contact en même temps que la raison du refus, par exemple à partir de la feuille contact ou de données sociodémographiques récoltées au préalable, soit provenant de bases médico-administratives. Nous n’aborderons pas dans ce travail le traitement de la non-réponse totale, habituellement effectué au moyen d’une méthode d’ajustement des poids de sondage.

Ce travail concerne le traitement de la non-réponse partielle. Les causes de non-réponse partielles sont variées et il est important de pouvoir appréhender le mécanisme sous-jacent à cette réponse pour permettre une prise en compte adéquate des données manquantes [1]. La non-réponse peut ainsi être complètement involontaire lorsque la personne enquêtée omet une question ou ne sait pas comment répondre. C’est le cas également lorsque les conditions d’entretien sont instables et que le recueil de données peut être interrompu. Il peut d’agir par exemple d’enquêtes téléphoniques ou bien d’enquêtes réalisées auprès de populations marginalisées telles que les sans domicile fixe, les usagers de drogues ou les populations carcérales. Un autre cas particulier de non-réponse involontaire est celui des prélèvements biologiques. Ainsi, la personne enquêtée peut ne pas être prélevée pour des raisons médicales, ou bien l’analyse biologique peut se révéler impossible car l’échantillon est inutilisable, par exemple si l’échantillon est de volume insuffisant ou de mauvaise qualité.

La non-réponse peut également découler d’une inconsistance des réponses dans un même questionnaire. Il est ainsi courant d’avoir des réponses plus convenues sur des sujets sensibles socialement en début de questionnaire. Il vaut donc mieux prévoir de situer ces questions sensibles dans le questionnaire après une première série de questions standards. Il est également classique d’observer dans un même questionnaire des contradictions évidentes entre deux réponses, comme par exemple entre une vaccination déclarative et le nombre de doses vaccinales indiqué dans le dossier médical. Des inconsistances peuvent également être relevées entre les réponses après recoupement entre deux sources d’information telles que le médecin et son patient, ou encore entre deux sources de fichiers. Un phénomène comparable est dû à des problèmes de lisibilité des questionnaires (écriture illisible, mauvais état des questionnaires), tout particulièrement quand il s’agit d’auto-questionnaires, ainsi qu’à des erreurs de saisie. Les réponses pour lesquelles une inconsistance est relevée doivent faire l’objet d’un recodage en données manquantes.

La non-réponse peut également dépendre d’un mécanisme non-contrôlé lorsqu’elle découle d’une méconnaissance de la réponse. Il s’agit alors d’un manque d’information si la personne enquêtée ne sait pas répondre à certaines questions, ou si le médecin ne peut renseigner une variable lorsque l’information est manquante dans le dossier médical. Une cause fréquente de manque d’information découle de problèmes de mémorisation du fait de la nature de la question ou de l’ancienneté des informations. Il peut s’agir par exemple de questions sur des consommations

alimentaires plus ou moins récentes, sur des expositions professionnelles précises au fil du temps, sur un passé médical ou sur des antécédents médicaux familiaux. Il est alors flagrant que les expositions marquantes vont être mémorisées de façon différentielle, comme par exemple pour une maladie héréditaire grave de type diabète dans un historique médical familial, au détriment de pathologies moins connues ou plus bénignes.

Les mécanismes de non-réponse évoqués ont en commun le fait qu’ils sont dus à des phénomènes involontaires, c'est-à-dire qu’il n’existe pas de lien entre la non-réponse et le mécanisme à l’origine de cette non-réponse. Par contre, cela n’est pas le cas lorsque la non-réponse dépend de la nature des questions abordées qui peuvent être considérées par le répondant comme trop sensibles comme pour certaines consommations telles que la consommation d’alcool ou de tabac, certains comportements liés à l’hygiène ou à la sexualité, ainsi que certains sujets d’ordre médical ou intime. La non-réponse sera alors liée à un phénomène volontaire dû au répondant et répercutée comme un refus direct ou comme une réponse de type "ne sait pas".

Dans l’idéal, il faudrait tenir compte du risque de non-réponse lors du recueil de données en construisant des questionnaires adaptés, c'est-à-dire les plus courts possible, avec une durée de passation suffisante avant d’aborder les questions sensibles, ou encore de fiches de déclaration obligatoire synthétiques et claires. Une modalité "ne sait pas" devrait être prévue pour chaque question afin de discriminer les vraies non-réponses. Enfin, lorsque le recueil de données est terminé et qu’aucun retour à l’enquêté n’est possible, il est important de pouvoir identifier le mécanisme à l’origine de la non-réponse, d’un point de vue épidémiologique mais aussi statistique, car le traitement des données manquantes reposera en partie sur la connaissance a priori de ce mécanisme.

Dans le document Traitement des données manquantes en épidémiologie : application de l’imputation multiple à des données de surveillance et d’enquêtes (Page 30-33)