• Aucun résultat trouvé

TRAITEMENT DES DONNEES MANQUANTES EN EPIDEMIOLOGIE : REVUE DES METHODES

5.3. Etapes pratiques de la mise en application

5.3.3. Etape 3 : Analyse des données imputées et présentation des résultats

• Diagnostic de l’imputation multiple

Deux conditions sont requises afin d’obtenir des inférences valides après imputation multiple : (i) le modèle d’imputation doit être correctement spécifié et (ii) l’hypothèse MAR doit être plausible, ou du moins l’impact d’un processus MNAR doit être limité.

Il est recommandé de tester plusieurs bases de données imputées issues de modèles d’imputation différents. Ceux-ci peuvent être plus ou moins généraux, c'est-à-dire inclure plus ou moins de variables prédictrices, et plusieurs transformations de variables peuvent être évaluées (par exemple lors de recodage de variables catégorielles ou de transformation de variables continues).

Les implémentations classiques de l’imputation multiple requièrent que les données soient manquantes aléatoirement, c'est-à-dire qu’elles ne dépendent que des données observées, et non de données non-observées. Une approche théorique pour tester cette hypothèse a été proposée par Pothoff et al. [60] mais elle n’est pas applicable en pratique courante (sans implémentation dans un logiciel).

Lorsque des informations issues de la littérature ou spécifiques au mode de recueil de données laissent supposer que certaines variables peuvent contenir des données MNAR, les estimations issues de l’imputation multiple peuvent être biaisées. Deux approches sont envisageables : (i) modéliser la non-réponse pour ces variables en appliquant des modèles par sélection ou par mélange à partir d’hypothèses sur le mécanisme de données manquantes, (ii) appliquer une méthode d’analyse de sensibilité afin d’évaluer l’impact d’un mécanisme MNAR sur les résultats de l’imputation multiple.

En pratique, même si la procédure d’imputation multiple ne peut être validée à partir des valeurs observées, les résultats obtenus peuvent être vérifiés en tenant compte de standards raisonnables. Ainsi, les différences entre données observées et données imputées peuvent être testées, afin d’évaluer si ces variations ont un sens dans le contexte du recueil de données. En effet, avant la réalisation de l’imputation, une analyse des données observées permet de définir des mécanismes MAR dépendant de certaines variables, et ainsi d’anticiper des variations entre données observées et imputées.

68

Abayomi et al. [61] proposent des comparaisons numériques et graphiques afin de dépister des anomalies dans le processus d’imputation, appliquées consécutivement à plusieurs bases de données imputées. Comme souligné par Raghunatan et al. [62], les comparaisons numériques ne sont pas toujours interprétables en raison de la différence d’effectifs entre valeurs observées et imputées, car elles peuvent être de ce fait artificiellement significatives. Les diagnostics graphiques permettent de tester aisément les données imputées, sur une seule base ou sur l’ensemble des bases imputées. Dans le cas des variables continues, l’imputation se fait sous l’hypothèse d’une distribution normale, ce qui implique souvent une transformation préalable de ces variables. Une analyse graphique permet ainsi de dépister des défauts de superposition des distributions observées et imputées.

Cette première étape de validation du processus d’imputation doit prendre place avant la phase d’analyse. L’expérience montre que, bien qu’elle repose sur des examens qualitatifs, cette étape est cruciale pour s’assurer (i) de la validité du modèle d’imputation retenu, (ii) de la plausibilité de l’hypothèse MAR. Dans le cas où les tests diagnostiques montrent des variations inexpliquées, et si le modèle d’imputation parait valide, il est important d’envisager une analyse de sensibilité sur la base d’hypothèses épidémiologiques. Cette approche est illustrée dans le chapitre 3. Une autre approche consiste à appliquer une procédure de validation croisée [63] à partir d’échantillons simulés selon plusieurs mécanismes de données manquantes. Cette procédure permet de tester l’étendue des biais sur les estimateurs, ainsi que la couverture des intervalles de confiance selon les mécanismes de données manquantes générés. Elle est illustrée dans le chapitre 4.

• Analyse jointe des bases de données imputées

Puisque les variables sont imputées sous leur forme originelle, une transformation inverse n’est nécessaire que pour les variables continues qui ont dû être normalisées avant imputation. Selon les analyses prévues, il peut être nécessaire de générer des variables à partir des variables imputées. Elles sont alors créées automatiquement dans l’ensemble des M bases de données.

Pour les analyses descriptives, les estimations sont assorties d’un intervalle de confiance rendant compte de la variabilité liée au processus d’estimation. Dans le cas des analyses étiologiques, le calcul de la variance intègre la variabilité entre les bases imputées, et les principales fonctions de lien peuvent être spécifiées. La prise en compte d’un plan de sondage est également prévue pour les implémentations classiques et pour certaines régressions [64].

69

La réalisation d’une analyse multivariée implique une stratégie de sélection de variables basée sur le test d’hypothèses. Après imputation multiple, le test de Wald est approximé par un test de Student pour tester les coefficients de régression. Un test de Fisher permet également de tester conjointement une série de coefficients de régression sur l’ensemble des bases imputées [65].

Cependant, certaines statistiques ne peuvent être obtenues directement à partir de données imputées, car elles ne peuvent être combinées sur les M bases imputées selon les règles de Rubin. White et al. [28] ont récemment synthétisé cette problématique pour les statistiques les plus fréquemment utilisées (Tableau 1.3).

Tableau 1.3 – Statistiques courantes pouvant être combinées ou non selon les règles de Rubin (d’après [28]).

Statistiques pouvant être combinées sans transformation

Moyenne, proportion, coefficient de régression, C-index, aire sous la courbe ROC

Statistiques nécessitant une transformation adéquate pour être combinées

Odds ratio, risque relatif, probabilité de survie, écart-type, corrélation, proportion de variance expliquée, skewness, kurtosis

Statistiques ne pouvant pas être combinées

p-valeur, test de rapport de vraisemblance, test du Chi2 du modèle, test d'adéquation du modèle

Les critères statistiques permettant la sélection du meilleur modèle tels que le test de rapport de vraisemblances, le test de la déviance, les critères d’adéquation AIC (Akaïke Information Criterion) et BIC (Bayesian Information Criterion) ainsi que le test du Chi2 du modèle (test d’adéquation) ne peuvent pas être obtenus directement. Une approximation de la statistique du rapport de vraisemblances a été proposée par Meng et Rubin [66]. La problématique de la sélection d’un modèle selon des critères d’adéquation sera abordée dans le chapitre 2.

70

• Règles de publication des résultats de l’imputation multiple

En relation avec le nombre croissant d’études dans lesquelles une méthode d’imputation multiple est appliquée, des règles de publication se dégagent de la littérature [26;52] et sont synthétisées ci-après en suivant la structure de l’article.

Matériel et méthodes

Présenter les variables incomplètes, la proportion de données manquantes par variable et leur motif global de répartition. Donner un ordre de grandeur de la perte d’effectifs attendue en analyse cas-complet.

Proposer un mécanisme de données manquantes par variable à partir des variables indicatrices de données manquantes. Si des analyses étiologiques sont prévues, préciser le risque de biais attendu en analyse cas-complet, c'est-à-dire si un mécanisme MAR(ME) global est attendu.

Identifier selon le type de données recueillies et le mode de collecte les principaux mécanismes générant des données manquantes. Formuler des hypothèses MCAR, MAR, MNAR en fonction de ces informations.

Dégager l’intérêt de l’estimation des données manquantes par imputation multiple par rapport à l’analyse cas-complet. Préciser la méthode retenue (modèle multivarié normal ou modèle par équations chaînées), ainsi que le logiciel utilisé.

Détailler le processus d’élaboration du modèle d’imputation. Préciser les variables incluses dans le modèle, leur type ainsi que les transformations éventuelles ainsi que les termes d’interaction retenus. Spécifier le nombre de bases de données imputées en le rapportant à la proportion de données manquantes.

71

Résultats

Proposer un diagnostic de l’imputation en comparant les données imputées et observées pour les variables contenant une proportion non-négligeable de données manquantes.

Présenter si possible les résultats des deux analyses, cas-complet et imputation multiple. Préciser, si c’est le cas, les variables qui ne sont pas communes aux modèles finaux retenus au terme des deux analyses. Présenter les estimations obtenues sur la base d’un modèle incluant les même variables pour les bases de données incomplète et imputée.

Discussion

Discuter les différences entre les deux analyses en termes de (i) sélection des variables (c'est-à-dire les variables retenues dans le modèle final), (ii) comparaison des estimations tenant compte de la variabilité des résultats à l’aide du coefficient de variation =

SE

CV β , et (iii) biais attendus pour les deux analyses selon les hypothèses sur le mécanisme de données manquantes (MAR(ME) en cas-complet, MNAR en imputation multiple).

Discuter la validité de l’hypothèse MAR selon (i) la richesse du modèle d’imputation en variables auxiliaires (rendant l’hypothèse MAR plus plausible), (ii) les hypothèses épidémiologiques sur le mécanisme de données manquantes proposé pour les variables "sensibles".

Discuter l’intérêt d’une analyse de sensibilité permettant de tester la robustesse des résultats au non-respect de l’hypothèse MAR, sachant que ce type d’analyse reste très majoritairement l’apanage d’articles à visée statistique.

72

6. Mécanismes de données manquantes et biais :