• Aucun résultat trouvé

TRAITEMENT DES DONNEES MANQUANTES EN EPIDEMIOLOGIE : REVUE DES METHODES

5.3. Etapes pratiques de la mise en application

5.3.2. Etape 2 : Construction du modèle d’imputation

• Sélection des variables prédictrices

La spécificité de la méthode d’imputation par équations chaînées est de permettre l’élaboration d’un modèle d’imputation conditionnelle pour chaque variable incomplète. Ainsi, une fonction de lien et un ensemble de variables prédictrices sont spécifiés pour chaque variable. La sélection des variables prédictrices, automatisée pour certaines implémentations (IVEware, MICE), peut également être réalisée manuellement en suivant des critères de sélection simples.

61

Rubin [3] propose d’inclure le plus de variables explicatives possible, tout en construisant un modèle d’imputation de façon raisonnée, c'est-à-dire en respectant les relations entre les variables. Selon lui, il est en principe plus dangereux d’omettre des variables explicatives que d’en inclure trop dans le modèle d’imputation. Rubin fait alors référence à un type particulier d’imputation qui consiste à estimer les données manquantes dans des bases de données importantes, et ceci sans tenir compte des analyses qui seront réalisées par la suite sur des sous-parties des bases complétées.

Meng [49] précise la méthode de sélection des variables en introduisant la notion d’homogénéité entre la procédure d’imputation et les analyses ultérieures. Ainsi, il montre qu’il est nécessaire d’inclure au minimum dans le modèle d’imputation toutes les variables retenues pour les analyses ultérieures, sous peine d’introduire des biais. Concrètement, si on réalise une analyse étiologique à partir d’une base de données incomplète, on doit inclure dans le modèle d’imputation les covariables retenues au terme de l’analyse univariée cas-complet ainsi que la variable à expliquer.

Bien que cette démarche ne paraisse pas intuitive, il est nécessaire d’inclure la variable à expliquer dans le modèle d’imputation afin de reproduire le niveau de lien entre les valeurs observées de la variable à expliquer et les valeurs imputées des covariables incomplètes, tel qu’il existe pour les autres données observées de la base [50;51;52]. Si la variable à expliquer n’est pas retenue, le niveau de lien entre la variable à expliquer et les covariables sera sous-estimé lors de l’imputation, ce qui faussera l’analyse étiologique ultérieure [20]. Ces variables, retenues systématiquement pour l’imputation, sont dénommées variables principales. Elle composent le modèle d’imputation le plus réduit.

Cependant, suivant les indications princeps de Rubin [30], Van Buuren [42] propose une stratégie de construction du modèle d’imputation consistant à sélectionner le plus de variables prédictrices possible, dans la mesure où elles contiennent des informations sur le mécanisme de données manquantes des variables incomplètes. Il faut donc retenir d’une part les variables liées aux variables à imputer, et d’autre part les variables liées au mécanisme de données manquantes des variables à imputer. Ces variables additionnelles, dites variables auxiliaires [14], permettent d’améliorer les capacités prédictrices du modèle d’imputation [53], même lorsqu’elles ne sont pas retenues dans les analyses ultérieures des données imputées. Le modèle d’imputation est alors plus général que le modèle d’analyse. Il est conseillé de retenir

62

un total de 15 à 25 variables prédictrices [42], mais nous verrons qu’en pratique il est peu courant de pouvoir sélectionner plus de 15 variables.

L’ajout de variables auxiliaires permet de capturer au mieux le mécanisme de données manquantes et ainsi de rendre l’hypothèse MAR plus plausible, puisque la modélisation des variables incomplètes dépend davantage de valeurs observées et donc dans une moindre mesure de valeurs non-observées [10;14]. Van Buuren [42] a ainsi démontré dans une étude par simulation que l’imputation de données manquantes selon un mécanisme MNAR était nettement améliorée par l’ajout de variables auxiliaires, c'est-à-dire que les estimateurs étaient moins biaisés par rapport à la vraie valeur que lors d’une imputation réalisée à partir d’un modèle plus réduit.

En pratique, la sélection des variables s’effectue en deux temps. Tout d’abord, on retient les variables sélectionnées pour les analyses ultérieures, les variables principales, puis on identifie les variables auxiliaires en croisant les indicatrices de données manquantes des variables incomplètes avec les variables disponibles dans la base de données.

La sélection des variables prédictrices, principales et auxiliaires, est présentée par Van Buuren [42] comme une recherche de corrélations entre les variables deux à deux, aussi bien pour les liens entre variables incomplètes, qu’entre indicatrices de données manquantes et variables incomplètes ou/et complètes. Il est cependant informatif de tenir compte dans cette sélection de l’ajustement sur les autres variables, c'est-à-dire de se placer dans un cas multivarié. On sélectionne ainsi les variables prédictrices par régression de chaque indicatrice de données manquantes et de chaque variable à imputer sur l’ensemble des variables de la base de données [41]. Cependant, si cette stratégie permet de prendre en compte les relations entre les données utilisées lors du processus d’imputation, ces analyses multivariées sont réalisées en cas-complet et peuvent donc être affectées par une perte de puissance ainsi que par un biais de sélection du fait des données manquantes.

Il a donc été proposé par Wood et al.[54] et plus récemment par White et al. [28] d’effectuer cette sélection à partir des données imputées. Cette approche, qui peut paraître circulaire, a été retenue dans notre travail essentiellement comme un procédé de validation du jeu de variables prédictrices retenues. En effet, sachant qu’une imputation multiple valide doit préserver les relations entre les variables, il parait cohérent d’examiner les liens entre les variables à partir des données imputées puisqu’ils doivent refléter les liens initiaux entre les variables incomplètes.

63

Notre approche a consisté à construire un modèle multivarié expliquant chaque indicatrice de données manquantes à partir des covariables (variables explicatives et variable à expliquer), puis à appliquer pour chaque modèle une stratégie de sélection pas à pas descendante portant sur l’ensemble des bases imputées, par le biais des commandes propres à l’imputation. Les résultats obtenus sont utilisés pour valider la sélection réalisée en analyse cas-complet univariée. Les applications pratiques présentées dans ce rapport montrent que le processus multivarié est plus sélectif que le processus univarié, et nous avons fait le choix de privilégier le modèle d’imputation le plus complet, tout en testant des modèles plus parcimonieux.

• Type des variables incomplètes

Une fonction de lien est spécifiée pour chaque variable selon son type. Les variables sont imputées par régression logistique pour les variables binaires, régression multivariée pour les variables nominales ou ordinales et régression linéaire pour les variables continues.

Les variables catégorielles sont bien prises en compte par la méthode d’imputation par équations chaînées. Il a été démontré que la méthode d’imputation multivariée normale, en traitant les variables catégorielles comme des variables continues, peut induire des biais dans les estimations [55]. A l’inverse, la méthode par équations chaînées permet de spécifier une fonction de lien multinomiale pour les variables catégorielles. Ainsi, chaque variable catégorielle est décomposée en un jeu de variables indicatrices binaires qui sont utilisées pour l’estimation des autres variables incomplètes [56].

L’imputation des variables continues repose sur l’hypothèse d’une distribution normale. Or les résultats de l’imputation multiple sont sensibles au non-respect de la normalité aussi bien pour l’approche multivariée normale que pour l’approche par équations chaînées [45]. Il est donc recommandé de transformer chaque variable dont la distribution s’écarte de la normalité pour assurer la validité de l’imputation de cette variable, mais aussi celle des autres variables incomplètes du modèle. Une transformation inverse est dans ce cas appliquée après imputation.

• Choix du nombre de bases à imputer

Les indications de la littérature, essentiellement basées sur les règles édictées par Rubin, stipulent qu’un nombre restreint d’imputations, c'est-à-dire de 3 à 5, est suffisant. Cet argument standard est basé sur la notion d’efficacité statistique relative des estimateurs, qui

64

évalue l’efficacité de l’utilisation d’un nombre fini M d’imputations par rapport à un nombre infini d’imputations.

Si la fraction d’information manquante, que l’on dénotera FMI (Fraction of Missing Information), est définie comme une fonction des variances intra-imputation

( )

W et inter-imputation

( )

B avec B W B FMI +

= , alors l’efficacité statistique relative (Relative Efficiency,

RE) est donnée par 1 .

m FMI RE= +

La valeur de la FMI d’une variable dépend forcément de la proportion de données manquantes initiale de cette variable, et Bodner [57] a proposé d’approximer la FMI par cette proportion. Cependant, la FMI dépend également du processus d’imputation, et représente un indicateur de la qualité de l’imputation pour chaque variable, selon qu’elle est égale, inférieure ou supérieure à la proportion de données manquantes.

Le Tableau 1.2, d’après [3], illustre les variations d’efficacité statistique relative

(

RE

)

selon la FMI et M. Si l’on tolère une perte d’efficacité de 5%

(

RE=95%

)

, alors ≤0.05

M FMI

et donc M =5 est adéquat si FMI ≤0.25. On se place ici dans un cas univarié, ce qui signifie qu’il suffit d’imputer 5 bases pour obtenir une efficacité statistique relative de 95% si la variable incomplète a une FMI de 25%. Pour une même efficacité statistique, il suffirait d’imputer 10 bases pour prendre en compte une FMI de 50%.

Tableau 1.2 – Efficacité statistique relative en % selon la FMI et le nombre de bases imputées M FMI M 0,1 0,2 0,3 0,5 0,7 0,9 2 95 91 87 80 74 69 3 97 94 91 86 81 77 5 98 96 94 91 88 85 10 99 98 97 95 93 92 20 100 99 99 98 97 96

65

Formulé autrement, une perte d’efficacité statistique relative correspond à une inflation de la variance de l’estimation. Ainsi, tolérer une efficacité statistique de 95% implique une augmentation de la variance d’un facteur de 1.02 pour une proportion de données manquantes de 25% et M =5. Ce facteur atteint 1.08 pour une FMI=50% et M =10.

Cependant, de nouveaux arguments en faveur d’un nombre d’imputations plus important sont décrits dans la littérature. Ainsi, Graham et al. [58] reprennent les arguments d’efficacité statistique proposés par Rubin en les précisant. Ils observent par simulation une baisse notable de puissance statistique, avec un impact sur la largeur de l’intervalle de confiance et sur la p-valeur, baisse supérieure à 5% pour une FMI ≥0.25et pour M =10, par rapport à 100 imputations. Selon cet exemple, le nombre de bases qu’il faudrait imputer pour limiter la perte de puissance statistique à 5% serait le double de celui retenu selon les arguments précédents, pour une FMI similaire.

White et al. soulignent cependant que les arguments d’efficacité statistique relative et de puissance statistique ne sont pas suffisants pour déterminer le nombre de bases à imputer. Comme suggéré par Horton et al. [38], il faudrait tenir compte dans le choix du nombre de bases de la stabilité des résultats obtenus en analysant des jeux de données imputées à partir de la même base de données initiale (et le même modèle d’imputation). On se base ainsi sur l’estimation de l’erreur de Monte Carlo, donnée par l’expression MC BM

error = qui tend vers 0 lorsque M augmente. A partir d’une étude par simulation, Bodner [57] propose d’estimer l’erreur de Monte Carlo d’un paramètre β. Afin de valider le choix du nombre de bases imputées, on peut retenir comme critère que l’erreur de Monte Carlo de βˆ doit être égale à environ 10% de l’écart type de βˆ .

De façon à s’assurer que tous ces critères sont remplis, White et al. suggèrent de choisir, quand cela est possible, un nombre de bases imputées M tel que M ≥ 100×FMI. En approximant la FMI par la proportion de données manquantes, il faudrait alors imputer, si une seule variable est incomplète, environ 100 fois la proportion de données manquantes de cette variable.

66

En pratique, il est rare d’avoir à traiter une base de données contenant une seule variable incomplète et la FMI peut différer de la proportion de données manquantes. Nous verrons dans les applications présentées qu’un diagnostic simple du nombre de bases imputées peut être obtenu en combinant ces différents critères, et qu’il est souvent difficile en pratique d’imputer un nombre de bases adéquat. Il reste cependant intéressant d’explorer ces critères diagnostiques, tout particulièrement lorsqu’un processus d’imputation peut être amélioré au cours du temps, comme c’est le cas pour les données de systèmes de surveillance.

• Autres options

Nombre de cycles

Plusieurs cycles sont nécessaires seulement si plusieurs variables sont incomplètes. L’échantillonneur de Gibbs converge rapidement (5 à 10 itérations) et le programme additionnel ICE spécifie 10 cycles par défaut. Dans la littérature, les auteurs observent peu de variations au-delà de 20 cycles [35;42;59]. En pratique, le temps d’imputation varie peu entre 10 et 30 cycles, ce qui peut autoriser un choix conservateur.

Racine

La racine ("seed") est un nombre que l’on peut spécifier dans les options du modèle d’imputation. C’est un nombre qui initialise le générateur de nombres aléatoires. Si ce nombre est spécifié, il est alors possible d’obtenir un jeu de données identique lorsque l’on répète le processus d’imputation à partir du même modèle. Dans le cas contraire, une racine est générée par ICE et chaque nouvelle imputation donnera des résultats potentiellement différents.

67

5.3.3. Etape 3 : Analyse des données imputées et présentation