• Aucun résultat trouvé

TRAITEMENT DES DONNEES MANQUANTES EN EPIDEMIOLOGIE : REVUE DES METHODES

5. Méthodes par imputation multiple

5.2.2. Phase d’imputation

La construction du modèle d’imputation est une étape cruciale incluant la sélection des variables prédictrices, la spécification du type du modèle et le choix du nombre M de bases à imputer.

A partir du cadre théorique général proposé par Rubin, différentes méthodes ont été élaborées et implémentées dans différents logiciels. Leurs particularités théoriques sont présentées, accompagnées d’un exemple illustratif de la méthode retenue dans la suite de ce travail.

• Cas général – algorithme de Rubin

Si les données sont désignées par une matrice Y, comprenant une partie observée obs

Y et une partie manquante miss

Y , Y est distribuée selon la fonction f

( )

Y

φ

, où

φ

désigne l’ensemble des paramètres du modèle.

1 1 2 2 3 3 4 4 5 5 = moyenne( i) = intrabase + interbase base 1 base 2 base 3 base 4 base 5

Phase d’imputation Phase d’analyse

44

Sous l’hypothèse que les données sont manquantes au hasard, la distribution prédictive

(

miss obs

)

Y Y f s’exprime comme :

( ) ( )

( φ) (φ ) φ

φ

φ

d Y f Y Y f d Y Y f Y Y f obs obs miss obs miss obs miss , , = =

Les données manquantes sont imputées en deux étapes. (i) Une valeur est estimée pour les paramètres d’après leur distribution a posteriori observée sur les données

(

obs

)

Y

f

φ

. Les tirages dans les distributions de probabilité a posteriori sont réalisés à partir d’un algorithme de type Monte Carlo par chaîne de Markov (MCMC). Cette première étape permet d’obtenir une variabilité dans les paramètres. (ii) Les données manquantes sont estimées d’après leur distribution conditionnelle a posteriori

(

miss obs,

φ)

Y Y

f en utilisant la valeur de

φ

générée à la première étape.

• Modèle multivarié normal et modèle par équations chainées

A partir de l’algorithme originel de Rubin, deux adaptations principales ont été élaborées [20]. Il s’agit de l’imputation multiple basée sur une distribution multivariée normale (Multivariate Normal Imputation, MVNI) originellement implémentée par Schafer [17] et de la méthode d’imputation multiple par équations chaînées (Multiple Imputation by Chained Equations, MICE), décrite par Van Buuren sous le terme de Regression Switching et plus récemment dénommée Fully Conditional Specification (FCS), et implémentée de façon indépendante par Van Buuren et al. [2], Raghunatan et al. [10], et Royston [40].

Le modèle multivarié normal est directement dérivé de l’algorithme de Rubin. Il est donc basé sur l’hypothèse que toutes les variables incluses dans le modèle d’imputation suivent une distribution multivariée jointe. Cette hypothèse n’est pas toujours vérifiée, en particulier lorsque le modèle inclut des variables binaires et catégorielles. Cependant, Schafer [29] suggère que les estimations obtenues à partir d’un modèle multivarié normal peuvent souvent être considérées comme valides, même si l’hypothèse de distribution multivariée normale n’est pas plausible. De ce fait, cette méthode a été largement utilisée, et est implémentée dans un logiciel gratuit (NORM), ainsi que dans une procédure SAS (MI et MIANALYZE) et STATA (version 11, MI IMPUTE) [39].

45

L’imputation par équations chaînées est une méthode plus flexible puisqu’elle ne fait pas l’hypothèse d’une distribution multivariée normale. En effet, une distribution est spécifiée pour chaque variable incomplète conditionnellement à toutes les autres variables incluses dans le modèle d’imputation. Concrètement, cette méthode permet de ramener un problème multivarié de dimension k en k problèmes univariés successifs conditionnant à chaque pas une variable imputée sur les valeurs observées et sur les valeurs les plus récentes générées des autres variables [41].

Le tirage dans les distributions conditionnelles s’effectue avec un algorithme spécifique dérivé des chaînes de Markov (l’échantillonneur de Gibbs), dont le principe est détaillé dans le paragraphe suivant. Le nombre d’itérations nécessaire à la convergence est faible, entre 5 et 20 dans la plupart des applications selon la taille du jeu de données et la proportion de cas incomplets, puisque la convergence se fait vers une distribution estimée et non une distribution exacte [41].

Cette approche est particulièrement flexible puisqu’une fonction de lien ainsi qu’un ensemble de variables prédictrices peuvent être spécifiés pour chaque variable incomplète, par exemple une régression logistique pour une variable binaire ou une régression multinomiale pour une variable catégorielle. L’hypothèse de normalité n’est ainsi plus requise que pour les variables continues.

Une limite théorique de cette méthode est due au fait que les distributions conditionnelles pourraient ne pas être compatibles avec la distribution jointe, ce qui causerait des problèmes de convergence du modèle d’imputation. Les répercussions pratiques ne sont cependant pas documentées dans la littérature [2;42], et quelques études de simulation de cas théoriques, montrant des distributions conditionnelles non compatibles avec la distribution jointe, tendent à montrer que les estimations sont non-biaisées [41;43].

Cette approche a d’abord été implémentée en tant que programme additionnel (ado) sous STATA (ICE), mais elle est à présent disponible comme fonction de base dans la version 12 de STATA. Elle est également disponible comme un ensemble de routines pouvant être appelé à partir de SAS (IVEware) et sous R (librairie MICE). Son utilisation est en progression constante [39].

Les résultats obtenus en appliquant ces deux méthodes sont variables selon les études. Ainsi, Faris et al. [35], Yu et al. [44] et Van Buuren et al. [43] concluent à partir d’études par

46

simulation que la méthode par équations chaînées donne des résultats plus fiables que l’approche multivariée normale en termes de biais et de couverture de l’intervalle de confiance. Dans une étude récente, Lee et al. [45] comparent les performances des deux méthodes à partir de données simulées de différents types, et montrent qu’elles constituent toutes les deux une approche valide. Ils concluent que, même si l’approche par équations chaînées se distingue par sa flexibilité et sa capacité à gérer les données discrètes, la méthode multivariée normale produit également des estimations valides quel que soit le type de données.

Un avantage majeur de l’imputation par équations chaînées réside cependant dans la gestion adéquate des variables discrètes, ainsi que dans la possibilité de spécifier un jeu de prédicteurs pour chaque variable, permettant d’inclure des liens complexes entre les variables. En relation avec le type de données que nous avons été amenés à traiter, à savoir des données essentiellement discrètes, nous avons fait le choix d’appliquer la méthode d’imputation multiple par équations chaînées. Un exemple d’imputation complexe présenté dans ce travail et réalisé à partir de la base de données de surveillance du VIH illustre bien les avantages liés à la flexibilité de cette approche (chapitre 4).

• Echantillonneur de Gibbs (d’après [3])

Rappel sur les distributions de probabilité

On note P

( )

X la densité de probabilité de X qui est égale à la probabilité que X prenne la valeur x : P

( )

X =P

(

X =x

)

.

Si X suit une loi normale de moyenne

µ

et de variance

σ

2 alors

( ) ( ) ( )

. 2 exp 2 1 2 2 − − = = =

σ

µ

π

σ

x x X P X P

47

Figure 1.3 – Densités de probabilité de distributions normales

On note F

( )

X la fonction de répartition de X égale à la densité de probabilité cumulée :

( )

X P

(

X x

)

F = ≤ . Si X ~N

;

σ

2

)

, alors la fonction de répartition peut être représentée comme suit.

Figure 1.4 – Fonctions de répartition de distributions normales

On tire une valeur dans la distribution de X en utilisant sa fonction de répartition. On tire un nombre aléatoire u entre 0 et 1 et on obtient la valeur x qui correspond à ce nombre aléatoire :

( )

.

1

u F x=

On note P

(

X1, X2

)

la densité de probabilité du couple

(

X1, X2

)

égale à la probabilité que X1

prenne la valeur x1 et que X2 prenne la valeur x2: P

(

X1,X2

)

=P

(

X1=x1,X2 =x2

)

.

Exemple : X1~

(

2

)

1 1;

σ

µ

N et X2~

(

2

)

2 2;

σ

µ

N

48

Figure 1.5 – Distributions marginales et jointes de X1 et X2

Distributions marginales Distribution jointe

P

( )

X1 P

( )

X2 P

(

X1, X2

)

La distribution de X1 conditionnellement à X2 s’écrit P

(

X1X2

)

et la distribution de X2

conditionnellement à X1 s’écrit P

(

X2 X1

)

.

Ces deux distributions conditionnelles s’expriment en fonction de la distribution jointe et des distributions marginales par la relation de Bayes :

( ) ( )

( )

1 2 2 2 1 , X P X X P X X P = et

( ) ( )

( )

1 1 2 1 2 , X P X X P X X P = .

La figure 1.6 illustre des distributions conditionnelles P

(

X1 X2

)

pour différentes valeurs de

2 X .

X1

X1 X2

49

Figure 1.6 – Exemples de distributions conditionnelles

P

(

X1 X2 =−3.02

)

P

(

X1 X2 =−1.08

)

P

(

X1 X2 =0.21

)

Tirages avec l’échantillonneur de Gibbs

Soit un ensemble de p variables aléatoires X1,...,Xp. On souhaite tirer aléatoirement un ensemble de valeurs dans la distribution jointe de ces p variables aléatoires, notée

(

X1,...,Xp

)

.

P Il est cependant très difficile de tirer ces valeurs directement à partir de la distribution jointe. Une solution est d’utiliser l’échantillonneur de Gibbs. Celui-ci génère des valeurs issues de la distribution jointe, mais uniquement à partir des distributions conditionnelles :

(

xj x xj xj xp

)

50

L’algorithme de l’échantillonneur de Gibbs se décompose en trois étapes.

Etape 1 : Des valeurs initiales x1( )0,...,x( )p0 sont choisies d’une certaine manière et on initialise 0

=

t .

Etape 2 : On tire les valeurs selon les distributions conditionnelles de la manière suivante :