• Aucun résultat trouvé

La problématique des données manquantes ponctuelles

3.4 La problématique des données manquantes ponctuelles

La troisième forme de données manquantes présente dans nos bases de données concerne

les données manquantes ponctuelles. Un patient qui a effectué la visite t peut présenter

quelques données manquantes sur quelques covariables ou sur la réponse.

3.4.1 Les méthodes usuelles

Plusieurs possibilités s’offrent à nous devant de telles données manquantes :

Cas complet et IPW La première solution est de supprimer les lignes qui présentent

des données manquantes et de réaliser l’analyse d’intérêt. Cette méthode est fortement

déconseillée puisqu’elle est synonyme de beaucoup de perte d’informations et peut biaiser

l’analyse. Il est aussi possible d’utiliser une méthode de type IPW après avoir supprimé ces

lignes Robins et al. [1994] afin de réduire le biais que peut induire cette perte. Cependant,

comme une visite supprimée revient à supprimer l’information de centaines de variables

nous avons préféré utiliser les méthodes d’imputation.

Imputation simple Les méthodes d’imputation simple permettent d’attribuer une

va-leur à une donnée manquante, puis de réaliser l’analyse d’intérêt sur la base ainsi complétée.

Parmi les méthodes utilisées, nous pouvons citer l’imputation par la moyenne ou la

mé-diane qui peuvent être des imputations par groupe puisqu’il est possible de stratifier la

population : par exemple faire des imputations par âge, sexe ou en ajustant sur d’autres

covariables. Une autre amélioration est d’ajouter du bruit dans l’imputation. Par exemple,

un terme d’erreur peut être ajouté à la moyenne afin d’éviter les imputations déterministes

qui réduisent la variabilité. Ces méthodes ne prennent malheureusement pas toujours en

compte la variabilité induite par l’imputation et créent des écarts types trop faibles (Little

and Rubin [1987]). De plus, la structure de la base comme les corrélations ou le lien entre

les variables ne sont pas prises en compte dans l’imputation. L’imputation "Hot-deck" qui

remplace les données manquantes par des données observées chez les plus proches voisins

(à définir) permet de mieux respecter la structure de la base de données mais sous-estime

la variance (Rao [1996]).

3.4. LA PROBLÉMATIQUE DES DONNÉES MANQUANTES PONCTUELLES

Pour les méthodes exploratoires d’analyses de données, les méthodes d’analyse

facto-rielles peuvent être adaptées aux données manquantes. Pour ce faire, Josse and Husson

[2012] proposent d’utiliser une Analyse en Composantes Principales (ACP) itérative. Cette

dernière se comporte comme un algorithme Expectation Minimization (EM) ce qui permet

d’estimer les axes et composantes principales en présence de données manquantes. Plus

récemment, Audigier et al. [2016] ont proposé le BayesMIPCA. Cet algorithme utilise une

ACP bayésienne et permet de réaliser une imputation mutiple en sélectionnant M jeux

de données approximativement indépendants simulés grâce aux posteriors. Cette méthode

permet de traiter la problématique de la grande dimension où le nombre de covariables

est supérieur au nombre d’observations. Cependant deux limites de cette méthode ne nous

permettent pas de l’utiliser : elle se restreint aux données continues, et ne permet pas

d’im-puter les données MNAR.

3.4.2 Différentes méthodes d’Imputation Multiple

Nous avons choisi d’utiliser l’imputation multiple pour sa facilité d’utilisation, de

com-préhension et sa bonne implémentation sur les logiciels standards. Cette méthode,

intro-duite par Rubin [1987] est aujourd’hui largement utilisée et permet de prendre en compte

la variabilité des imputations. L’idée principale est décrite par la figure 3.5. On utilise une

règle d’imputation aléatoire afin d’obtenir M jeux complets sur lesquels on réalise

l’ana-lyse d’intérêt afin d’estimer notre vecteur de coefficientsβ. L’estimateur combiné β et sa

variance sont estimés à l’aide des règles de Rubin :

β= 1

M

M

X

m=1

ˆ

β

m

(3.6)

βˆ

m

est l’estimateur de β sur le m-ème jeu de données imputées m ∈ {1, . . . , M}

estimé par GEE à l’aide de l’équation (1.13). La varianceΣde cet estimateur combiné est

composée d’un terme de variance intra-imputation W =

M1

P

M

m=1

Vˆ

R,m

Vˆ

R,m

est la

3.4. LA PROBLÉMATIQUE DES DONNÉES MANQUANTES PONCTUELLES

de variance inter-imputation B =

M−11

P

M

m=1

( ˆβ

m

−β)( ˆβ

m

−β)

T

. L’estimateur combiné

de la variance est donné par :

ˆ

Σ=W+M + 1

M B (3.7)

Figure 3.5 – Imputation multiple

La littérature sur le sujet est riche (Schafer [1999]; Rubin [1996]; Sterne et al. [2009];

Kenward and Carpenter [2007]) et différentes méthodes aléatoires permettent d’obtenir ces

M imputations. Deux méthodes sont très répandues : la méthode de modélisation jointe

(Schafer [1997]) et la méthode d’imputation par équations en chaine (Van Buuren [2012]).

La première cherche à modéliser les variables conjointement ce qui la rend difficilement

applicable en présence de bases de données complexes qui sont composées de différents

types de variables (Van Buuren [2007]; Molenberghs et al. [2014]). La deuxième, que l’on

retrouve aussi sous le nom de sequential regression multiple imputation et imputation by

full conditional specification utilise des modèles conditionnels séparés pour chaque variable

3.4. LA PROBLÉMATIQUE DES DONNÉES MANQUANTES PONCTUELLES

sachant les autres.

3.4.3 Imputation par équations en chaîne

Nous avons choisi d’utiliser l’imputation par équations en chaîne afin de respecter

l’hé-térogénéité de nos bases de données qui présentent souvent de nombreuses covariables de

différents types (continues, binaires, classes...). L’idée est la suivante : notonsXun

échan-tillon composé depvariables soumises aux données manquantes. Les données manquantes

sont d’abord complétées par une première imputation obtenue grâce aux distributions

mar-ginales, par exemple imputation par la moyenne. L’algorithme utilise ensuite une

concaté-nation de procédures univariées. On suppose que chaque variablex

j

, soumise aux données

manquantes, admet pour distribution la fonction P(x

j

|X

(−j)

j

) où X

(−j)

représente la

matrice X privée de la variable x

j

et θ

j

est le paramètre de distribution à estimer. Afin

d’ajouter de l’aléa dans l’imputation, on tire un estimateur θ

j

grâce à la distribution a

posteriori P(θ

j

|X). Ce processus est répété pour chaque variable qui présente des données

manquantes en mettant à jour les imputations. L’algorithme ainsi défini utilise à chaque

itérationl un échantillonneur de Gibbs qui simule successivement :

θ

1(l)

∼P(θ

1

|x

o1

,x

(l21)

, . . . ,x

(lp1)

)

x

1(l)

∼P(x

1

|x

o1

,x

(l21)

, . . . ,x

(lp1)

1(l)

)

..

.

θ

p(l)

∼P(θ

p

|x

op

,x

(l)1

, . . . ,x

(l)p1

)

x

p(l)

∼P(x

p

|x

op

,x

(l)1

, . . . ,x

(l)p1

p(l)

)

(3.8)

Où x

j(l)

= (x

o j

, x

j(l)

) est la j-ème variable imputée à l’itération l en reprenant les

notations de Van Buuren and Groothuis-Oudshoorn [2011]. L’utilisation de procédures

univariées facilite l’implémentation et permet d’utiliser des procédures différentes selon le

type de variables. Cette méthode a fait ses preuves (Horton and Lipsitz [2001]; Moons

et al. [2006]; Van Buuren et al. [2006]; Bradburn et al. [2007]) et est largement utilisée

aujourd’hui. Nous utilisons le package micede R (Van Buuren and Groothuis-Oudshoorn

3.5. LE CAS PARTICULIER DES VARIABLES SOUMISES À UN SEUIL DE

Documents relatifs