3.4 La problématique des données manquantes ponctuelles
La troisième forme de données manquantes présente dans nos bases de données concerne
les données manquantes ponctuelles. Un patient qui a effectué la visite t peut présenter
quelques données manquantes sur quelques covariables ou sur la réponse.
3.4.1 Les méthodes usuelles
Plusieurs possibilités s’offrent à nous devant de telles données manquantes :
Cas complet et IPW La première solution est de supprimer les lignes qui présentent
des données manquantes et de réaliser l’analyse d’intérêt. Cette méthode est fortement
déconseillée puisqu’elle est synonyme de beaucoup de perte d’informations et peut biaiser
l’analyse. Il est aussi possible d’utiliser une méthode de type IPW après avoir supprimé ces
lignes Robins et al. [1994] afin de réduire le biais que peut induire cette perte. Cependant,
comme une visite supprimée revient à supprimer l’information de centaines de variables
nous avons préféré utiliser les méthodes d’imputation.
Imputation simple Les méthodes d’imputation simple permettent d’attribuer une
va-leur à une donnée manquante, puis de réaliser l’analyse d’intérêt sur la base ainsi complétée.
Parmi les méthodes utilisées, nous pouvons citer l’imputation par la moyenne ou la
mé-diane qui peuvent être des imputations par groupe puisqu’il est possible de stratifier la
population : par exemple faire des imputations par âge, sexe ou en ajustant sur d’autres
covariables. Une autre amélioration est d’ajouter du bruit dans l’imputation. Par exemple,
un terme d’erreur peut être ajouté à la moyenne afin d’éviter les imputations déterministes
qui réduisent la variabilité. Ces méthodes ne prennent malheureusement pas toujours en
compte la variabilité induite par l’imputation et créent des écarts types trop faibles (Little
and Rubin [1987]). De plus, la structure de la base comme les corrélations ou le lien entre
les variables ne sont pas prises en compte dans l’imputation. L’imputation "Hot-deck" qui
remplace les données manquantes par des données observées chez les plus proches voisins
(à définir) permet de mieux respecter la structure de la base de données mais sous-estime
la variance (Rao [1996]).
3.4. LA PROBLÉMATIQUE DES DONNÉES MANQUANTES PONCTUELLES
Pour les méthodes exploratoires d’analyses de données, les méthodes d’analyse
facto-rielles peuvent être adaptées aux données manquantes. Pour ce faire, Josse and Husson
[2012] proposent d’utiliser une Analyse en Composantes Principales (ACP) itérative. Cette
dernière se comporte comme un algorithme Expectation Minimization (EM) ce qui permet
d’estimer les axes et composantes principales en présence de données manquantes. Plus
récemment, Audigier et al. [2016] ont proposé le BayesMIPCA. Cet algorithme utilise une
ACP bayésienne et permet de réaliser une imputation mutiple en sélectionnant M jeux
de données approximativement indépendants simulés grâce aux posteriors. Cette méthode
permet de traiter la problématique de la grande dimension où le nombre de covariables
est supérieur au nombre d’observations. Cependant deux limites de cette méthode ne nous
permettent pas de l’utiliser : elle se restreint aux données continues, et ne permet pas
d’im-puter les données MNAR.
3.4.2 Différentes méthodes d’Imputation Multiple
Nous avons choisi d’utiliser l’imputation multiple pour sa facilité d’utilisation, de
com-préhension et sa bonne implémentation sur les logiciels standards. Cette méthode,
intro-duite par Rubin [1987] est aujourd’hui largement utilisée et permet de prendre en compte
la variabilité des imputations. L’idée principale est décrite par la figure 3.5. On utilise une
règle d’imputation aléatoire afin d’obtenir M jeux complets sur lesquels on réalise
l’ana-lyse d’intérêt afin d’estimer notre vecteur de coefficientsβ. L’estimateur combiné β et sa
variance sont estimés à l’aide des règles de Rubin :
β= 1
M
MX
m=1ˆ
β
m(3.6)
où βˆ
mest l’estimateur de β sur le m-ème jeu de données imputées m ∈ {1, . . . , M}
estimé par GEE à l’aide de l’équation (1.13). La varianceΣde cet estimateur combiné est
composée d’un terme de variance intra-imputation W =
M1P
Mm=1
Vˆ
R,moù Vˆ
R,mest la
3.4. LA PROBLÉMATIQUE DES DONNÉES MANQUANTES PONCTUELLES
de variance inter-imputation B =
M−11P
Mm=1
( ˆβ
m−β)( ˆβ
m−β)
T. L’estimateur combiné
de la variance est donné par :
ˆ
Σ=W+M + 1
M B (3.7)
Figure 3.5 – Imputation multiple
La littérature sur le sujet est riche (Schafer [1999]; Rubin [1996]; Sterne et al. [2009];
Kenward and Carpenter [2007]) et différentes méthodes aléatoires permettent d’obtenir ces
M imputations. Deux méthodes sont très répandues : la méthode de modélisation jointe
(Schafer [1997]) et la méthode d’imputation par équations en chaine (Van Buuren [2012]).
La première cherche à modéliser les variables conjointement ce qui la rend difficilement
applicable en présence de bases de données complexes qui sont composées de différents
types de variables (Van Buuren [2007]; Molenberghs et al. [2014]). La deuxième, que l’on
retrouve aussi sous le nom de sequential regression multiple imputation et imputation by
full conditional specification utilise des modèles conditionnels séparés pour chaque variable
3.4. LA PROBLÉMATIQUE DES DONNÉES MANQUANTES PONCTUELLES
sachant les autres.
3.4.3 Imputation par équations en chaîne
Nous avons choisi d’utiliser l’imputation par équations en chaîne afin de respecter
l’hé-térogénéité de nos bases de données qui présentent souvent de nombreuses covariables de
différents types (continues, binaires, classes...). L’idée est la suivante : notonsXun
échan-tillon composé depvariables soumises aux données manquantes. Les données manquantes
sont d’abord complétées par une première imputation obtenue grâce aux distributions
mar-ginales, par exemple imputation par la moyenne. L’algorithme utilise ensuite une
concaté-nation de procédures univariées. On suppose que chaque variablex
j, soumise aux données
manquantes, admet pour distribution la fonction P(x
j|X
(−j),θ
j) où X
(−j)représente la
matrice X privée de la variable x
jet θ
jest le paramètre de distribution à estimer. Afin
d’ajouter de l’aléa dans l’imputation, on tire un estimateur θ
∗jgrâce à la distribution a
posteriori P(θ
j|X). Ce processus est répété pour chaque variable qui présente des données
manquantes en mettant à jour les imputations. L’algorithme ainsi défini utilise à chaque
itérationl un échantillonneur de Gibbs qui simule successivement :
θ
1∗(l)∼P(θ
1|x
o1,x
(l2−1), . . . ,x
(lp−1))
x
∗1(l)∼P(x
1|x
o1,x
(l2−1), . . . ,x
(lp−1),θ
∗1(l))
..
.
θ
p∗(l)∼P(θ
p|x
op,x
(l)1, . . . ,x
(l)p−1)
x
∗p(l)∼P(x
p|x
op,x
(l)1, . . . ,x
(l)p−1,θ
p∗(l))
(3.8)
Où x
j(l)= (x
o j, x
∗j(l)
) est la j-ème variable imputée à l’itération l en reprenant les
notations de Van Buuren and Groothuis-Oudshoorn [2011]. L’utilisation de procédures
univariées facilite l’implémentation et permet d’utiliser des procédures différentes selon le
type de variables. Cette méthode a fait ses preuves (Horton and Lipsitz [2001]; Moons
et al. [2006]; Van Buuren et al. [2006]; Bradburn et al. [2007]) et est largement utilisée
aujourd’hui. Nous utilisons le package micede R (Van Buuren and Groothuis-Oudshoorn
3.5. LE CAS PARTICULIER DES VARIABLES SOUMISES À UN SEUIL DE
Dans le document
Contribution à la sélection de variables en présence de données longitudinales
(Page 81-85)