D. Analyses statistiques
6. Gestion des données absentes
Les do es dites a se tes lo s d’ tudes pidémiologiques constituent un problème
i po ta t. La p e i e o s ue e est u iais de l’esti atio des asso iatio s. Au ou s de e
travail, nous avons identifié deux catégories de données absentes : les données analytiques en
dessous de la LD et les do es a ua tes. Deux st at gies d’i putatio o t t o sid es :
6.1. Données analytiques en dessous de la limite de détection
La méthode qui consiste à remplacer la valeur inférieure à LD par la valeur de (LD/2) proposé
par Hornung & Reed [1990] est une alternative fréquemment utilisée dans la littérature. Cependant,
elle ’est a epta le ue si le pou e tage de do es a ua tes est fai le ha ituelle e t
i f ieu e à % . Nous avo s p f l’e ploi d’u e thode d’i putatio , elle de l’esti atio du
maximum de vraisemblance (Maximum Likelihood Estimation) tel que proposé par Jin et coll. [2010]
et C ogha & Egegh . A pa ti de l’esti atio des pa a t es µ et σ selon la loi de distribution
de nos données, il est généré de façon aléatoire des valeurs. Les valeurs initiales en dessous de la LD
sont alors remplacées par les nouvelles valeurs issues de la loi de distribution.
Page | 139
6.2. Données manquantes
Les données manquantes (DM), fréquentes lors des enquêtes épidémiologiques constituent
un problème majeur dans les analyses (perte de puissance, variances estimées biaisées, estimations
iais es et … . Little & Rubin [1987] ont classé les DM en trois catégories: Missing completely at
random (MCAR), Missing at random (MAR) et Missing not at random (MNAR). Chaque classe se
t aduit pa u e h poth se e appo t à la p o a ilit u’u e do e soit a ua te te a t o pte
des valeurs observées et des valeurs manquantes. On parle de données de types MCAR lorsque la
probabilité de non-réponse est indépendante des valeurs manquantes et des autres variables
recueillies/observées. Les DM sont dites MAR lorsque la probabilité de non-réponse est fonction des
valeurs observées et non pas des valeurs manquantes. Enfin, on parle de données de types MNAR,
lorsque la probabilit d’u e o -réponse est liée aux valeurs manquantes et éventuellement aux
valeurs prises par les autres variables observées.
Différentes stratégies de gestion des DM peuvent être ainsi mise en place. Dans notre travail,
nous avons envisagé trois stratégies afin de palier à ce problème.
a) La méthode des sujets complets dit Complete-case Analysis qui consiste à ne faire porter
l’a al se ue su les sujets sa s DM.
b) La méthode de la variable indicatrice dite Indicator Method où la ou les DM sont remplacées
par une variable indicatrice [Jones ,1996].
La thode de l’i putatio ultiple p opos e pa ‘u i dite Multiple Imputation qui
est une procédure plus élaborée consistant à remplacer chaque valeur manquante par des
valeurs plausibles.
Page | 140
Imputation multiple
L’i putatio ultiple utilise la dist i utio des do es o se v es afi d’esti e u
ensemble de valeurs plausibles pour les DM. Les multiples ensembles de données imputées sont
e suite a al s s à l’aide des p o du es sta da ds et les sultats p oduits sont par la suite combinés
pool s afi de p odui e u e esti atio fi ale. L’h poth se statisti ue ajeu e da s l’utilisatio de
l’i putatio ultiple est ue les do es doive t suiv e u e st u tu e al atoi e.
Nous e d taille o s i i ue la thode d’imputation que nous avons utilisée dans cette
thèse, celle décrite par Van Buuren et coll. [1999] sous le nom de Regression Switching ou Multiple
Imputations by Chained Equations (MICE). Cette méthode se base sur un algorithme de Monte-Carlo
Markov Chain (MCMC) et fait une hypothèse sur la distribution des variables incomplètes
o ditio elle e t aux aut es va ia les du od le d’i putatio .
Soit un jeu de données défini par ou est un vecteur de variables
complètement observées et ( ) un vecteur de variables incomplètes. Pour chaque
variable une imputation initiale est réalisée pour chaque valeur manquante par tirage au sort dans
la distribution marginale de (loi Normale pour les variables continues et Multinomiale pour les
variables catégorielles). Par la suite les estimateurs des vecteurs de paramètres caractérisant les
lois de distributions conditionnelles sont obtenus pour chaque variable observée par la régression
(linéaire pour les variables continues, logistique pour les variables binaires et polytomique pour les
variables à plus de 2 classes) de su l’e se le des aut es va ia les .
On a : la première variable comportant des don es a ua tes, l’i putatio des valeu s
manquantes suit les étapes suivantes :
- Estimation du vecteur des paramètres par régression définissant la distribution
où est observée.
- Ti age d’u ve teu de pa a t es par tirage au sort dans la loi asymptomatique de
Page | 141
- Imputation des valeurs manquantes de par tirage au sort dans la loi de distribution
conditionnellement au vecteur des paramètres précédents et aux valeurs des variables
utilis es da s le od le d’i putation . Les nouvelles valeurs de seront
notées .
Les trois étapes précédemment citées sont réalisées pour la seconde variable avec des
données manquantes (notée ais l’esti atio du ve teu des oeffi ie ts par régression
prend en compte non plus mais les valeurs . La loi de dist i utio s’ iva t :
.
Ce processus est répété pour toutes les autres variables présentant des DM. Quand
l’e se le des va ia les est i put , o pa le de cle ou itération. Le nombre de cycles nécessaire
afi d’o te i des sultats suffisa e t sta les est o p is e t e et selo la taille du jeu de
données. Dans le cadre de cette thèse, nous avons fixés 20 cycles par imputation avec un nombre
d’i putations de 5. Les inférences statistiques ont été par la suite réalisées selon les règles établies
par Rubin [1987].
Dans le document
Polluants Organochlorés et Risque de Survenue du Cancer de la Prostate. Interactions Gène-Environnement
(Page 139-142)