• Aucun résultat trouvé

D. Analyses statistiques

6. Gestion des données absentes

Les do es dites a se tes lo s d’ tudes pidémiologiques constituent un problème

i po ta t. La p e i e o s ue e est u iais de l’esti atio des asso iatio s. Au ou s de e

travail, nous avons identifié deux catégories de données absentes : les données analytiques en

dessous de la LD et les do es a ua tes. Deux st at gies d’i putatio o t t o sid es :

6.1. Données analytiques en dessous de la limite de détection

La méthode qui consiste à remplacer la valeur inférieure à LD par la valeur de (LD/2) proposé

par Hornung & Reed [1990] est une alternative fréquemment utilisée dans la littérature. Cependant,

elle ’est a epta le ue si le pou e tage de do es a ua tes est fai le ha ituelle e t

i f ieu e à % . Nous avo s p f l’e ploi d’u e thode d’i putatio , elle de l’esti atio du

maximum de vraisemblance (Maximum Likelihood Estimation) tel que proposé par Jin et coll. [2010]

et C ogha & Egegh . A pa ti de l’esti atio des pa a t es µ et σ selon la loi de distribution

de nos données, il est généré de façon aléatoire des valeurs. Les valeurs initiales en dessous de la LD

sont alors remplacées par les nouvelles valeurs issues de la loi de distribution.

Page | 139

6.2. Données manquantes

Les données manquantes (DM), fréquentes lors des enquêtes épidémiologiques constituent

un problème majeur dans les analyses (perte de puissance, variances estimées biaisées, estimations

iais es et … . Little & Rubin [1987] ont classé les DM en trois catégories: Missing completely at

random (MCAR), Missing at random (MAR) et Missing not at random (MNAR). Chaque classe se

t aduit pa u e h poth se e appo t à la p o a ilit u’u e do e soit a ua te te a t o pte

des valeurs observées et des valeurs manquantes. On parle de données de types MCAR lorsque la

probabilité de non-réponse est indépendante des valeurs manquantes et des autres variables

recueillies/observées. Les DM sont dites MAR lorsque la probabilité de non-réponse est fonction des

valeurs observées et non pas des valeurs manquantes. Enfin, on parle de données de types MNAR,

lorsque la probabilit d’u e o -réponse est liée aux valeurs manquantes et éventuellement aux

valeurs prises par les autres variables observées.

Différentes stratégies de gestion des DM peuvent être ainsi mise en place. Dans notre travail,

nous avons envisagé trois stratégies afin de palier à ce problème.

a) La méthode des sujets complets dit Complete-case Analysis qui consiste à ne faire porter

l’a al se ue su les sujets sa s DM.

b) La méthode de la variable indicatrice dite Indicator Method où la ou les DM sont remplacées

par une variable indicatrice [Jones ,1996].

La thode de l’i putatio ultiple p opos e pa ‘u i dite Multiple Imputation qui

est une procédure plus élaborée consistant à remplacer chaque valeur manquante par des

valeurs plausibles.

Page | 140

 Imputation multiple

L’i putatio ultiple utilise la dist i utio des do es o se v es afi d’esti e u

ensemble de valeurs plausibles pour les DM. Les multiples ensembles de données imputées sont

e suite a al s s à l’aide des p o du es sta da ds et les sultats p oduits sont par la suite combinés

pool s afi de p odui e u e esti atio fi ale. L’h poth se statisti ue ajeu e da s l’utilisatio de

l’i putatio ultiple est ue les do es doive t suiv e u e st u tu e al atoi e.

Nous e d taille o s i i ue la thode d’imputation que nous avons utilisée dans cette

thèse, celle décrite par Van Buuren et coll. [1999] sous le nom de Regression Switching ou Multiple

Imputations by Chained Equations (MICE). Cette méthode se base sur un algorithme de Monte-Carlo

Markov Chain (MCMC) et fait une hypothèse sur la distribution des variables incomplètes

o ditio elle e t aux aut es va ia les du od le d’i putatio .

Soit un jeu de données défini par ou est un vecteur de variables

complètement observées et ( ) un vecteur de variables incomplètes. Pour chaque

variable une imputation initiale est réalisée pour chaque valeur manquante par tirage au sort dans

la distribution marginale de (loi Normale pour les variables continues et Multinomiale pour les

variables catégorielles). Par la suite les estimateurs des vecteurs de paramètres caractérisant les

lois de distributions conditionnelles sont obtenus pour chaque variable observée par la régression

(linéaire pour les variables continues, logistique pour les variables binaires et polytomique pour les

variables à plus de 2 classes) de su l’e se le des aut es va ia les .

On a : la première variable comportant des don es a ua tes, l’i putatio des valeu s

manquantes suit les étapes suivantes :

- Estimation du vecteur des paramètres par régression définissant la distribution

où est observée.

- Ti age d’u ve teu de pa a t es par tirage au sort dans la loi asymptomatique de

Page | 141

- Imputation des valeurs manquantes de par tirage au sort dans la loi de distribution

conditionnellement au vecteur des paramètres précédents et aux valeurs des variables

utilis es da s le od le d’i putation . Les nouvelles valeurs de seront

notées .

Les trois étapes précédemment citées sont réalisées pour la seconde variable avec des

données manquantes (notée ais l’esti atio du ve teu des oeffi ie ts par régression

prend en compte non plus mais les valeurs . La loi de dist i utio s’ iva t :

.

Ce processus est répété pour toutes les autres variables présentant des DM. Quand

l’e se le des va ia les est i put , o pa le de cle ou itération. Le nombre de cycles nécessaire

afi d’o te i des sultats suffisa e t sta les est o p is e t e et selo la taille du jeu de

données. Dans le cadre de cette thèse, nous avons fixés 20 cycles par imputation avec un nombre

d’i putations de 5. Les inférences statistiques ont été par la suite réalisées selon les règles établies

par Rubin [1987].

Documents relatifs