• Aucun résultat trouvé

Imputation multiple pour données multi-niveaux

N/A
N/A
Protected

Academic year: 2022

Partager "Imputation multiple pour données multi-niveaux"

Copied!
10
0
0

Texte intégral

(1)

Vincent Audigier

Conservatoire National des Arts et Métiers 23 Octobre 2017

(2)

IM pour données multi-niveaux

Méta-analyse sur données individuelles : facteurs de risques associés à l’insuffisance cardiaque aigüe (GREAT Network)

28 cohortesobservationnelles, 11685 patients, 2 variables binaireset 8 quantitatives (caractéristiques du patient et facteurs de risque potentiels)

données sporadiquement et systématiquementmanquantes

X1,X2,X3, ... Xp,Y(LVEF)

gender bmi age SBP DBP HR bnpl AFib LVEF

Index

Objectif : expliquer le lien entre des biomarqueurs (BNP, AFIB,...) et la fraction d’éjection (LVEF)

yik =xikβ+zikbkik bk ∼ N(0,Ψ) εik ∼ N 0, σ2 βˆ et une variance associéevarc

βb

(3)

1 Fournir un jeu de M paramètres pour unmodèle d’imputation de façon à créer M jeux de données plausibles

( ˆFuˆ)ij ( ˆFuˆ)1ij+ε1ij ( ˆFuˆ)2ij+ε2ij ( ˆFˆu)3ij+ε3ij ( ˆFuˆ)Bij+εBij

2 Ajuster le modèle sur chaque tableau imputé : βˆm,Vard βˆm

3 Agréger les estimations : βˆ= M1 PM m=1βˆm T = M1 PM

m=1Vard βˆm

+ 1+M1 1

M−1

PM m=1

βˆm−βˆ2

⇒ Permet d’obtenir une estimation des paramètres du modèle d’analyse et une variance associée

(4)

IM pour données multi-niveaux

Deux grandes familles de méthodes

imputation conditionnelle (FCS, MICE) : un modèle d’imputation conditionnel pour chaque variable

imputation par modèle joint (JM) : un modèle d’imputation joint pour toutes les variables

Challenges

prendre en compte l’hétérogénéitéentre les cohortes

ajuster avec donnéessporadiquementetsystématiquement manquantes

appliquer sur des variablesbinairescomme continues

(5)

Methode (forme - nom)

Gère les données manquantes: Codée en R Spor. ? Syst. ? continues ? binaires ?

JM-pan oui oui oui non oui

JM-REALCOM oui oui oui oui non

JM-jomo oui oui oui oui oui

JM-Mplus oui oui oui oui non

JM-RCME oui oui oui non non

FCS-pan oui oui oui non oui

FCS-2lnorm oui non oui non oui

FCS-GLM oui oui oui oui oui

FCS-2stage oui oui oui oui oui

(6)

Différences entre les méthodes

Modèle d’imputation utilisé

yik = xikβ+zikbk+εik

bk N(0,Ψ) εik N(0, σk) Différences

A priori heteroscedasticité fonction de lien pour variables binaire

JM-jomo conjugué oui probit

FCS-GLM Jeffrey non logit

FCS-2stage oui logit

(7)

Génération des données: 500 jeux incomplets sont simulés

(n=11685,K=28,18nk1834)

yik =β0+β1x(1)ik +β2x(2)ik +b0k+b1kx(1)ik +εik avecβ = (.72,−.11, .03),Ψ =h

.0077 .0015

.0015 .0004

i,σ=.15

k, νk, ξk)∼ N

0,

.12 .001 .001

.001 .12 .001

.001 .001 .12

x(1)ik : N(2.9+µk, .36)

x(2)ik :logit P

x(2)ik =1

=4.2+νk

x(3)ik : N(2.9+ξk, .36)

ajout de données manquantes surx(1),x(2) avecπsyst=.25 et πspor =.25

Quantité d’intérêt: βandvar βb

Critère: biais, rmse, estimation variance, taux de couverture

(8)

Influence de la taille des clusters

−20−15−10−50

β(1)

nk

Relative bias (%)

JM−jomo FCS−GLM FCS−2stage

15 50 100 200 400

−20−15−10−50

β(2)

nk

Relative bias (%)

JM−jomo FCS−GLM FCS−2stage

15 50 100 200 400

(9)

manquantes

0.00450.00550.00650.0075

0.10 0.25 0.40

πsyst

0.375 0.25 0.0625

πspor

model se JM−jomo model se FCS−GLM model se FCS−2stage

0.0050.0060.0070.008

0.10 0.25 0.40

πsyst

0.375 0.25 0.0625

πspor

model se JM−jomo model se FCS−GLM model se FCS−2stage

(10)

Conclusion

Conseils pratiques

utiliser des méthodes adaptées gérant les données systématiquement manquantes

FCS-2stage fournit généralement de bon résultats et rapidement. Particulièrement pertinente avec une large proportion de données systématiquement manquantes, mais doit être évitée avec de petits clusters.

JM-jomo est recommandée pour de large clusters quand la proportion de variables binaire est importante

FCS-GLM est recommandé pour de petit clusters uniquement

Références

Documents relatifs

D’autres méthodes d’imputa- tion simple sont également disponibles, comme l’imputation par le plus proche voisin qui remplace les données manquantes par des valeurs

Par: Mélodie Achodian et Mégane Fatal.. 28) Tu désires développer une application «jeu» pour les téléphones intelligents qui fait appel au raisonnement logique des

La m´ ethode propos´ ee a ´ et´ e compar´ ee ` a l’imputation multiple par le “general location model” (Schafer, 1997), m´ ethode de r´ ef´ erence, mais rapidement limit´ ee

Enfin, dans la section 4, nous pr´ esentons quelques r´ esultats pr´ eliminaires montrant l’influence des individus utilis´ es pour l’inf´ erence sur le r´ eseau lui- mˆ eme et

Le package missMDA (Husson and Josse, 2010) permet de g´erer les donn´ees manquantes dans les m´ethodes d’analyse factorielle.. Il s’agit d’abord d’imputer les donn´ees

Les Fig.8 et Fig.9 montrent les résultats d’interpolation : la méthode dynamique utilise seulement des données hautes résolutions SST (METOP) ou les images CHL, ou uti-

Dans un contexte d’´ etude transversale, Shen et Wang (2013) proposent la m´ ethode du MI-LASSO pour int´ egrer les imputations dans la s´ election de variables. L’id´ ee

En présence de données manquantes, et dans le cadre de la classification hiérarchique de variables on étudie deux méthodes utilisant les matrices obtenues après imputation