Vincent Audigier
Conservatoire National des Arts et Métiers 23 Octobre 2017
IM pour données multi-niveaux
• Méta-analyse sur données individuelles : facteurs de risques associés à l’insuffisance cardiaque aigüe (GREAT Network)
• 28 cohortesobservationnelles, 11685 patients, 2 variables binaireset 8 quantitatives (caractéristiques du patient et facteurs de risque potentiels)
• données sporadiquement et systématiquementmanquantes
X1,X2,X3, ... Xp,Y(LVEF)
gender bmi age SBP DBP HR bnpl AFib LVEF
Index
Objectif : expliquer le lien entre des biomarqueurs (BNP, AFIB,...) et la fraction d’éjection (LVEF)
yik =xikβ+zikbk+εik bk ∼ N(0,Ψ) εik ∼ N 0, σ2 βˆ et une variance associéevarc
βb
1 Fournir un jeu de M paramètres pour unmodèle d’imputation de façon à créer M jeux de données plausibles
( ˆFuˆ′)ij ( ˆFuˆ′)1ij+ε1ij ( ˆFuˆ′)2ij+ε2ij ( ˆFˆu′)3ij+ε3ij ( ˆFuˆ′)Bij+εBij
2 Ajuster le modèle sur chaque tableau imputé : βˆm,Vard βˆm
3 Agréger les estimations : βˆ= M1 PM m=1βˆm T = M1 PM
m=1Vard βˆm
+ 1+M1 1
M−1
PM m=1
βˆm−βˆ2
⇒ Permet d’obtenir une estimation des paramètres du modèle d’analyse et une variance associée
IM pour données multi-niveaux
Deux grandes familles de méthodes
• imputation conditionnelle (FCS, MICE) : un modèle d’imputation conditionnel pour chaque variable
• imputation par modèle joint (JM) : un modèle d’imputation joint pour toutes les variables
Challenges
• prendre en compte l’hétérogénéitéentre les cohortes
• ajuster avec donnéessporadiquementetsystématiquement manquantes
• appliquer sur des variablesbinairescomme continues
Methode (forme - nom)
Gère les données manquantes: Codée en R Spor. ? Syst. ? continues ? binaires ?
JM-pan oui oui oui non oui
JM-REALCOM oui oui oui oui non
JM-jomo oui oui oui oui oui
JM-Mplus oui oui oui oui non
JM-RCME oui oui oui non non
FCS-pan oui oui oui non oui
FCS-2lnorm oui non oui non oui
FCS-GLM oui oui oui oui oui
FCS-2stage oui oui oui oui oui
Différences entre les méthodes
Modèle d’imputation utilisé
yik = xikβ+zikbk+εik
bk ∼ N(0,Ψ) εik ∼ N(0, σk) Différences
A priori heteroscedasticité fonction de lien pour variables binaire
JM-jomo conjugué oui probit
FCS-GLM Jeffrey non logit
FCS-2stage oui logit
• Génération des données: 500 jeux incomplets sont simulés
(n=11685,K=28,18≤nk≤1834)
• yik =β0+β1x(1)ik +β2x(2)ik +b0k+b1kx(1)ik +εik avecβ = (.72,−.11, .03),Ψ =h
.0077 .0015
.0015 .0004
i,σ=.15
• (µk, νk, ξk)∼ N
0,
.12 .001 .001
.001 .12 .001
.001 .001 .12
• x(1)ik : N(2.9+µk, .36)
• x(2)ik :logit P
x(2)ik =1
=4.2+νk
• x(3)ik : N(2.9+ξk, .36)
• ajout de données manquantes surx(1),x(2) avecπsyst=.25 et πspor =.25
• Quantité d’intérêt: βandvar βb
• Critère: biais, rmse, estimation variance, taux de couverture
Influence de la taille des clusters
● ●
●
●
●
●
−20−15−10−50
β(1)
nk
Relative bias (%)
● JM−jomo FCS−GLM FCS−2stage
15 50 100 200 400
●
●
●
●
●
●
−20−15−10−50
β(2)
nk
Relative bias (%)
● JM−jomo FCS−GLM FCS−2stage
15 50 100 200 400
manquantes
●
●
●
0.00450.00550.00650.0075
0.10 0.25 0.40
πsyst
0.375 0.25 0.0625
πspor
● ●
●
● model se JM−jomo model se FCS−GLM model se FCS−2stage
●
●
●
0.0050.0060.0070.008
0.10 0.25 0.40
πsyst
0.375 0.25 0.0625
πspor
●
●
●
● model se JM−jomo model se FCS−GLM model se FCS−2stage
Conclusion
Conseils pratiques
• utiliser des méthodes adaptées gérant les données systématiquement manquantes
• FCS-2stage fournit généralement de bon résultats et rapidement. Particulièrement pertinente avec une large proportion de données systématiquement manquantes, mais doit être évitée avec de petits clusters.
• JM-jomo est recommandée pour de large clusters quand la proportion de variables binaire est importante
• FCS-GLM est recommandé pour de petit clusters uniquement