Mod` eles de Markov Latents et Mod` eles de M´ elange Finis pour l’Estimation sur Petits
Domaines
M. Giovanna Ranalli1
1Universit´e de P´erouse – ITALIE
9e Colloque francophone sur le sondages A l’Universit´` e du Qu´ebec en Outaouais Gatineau|Queb´ec|Canada, 11 – 14 Octobre, 2016
M.G. Ranalli – Universit´e de P´erouse (Italie)
Motivation
Motivation – Enquˆ ete Emploi Italienne (LFS) (1)
L’Enquˆete Emploi (Labor Force Survey, LFS) est une enquˆete trimestrielle `a deux degr´es – commune/m´enage.
Pour chaque ´echantillon trimestriel environ 1350 communes et 100,000 individus sont concern´es.
Depuis 2000, ISTAT produit des estimations annuelles issues de LFS de nombres/taux d’actifs et d’inactifs relatifs aux Local Labour Market Areas (LLMAs).
Les LLMAs sont des domaines non plannifi´es obtenus `a partir de grappes de communes intersect´ees avec des provinces (LAU1) qui constituent les domaines plannifi´es de LFS les plus fins.
M.G. Ranalli – Universit´e de P´erouse (Italie)
Motivation
Motivation – Enquˆ ete Emploi Italienne (LFS) (1)
Taux de chˆomage. Estimateurs directs (%). 2004.1 et 2014.4
< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48
> 5.48
NA
< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48
> 5.48
NA
M.G. Ranalli – Universit´e de P´erouse (Italie)
Motivation
Motivation – Enquˆ ete Emploi Italienne (LFS) (2)
Depuis 2004, apr`es la refonte de la strat´egie d’´echantillonnage de LFS, on utilise un estimateur EBLUP au niveau unit´e avec des effets al´eatoires par domaines autocorr´el´es spatialement.
En 2011, avec le dernier Recensement, les LLMAs ont ´et´e red´efinis en termes de flux de d´eplacement quotidiens li´es au travail
Occasion de repenser la strat´egie d’estimation sur petits domaines Evaluation des m´ethodologies existantes
⇒ Test de nouvelles m´ethodologies
M.G. Ranalli – Universit´e de P´erouse (Italie)
Motivation
Aper¸cu de la pr´ esentation
Les mod`eles d’estimation sur petits domaines utilisent des effets al´eatoires pour mod´eliser l’h´et´erog´en´eit´e non captur´ee par les covariables
Ces effets al´eatoires sont suppos´es avoir une distribution CONTINUE (en g´en´eral Normale)
Nous voulons examiner l’utilisation de distributions DISCR`ETES
⇒ pour prendre en compte la non-normalit´e
⇒ pour obtenir une classification des petits domaines
⇒ pour r´eduire le volume de calcul dans certains cas
M.G. Ranalli – Universit´e de P´erouse (Italie)
Motivation
Deux diff´ erents cadres
SAE avec S´eries Temporelles pour les taux de chˆomages
Apporte de la force dans le temps
Mod`ele au niveau domaine Approche Bayes
hi´erarchique R´eponse Normale Introduit les Mod`eles de Markov Latents en SAE Enquˆete LFS: donn´ees trimestrielles 2004-2014
Meilleure Pr´ediction Empirique SAE avec donn´ees binaires
Transversal
Mod`ele au niveau unit´e Approche par Maximum de vraisemblance R´eponse binaire Introduit des M´elanges Finis en SAE
Enquˆete LFS: 4`eme trimestre 2011 (A FAIRE)
M.G. Ranalli – Universit´e de P´erouse (Italie)
Motivation
Collaborateurs et remerciements
Je ne pourrais pas tout faire moi-mˆeme!
F. Bartolucci, G. Bertarelli, M.F. Marino (Universit´e de P´erouse)
N. Salvati (Universit´e de Pise)
M. D’Al´o, F. Solari (ISTAT, Institut National de Statistique) M. Alf´o (Universit´e Sapienza, Rome)
Projet PRIN-SURWEY
SUrvey Research on households WEalth and Youth unemployment http://www.sp.unipg.it/surwey/
M.G. Ranalli – Universit´e de P´erouse (Italie)
Motivation
Plan
1 Introduction
2 Mod`eles de Markov Latents pour SAE Aper¸cu et sp´ecification du mod`ele Estimation du mod`ele
Application aux donn´ees LFS
3 M´elanges Finis pour SAE
Aper¸cu et sp´ecification du mod`ele
Une approche par le Maximum de Vraisemblance Non Param´etrique
Etude par simulations
4 Conclusions et d´eveloppements futurs
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu et sp´ecification du mod`ele
Notation
Mod`ele [Rao et Yu, 1994]
Mod`ele d’´echantillonnage θˆit=θit+eit
Mod`ele de lien θit=xTitβ+vi+αit
i= 1, . . . , m, t= 1, . . . , T.
θˆit → estimateur direct pour le petit domaine iau tempst;
θit=g( ¯Yit) → fonction de la moyenne sur le petit domaine.
eit|θit sont des erreurs d’´echantillonnage normalement distribu´ees, de moyenne z´ero, de matrice de
variance-covariance connue Ψ=blockdiag{Ψi}
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu et sp´ecification du mod`ele
Notation
Mod`ele [Rao et Yu, 1994]
Mod`ele d’´echantillonnage θˆit=θit+eit
Mod`ele de lien θit=xTitβ+vi+αit i= 1, . . . , m, t= 1, . . . , T.
xit covariables sp´ecifiques du domaines (pouvant varier avec le temps) + effets saisonniers pour des s´eries temporelles longues vi ∼N(0, σv2) →effet domaine
αit=ραi,t−1+it,|ρ|<1,it∼N(0, σ2) → effet domaine-par-temps
Les eit,vi etit sont ind´ependants entre eux
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu et sp´ecification du mod`ele
Autres approches
Mod`ele AR(1) pourαit →Mod`eles ARMA plus g´en´eraux [Datta et al., 1999], [Datta et al., 2002],
[You, Rao, Gambino, 2003] utilisent un mod`ele de marche al´eatoire
αit=αi,t−1+it, i.e. avecρ= 1
Mod`eles Dynamiques/d’espace d’´etat pour des coefficients variant dans le tempsβit[Pfefferman et Burck, 1990] ou pour les erreurs sur les domaines [Ghosh et al., 1996].
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu et sp´ecification du mod`ele
Aper¸cu des Mod` eles de Markov Latents (LMM) (1)
Voir le livre de [Bartolucci, Farcomeni, Pennoni, 2013]
Les LMMs sont une famille particuli`ere de mod`eles pour les donn´ees longitudinales
Les LMMs supposent l’existence d’un processus latent qui affecte la distribution des variables de r´eponse
Le processus latent est suppos´e g´en´er´e selon une chaˆıne de Markov avec un certain nombre d’´etats (´etats latents) Les LMMs generalisent les Classes Latentes (dynamiques) [Fabrizi et al., 2016]
Les LMMs ´etendent les mod`eles de Chaˆınes de Markov (erreur de mesure)
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu et sp´ecification du mod`ele
Aper¸cu des Mod` eles de Markov Latents (LMM) (2)
Mod`ele de mesure: distribution de la variable de r´eponse sachant le processus latent
Mod`ele Latent: distribution du processus latent
Les covariables peuvent intervenir dans le mod`ele de mesure ou dans le mod`ele latent.
H´et´erog´en´eit´e non observ´ee
Elle est prise en compte par des variables latentesdiscr`etes(vs.
continues)
Elle est mod´elis´ee de fa¸condynamique(chaque domaine peut se d´eplacer entre plusieurs ´etats latents au cours du temps)
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu et sp´ecification du mod`ele
Aper¸cu des Mod` eles de Markov Latents (LMM) (2)
Mod`ele de mesure: distribution de la variable de r´eponse sachant le processus latent
Mod`ele Latent: distribution du processus latent
Les covariables peuvent intervenir dans le mod`ele de mesure ou dans le mod`ele latent.
H´et´erog´en´eit´e non observ´ee
Elle est prise en compte par des variables latentesdiscr`etes(vs.
continues)
Elle est mod´elis´ee de fa¸condynamique(chaque domaine peut se d´eplacer entre plusieurs ´etats latents au cours du temps)
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu et sp´ecification du mod`ele
LMMs Sp´ ecification pour SAE
MOD`ELE d’´ECHANTILLONNAGE: θbi|θi ∼NT(θi,Ψi) MOD`ELE DE LIEN: Mod`ele de mesure
Mod`ele Latent
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu et sp´ecification du mod`ele
Mod` ele de Lien
Mod`ele de mesure
θit|Uit=u,xit∼N(xTitβu(it), σu(it)2 ) Uit ∈ {1, . . . , k}´etat latent, km
u(it) est l’´etat latent du domaineiau tempst, i= 1, . . . , m, t= 1, . . . , T.
Mod`ele Latent
Probabilit´es Initiales P(Ui1=u) =π(u) t= 1; u= 1, . . . , k
Probabilit´es de Transition P(Uit=u|Ui,t−1 = ¯u) =π(u|¯u) t= 2, . . . , T; u,u¯= 1, . . . , k.
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu et sp´ecification du mod`ele
Mod` ele de Lien
Mod`ele de mesure
θit|Uit=u,xit∼N(xTitβu(it), σu(it)2 ) Uit ∈ {1, . . . , k}´etat latent, km
u(it) est l’´etat latent du domaineiau tempst, i= 1, . . . , m, t= 1, . . . , T.
Mod`ele Latent
Probabilit´es Initiales P(Ui1=u) =π(u) t= 1; u= 1, . . . , k
Probabilit´es de Transition P(Uit=u|Ui,t−1 = ¯u) =π(u|¯u) t= 2, . . . , T; u,u¯= 1, . . . , k.
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu et sp´ecification du mod`ele
Une comparison avec [Datta et al., 1999] et [You, Rao, Gambino, 2003]
Mod`eles de Lien
You-Rao-Gambino: θit=xTitβ+αit+vi
Datta et al.: θit=xTitβi+αit+vi
LMMs: θit=xTitβu(it)
u(it) est l’´etat latent du domaineiau tempst,u= 1, . . . , k.
Noter quekm.
M.G. Ranalli – Universit´e de P´erouse (Italie)
Estimation du mod`ele
Estimation – approche HB
Param`etres du mod`ele → λ= (β1, . . . ,βk, σ21, . . . , σk2,π,Π) Param`etres d’int´erˆet sur petits domaines →
µ= (θ1, . . . ,θm)T
Echantillonneur de Gibbs avec Augmentation de Donn´ees [Tanner et Wong, 1987, Van Dyk et Meng, 2001]
M.G. Ranalli – Universit´e de P´erouse (Italie)
Estimation du mod`ele
Gibbs Conditionnel
[. . .]∼[. . .]
[θit|U,π,Π,β,σ2,θ]b ∼N(ˆθitB(U,β,σ2), γitψit) θˆBit(U,β,σ2) =γitθˆit+ (1−γit)xTitβu(it)
γit=σ2u(it)/(σu(it)2 +ψit)
En dehors des domaines de l’´echantillon
[ˆθit|U,π,Π,β,σ2,θ]∼N(ˆθDit(U,β,σ2), γit∗ψit) θˆDit(U,β,σ2) =γit∗θˆi,t−1+ (1−γit∗)xTitβu(i,t−1) γit∗ =σ2u(i,t−1)/(σu(i,t−1)2 +ψit)
M.G. Ranalli – Universit´e de P´erouse (Italie)
Estimation du mod`ele
Gibbs Conditionnel
[. . .]∼[. . .]
[θit|U,π,Π,β,σ2,θ]b ∼N(ˆθitB(U,β,σ2), γitψit) θˆBit(U,β,σ2) =γitθˆit+ (1−γit)xTitβu(it)
γit=σ2u(it)/(σu(it)2 +ψit)
En dehors des domaines de l’´echantillon
[ˆθit|U,π,Π,β,σ2,θ]∼N(ˆθDit(U,β,σ2), γit∗ψit) θˆDit(U,β,σ2) =γit∗θˆi,t−1+ (1−γit∗)xTitβu(i,t−1) γit∗ =σ2u(i,t−1)/(σu(i,t−1)2 +ψit)
M.G. Ranalli – Universit´e de P´erouse (Italie)
Application aux donn´ees LFS
Donn´ ees LFS
Estimateurs directs des taux de chˆomage sur les petits domaines
m= 611LLMAs (Local Labour Market Areas) T = 44donn´ees trimestrielles de 2004 `a 2014 en tout611×44 = 26884points dans l’´echantillon
M.G. Ranalli – Universit´e de P´erouse (Italie)
Application aux donn´ees LFS
S´ eries temporelles – Regions 4 (Nord) et 17 (Sud)
0.000.020.040.060.080.100.120.14
time
unemployment
1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42
0.000.050.100.150.200.250.300.35
time
unemployment
1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42
M.G. Ranalli – Universit´e de P´erouse (Italie)
Application aux donn´ees LFS
Estimateurs directs – % CVs
0 200 400 600
0 10 20 30 40
Time
LLMAs
CV
<16.6 16.6−33.3 33.3 +
M.G. Ranalli – Universit´e de P´erouse (Italie)
Application aux donn´ees LFS
Comparaison des Estimateurs
Information auxiliaire
population par sexe ×7 classes d’^age occupation culturelle (4 cat´egories) sp´ecialisation dominante (5 cat´egories)
ann´ee et effet du trimestre (variables muettes) DIR Estimateur Direct
FH Estimateur Fay-Harriot – transversal YRG Estimateur You-Rao-Gambino –ρ= 1
Datta Datta et al. – trop de domaines et de donn´ees LMM Estimateur bas´e sur le Mod`ele de Markov Latent
30,000 chanes MCMC 15,000 burn-in
M.G. Ranalli – Universit´e de P´erouse (Italie)
Application aux donn´ees LFS
Comparaison des Estimateurs
Information auxiliaire
population par sexe ×7 classes d’^age occupation culturelle (4 cat´egories) sp´ecialisation dominante (5 cat´egories)
ann´ee et effet du trimestre (variables muettes) DIR Estimateur Direct
FH Estimateur Fay-Harriot – transversal YRG Estimateur You-Rao-Gambino –ρ= 1
Datta Datta et al. – trop de domaines et de donn´ees LMM Estimateur bas´e sur le Mod`ele de Markov Latent
30,000 chanes MCMC 15,000 burn-in
M.G. Ranalli – Universit´e de P´erouse (Italie)
Application aux donn´ees LFS
Distribution sur les 4 ´ etats latents
0 200 400 600
0 10 20 30 40
Time
LLMAs
state 1 2 3 4
M.G. Ranalli – Universit´e de P´erouse (Italie)
Application aux donn´ees LFS
Comparaison de CV
0 200 400 600
0 10 20 30 40
Time
LLMAs
CV<16.6 16.6−33.3 33.3 + DIR
0 200 400 600
0 10 20 30 40
Time
LLMAs
FH
0 200 400 600
0 10 20 30 40
Time
LLMAs
YRG
0 200 400 600
0 10 20 30 40
Time
LLMAs
cv
<16.6 16.6−33.3 33.3 +
LMM
M.G. Ranalli – Universit´e de P´erouse (Italie)
Application aux donn´ees LFS
Estimations 2004.1
DIR FH
YRG
< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48
> 5.48
NA
< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48
> 5.48
LMM
< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48
> 5.48
< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48
> 5.48
M.G. Ranalli – Universit´e de P´erouse (Italie)
Application aux donn´ees LFS
Estimations 2014.4
DIR FH
YRG
< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48
> 5.48
NA
< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48
> 5.48
LMM
< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48
> 5.48
< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48
> 5.48
M.G. Ranalli – Universit´e de P´erouse (Italie)
Application aux donn´ees LFS
Comparaison avec les valeurs du Recensement 2011
Erreur Relative Absolue (ARE) des estimations de 2011 4
ARE=|θˆi−Censi|/Censi
Table:LLMAs observ´ees
DIR LMM YRG FH
Min. 0.001 0.000 0.000 0.000 1st Qu. 0.157 0.172 0.159 0.202 Median 0.338 0.304 0.362 0.432 Mean 0.399 0.336 0.494 0.625 3rd Qu. 0.541 0.485 0.669 0.759 Max. 2.874 1.103 4.386 10.745
Table:LLMAs non observ´ees
LMM YRG FH
0.000 0.005 0.000 0.372 0.147 0.283 0.470 0.343 0.559 0.517 0.550 0.804 0.606 0.695 0.961 4.412 7.323 10.773
M.G. Ranalli – Universit´e de P´erouse (Italie)
Application aux donn´ees LFS
CDF empirique des ARE
Empirical CDF
0.0 0.2 0.4 0.6 0.8 1.0
0.5 1.0 1.5 2.0 2.5 3.0
LMMYRG FHDIR
(a) observed LLMAs
Empirical CDF
0.0 0.2 0.4 0.6 0.8 1.0
0.5 1.0 1.5 2.0 2.5 3.0
LMMYRG FH
(b) non observed LLMAs
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu
Plan
1 Introduction
2 Mod`eles de Markov Latents pour SAE Aper¸cu et sp´ecification du mod`ele Estimation du mod`ele
Application aux donn´ees LFS
3 M´elanges Finis pour SAE
Aper¸cu et sp´ecification du mod`ele
Une approche par le Maximum de Vraisemblance Non Param´etrique
Etude par simulations
4 Conclusions et d´eveloppements futurs
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu
Deux diff´ erents cadres
SAE avec S´eries Temporelles pour les taux de chˆomages
Apporte de la force dans le temps
Mod`ele au niveau domaine Approche Bayes
hi´erarchique R´eponse Normale Introduit les Mod`eles de Markov Latents en SAE Enquˆete LFS: donn´ees trimestrielles 2004-2014
Meilleure Pr´ediction Empirique SAE avec donn´ees binaires
Transversal
Mod`ele au niveau unit´e Approche par Maximum de vraisemblance R´eponse binaire Introduit des M´elanges Finis en SAE
Enquˆete LFS: 4`eme trimestre 2011 (A FAIRE)
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu
Notation mise ` a jour
Soit yij, une variable de r´eponsebinaire (=1 inactif; =0 sinon)pour l’unit´e j∈Ui dans le domaine i= 1, . . . , m Soitxij un vecteur de dimensionpdecovariables individuelles Nous nous int´eressons `a la pr´ediction de proportions sur les petits domaines
θi = 1 Ni
X
j∈Ui
yij
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu
Mod` ele et hypoth` eses
Soit αi uncoefficient al´eatoire sp´ecifique du domainedistribu´e selon une loi Gaussienne⇒αi∼N(0, σ2)
Conditionnellement `aαi, les r´eponses yij sont des variables al´eatoires de Bernoulli ind´ependantesavec une probabilit´e de succ`es
pij = Pr(yij = 1) = eαi+xTijβ 1 +eαi+xTijβ
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu
Les approches possibles
Approche na¨ıve ⇒ Prediction par substitution avec estimation PQL
θˆi =
1 Ni
X
j∈Ui
eαi+xTijβ 1 +eαi+xTijβ
(αi,β)=( ˆαi,β)ˆ
Approche EBP ⇒ empirical best prediction
[Jiang et Lahiri, 2001, Jiang, 1998] avec estimation par la m´ethode des moments
θˆi =
Z
1 Ni
X
j∈Ui
eαi+xTijβ 1 +eαi+xTijβ
fα(αi|yi)dαi
(αi,β)=( ˆαi,β)ˆ
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu
EBP par le Maximum de Vraisemblance
Lavraisemblance sur les donn´ees observ´eespour l’ensemble des param`etres du mod`ele Φest
L(Φ) =
m
Y
i=1
Z
fy|α(yi|αi)fα(αi)dαi (1)
avecfy|α(yi|αi) le produit dedensit´es de Bernoulli f(yij |αi) Pour obtenir les estimations, nous devons traiter desint´egrales en grande dimension qui n’ont pas de solution explicite On utilise typiquement des m´ethodes d’approximation pour maximiser L(Φ) et cela peut ˆetre d´elicat informatiquement
M.G. Ranalli – Universit´e de P´erouse (Italie)
Aper¸cu
Probl` eme avec l’EBP
Calculer l’EBP estlent informatiquement `a cause de la solution des int´egrales qui n’ont pas de forme explicite (pour la m´ethode des moments et le Maximum de Vraisemblance) L’estimation du MSE peut ˆetre prohibitif informatiquement, mˆeme avec un nombre limit´e de domaines
Quand on utilise l’EBP avec des mod`eles mixtes logistiques (distribution normale avec effets al´eatoires), leBootstrap est moins gourmand informatiquement que les estimations analytiques du MSE.
Dans le LFS nous avons ≈100,000observations pour chaque trimestre et m= 611→ infaisable
M.G. Ranalli – Universit´e de P´erouse (Italie)
Une approche par le Maximum de Vraisemblance Non Param´etrique
Une approche par le Maximum de Vraisemblance Non Param´ etrique [Aitkin, 1996]
Nous utilisons l’approche par leMaximum de Vraisemblance Non Param´etrique (NPML) pour estimer les param`etres du mod`ele, ce qui nous permet
de calculer l’EBP et l’approximation analytique de son MSE d’´eviter des hypoth`eses inv´erifiables surfα(αi)
de r´eduire consid´erablement le volume de calcul
M.G. Ranalli – Universit´e de P´erouse (Italie)
Une approche par le Maximum de Vraisemblance Non Param´etrique
Distribution non-param´ etrique pour les coefficients al´ eatoires
On laisse fα(·) non sp´ecifi´ee, et on l’estime `a partir des donn´ees
On l’approxime par une distribution discr`ete sur G < m positions {α1, . . . , αG}, avec des probabilit´es associ´ees d´efinies parπg = Pr(αi=αg),i= 1, . . . , m etg= 1, . . . , G.
αi ∼
G
X
g=1
πgδαg
o`u δθ est une distribution ponctuelle de masse unit´e surθ.
M.G. Ranalli – Universit´e de P´erouse (Italie)
Une approche par le Maximum de Vraisemblance Non Param´etrique
La vraisemblance
Pour estimer Φ={α1, . . . , αG, π1, . . . , πG,β}, nous maximisons
L(Φ) =
m
Y
i=1 G
X
g=1
fy|α(yi |αg)πg
L(Φ) ressemble `a lavraisemblance d’un m´elange fini
M.G. Ranalli – Universit´e de P´erouse (Italie)
Une approche par le Maximum de Vraisemblance Non Param´etrique
Estimation du mod` ele
Via l’algorithme EM [Dempster et al., 1977]
Le nombre de composantes du m´elange Gest trait´e comme connu, et estim´e `a l’aide de techniques de s´election de mod`ele (e.g. AIC)
Il est ´egalement possible d’estimer analytiquement la matrice de variance-covariance de Φˆ [Oakes, 1999]
M.G. Ranalli – Universit´e de P´erouse (Italie)
Une approche par le Maximum de Vraisemblance Non Param´etrique
(Empirical) Best Prediction
Le meilleur predicteur (BP)de θi est donn´e par
θ˜i=Eα(θi|yi) =
G
X
g=1
1 Ni
X
j∈Ui
eαg+xTijβ 1 +eαg+xTijβ
wig =
G
X
g=1
θi(g)wig
o`u wig est laprobabilit´e a posteriori que le petit domainei appartienne `a la composanteg du m´elange fini
Le meilleur pr´edicteur empirique (EBP-np)deθi est obtenu en rempla¸cant les vrais param`etres du mod`ele par leurs
estimateurs
θˆi=
G
X
g=1
1 Ni
X
j∈Ui
eαˆg+xTijβˆ 1 +eαˆg+xTijβˆ
wˆig =
G
X
g=1
θˆi(g) ˆwig
M.G. Ranalli – Universit´e de P´erouse (Italie)
Une approche par le Maximum de Vraisemblance Non Param´etrique
(Empirical) Best Prediction
Le meilleur predicteur (BP)de θi est donn´e par
θ˜i=Eα(θi|yi) =
G
X
g=1
1 Ni
X
j∈Ui
eαg+xTijβ 1 +eαg+xTijβ
wig =
G
X
g=1
θi(g)wig
o`u wig est laprobabilit´e a posteriori que le petit domainei appartienne `a la composanteg du m´elange fini
Le meilleur pr´edicteur empirique (EBP-np)deθi est obtenu en rempla¸cant les vrais param`etres du mod`ele par leurs
estimateurs
θˆi=
G
X
g=1
1 Ni
X
j∈Ui
eαˆg+xTijβˆ 1 +eαˆg+xTijβˆ
wˆig =
G
X
g=1
θˆi(g) ˆwig
M.G. Ranalli – Universit´e de P´erouse (Italie)
Une approche par le Maximum de Vraisemblance Non Param´etrique
Le MSE de EBP-np
Il est possible d’obtenir l’expression analytique du MSE et de l’estimer comme dans [Jiang et Lahiri, 2001] (non trait´e ici, tr`es technique!)
Quand on utilise l’EBP avec des mod`eles logistiques mixtes, le Bootstrap est moins gourmand informatiquement que les estimations analytiques du MSE.
Avec cette distribution discr`ete, le MSE analytique est beaucoup moins gourmand informatiquement que le
Bootstrap(particuli`erement quandm augmente)→ faisable
M.G. Ranalli – Universit´e de P´erouse (Italie)
Etude par simulations
Etude par simulations - bas´ ees sur un mod` ele
On simuleαi ∼N(0,0.25)(pire des sc´enarios pour NPML) yij ∼Bernoulli(pij) avec
logit(pij) =αi+xij et xij ∼Unif(−1, j/a) Cadre de [Gonz´alez-Manteiga et al., 2007].
Nous comparonsEBP-npavec EBP(Int´egration MC)
ApprocheNa¨ıve(pr´ediction par substitution)
Nous comparons l’estimateur analytique du MSE pour l’EBP-np avec
[Jiang et Lahiri, 2001] (Int´egration MC - pour l’EBP) [Gonz´alez-Manteiga et al., 2007] (Approximation lin´eaire - pour l’approche na¨ıve)
M.G. Ranalli – Universit´e de P´erouse (Italie)
Etude par simulations
Etude par simulations - bas´ ees sur un mod` ele
On simuleαi ∼N(0,0.25)(pire des sc´enarios pour NPML) yij ∼Bernoulli(pij) avec
logit(pij) =αi+xij et xij ∼Unif(−1, j/a) Cadre de [Gonz´alez-Manteiga et al., 2007].
Nous comparonsEBP-npavec EBP(Int´egration MC)
ApprocheNa¨ıve(pr´ediction par substitution)
Nous comparons l’estimateur analytique du MSE pour l’EBP-np avec
[Jiang et Lahiri, 2001] (Int´egration MC - pour l’EBP) [Gonz´alez-Manteiga et al., 2007] (Approximation lin´eaire - pour l’approche na¨ıve)
M.G. Ranalli – Universit´e de P´erouse (Italie)
Etude par simulations
Biais absolu de θ ˆ
im= 30, Ni= 100, ni= 10
0.00.10.20.30.4
EBP
0.00.10.20.30.4
Naive ●
0.00.10.20.30.4
EBP−np
m= 30, Ni= 1000, ni= 10
●
0.00.10.20.30.4
EBP
0.00.10.20.30.4
Naive
●
●
●
0.00.10.20.30.4
EBP−np
m= 100, Ni= 100, ni= 10
●
●
●
●
0.00.10.20.30.4
EBP ●
●
0.00.10.20.30.4
Naive ●
0.00.10.20.30.4
EBP−np
m= 200, Ni= 100, ni= 10
●
●●
●
●
●
●
●
0.00.10.20.30.4
EBP
0.00.10.20.30.4
Naive ●
●
●
●
0.00.10.20.30.4
EBP−np
M.G. Ranalli – Universit´e de P´erouse (Italie)
Etude par simulations
RMSE de θ ˆ
im= 30, Ni= 100, ni= 10
24681012
EBP
24681012
Naive
24681012
EBP−np
m= 30, Ni= 1000, ni= 10
24681012
EBP
24681012
Naive
24681012
EBP−np
m= 100, Ni= 100, ni= 10
24681012
EBP
24681012
Naive
24681012
EBP−np
m= 200, Ni= 100, ni= 10
24681012
EBP
24681012
Naive
24681012
EBP−np
M.G. Ranalli – Universit´e de P´erouse (Italie)
Etude par simulations
Temps de calcul pour obtenir θ ˆ
i(n
i= 10)
●
● ●
0.00.20.40.60.8
Computational Time (in minutes)
EBP Naive EBP−np
●
●
●
●
● ●
●
● ●
m=30, Ni=100 m=30, Ni=1000 m=100, Ni=100 m=200, Ni=100
*Architecture Intel Core I5 2.40 GHz
M.G. Ranalli – Universit´e de P´erouse (Italie)
Etude par simulations
Biais de RM SE(ˆ \ θ
i)
m= 30, Ni= 100, ni= 10
0.00.51.01.52.02.53.0
EBP
0.00.51.01.52.02.53.0
Naive
0.00.51.01.52.02.53.0
EBP−np
m= 30, Ni= 1000, ni= 10
0.00.51.01.52.02.53.0
EBP
0.00.51.01.52.02.53.0
Naive
0.00.51.01.52.02.53.0
EBP−np
m= 100, Ni= 100, ni= 10
●
●●
0.00.51.01.52.02.53.0
EBP
●
●
●
●
●
0.00.51.01.52.02.53.0
Naive
0.00.51.01.52.02.53.0
EBP−np
m= 200, Ni= 100, ni= 10
0.00.51.01.52.02.53.0
EBP
●●●
●●●●
●
●
0.00.51.01.52.02.53.0
Naive
●
●
●
●
●
●
●
●
●
●
●
●
●●
0.00.51.01.52.02.53.0
EBP−np
M.G. Ranalli – Universit´e de P´erouse (Italie)
Etude par simulations
Temps de calcul pour obtenir RM SE(ˆ \ θ
i)
●
● ●
010203040
Computational Time (in minutes)
EBP Naive EBP−np
●
● ●
●
● ●
●
● ●
m=30, Ni=100 m=30, Ni=1000 m=100, Ni=100 m=200, Ni=100
*Architecture Intel Core I5 2.40 GHz
M.G. Ranalli – Universit´e de P´erouse (Italie)
Etude par simulations
R´ esum´ e
Pour un petit m, l’estimateur du MSE obtenu avec l’approche NPML est moins pr´ecis que ses adversaires
Cependant, quandm augmente, notre proposition est meilleure que l’estimateur de Gonz´alez-Manteiga et devient plus proche de celui de Jiang et Lahiri
Si on consid`ere ´egalement le volume de calcul, l’approche NPML semble `a privil´egier
M.G. Ranalli – Universit´e de P´erouse (Italie)
Mod`eles au niveau domaine
Lumi` eres ... et ombres
Les Mod`eles de Markov Latents apportent un cadre de mod´elisation tr`es flexible
apportent un aper¸cu sur l’´evolution des estimateurs dans le temps
traitent des r´eponses multivari´ees et/ou des erreurs de mesure
fournissent une classification des petits domaines
compromis entre des coefficients de r´egression sp´ecifiques au domaine et un coefficient de r´egression commun
Choix de mod`ele Echange de Labels
M.G. Ranalli – Universit´e de P´erouse (Italie)
Mod`eles au niveau domaine
Lumi` eres ... et ombres
Les Mod`eles de Markov Latents apportent un cadre de mod´elisation tr`es flexible
apportent un aper¸cu sur l’´evolution des estimateurs dans le temps
traitent des r´eponses multivari´ees et/ou des erreurs de mesure
fournissent une classification des petits domaines
compromis entre des coefficients de r´egression sp´ecifiques au domaine et un coefficient de r´egression commun
Choix de mod`ele Echange de Labels
M.G. Ranalli – Universit´e de P´erouse (Italie)
Mod`eles au niveau domaine
D´ eveloppements futurs
Cadre multivari´e (emploi-chˆomeur-inactif)
Inclut la corr´elation spatiale – dans le mod`ele latent A voir - r´eponses Poisson/Binomiale/Multinomiale (MH)
M.G. Ranalli – Universit´e de P´erouse (Italie)
Mod`eles au niveau unit´e
Lumi` eres ... et ombres
Le Maximum de Vraisemblance Non Param´etrique apporte un outil tr`es utile pour
d´evelopper un EBP pour des r´eponses binaires (famille exponentielle en g´en´eral)
estimer la distribution du param`etre al´eatoire `a partir des donn´ees (prise en compte de la non-normalit´e)
obtenir un estimateur analytique du MSE calculable sur le plan informatique
classer les petits domaines Choix de mod`ele
M.G. Ranalli – Universit´e de P´erouse (Italie)
Mod`eles au niveau unit´e
Lumi` eres ... et ombres
Le Maximum de Vraisemblance Non Param´etrique apporte un outil tr`es utile pour
d´evelopper un EBP pour des r´eponses binaires (famille exponentielle en g´en´eral)
estimer la distribution du param`etre al´eatoire `a partir des donn´ees (prise en compte de la non-normalit´e)
obtenir un estimateur analytique du MSE calculable sur le plan informatique
classer les petits domaines Choix de mod`ele
M.G. Ranalli – Universit´e de P´erouse (Italie)
Mod`eles au niveau unit´e
D´ eveloppements futurs
Th´eorie
obtenir un terme de correction du biais pour l’estimateur du MSE afin d’am´eliorer la qualit´e des r´esultats
Simulations
´
evaluer notre proposition pour diff´erentes sp´ecifications de fα(αi)et comparer les r´esultats avec d’autres m´ethodes comparer les r´esultats pour le MSE analytique propos´e avec ceux par une approche Bootstrap
Application
appliquer l’approche bas´ee sur le NPML `a l’enquˆete LFS qui consiste en611 petits domaines avec'100,000observations
M.G. Ranalli – Universit´e de P´erouse (Italie)
R´ef´erences
R´ ef´ erences I
Aitkin, M. (1996). A general maximum likelihood analysis of overdispersion in generalized linear models.Statistics and Computing, 6(3):251–262.
Bartolucci, F., Farcomeni, A., et Pennoni, F. (2013). Latent Markov models forlongitudinal data, Chapman&Hall/CRC Taylor and Francis Group.
Chib, S. (1995). Marginal likelihood from the Gibbs output. JASA 90, 1313-1321.
Datta, G.S., Lahiri, P., Maiti, T., et Lu, K.L. (1999), Hierarchical Bayes Estimation of Unemployment Rates for the U.S. States, JASA 94, 1074-1082.
Datta, G.S., Lahiri, P., et Maiti, T. (2002). Empirical Bayes Estimation of Median Income of Four-Person Families by State Using Time Series and Cross-Sectional Data, JSPI 102, 83-97
Dempster, A. P., Laird, N. M., et Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. JRSS-B 39, 1–38.
M.G. Ranalli – Universit´e de P´erouse (Italie)
R´ef´erences
R´ ef´ erences II
Fabrizi, E., Montanari, G.E., Ranalli, M.G. (2016). A hierarchical latent class model for predicting disability small area counts from survey data, JRSS-A 179-1, 103-131.
Ghosh, M., Nangia, N., et Kim, D. (1996), Estimation of Median Income of Four-Person Families: A Bayesian Time Series Approach, JASA 91, 1423-1431.
Gonz´alez-Manteiga, W., Lombard´ıa, M. J., Molina, I., Morales, D., et Santamar´ıa, L. (2007). Estimation of the mean squared error of predictors of small area linear parameters under a logistic mixed model. CSDA,
51(5):2720–2733.
Jiang, J. et Lahiri, P. (2001). Empirical best prediction for small area inference with binary data.Annals of the Institute of Statistical Mathematics,
53(2):217–243.
Jiang, J. (1998). Consistent estimators in generalized linear mixed models.
JASA, 93(442):720–729.
M.G. Ranalli – Universit´e de P´erouse (Italie)
R´ef´erences
R´ ef´ erences III
Oakes, D. (1999). Direct calculation of the information matrix via the EM.
JRSS-B, 61(2):479–482.
Pfeffermann, D., et Burck, L. (1990). Robust Small Area Estimation Combining Time Series and Cross-Sectional Data, Survey Methodology 16, 217-237.
Rao, J.N.K. et Yu, M. (1994). Small area estimation by combining time series and cross-sectional data. Canadian Journal of Statistics 22, 511-528.
Tanner, M. A., et Wong, W. H. (1987). The calculation of posterior distributions by data augmentation. JASA 82, 528-540.
Van Dyk, D. A., Meng, X. L. (2001). The art of data augmentation. JCGS 10-1.
You, Y., Rao, J.N.K., Gambino, J. (2003). Model-based unemployment rate estimation for the Canadian Labour Force Survey: a hierarchical Bayes approach.
Survey Methodology, 29-1, 25–32.
M.G. Ranalli – Universit´e de P´erouse (Italie)