Mod` eles de Markov Latents et Mod` eles de M´ elange Finis pour l’Estimation sur Petits

(1)

Mod` eles de Markov Latents et Mod` eles de M´ elange Finis pour l’Estimation sur Petits

Domaines

M. Giovanna Ranalli¹

1Universit´e de P´erouse – ITALIE

9e Colloque francophone sur le sondages A l’Universit´` e du Qu´ebec en Outaouais Gatineau|Queb´ec|Canada, 11 – 14 Octobre, 2016

M.G. Ranalli – Universit´e de P´erouse (Italie)

(2)

Motivation

Motivation – Enquˆ ete Emploi Italienne (LFS) (1)

L’Enquête Emploi (Labor Force Survey, LFS) est une enquête trimestrielle à deux degrés – commune/ménage.

Pour chaque ´echantillon trimestriel environ 1350 communes et 100,000 individus sont concern´es.

Depuis 2000, ISTAT produit des estimations annuelles issues de LFS de nombres/taux d’actifs et d’inactifs relatifs aux Local Labour Market Areas (LLMAs).

Les LLMAs sont des domaines non plannifiés obtenus à partir de grappes de communes intersectées avec des provinces (LAU1) qui constituent les domaines plannifiés de LFS les plus fins.

(3)

Motivation

Motivation – Enquˆ ete Emploi Italienne (LFS) (1)

Taux de chˆomage. Estimateurs directs (%). 2004.1 et 2014.4

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

NA

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

NA

(4)

Motivation

Motivation – Enquˆ ete Emploi Italienne (LFS) (2)

Depuis 2004, après la refonte de la stratégie d’échantillonnage de LFS, on utilise un estimateur EBLUP au niveau unité avec des effets aléatoires par domaines autocorrélés spatialement.

En 2011, avec le dernier Recensement, les LLMAs ont été redéfinis en termes de flux de déplacement quotidiens liés au travail

Occasion de repenser la strat´egie d’estimation sur petits domaines Evaluation des m´ethodologies existantes

⇒ Test de nouvelles m´ethodologies

(5)

Motivation

Aper¸cu de la pr´ esentation

Les modèles d’estimation sur petits domaines utilisent des effets aléatoires pour modéliser l’hétérogénéité non capturée par les covariables

Ces effets aléatoires sont supposés avoir une distribution CONTINUE (en général Normale)

Nous voulons examiner l’utilisation de distributions DISCR`ETES

⇒ pour prendre en compte la non-normalit´e

⇒ pour obtenir une classification des petits domaines

⇒ pour r´eduire le volume de calcul dans certains cas

(6)

Motivation

Deux diff´ erents cadres

SAE avec S´eries Temporelles pour les taux de chˆomages

Apporte de la force dans le temps

Mod`ele au niveau domaine Approche Bayes

hiérarchique Réponse Normale Introduit les Modèles de Markov Latents en SAE Enquête LFS: données trimestrielles 2004-2014

Meilleure Pr´ediction Empirique SAE avec donn´ees binaires

Transversal

Modèle au niveau unité Approche par Maximum de vraisemblance Réponse binaire Introduit des Mélanges Finis en SAE

Enquˆete LFS: 4`eme trimestre 2011 (A FAIRE)

(7)

Motivation

Collaborateurs et remerciements

Je ne pourrais pas tout faire moi-mˆeme!

F. Bartolucci, G. Bertarelli, M.F. Marino (Universit´e de P´erouse)

N. Salvati (Universit´e de Pise)

M. D’Aló, F. Solari (ISTAT, Institut National de Statistique) M. Alfó (Université Sapienza, Rome)

Projet PRIN-SURWEY

SUrvey Research on households WEalth and Youth unemployment http://www.sp.unipg.it/surwey/

(8)

Motivation

Plan

1 Introduction

2 Modèles de Markov Latents pour SAE Aper¸cu et spécification du modèle Estimation du modèle

Application aux donn´ees LFS

3 M´elanges Finis pour SAE

Aper¸cu et sp´ecification du mod`ele

Une approche par le Maximum de Vraisemblance Non Param´etrique

Etude par simulations

4 Conclusions et d´eveloppements futurs

(9)

Notation

Mod`ele [Rao et Yu, 1994]

Modèle d’échantillonnage θît=θit+eit

Mod`ele de lien θit=x^T_itβ+vi+αit

i= 1, . . . , m, t= 1, . . . , T.

θˆit → estimateur direct pour le petit domaine iau tempst;

θ_it=g( ¯Y_it) → fonction de la moyenne sur le petit domaine.

eit|θ_it sont des erreurs d’échantillonnage normalement distribuées, de moyenne zéro, de matrice de

variance-covariance connue Ψ=blockdiag{Ψ_i}

(10)

Notation

Mod`ele [Rao et Yu, 1994]

Mod`ele d’´echantillonnage θˆ_it=θ_it+e_it

Mod`ele de lien θ_it=x^T_itβ+v_i+α_it i= 1, . . . , m, t= 1, . . . , T.

xit covariables sp´ecifiques du domaines (pouvant varier avec le temps) + effets saisonniers pour des s´eries temporelles longues vi ∼N(0, σ_v²) →effet domaine

αit=ραi,t−1+it,|ρ|<1,it∼N(0, σ²) → effet domaine-par-temps

Les eit,vi etit sont ind´ependants entre eux

(11)

Autres approches

Modèle AR(1) pourα_it →Modèles ARMA plus généraux [Datta et al., 1999], [Datta et al., 2002],

[You, Rao, Gambino, 2003] utilisent un mod`ele de marche al´eatoire

αit=αi,t−1+it, i.e. avecρ= 1

Mod`eles Dynamiques/d’espace d’´etat pour des coefficients variant dans le tempsβ_it[Pfefferman et Burck, 1990] ou pour les erreurs sur les domaines [Ghosh et al., 1996].

(12)

Aper¸cu des Mod` eles de Markov Latents (LMM) (1)

Voir le livre de [Bartolucci, Farcomeni, Pennoni, 2013]

Les LMMs sont une famille particulière de modèles pour les données longitudinales

Les LMMs supposent l’existence d’un processus latent qui affecte la distribution des variables de r´eponse

Le processus latent est supposé généré selon une chaˆıne de Markov avec un certain nombre d’états (états latents) Les LMMs generalisent les Classes Latentes (dynamiques) [Fabrizi et al., 2016]

Les LMMs ´etendent les mod`eles de Chaˆınes de Markov (erreur de mesure)

(13)

Aper¸cu des Mod` eles de Markov Latents (LMM) (2)

Mod`ele de mesure: distribution de la variable de r´eponse sachant le processus latent

Mod`ele Latent: distribution du processus latent

Les covariables peuvent intervenir dans le mod`ele de mesure ou dans le mod`ele latent.

Hétérogénéité non observée

Elle est prise en compte par des variables latentesdiscr`etes(vs.

continues)

Elle est modélisée de fa¸condynamique(chaque domaine peut se déplacer entre plusieurs états latents au cours du temps)

(14)

Aper¸cu des Mod` eles de Markov Latents (LMM) (2)

Mod`ele de mesure: distribution de la variable de r´eponse sachant le processus latent

Mod`ele Latent: distribution du processus latent

Les covariables peuvent intervenir dans le mod`ele de mesure ou dans le mod`ele latent.

Hétérogénéité non observée

Elle est prise en compte par des variables latentesdiscr`etes(vs.

continues)

Elle est modélisée de fa¸condynamique(chaque domaine peut se déplacer entre plusieurs états latents au cours du temps)

(15)

LMMs Sp´ ecification pour SAE

MODÈLE d’ÉCHANTILLONNAGE: θb_i|θ_i ∼N_T(θ_i,Ψ_i) MODÈLE DE LIEN: Modèle de mesure

Mod`ele Latent

(16)

Mod` ele de Lien

Mod`ele de mesure

θ_it|U_it=u,x_it∼N(x^T_itβ_u(it), σ_u(it)² ) U_it ∈ {1, . . . , k}´etat latent, km

u(it) est l’´etat latent du domaineiau tempst, i= 1, . . . , m, t= 1, . . . , T.

Mod`ele Latent

Probabilit´es Initiales P(Ui1=u) =π_(u) t= 1; u= 1, . . . , k

Probabilit´es de Transition P(U_it=u|U_i,t−1 = ¯u) =π_(u|¯_u) t= 2, . . . , T; u,u¯= 1, . . . , k.

(17)

Mod` ele de Lien

Mod`ele de mesure

θ_it|U_it=u,x_it∼N(x^T_itβ_u(it), σ_u(it)² ) U_it ∈ {1, . . . , k}´etat latent, km

u(it) est l’´etat latent du domaineiau tempst, i= 1, . . . , m, t= 1, . . . , T.

Mod`ele Latent

Probabilit´es Initiales P(Ui1=u) =π_(u) t= 1; u= 1, . . . , k

Probabilit´es de Transition P(U_it=u|U_i,t−1 = ¯u) =π_(u|¯_u) t= 2, . . . , T; u,u¯= 1, . . . , k.

(18)

Une comparison avec [Datta et al., 1999] et [You, Rao, Gambino, 2003]

Mod`eles de Lien

You-Rao-Gambino: θit=x^T_itβ+αit+vi

Datta et al.: θit=x^T_itβ_i+αit+vi

LMMs: θit=x^T_itβ_u(it)

u(it) est l’´etat latent du domaineiau tempst,u= 1, . . . , k.

Noter quekm.

(19)

Estimation du mod`ele

Estimation – approche HB

Paramètres du modèle → λ= (β₁, . . . ,β_k, σ²₁, . . . , σ_k²,π,Π) Paramètres d’intérêt sur petits domaines →

µ= (θ1, . . . ,θm)^T

Echantillonneur de Gibbs avec Augmentation de Donn´ees [Tanner et Wong, 1987, Van Dyk et Meng, 2001]

(20)

Gibbs Conditionnel

[. . .]∼[. . .]

[θ_it|U,π,Π,β,σ²,θ]b ∼N(ˆθ_it^B(U,β,σ²), γ_itψ_it) θˆ^B_it(U,β,σ²) =γitθˆit+ (1−γit)x^T_itβ_u(it)

γ_it=σ²_u(it)/(σ_u(it)² +ψ_it)

En dehors des domaines de l’´echantillon

[ˆθit|U,π,Π,β,σ²,θ]∼N(ˆθ^D_it(U,β,σ²), γ_it^∗ψit) θˆ^D_it(U,β,σ²) =γ_it^∗θˆi,t−1+ (1−γ_it^∗)x^T_itβ_u(i,t−1) γ_it^∗ =σ²_u(i,t−1)/(σ_u(i,t−1)² +ψit)

(21)

Gibbs Conditionnel

[. . .]∼[. . .]

[θ_it|U,π,Π,β,σ²,θ]b ∼N(ˆθ_it^B(U,β,σ²), γ_itψ_it) θˆ^B_it(U,β,σ²) =γitθˆit+ (1−γit)x^T_itβ_u(it)

γ_it=σ²_u(it)/(σ_u(it)² +ψ_it)

En dehors des domaines de l’´echantillon

[ˆθit|U,π,Π,β,σ²,θ]∼N(ˆθ^D_it(U,β,σ²), γ_it^∗ψit) θˆ^D_it(U,β,σ²) =γ_it^∗θˆi,t−1+ (1−γ_it^∗)x^T_itβ_u(i,t−1) γ_it^∗ =σ²_u(i,t−1)/(σ_u(i,t−1)² +ψit)

(22)

Donn´ ees LFS

Estimateurs directs des taux de chˆomage sur les petits domaines

m= 611LLMAs (Local Labour Market Areas) T = 44données trimestrielles de 2004 à 2014 en tout611×44 = 26884points dans l’échantillon

(23)

S´ eries temporelles – Regions 4 (Nord) et 17 (Sud)

0.000.020.040.060.080.100.120.14

time

unemployment

1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42

0.000.050.100.150.200.250.300.35

time

unemployment

1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42

(24)

Estimateurs directs – % CVs

0 200 400 600

0 10 20 30 40

Time

LLMAs

CV

<16.6 16.6−33.3 33.3 +

(25)

Comparaison des Estimateurs

Information auxiliaire

population par sexe ×7 classes d’âge occupation culturelle (4 catégories) spécialisation dominante (5 catégories)

ann´ee et effet du trimestre (variables muettes) DIR Estimateur Direct

FH Estimateur Fay-Harriot – transversal YRG Estimateur You-Rao-Gambino –ρ= 1

Datta Datta et al. – trop de domaines et de données LMM Estimateur basé sur le Modèle de Markov Latent

30,000 chanes MCMC 15,000 burn-in

(26)

Comparaison des Estimateurs

Information auxiliaire

population par sexe ×7 classes d’âge occupation culturelle (4 catégories) spécialisation dominante (5 catégories)

ann´ee et effet du trimestre (variables muettes) DIR Estimateur Direct

FH Estimateur Fay-Harriot – transversal YRG Estimateur You-Rao-Gambino –ρ= 1

Datta Datta et al. – trop de domaines et de données LMM Estimateur basé sur le Modèle de Markov Latent

30,000 chanes MCMC 15,000 burn-in

(27)

Distribution sur les 4 ´ etats latents

0 200 400 600

0 10 20 30 40

Time

LLMAs

state 1 2 3 4

(28)

Comparaison de CV

0 200 400 600

0 10 20 30 40

Time

LLMAs

CV<16.6 16.6−33.3 33.3 + DIR

0 200 400 600

0 10 20 30 40

Time

LLMAs

FH

0 200 400 600

0 10 20 30 40

Time

LLMAs

YRG

0 200 400 600

0 10 20 30 40

Time

LLMAs

cv

<16.6 16.6−33.3 33.3 +

LMM

(29)

Estimations 2004.1

DIR FH

YRG

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

NA

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

LMM

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

(30)

Estimations 2014.4

DIR FH

YRG

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

NA

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

LMM

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

(31)

Comparaison avec les valeurs du Recensement 2011

Erreur Relative Absolue (ARE) des estimations de 2011 4

ARE=|θˆ_i−Cens_i|/Cens_i

Table:LLMAs observ´ees

DIR LMM YRG FH

Min. 0.001 0.000 0.000 0.000 1st Qu. 0.157 0.172 0.159 0.202 Median 0.338 0.304 0.362 0.432 Mean 0.399 0.336 0.494 0.625 3rd Qu. 0.541 0.485 0.669 0.759 Max. 2.874 1.103 4.386 10.745

Table:LLMAs non observ´ees

LMM YRG FH

0.000 0.005 0.000 0.372 0.147 0.283 0.470 0.343 0.559 0.517 0.550 0.804 0.606 0.695 0.961 4.412 7.323 10.773

(32)

CDF empirique des ARE

Empirical CDF

0.0 0.2 0.4 0.6 0.8 1.0

0.5 1.0 1.5 2.0 2.5 3.0

LMMYRG FHDIR

(a) observed LLMAs

Empirical CDF

0.0 0.2 0.4 0.6 0.8 1.0

0.5 1.0 1.5 2.0 2.5 3.0

LMMYRG FH

(b) non observed LLMAs

(33)

Aper¸cu

Plan

1 Introduction

2 Modèles de Markov Latents pour SAE Aper¸cu et spécification du modèle Estimation du modèle

3 M´elanges Finis pour SAE

4 Conclusions et d´eveloppements futurs

(34)

Aper¸cu

Deux diff´ erents cadres

SAE avec S´eries Temporelles pour les taux de chˆomages

Apporte de la force dans le temps

Mod`ele au niveau domaine Approche Bayes

hiérarchique Réponse Normale Introduit les Modèles de Markov Latents en SAE Enquête LFS: données trimestrielles 2004-2014

Meilleure Pr´ediction Empirique SAE avec donn´ees binaires

Transversal

Modèle au niveau unité Approche par Maximum de vraisemblance Réponse binaire Introduit des Mélanges Finis en SAE

Enquˆete LFS: 4`eme trimestre 2011 (A FAIRE)

(35)

Aper¸cu

Notation mise ` a jour

Soit y_ij, une variable de réponsebinaire (=1 inactif; =0 sinon)pour l’unité j∈Ui dans le domaine i= 1, . . . , m Soitxij un vecteur de dimensionpdecovariables individuelles Nous nous intéressons à la prédiction de proportions sur les petits domaines

θi = 1 N_i

X

j∈U_i

yij

(36)

Aper¸cu

Mod` ele et hypoth` eses

Soit α_i uncoefficient aléatoire spécifique du domainedistribué selon une loi Gaussienne⇒αi∼N(0, σ²)

Conditionnellement àαi, les réponses yij sont des variables aléatoires de Bernoulli indépendantesavec une probabilité de succès

pij = Pr(yij = 1) = e^αⁱ^+x^T^ij^β 1 +e^αⁱ^+x^T^ij^β

(37)

Aper¸cu

Les approches possibles

Approche na¨ıve ⇒ Prediction par substitution avec estimation PQL

θˆi =



 1 N_i

X

j∈U_i

e^αⁱ^+x^T^ij^β 1 +e^αⁱ^+x^T^ij^β





(αi,β)=( ˆαi,β)ˆ

Approche EBP ⇒ empirical best prediction

[Jiang et Lahiri, 2001, Jiang, 1998] avec estimation par la m´ethode des moments

θˆi =



 Z



 1 N_i

X

j∈U_i

e^αⁱ^+x^T^ij^β 1 +e^αⁱ^+x^T^ij^β



fα(αi|y_i)dαi





(αi,β)=( ˆαi,β)ˆ

(38)

Aper¸cu

EBP par le Maximum de Vraisemblance

Lavraisemblance sur les données observéespour l’ensemble des paramètres du modèle Φest

L(Φ) =

m

Y

i=1

Z

f_y|α(y_i|αi)fα(αi)dαi (1)

avecf_y|α(y_i|α_i) le produit dedensités de Bernoulli f(y_ij |α_i) Pour obtenir les estimations, nous devons traiter desintégrales en grande dimension qui n’ont pas de solution explicite On utilise typiquement des méthodes d’approximation pour maximiser L(Φ) et cela peut être délicat informatiquement

(39)

Aper¸cu

Probl` eme avec l’EBP

Calculer l’EBP estlent informatiquement à cause de la solution des intégrales qui n’ont pas de forme explicite (pour la méthode des moments et le Maximum de Vraisemblance) L’estimation du MSE peut être prohibitif informatiquement, même avec un nombre limité de domaines

Quand on utilise l’EBP avec des mod`eles mixtes logistiques (distribution normale avec effets al´eatoires), leBootstrap est moins gourmand informatiquement que les estimations analytiques du MSE.

Dans le LFS nous avons ≈100,000observations pour chaque trimestre et m= 611→ infaisable

(40)

Une approche par le Maximum de Vraisemblance Non Param´ etrique [Aitkin, 1996]

Nous utilisons l’approche par leMaximum de Vraisemblance Non Paramétrique (NPML) pour estimer les paramètres du modèle, ce qui nous permet

de calculer l’EBP et l’approximation analytique de son MSE d’éviter des hypothèses invérifiables surfα(αi)

de r´eduire consid´erablement le volume de calcul

(41)

Distribution non-param´ etrique pour les coefficients al´ eatoires

On laisse fα(·) non spécifiée, et on l’estime à partir des données

On l’approxime par une distribution discrète sur G < m positions {α₁, . . . , α_G}, avec des probabilités associées définies parπ_g = Pr(α_i=α_g),i= 1, . . . , m etg= 1, . . . , G.

α_i ∼

G

X

g=1

π_gδ_α_g

o`u δ_θ est une distribution ponctuelle de masse unit´e surθ.

(42)

La vraisemblance

Pour estimer Φ={α₁, . . . , αG, π1, . . . , πG,β}, nous maximisons

L(Φ) =

m

Y

i=1 G

X

g=1

f_y|α(y_i |αg)πg

L(Φ) ressemble `a lavraisemblance d’un m´elange fini

(43)

Estimation du mod` ele

Via l’algorithme EM [Dempster et al., 1977]

Le nombre de composantes du mélange Gest traité comme connu, et estimé à l’aide de techniques de sélection de modèle (e.g. AIC)

Il est ´egalement possible d’estimer analytiquement la matrice de variance-covariance de Φˆ [Oakes, 1999]

(44)

(Empirical) Best Prediction

Le meilleur predicteur (BP)de θi est donn´e par

θ˜i=Eα(θi|y_i) =

G

X

g=1



 1 Ni

X

j∈Ui

e^α^g⁺^x^T^ij^β 1 +e^α^g⁺^x^T^ij^β



wig =

G

X

g=1

θi(g)wig

où wig est laprobabilité a posteriori que le petit domainei appartienne à la composanteg du mélange fini

Le meilleur prédicteur empirique (EBP-np)deθ_i est obtenu en rempla¸cant les vrais paramètres du modèle par leurs

estimateurs

θˆi=

G

X

g=1



 1 Ni

X

j∈Ui

e^α^ˆ^g⁺^x^T^ij^β^ˆ 1 +e^α^ˆ^g⁺^x^T^ij^β^ˆ



wˆig =

G

X

g=1

θˆi(g) ˆwig

(45)

(Empirical) Best Prediction

Le meilleur predicteur (BP)de θi est donn´e par

θ˜i=Eα(θi|y_i) =

G

X

g=1



 1 Ni

X

j∈Ui

e^α^g⁺^x^T^ij^β 1 +e^α^g⁺^x^T^ij^β



wig =

G

X

g=1

θi(g)wig

où wig est laprobabilité a posteriori que le petit domainei appartienne à la composanteg du mélange fini

Le meilleur prédicteur empirique (EBP-np)deθ_i est obtenu en rempla¸cant les vrais paramètres du modèle par leurs

estimateurs

θˆi=

G

X

g=1



 1 Ni

X

j∈Ui

e^α^ˆ^g⁺^x^T^ij^β^ˆ 1 +e^α^ˆ^g⁺^x^T^ij^β^ˆ



wˆig =

G

X

g=1

θˆi(g) ˆwig

(46)

Le MSE de EBP-np

Il est possible d’obtenir l’expression analytique du MSE et de l’estimer comme dans [Jiang et Lahiri, 2001] (non trait´e ici, tr`es technique!)

Quand on utilise l’EBP avec des mod`eles logistiques mixtes, le Bootstrap est moins gourmand informatiquement que les estimations analytiques du MSE.

Avec cette distribution discr`ete, le MSE analytique est beaucoup moins gourmand informatiquement que le

Bootstrap(particuli`erement quandm augmente)→ faisable

(47)

Etude par simulations - bas´ ees sur un mod` ele

On simuleαi ∼N(0,0.25)(pire des sc´enarios pour NPML) yij ∼Bernoulli(pij) avec

logit(p_ij) =α_i+x_ij et x_ij ∼Unif(−1, j/a) Cadre de [Gonz´alez-Manteiga et al., 2007].

Nous comparonsEBP-npavec EBP(Int´egration MC)

ApprocheNa¨ıve(pr´ediction par substitution)

Nous comparons l’estimateur analytique du MSE pour l’EBP-np avec

[Jiang et Lahiri, 2001] (Intégration MC - pour l’EBP) [González-Manteiga et al., 2007] (Approximation linéaire - pour l’approche na¨ıve)

(48)

Etude par simulations - bas´ ees sur un mod` ele

On simuleαi ∼N(0,0.25)(pire des sc´enarios pour NPML) yij ∼Bernoulli(pij) avec

logit(p_ij) =α_i+x_ij et x_ij ∼Unif(−1, j/a) Cadre de [Gonz´alez-Manteiga et al., 2007].

Nous comparonsEBP-npavec EBP(Int´egration MC)

ApprocheNa¨ıve(pr´ediction par substitution)

Nous comparons l’estimateur analytique du MSE pour l’EBP-np avec

[Jiang et Lahiri, 2001] (Intégration MC - pour l’EBP) [González-Manteiga et al., 2007] (Approximation linéaire - pour l’approche na¨ıve)

(49)

Biais absolu de θ ˆ

_i

m= 30, Ni= 100, ni= 10

0.00.10.20.30.4

EBP

0.00.10.20.30.4

Naive ●

0.00.10.20.30.4

EBP−np

m= 30, Ni= 1000, ni= 10

●

0.00.10.20.30.4

EBP

0.00.10.20.30.4

Naive

●

0.00.10.20.30.4

EBP−np

m= 100, Ni= 100, ni= 10

●

0.00.10.20.30.4

EBP ●

●

0.00.10.20.30.4

Naive ●

0.00.10.20.30.4

EBP−np

m= 200, Ni= 100, ni= 10

●

●●

●

0.00.10.20.30.4

EBP

0.00.10.20.30.4

Naive ^●

●

0.00.10.20.30.4

EBP−np

(50)

RMSE de θ ˆ

_i

m= 30, Ni= 100, ni= 10

24681012

EBP

24681012

Naive

24681012

EBP−np

m= 30, Ni= 1000, ni= 10

24681012

EBP

24681012

Naive

24681012

EBP−np

m= 100, Ni= 100, ni= 10

24681012

EBP

24681012

Naive

24681012

EBP−np

m= 200, Ni= 100, ni= 10

24681012

EBP

24681012

Naive

24681012

EBP−np

(51)

Temps de calcul pour obtenir θ ˆ

_i

(n

_i

= 10)

●

● ●

0.00.20.40.60.8

Computational Time (in minutes)

EBP Naive EBP−np

●

● ●

●

● ●

m=30, N_i=100 m=30, N_i=1000 m=100, N_i=100 m=200, N_i=100

*Architecture Intel Core I5 2.40 GHz

(52)

Biais de RM SE(ˆ \ θ

_i

)

m= 30, Ni= 100, ni= 10

0.00.51.01.52.02.53.0

EBP

0.00.51.01.52.02.53.0

Naive

0.00.51.01.52.02.53.0

EBP−np

m= 30, Ni= 1000, ni= 10

0.00.51.01.52.02.53.0

EBP

0.00.51.01.52.02.53.0

Naive

0.00.51.01.52.02.53.0

EBP−np

m= 100, Ni= 100, ni= 10

●

●●

0.00.51.01.52.02.53.0

EBP

●

0.00.51.01.52.02.53.0

Naive

0.00.51.01.52.02.53.0

EBP−np

m= 200, Ni= 100, ni= 10

0.00.51.01.52.02.53.0

EBP

●●●

●●●●

●

0.00.51.01.52.02.53.0

Naive

●

●●

0.00.51.01.52.02.53.0

EBP−np

(53)

Temps de calcul pour obtenir RM SE(ˆ \ θ

_i

)

●

● ●

010203040

Computational Time (in minutes)

EBP Naive EBP−np

●

● ●

●

● ●

●

● ●

m=30, Ni=100 m=30, Ni=1000 m=100, Ni=100 m=200, Ni=100

*Architecture Intel Core I5 2.40 GHz

(54)

R´ esum´ e

Pour un petit m, l’estimateur du MSE obtenu avec l’approche NPML est moins pr´ecis que ses adversaires

Cependant, quandm augmente, notre proposition est meilleure que l’estimateur de Gonz´alez-Manteiga et devient plus proche de celui de Jiang et Lahiri

Si on considère également le volume de calcul, l’approche NPML semble à privilégier

(55)

Mod`eles au niveau domaine

Lumi` eres ... et ombres

Les Modèles de Markov Latents apportent un cadre de modélisation très flexible

apportent un aper¸cu sur l’´evolution des estimateurs dans le temps

traitent des r´eponses multivari´ees et/ou des erreurs de mesure

fournissent une classification des petits domaines

compromis entre des coefficients de régression spécifiques au domaine et un coefficient de régression commun

Choix de mod`ele Echange de Labels

(56)

Lumi` eres ... et ombres

Les Modèles de Markov Latents apportent un cadre de modélisation très flexible

apportent un aper¸cu sur l’´evolution des estimateurs dans le temps

traitent des r´eponses multivari´ees et/ou des erreurs de mesure

fournissent une classification des petits domaines

compromis entre des coefficients de régression spécifiques au domaine et un coefficient de régression commun

Choix de mod`ele Echange de Labels

(57)

D´ eveloppements futurs

Cadre multivari´e (emploi-chˆomeur-inactif)

Inclut la corrélation spatiale – dans le modèle latent A voir - réponses Poisson/Binomiale/Multinomiale (MH)

(58)

Mod`eles au niveau unit´e

Lumi` eres ... et ombres

Le Maximum de Vraisemblance Non Param´etrique apporte un outil tr`es utile pour

développer un EBP pour des réponses binaires (famille exponentielle en général)

estimer la distribution du paramètre aléatoire à partir des données (prise en compte de la non-normalité)

obtenir un estimateur analytique du MSE calculable sur le plan informatique

classer les petits domaines Choix de mod`ele

(59)

Lumi` eres ... et ombres

Le Maximum de Vraisemblance Non Param´etrique apporte un outil tr`es utile pour

développer un EBP pour des réponses binaires (famille exponentielle en général)

estimer la distribution du paramètre aléatoire à partir des données (prise en compte de la non-normalité)

obtenir un estimateur analytique du MSE calculable sur le plan informatique

classer les petits domaines Choix de mod`ele

(60)

D´ eveloppements futurs

Th´eorie

obtenir un terme de correction du biais pour l’estimateur du MSE afin d’améliorer la qualité des résultats

Simulations

´

evaluer notre proposition pour différentes spécifications de fα(αi)et comparer les résultats avec d’autres méthodes comparer les résultats pour le MSE analytique proposé avec ceux par une approche Bootstrap

Application

appliquer l’approche basée sur le NPML à l’enquête LFS qui consiste en611 petits domaines avec'100,000observations

(61)

R´ef´erences

R´ ef´ erences I

Aitkin, M. (1996). A general maximum likelihood analysis of overdispersion in generalized linear models.Statistics and Computing, 6(3):251–262.

Bartolucci, F., Farcomeni, A., et Pennoni, F. (2013). Latent Markov models forlongitudinal data, Chapman&Hall/CRC Taylor and Francis Group.

Chib, S. (1995). Marginal likelihood from the Gibbs output. JASA 90, 1313-1321.

Datta, G.S., Lahiri, P., Maiti, T., et Lu, K.L. (1999), Hierarchical Bayes Estimation of Unemployment Rates for the U.S. States, JASA 94, 1074-1082.

Datta, G.S., Lahiri, P., et Maiti, T. (2002). Empirical Bayes Estimation of Median Income of Four-Person Families by State Using Time Series and Cross-Sectional Data, JSPI 102, 83-97

Dempster, A. P., Laird, N. M., et Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. JRSS-B 39, 1–38.

(62)

R´ef´erences

R´ ef´ erences II

Fabrizi, E., Montanari, G.E., Ranalli, M.G. (2016). A hierarchical latent class model for predicting disability small area counts from survey data, JRSS-A 179-1, 103-131.

Ghosh, M., Nangia, N., et Kim, D. (1996), Estimation of Median Income of Four-Person Families: A Bayesian Time Series Approach, JASA 91, 1423-1431.

Gonz´alez-Manteiga, W., Lombard´ıa, M. J., Molina, I., Morales, D., et Santamar´ıa, L. (2007). Estimation of the mean squared error of predictors of small area linear parameters under a logistic mixed model. CSDA,

51(5):2720–2733.

Jiang, J. et Lahiri, P. (2001). Empirical best prediction for small area inference with binary data.Annals of the Institute of Statistical Mathematics,

53(2):217–243.

Jiang, J. (1998). Consistent estimators in generalized linear mixed models.

JASA, 93(442):720–729.

(63)

R´ef´erences

R´ ef´ erences III

Oakes, D. (1999). Direct calculation of the information matrix via the EM.

JRSS-B, 61(2):479–482.

Pfeffermann, D., et Burck, L. (1990). Robust Small Area Estimation Combining Time Series and Cross-Sectional Data, Survey Methodology 16, 217-237.

Rao, J.N.K. et Yu, M. (1994). Small area estimation by combining time series and cross-sectional data. Canadian Journal of Statistics 22, 511-528.

Tanner, M. A., et Wong, W. H. (1987). The calculation of posterior distributions by data augmentation. JASA 82, 528-540.

Van Dyk, D. A., Meng, X. L. (2001). The art of data augmentation. JCGS 10-1.

You, Y., Rao, J.N.K., Gambino, J. (2003). Model-based unemployment rate estimation for the Canadian Labour Force Survey: a hierarchical Bayes approach.

Survey Methodology, 29-1, 25–32.