• Aucun résultat trouvé

Mod` eles de Markov Latents et Mod` eles de M´ elange Finis pour l’Estimation sur Petits

N/A
N/A
Protected

Academic year: 2022

Partager "Mod` eles de Markov Latents et Mod` eles de M´ elange Finis pour l’Estimation sur Petits"

Copied!
63
0
0

Texte intégral

(1)

Mod` eles de Markov Latents et Mod` eles de M´ elange Finis pour l’Estimation sur Petits

Domaines

M. Giovanna Ranalli1

1Universit´e de P´erouse – ITALIE

9e Colloque francophone sur le sondages A l’Universit´` e du Qu´ebec en Outaouais Gatineau|Queb´ec|Canada, 11 – 14 Octobre, 2016

M.G. Ranalli – Universit´e de P´erouse (Italie)

(2)

Motivation

Motivation – Enquˆ ete Emploi Italienne (LFS) (1)

L’Enquˆete Emploi (Labor Force Survey, LFS) est une enquˆete trimestrielle `a deux degr´es – commune/m´enage.

Pour chaque ´echantillon trimestriel environ 1350 communes et 100,000 individus sont concern´es.

Depuis 2000, ISTAT produit des estimations annuelles issues de LFS de nombres/taux d’actifs et d’inactifs relatifs aux Local Labour Market Areas (LLMAs).

Les LLMAs sont des domaines non plannifi´es obtenus `a partir de grappes de communes intersect´ees avec des provinces (LAU1) qui constituent les domaines plannifi´es de LFS les plus fins.

M.G. Ranalli – Universit´e de P´erouse (Italie)

(3)

Motivation

Motivation – Enquˆ ete Emploi Italienne (LFS) (1)

Taux de chˆomage. Estimateurs directs (%). 2004.1 et 2014.4

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

NA

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

NA

M.G. Ranalli – Universit´e de P´erouse (Italie)

(4)

Motivation

Motivation – Enquˆ ete Emploi Italienne (LFS) (2)

Depuis 2004, apr`es la refonte de la strat´egie d’´echantillonnage de LFS, on utilise un estimateur EBLUP au niveau unit´e avec des effets al´eatoires par domaines autocorr´el´es spatialement.

En 2011, avec le dernier Recensement, les LLMAs ont ´et´e red´efinis en termes de flux de d´eplacement quotidiens li´es au travail

Occasion de repenser la strat´egie d’estimation sur petits domaines Evaluation des m´ethodologies existantes

⇒ Test de nouvelles m´ethodologies

M.G. Ranalli – Universit´e de P´erouse (Italie)

(5)

Motivation

Aper¸cu de la pr´ esentation

Les mod`eles d’estimation sur petits domaines utilisent des effets al´eatoires pour mod´eliser l’h´et´erog´en´eit´e non captur´ee par les covariables

Ces effets al´eatoires sont suppos´es avoir une distribution CONTINUE (en g´en´eral Normale)

Nous voulons examiner l’utilisation de distributions DISCR`ETES

pour prendre en compte la non-normalit´e

pour obtenir une classification des petits domaines

pour r´eduire le volume de calcul dans certains cas

M.G. Ranalli – Universit´e de P´erouse (Italie)

(6)

Motivation

Deux diff´ erents cadres

SAE avec S´eries Temporelles pour les taux de chˆomages

Apporte de la force dans le temps

Mod`ele au niveau domaine Approche Bayes

hi´erarchique R´eponse Normale Introduit les Mod`eles de Markov Latents en SAE Enquˆete LFS: donn´ees trimestrielles 2004-2014

Meilleure Pr´ediction Empirique SAE avec donn´ees binaires

Transversal

Mod`ele au niveau unit´e Approche par Maximum de vraisemblance R´eponse binaire Introduit des M´elanges Finis en SAE

Enquˆete LFS: 4`eme trimestre 2011 (A FAIRE)

M.G. Ranalli – Universit´e de P´erouse (Italie)

(7)

Motivation

Collaborateurs et remerciements

Je ne pourrais pas tout faire moi-mˆeme!

F. Bartolucci, G. Bertarelli, M.F. Marino (Universit´e de P´erouse)

N. Salvati (Universit´e de Pise)

M. D’Al´o, F. Solari (ISTAT, Institut National de Statistique) M. Alf´o (Universit´e Sapienza, Rome)

Projet PRIN-SURWEY

SUrvey Research on households WEalth and Youth unemployment http://www.sp.unipg.it/surwey/

M.G. Ranalli – Universit´e de P´erouse (Italie)

(8)

Motivation

Plan

1 Introduction

2 Mod`eles de Markov Latents pour SAE Aper¸cu et sp´ecification du mod`ele Estimation du mod`ele

Application aux donn´ees LFS

3 M´elanges Finis pour SAE

Aper¸cu et sp´ecification du mod`ele

Une approche par le Maximum de Vraisemblance Non Param´etrique

Etude par simulations

4 Conclusions et d´eveloppements futurs

M.G. Ranalli – Universit´e de P´erouse (Italie)

(9)

Aper¸cu et sp´ecification du mod`ele

Notation

Mod`ele [Rao et Yu, 1994]

Mod`ele d’´echantillonnage θˆitit+eit

Mod`ele de lien θit=xTitβ+viit

i= 1, . . . , m, t= 1, . . . , T.

θˆit → estimateur direct pour le petit domaine iau tempst;

θit=g( ¯Yit) → fonction de la moyenne sur le petit domaine.

eitit sont des erreurs d’´echantillonnage normalement distribu´ees, de moyenne z´ero, de matrice de

variance-covariance connue Ψ=blockdiag{Ψi}

M.G. Ranalli – Universit´e de P´erouse (Italie)

(10)

Aper¸cu et sp´ecification du mod`ele

Notation

Mod`ele [Rao et Yu, 1994]

Mod`ele d’´echantillonnage θˆitit+eit

Mod`ele de lien θit=xTitβ+viit i= 1, . . . , m, t= 1, . . . , T.

xit covariables sp´ecifiques du domaines (pouvant varier avec le temps) + effets saisonniers pour des s´eries temporelles longues vi ∼N(0, σv2) →effet domaine

αit=ραi,t−1+it,|ρ|<1,it∼N(0, σ2) → effet domaine-par-temps

Les eit,vi etit sont ind´ependants entre eux

M.G. Ranalli – Universit´e de P´erouse (Italie)

(11)

Aper¸cu et sp´ecification du mod`ele

Autres approches

Mod`ele AR(1) pourαit →Mod`eles ARMA plus g´en´eraux [Datta et al., 1999], [Datta et al., 2002],

[You, Rao, Gambino, 2003] utilisent un mod`ele de marche al´eatoire

αiti,t−1+it, i.e. avecρ= 1

Mod`eles Dynamiques/d’espace d’´etat pour des coefficients variant dans le tempsβit[Pfefferman et Burck, 1990] ou pour les erreurs sur les domaines [Ghosh et al., 1996].

M.G. Ranalli – Universit´e de P´erouse (Italie)

(12)

Aper¸cu et sp´ecification du mod`ele

Aper¸cu des Mod` eles de Markov Latents (LMM) (1)

Voir le livre de [Bartolucci, Farcomeni, Pennoni, 2013]

Les LMMs sont une famille particuli`ere de mod`eles pour les donn´ees longitudinales

Les LMMs supposent l’existence d’un processus latent qui affecte la distribution des variables de r´eponse

Le processus latent est suppos´e g´en´er´e selon une chaˆıne de Markov avec un certain nombre d’´etats (´etats latents) Les LMMs generalisent les Classes Latentes (dynamiques) [Fabrizi et al., 2016]

Les LMMs ´etendent les mod`eles de Chaˆınes de Markov (erreur de mesure)

M.G. Ranalli – Universit´e de P´erouse (Italie)

(13)

Aper¸cu et sp´ecification du mod`ele

Aper¸cu des Mod` eles de Markov Latents (LMM) (2)

Mod`ele de mesure: distribution de la variable de r´eponse sachant le processus latent

Mod`ele Latent: distribution du processus latent

Les covariables peuvent intervenir dans le mod`ele de mesure ou dans le mod`ele latent.

H´et´erog´en´eit´e non observ´ee

Elle est prise en compte par des variables latentesdiscr`etes(vs.

continues)

Elle est mod´elis´ee de fa¸condynamique(chaque domaine peut se eplacer entre plusieurs ´etats latents au cours du temps)

M.G. Ranalli – Universit´e de P´erouse (Italie)

(14)

Aper¸cu et sp´ecification du mod`ele

Aper¸cu des Mod` eles de Markov Latents (LMM) (2)

Mod`ele de mesure: distribution de la variable de r´eponse sachant le processus latent

Mod`ele Latent: distribution du processus latent

Les covariables peuvent intervenir dans le mod`ele de mesure ou dans le mod`ele latent.

H´et´erog´en´eit´e non observ´ee

Elle est prise en compte par des variables latentesdiscr`etes(vs.

continues)

Elle est mod´elis´ee de fa¸condynamique(chaque domaine peut se eplacer entre plusieurs ´etats latents au cours du temps)

M.G. Ranalli – Universit´e de P´erouse (Italie)

(15)

Aper¸cu et sp´ecification du mod`ele

LMMs Sp´ ecification pour SAE

MOD`ELE d’´ECHANTILLONNAGE: θbii ∼NTii) MOD`ELE DE LIEN: Mod`ele de mesure

Mod`ele Latent

M.G. Ranalli – Universit´e de P´erouse (Italie)

(16)

Aper¸cu et sp´ecification du mod`ele

Mod` ele de Lien

Mod`ele de mesure

θit|Uit=u,xit∼N(xTitβu(it), σu(it)2 ) Uit ∈ {1, . . . , k}´etat latent, km

u(it) est l’´etat latent du domaineiau tempst, i= 1, . . . , m, t= 1, . . . , T.

Mod`ele Latent

Probabilit´es Initiales P(Ui1=u) =π(u) t= 1; u= 1, . . . , k

Probabilit´es de Transition P(Uit=u|Ui,t−1 = ¯u) =π(u|¯u) t= 2, . . . , T; u,u¯= 1, . . . , k.

M.G. Ranalli – Universit´e de P´erouse (Italie)

(17)

Aper¸cu et sp´ecification du mod`ele

Mod` ele de Lien

Mod`ele de mesure

θit|Uit=u,xit∼N(xTitβu(it), σu(it)2 ) Uit ∈ {1, . . . , k}´etat latent, km

u(it) est l’´etat latent du domaineiau tempst, i= 1, . . . , m, t= 1, . . . , T.

Mod`ele Latent

Probabilit´es Initiales P(Ui1=u) =π(u) t= 1; u= 1, . . . , k

Probabilit´es de Transition P(Uit=u|Ui,t−1 = ¯u) =π(u|¯u) t= 2, . . . , T; u,u¯= 1, . . . , k.

M.G. Ranalli – Universit´e de P´erouse (Italie)

(18)

Aper¸cu et sp´ecification du mod`ele

Une comparison avec [Datta et al., 1999] et [You, Rao, Gambino, 2003]

Mod`eles de Lien

You-Rao-Gambino: θit=xTitβ+αit+vi

Datta et al.: θit=xTitβiit+vi

LMMs: θit=xTitβu(it)

u(it) est l’´etat latent du domaineiau tempst,u= 1, . . . , k.

Noter quekm.

M.G. Ranalli – Universit´e de P´erouse (Italie)

(19)

Estimation du mod`ele

Estimation – approche HB

Param`etres du mod`ele → λ= (β1, . . . ,βk, σ21, . . . , σk2,π,Π) Param`etres d’int´erˆet sur petits domaines →

µ= (θ1, . . . ,θm)T

Echantillonneur de Gibbs avec Augmentation de Donn´ees [Tanner et Wong, 1987, Van Dyk et Meng, 2001]

M.G. Ranalli – Universit´e de P´erouse (Italie)

(20)

Estimation du mod`ele

Gibbs Conditionnel

[. . .]∼[. . .]

it|U,π,Π,β,σ2,θ]b ∼N(ˆθitB(U,β,σ2), γitψit) θˆBit(U,β,σ2) =γitθˆit+ (1−γit)xTitβu(it)

γit2u(it)/(σu(it)2it)

En dehors des domaines de l’´echantillon

[ˆθit|U,π,Π,β,σ2,θ]∼N(ˆθDit(U,β,σ2), γitψit) θˆDit(U,β,σ2) =γitθˆi,t−1+ (1−γit)xTitβu(i,t−1) γit2u(i,t−1)/(σu(i,t−1)2it)

M.G. Ranalli – Universit´e de P´erouse (Italie)

(21)

Estimation du mod`ele

Gibbs Conditionnel

[. . .]∼[. . .]

it|U,π,Π,β,σ2,θ]b ∼N(ˆθitB(U,β,σ2), γitψit) θˆBit(U,β,σ2) =γitθˆit+ (1−γit)xTitβu(it)

γit2u(it)/(σu(it)2it)

En dehors des domaines de l’´echantillon

[ˆθit|U,π,Π,β,σ2,θ]∼N(ˆθDit(U,β,σ2), γitψit) θˆDit(U,β,σ2) =γitθˆi,t−1+ (1−γit)xTitβu(i,t−1) γit2u(i,t−1)/(σu(i,t−1)2it)

M.G. Ranalli – Universit´e de P´erouse (Italie)

(22)

Application aux donn´ees LFS

Donn´ ees LFS

Estimateurs directs des taux de chˆomage sur les petits domaines

m= 611LLMAs (Local Labour Market Areas) T = 44donn´ees trimestrielles de 2004 `a 2014 en tout611×44 = 26884points dans l’´echantillon

M.G. Ranalli – Universit´e de P´erouse (Italie)

(23)

Application aux donn´ees LFS

S´ eries temporelles – Regions 4 (Nord) et 17 (Sud)

0.000.020.040.060.080.100.120.14

time

unemployment

1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42

0.000.050.100.150.200.250.300.35

time

unemployment

1 3 5 7 9 12 15 18 21 24 27 30 33 36 39 42

M.G. Ranalli – Universit´e de P´erouse (Italie)

(24)

Application aux donn´ees LFS

Estimateurs directs – % CVs

0 200 400 600

0 10 20 30 40

Time

LLMAs

CV

<16.6 16.6−33.3 33.3 +

M.G. Ranalli – Universit´e de P´erouse (Italie)

(25)

Application aux donn´ees LFS

Comparaison des Estimateurs

Information auxiliaire

population par sexe ×7 classes d’^age occupation culturelle (4 cat´egories) sp´ecialisation dominante (5 cat´egories)

ann´ee et effet du trimestre (variables muettes) DIR Estimateur Direct

FH Estimateur Fay-Harriot – transversal YRG Estimateur You-Rao-Gambino –ρ= 1

Datta Datta et al. – trop de domaines et de donn´ees LMM Estimateur bas´e sur le Mod`ele de Markov Latent

30,000 chanes MCMC 15,000 burn-in

M.G. Ranalli – Universit´e de P´erouse (Italie)

(26)

Application aux donn´ees LFS

Comparaison des Estimateurs

Information auxiliaire

population par sexe ×7 classes d’^age occupation culturelle (4 cat´egories) sp´ecialisation dominante (5 cat´egories)

ann´ee et effet du trimestre (variables muettes) DIR Estimateur Direct

FH Estimateur Fay-Harriot – transversal YRG Estimateur You-Rao-Gambino –ρ= 1

Datta Datta et al. – trop de domaines et de donn´ees LMM Estimateur bas´e sur le Mod`ele de Markov Latent

30,000 chanes MCMC 15,000 burn-in

M.G. Ranalli – Universit´e de P´erouse (Italie)

(27)

Application aux donn´ees LFS

Distribution sur les 4 ´ etats latents

0 200 400 600

0 10 20 30 40

Time

LLMAs

state 1 2 3 4

M.G. Ranalli – Universit´e de P´erouse (Italie)

(28)

Application aux donn´ees LFS

Comparaison de CV

0 200 400 600

0 10 20 30 40

Time

LLMAs

CV<16.6 16.6−33.3 33.3 + DIR

0 200 400 600

0 10 20 30 40

Time

LLMAs

FH

0 200 400 600

0 10 20 30 40

Time

LLMAs

YRG

0 200 400 600

0 10 20 30 40

Time

LLMAs

cv

<16.6 16.6−33.3 33.3 +

LMM

M.G. Ranalli – Universit´e de P´erouse (Italie)

(29)

Application aux donn´ees LFS

Estimations 2004.1

DIR FH

YRG

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

NA

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

LMM

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

M.G. Ranalli – Universit´e de P´erouse (Italie)

(30)

Application aux donn´ees LFS

Estimations 2014.4

DIR FH

YRG

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

NA

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

LMM

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

< 1.48 1.48 − 2.39 2.39 − 3.73 3.73 − 5.48

> 5.48

M.G. Ranalli – Universit´e de P´erouse (Italie)

(31)

Application aux donn´ees LFS

Comparaison avec les valeurs du Recensement 2011

Erreur Relative Absolue (ARE) des estimations de 2011 4

ARE=|θˆi−Censi|/Censi

Table:LLMAs observ´ees

DIR LMM YRG FH

Min. 0.001 0.000 0.000 0.000 1st Qu. 0.157 0.172 0.159 0.202 Median 0.338 0.304 0.362 0.432 Mean 0.399 0.336 0.494 0.625 3rd Qu. 0.541 0.485 0.669 0.759 Max. 2.874 1.103 4.386 10.745

Table:LLMAs non observ´ees

LMM YRG FH

0.000 0.005 0.000 0.372 0.147 0.283 0.470 0.343 0.559 0.517 0.550 0.804 0.606 0.695 0.961 4.412 7.323 10.773

M.G. Ranalli – Universit´e de P´erouse (Italie)

(32)

Application aux donn´ees LFS

CDF empirique des ARE

Empirical CDF

0.0 0.2 0.4 0.6 0.8 1.0

0.5 1.0 1.5 2.0 2.5 3.0

LMMYRG FHDIR

(a) observed LLMAs

Empirical CDF

0.0 0.2 0.4 0.6 0.8 1.0

0.5 1.0 1.5 2.0 2.5 3.0

LMMYRG FH

(b) non observed LLMAs

M.G. Ranalli – Universit´e de P´erouse (Italie)

(33)

Aper¸cu

Plan

1 Introduction

2 Mod`eles de Markov Latents pour SAE Aper¸cu et sp´ecification du mod`ele Estimation du mod`ele

Application aux donn´ees LFS

3 M´elanges Finis pour SAE

Aper¸cu et sp´ecification du mod`ele

Une approche par le Maximum de Vraisemblance Non Param´etrique

Etude par simulations

4 Conclusions et d´eveloppements futurs

M.G. Ranalli – Universit´e de P´erouse (Italie)

(34)

Aper¸cu

Deux diff´ erents cadres

SAE avec S´eries Temporelles pour les taux de chˆomages

Apporte de la force dans le temps

Mod`ele au niveau domaine Approche Bayes

hi´erarchique R´eponse Normale Introduit les Mod`eles de Markov Latents en SAE Enquˆete LFS: donn´ees trimestrielles 2004-2014

Meilleure Pr´ediction Empirique SAE avec donn´ees binaires

Transversal

Mod`ele au niveau unit´e Approche par Maximum de vraisemblance R´eponse binaire Introduit des M´elanges Finis en SAE

Enquˆete LFS: 4`eme trimestre 2011 (A FAIRE)

M.G. Ranalli – Universit´e de P´erouse (Italie)

(35)

Aper¸cu

Notation mise ` a jour

Soit yij, une variable de r´eponsebinaire (=1 inactif; =0 sinon)pour l’unit´e j∈Ui dans le domaine i= 1, . . . , m Soitxij un vecteur de dimensionpdecovariables individuelles Nous nous int´eressons `a la pr´ediction de proportions sur les petits domaines

θi = 1 Ni

X

j∈Ui

yij

M.G. Ranalli – Universit´e de P´erouse (Italie)

(36)

Aper¸cu

Mod` ele et hypoth` eses

Soit αi uncoefficient al´eatoire sp´ecifique du domainedistribu´e selon une loi Gaussienne⇒αi∼N(0, σ2)

Conditionnellement `aαi, les r´eponses yij sont des variables al´eatoires de Bernoulli ind´ependantesavec une probabilit´e de succ`es

pij = Pr(yij = 1) = eαi+xTijβ 1 +eαi+xTijβ

M.G. Ranalli – Universit´e de P´erouse (Italie)

(37)

Aper¸cu

Les approches possibles

Approche na¨ıve ⇒ Prediction par substitution avec estimation PQL

θˆi =

 1 Ni

X

j∈Ui

eαi+xTijβ 1 +eαi+xTijβ

i,β)=( ˆαi,β)ˆ

Approche EBP ⇒ empirical best prediction

[Jiang et Lahiri, 2001, Jiang, 1998] avec estimation par la m´ethode des moments

θˆi =

 Z

 1 Ni

X

j∈Ui

eαi+xTijβ 1 +eαi+xTijβ

fαi|yi)dαi

i,β)=( ˆαi,β)ˆ

M.G. Ranalli – Universit´e de P´erouse (Italie)

(38)

Aper¸cu

EBP par le Maximum de Vraisemblance

Lavraisemblance sur les donn´ees observ´eespour l’ensemble des param`etres du mod`ele Φest

L(Φ) =

m

Y

i=1

Z

fy|α(yii)fαi)dαi (1)

avecfy|α(yii) le produit dedensit´es de Bernoulli f(yiji) Pour obtenir les estimations, nous devons traiter desint´egrales en grande dimension qui n’ont pas de solution explicite On utilise typiquement des m´ethodes d’approximation pour maximiser L(Φ) et cela peut ˆetre d´elicat informatiquement

M.G. Ranalli – Universit´e de P´erouse (Italie)

(39)

Aper¸cu

Probl` eme avec l’EBP

Calculer l’EBP estlent informatiquement `a cause de la solution des int´egrales qui n’ont pas de forme explicite (pour la m´ethode des moments et le Maximum de Vraisemblance) L’estimation du MSE peut ˆetre prohibitif informatiquement, mˆeme avec un nombre limit´e de domaines

Quand on utilise l’EBP avec des mod`eles mixtes logistiques (distribution normale avec effets al´eatoires), leBootstrap est moins gourmand informatiquement que les estimations analytiques du MSE.

Dans le LFS nous avons ≈100,000observations pour chaque trimestre et m= 611→ infaisable

M.G. Ranalli – Universit´e de P´erouse (Italie)

(40)

Une approche par le Maximum de Vraisemblance Non Param´etrique

Une approche par le Maximum de Vraisemblance Non Param´ etrique [Aitkin, 1996]

Nous utilisons l’approche par leMaximum de Vraisemblance Non Param´etrique (NPML) pour estimer les param`etres du mod`ele, ce qui nous permet

de calculer l’EBP et l’approximation analytique de son MSE d’´eviter des hypoth`eses inv´erifiables surfαi)

de r´eduire consid´erablement le volume de calcul

M.G. Ranalli – Universit´e de P´erouse (Italie)

(41)

Une approche par le Maximum de Vraisemblance Non Param´etrique

Distribution non-param´ etrique pour les coefficients al´ eatoires

On laisse fα(·) non sp´ecifi´ee, et on l’estime `a partir des donn´ees

On l’approxime par une distribution discr`ete sur G < m positions {α1, . . . , αG}, avec des probabilit´es associ´ees d´efinies parπg = Pr(αig),i= 1, . . . , m etg= 1, . . . , G.

αi

G

X

g=1

πgδαg

o`u δθ est une distribution ponctuelle de masse unit´e surθ.

M.G. Ranalli – Universit´e de P´erouse (Italie)

(42)

Une approche par le Maximum de Vraisemblance Non Param´etrique

La vraisemblance

Pour estimer Φ={α1, . . . , αG, π1, . . . , πG,β}, nous maximisons

L(Φ) =

m

Y

i=1 G

X

g=1

fy|α(yigg

L(Φ) ressemble `a lavraisemblance d’un m´elange fini

M.G. Ranalli – Universit´e de P´erouse (Italie)

(43)

Une approche par le Maximum de Vraisemblance Non Param´etrique

Estimation du mod` ele

Via l’algorithme EM [Dempster et al., 1977]

Le nombre de composantes du m´elange Gest trait´e comme connu, et estim´e `a l’aide de techniques de s´election de mod`ele (e.g. AIC)

Il est ´egalement possible d’estimer analytiquement la matrice de variance-covariance de Φˆ [Oakes, 1999]

M.G. Ranalli – Universit´e de P´erouse (Italie)

(44)

Une approche par le Maximum de Vraisemblance Non Param´etrique

(Empirical) Best Prediction

Le meilleur predicteur (BP)de θi est donn´e par

θ˜i=Eαi|yi) =

G

X

g=1

1 Ni

X

j∈Ui

eαg+xTijβ 1 +eαg+xTijβ

wig =

G

X

g=1

θi(g)wig

o`u wig est laprobabilit´e a posteriori que le petit domainei appartienne `a la composanteg du m´elange fini

Le meilleur pr´edicteur empirique (EBP-np)deθi est obtenu en rempla¸cant les vrais param`etres du mod`ele par leurs

estimateurs

θˆi=

G

X

g=1

1 Ni

X

j∈Ui

eαˆg+xTijβˆ 1 +eαˆg+xTijβˆ

wˆig =

G

X

g=1

θˆi(g) ˆwig

M.G. Ranalli – Universit´e de P´erouse (Italie)

(45)

Une approche par le Maximum de Vraisemblance Non Param´etrique

(Empirical) Best Prediction

Le meilleur predicteur (BP)de θi est donn´e par

θ˜i=Eαi|yi) =

G

X

g=1

1 Ni

X

j∈Ui

eαg+xTijβ 1 +eαg+xTijβ

wig =

G

X

g=1

θi(g)wig

o`u wig est laprobabilit´e a posteriori que le petit domainei appartienne `a la composanteg du m´elange fini

Le meilleur pr´edicteur empirique (EBP-np)deθi est obtenu en rempla¸cant les vrais param`etres du mod`ele par leurs

estimateurs

θˆi=

G

X

g=1

1 Ni

X

j∈Ui

eαˆg+xTijβˆ 1 +eαˆg+xTijβˆ

wˆig =

G

X

g=1

θˆi(g) ˆwig

M.G. Ranalli – Universit´e de P´erouse (Italie)

(46)

Une approche par le Maximum de Vraisemblance Non Param´etrique

Le MSE de EBP-np

Il est possible d’obtenir l’expression analytique du MSE et de l’estimer comme dans [Jiang et Lahiri, 2001] (non trait´e ici, tr`es technique!)

Quand on utilise l’EBP avec des mod`eles logistiques mixtes, le Bootstrap est moins gourmand informatiquement que les estimations analytiques du MSE.

Avec cette distribution discr`ete, le MSE analytique est beaucoup moins gourmand informatiquement que le

Bootstrap(particuli`erement quandm augmente)→ faisable

M.G. Ranalli – Universit´e de P´erouse (Italie)

(47)

Etude par simulations

Etude par simulations - bas´ ees sur un mod` ele

On simuleαi ∼N(0,0.25)(pire des sc´enarios pour NPML) yij ∼Bernoulli(pij) avec

logit(pij) =αi+xij et xij ∼Unif(−1, j/a) Cadre de [Gonz´alez-Manteiga et al., 2007].

Nous comparonsEBP-npavec EBP(Int´egration MC)

ApprocheNa¨ıve(pr´ediction par substitution)

Nous comparons l’estimateur analytique du MSE pour l’EBP-np avec

[Jiang et Lahiri, 2001] (Int´egration MC - pour l’EBP) [Gonz´alez-Manteiga et al., 2007] (Approximation lin´eaire - pour l’approche na¨ıve)

M.G. Ranalli – Universit´e de P´erouse (Italie)

(48)

Etude par simulations

Etude par simulations - bas´ ees sur un mod` ele

On simuleαi ∼N(0,0.25)(pire des sc´enarios pour NPML) yij ∼Bernoulli(pij) avec

logit(pij) =αi+xij et xij ∼Unif(−1, j/a) Cadre de [Gonz´alez-Manteiga et al., 2007].

Nous comparonsEBP-npavec EBP(Int´egration MC)

ApprocheNa¨ıve(pr´ediction par substitution)

Nous comparons l’estimateur analytique du MSE pour l’EBP-np avec

[Jiang et Lahiri, 2001] (Int´egration MC - pour l’EBP) [Gonz´alez-Manteiga et al., 2007] (Approximation lin´eaire - pour l’approche na¨ıve)

M.G. Ranalli – Universit´e de P´erouse (Italie)

(49)

Etude par simulations

Biais absolu de θ ˆ

i

m= 30, Ni= 100, ni= 10

0.00.10.20.30.4

EBP

0.00.10.20.30.4

Naive

0.00.10.20.30.4

EBP−np

m= 30, Ni= 1000, ni= 10

0.00.10.20.30.4

EBP

0.00.10.20.30.4

Naive

0.00.10.20.30.4

EBP−np

m= 100, Ni= 100, ni= 10

0.00.10.20.30.4

EBP

0.00.10.20.30.4

Naive

0.00.10.20.30.4

EBP−np

m= 200, Ni= 100, ni= 10

●●

0.00.10.20.30.4

EBP

0.00.10.20.30.4

Naive

0.00.10.20.30.4

EBP−np

M.G. Ranalli – Universit´e de P´erouse (Italie)

(50)

Etude par simulations

RMSE de θ ˆ

i

m= 30, Ni= 100, ni= 10

24681012

EBP

24681012

Naive

24681012

EBP−np

m= 30, Ni= 1000, ni= 10

24681012

EBP

24681012

Naive

24681012

EBP−np

m= 100, Ni= 100, ni= 10

24681012

EBP

24681012

Naive

24681012

EBP−np

m= 200, Ni= 100, ni= 10

24681012

EBP

24681012

Naive

24681012

EBP−np

M.G. Ranalli – Universit´e de P´erouse (Italie)

(51)

Etude par simulations

Temps de calcul pour obtenir θ ˆ

i

(n

i

= 10)

0.00.20.40.60.8

Computational Time (in minutes)

EBP Naive EBP−np

m=30, Ni=100 m=30, Ni=1000 m=100, Ni=100 m=200, Ni=100

*Architecture Intel Core I5 2.40 GHz

M.G. Ranalli – Universit´e de P´erouse (Italie)

(52)

Etude par simulations

Biais de RM SE(ˆ \ θ

i

)

m= 30, Ni= 100, ni= 10

0.00.51.01.52.02.53.0

EBP

0.00.51.01.52.02.53.0

Naive

0.00.51.01.52.02.53.0

EBP−np

m= 30, Ni= 1000, ni= 10

0.00.51.01.52.02.53.0

EBP

0.00.51.01.52.02.53.0

Naive

0.00.51.01.52.02.53.0

EBP−np

m= 100, Ni= 100, ni= 10

●●

0.00.51.01.52.02.53.0

EBP

0.00.51.01.52.02.53.0

Naive

0.00.51.01.52.02.53.0

EBP−np

m= 200, Ni= 100, ni= 10

0.00.51.01.52.02.53.0

EBP

●●●

●●●●

0.00.51.01.52.02.53.0

Naive

●●

0.00.51.01.52.02.53.0

EBP−np

M.G. Ranalli – Universit´e de P´erouse (Italie)

(53)

Etude par simulations

Temps de calcul pour obtenir RM SE(ˆ \ θ

i

)

010203040

Computational Time (in minutes)

EBP Naive EBP−np

m=30, Ni=100 m=30, Ni=1000 m=100, Ni=100 m=200, Ni=100

*Architecture Intel Core I5 2.40 GHz

M.G. Ranalli – Universit´e de P´erouse (Italie)

(54)

Etude par simulations

R´ esum´ e

Pour un petit m, l’estimateur du MSE obtenu avec l’approche NPML est moins pr´ecis que ses adversaires

Cependant, quandm augmente, notre proposition est meilleure que l’estimateur de Gonz´alez-Manteiga et devient plus proche de celui de Jiang et Lahiri

Si on consid`ere ´egalement le volume de calcul, l’approche NPML semble `a privil´egier

M.G. Ranalli – Universit´e de P´erouse (Italie)

(55)

Mod`eles au niveau domaine

Lumi` eres ... et ombres

Les Mod`eles de Markov Latents apportent un cadre de mod´elisation tr`es flexible

apportent un aper¸cu sur l’´evolution des estimateurs dans le temps

traitent des r´eponses multivari´ees et/ou des erreurs de mesure

fournissent une classification des petits domaines

compromis entre des coefficients de r´egression sp´ecifiques au domaine et un coefficient de r´egression commun

Choix de mod`ele Echange de Labels

M.G. Ranalli – Universit´e de P´erouse (Italie)

(56)

Mod`eles au niveau domaine

Lumi` eres ... et ombres

Les Mod`eles de Markov Latents apportent un cadre de mod´elisation tr`es flexible

apportent un aper¸cu sur l’´evolution des estimateurs dans le temps

traitent des r´eponses multivari´ees et/ou des erreurs de mesure

fournissent une classification des petits domaines

compromis entre des coefficients de r´egression sp´ecifiques au domaine et un coefficient de r´egression commun

Choix de mod`ele Echange de Labels

M.G. Ranalli – Universit´e de P´erouse (Italie)

(57)

Mod`eles au niveau domaine

D´ eveloppements futurs

Cadre multivari´e (emploi-chˆomeur-inactif)

Inclut la corr´elation spatiale – dans le mod`ele latent A voir - r´eponses Poisson/Binomiale/Multinomiale (MH)

M.G. Ranalli – Universit´e de P´erouse (Italie)

(58)

Mod`eles au niveau unit´e

Lumi` eres ... et ombres

Le Maximum de Vraisemblance Non Param´etrique apporte un outil tr`es utile pour

evelopper un EBP pour des r´eponses binaires (famille exponentielle en g´en´eral)

estimer la distribution du param`etre al´eatoire `a partir des donn´ees (prise en compte de la non-normalit´e)

obtenir un estimateur analytique du MSE calculable sur le plan informatique

classer les petits domaines Choix de mod`ele

M.G. Ranalli – Universit´e de P´erouse (Italie)

(59)

Mod`eles au niveau unit´e

Lumi` eres ... et ombres

Le Maximum de Vraisemblance Non Param´etrique apporte un outil tr`es utile pour

evelopper un EBP pour des r´eponses binaires (famille exponentielle en g´en´eral)

estimer la distribution du param`etre al´eatoire `a partir des donn´ees (prise en compte de la non-normalit´e)

obtenir un estimateur analytique du MSE calculable sur le plan informatique

classer les petits domaines Choix de mod`ele

M.G. Ranalli – Universit´e de P´erouse (Italie)

(60)

Mod`eles au niveau unit´e

D´ eveloppements futurs

Th´eorie

obtenir un terme de correction du biais pour l’estimateur du MSE afin d’am´eliorer la qualit´e des r´esultats

Simulations

´

evaluer notre proposition pour diff´erentes sp´ecifications de fαi)et comparer les r´esultats avec d’autres m´ethodes comparer les r´esultats pour le MSE analytique propos´e avec ceux par une approche Bootstrap

Application

appliquer l’approche bas´ee sur le NPML `a l’enquˆete LFS qui consiste en611 petits domaines avec'100,000observations

M.G. Ranalli – Universit´e de P´erouse (Italie)

(61)

ef´erences

R´ ef´ erences I

Aitkin, M. (1996). A general maximum likelihood analysis of overdispersion in generalized linear models.Statistics and Computing, 6(3):251–262.

Bartolucci, F., Farcomeni, A., et Pennoni, F. (2013). Latent Markov models forlongitudinal data, Chapman&Hall/CRC Taylor and Francis Group.

Chib, S. (1995). Marginal likelihood from the Gibbs output. JASA 90, 1313-1321.

Datta, G.S., Lahiri, P., Maiti, T., et Lu, K.L. (1999), Hierarchical Bayes Estimation of Unemployment Rates for the U.S. States, JASA 94, 1074-1082.

Datta, G.S., Lahiri, P., et Maiti, T. (2002). Empirical Bayes Estimation of Median Income of Four-Person Families by State Using Time Series and Cross-Sectional Data, JSPI 102, 83-97

Dempster, A. P., Laird, N. M., et Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. JRSS-B 39, 1–38.

M.G. Ranalli – Universit´e de P´erouse (Italie)

(62)

ef´erences

R´ ef´ erences II

Fabrizi, E., Montanari, G.E., Ranalli, M.G. (2016). A hierarchical latent class model for predicting disability small area counts from survey data, JRSS-A 179-1, 103-131.

Ghosh, M., Nangia, N., et Kim, D. (1996), Estimation of Median Income of Four-Person Families: A Bayesian Time Series Approach, JASA 91, 1423-1431.

Gonz´alez-Manteiga, W., Lombard´ıa, M. J., Molina, I., Morales, D., et Santamar´ıa, L. (2007). Estimation of the mean squared error of predictors of small area linear parameters under a logistic mixed model. CSDA,

51(5):2720–2733.

Jiang, J. et Lahiri, P. (2001). Empirical best prediction for small area inference with binary data.Annals of the Institute of Statistical Mathematics,

53(2):217–243.

Jiang, J. (1998). Consistent estimators in generalized linear mixed models.

JASA, 93(442):720–729.

M.G. Ranalli – Universit´e de P´erouse (Italie)

(63)

ef´erences

R´ ef´ erences III

Oakes, D. (1999). Direct calculation of the information matrix via the EM.

JRSS-B, 61(2):479–482.

Pfeffermann, D., et Burck, L. (1990). Robust Small Area Estimation Combining Time Series and Cross-Sectional Data, Survey Methodology 16, 217-237.

Rao, J.N.K. et Yu, M. (1994). Small area estimation by combining time series and cross-sectional data. Canadian Journal of Statistics 22, 511-528.

Tanner, M. A., et Wong, W. H. (1987). The calculation of posterior distributions by data augmentation. JASA 82, 528-540.

Van Dyk, D. A., Meng, X. L. (2001). The art of data augmentation. JCGS 10-1.

You, Y., Rao, J.N.K., Gambino, J. (2003). Model-based unemployment rate estimation for the Canadian Labour Force Survey: a hierarchical Bayes approach.

Survey Methodology, 29-1, 25–32.

M.G. Ranalli – Universit´e de P´erouse (Italie)

Références

Documents relatifs

On veut utiliser un mod`ele d’Ising (avec la convention, potentiel de valeur 0 quand les deux sites voisins sont de mˆeme classe et β quand les deux sites voisins sont dans des

Th´ eor` eme quantile : besoin d’un terme suppl´

En r ´ealit ´e le m ´ecanisme est plus complexe, c’est une r ´eaction d’autocatalyse dans laquelle interviennent plusieurs r ´eactions avec des vitesses de diff ´erents ordres

(2003) apply the same model to unemployment rate estimation for the Canadian Labour Force Survey using shorter time series data and do not consider seasonal adjustments.. In this

Dans le cas o` u le nombre total de politiques stationnaires est fini (e.g., si X et U le sont), on peut remplacer “&gt; ” par “&gt; 0” et l’algorithme s’arrˆ ete toujours

Nous voudrions pouvoir utiliser plusieurs fois un m ˆeme g ´en ´erateur au sein d’un programme, mais en d ´ebutant avec des semences diff ´erentes afin de produire des suites

1 la distance d’un point `a son plus proche voisin, qui est aussi la distance de l’origine au point le plus proche, ou de mani `ere ´equivalente le vecteur non-nul le plus court dans

Pour les probl`emes suivants, donner une description d’une ma- chine de Turing qui le resolve et donner la complexit´e en temps et en espace.. Tester si un entier ´ecris en binaire