• Aucun résultat trouvé

Quelques diagnostics locaux pour le modèle de Fay-Herriot

N/A
N/A
Protected

Academic year: 2022

Partager "Quelques diagnostics locaux pour le modèle de Fay-Herriot"

Copied!
26
0
0

Texte intégral

(1)

Quelques diagnostics locaux pour le modèle de Fay-Herriot

Éric Lesage

INSEE

24-26 octobre 2018

10e Colloque francophone sur les sondages Lyon

Travail réalisé en collaboration avec Cynthia Bocci et Jean-François Beaumont, Statistique Canada

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 1 / 26

(2)

Contexte

On considère une populationU et un échantillons tiré dansU selon un plan de sondagep(s).

U est partitionné enmdomaines (domaines non planifiés)Ui ;i=1, . . . , m.

On s’interesse aux paramètres d’intérêtθi associés aux domaines i=1, . . . , m.

On dispose d’information auxiliaire sous la forme de vecteurszi de caractéristiques disponibles pour tous les domainesi =1, . . . , m.

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 2 / 26

(3)

Modèle de liaison

On suppose qu’on dispose d’unmodèle de liaisonqui nous permet de décomposer les paramètres d’intérêtθi de la façon suivante :

θi>zi+vi, où :

(i) β>zi est l’effet connu ou expliqué par le modèle deθi,

(ii) vi est l’effet inconnu ou l’effet localdeθi (qui ne dépend pas dezi).

vi est la réalisation d’une variable aléatoire qui suit une loi normaleN(0, σ2v).

On fait l’hypothèse queβ andσ2v sont connus (pour la partie théorique de la présentation).

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 3 / 26

(4)

Estimateur direct pour le domaine i

Il peut s’agir d’un estimateur Horvitz-Thompson ou un estimateur par calage.

On noteei l’erreur d’échantillonnage : ei = ˆθi − θi.

On noteψi la variance deθˆi sous le plan de sondage.

Le nombre d’unités sélectionnées dans le domainei,ni, peut être très faible (voir nul)...

... ce qui peut conduire à une très faible précision de l’estimateur directθˆi.

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 4 / 26

(5)

Estimateur composite pour le domaine i

Fay et Herriot ont proposé unestimateur composite dans le but d’obtenir un estimateur plus précis que l’estimateur direct :

θˆi = γi θˆi + (1−γi>zi,

γi = σ2v

σ2v+ ˜ψi

etψ˜i = E(ψi|zi).

γi peut être vu comme une mesure de la force relative de l’échantillonnage par rapport au modèle de liaison.

(i) γi →1, lorsquela taille de l’échantillon est importanteoù lorsque le modèle est très peu puissant.

(ii) γi →0, lorsque la taille de l’échantillon est faible où lorsquele modèle est très puissant(à la limite on pourrait se dispenser d’échantillonner le domaine) (iii) γi ≈0,5, lorsque l’erreur d’échantillonnage est du même ordre de grandeur

que l’erreur du modèle de liaison.

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 5 / 26

(6)

Illustration du lien entre γ

i

et n

i

pour un domaine i donné

0 500 1000 1500 2000 2500 3000

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

Relation between γi and ni

ni γi

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 6 / 26

(7)

Inférence sous le modèle combiné ou sous le plan

L’inférence sous le plan de sondage et le modèle de liaison est appelée inférence sous lemodèle combiné. On peut écrire ce modèle sous la forme :

θˆi>zi+vi+ei.

Afin d’apprécier la précision de l’estimateur composite, on a deux possibilités :

soit prendre l’erreur quadratique moyenne sous le plan de sondage, soit prendre l’erreur quadratique moyenne sous le modèle combiné.

L’approche sous le modèle combiné, fournit les EQM suivantes pour les estimateurs direct et indirect du domainei :

(i) mse(ˆθi |zi) = ˜ψi

(ii) mse(ˆθi |zi) =γi ψ˜i

L’estimateur composite est donc toujours plus précis que l’estimateur direct avec une inférence sous le modèle combiné(ce résultat résulte de la construction même de l’estimateur composite)

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 7 / 26

(8)

Inférence sous le plan

Par contre, et cela est une question légitime, on peut se demander si l’estimateur composite est toujours plus précis que l’estimateur direct avec uneinférence sous le plan de sondage?

On montre que ça dépend de l’amplitude de l’effet localvi et éventuellement de la valeur du coefficientγi.

On donneradeux diagnostics locauxconçus pour évaluer si l’estimateur composite est susceptible d’être plus précis que l’estimateur direct. On entend par diagnostic local un diagnostic qui porte sur un domaine spécifique.

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 8 / 26

(9)

EQM sous le plan des estimateurs direct et indirect

Les EQM sous le plan des estimateurs direct et indirect pour le domainei valent :

(i) msep

θˆi

i

(ii) msep

θˆi

= γ2i ψi + (1−γi)2vi2

Pour un domainei donné et une valeurvi fixée, on analyse les valeurs de msep

θˆi

etmsep θˆi

en fonction des valeurs deγi , Sous l’hypothèse simplificatriceψi≈ψ˜i on obtient :

(i) msep

θˆi

≈ 1−γi

γi

σ2v ,

(ii) msep

θˆi

≈(1−γiv2+ (1−γi)2(vi2−σ2v)ou msep

θˆi

≈(1−γii σv2+ (1−γi)2vi2 On en déduit que :

(i) lorsque|vi|<√

v,msep

θˆi

est plus petit quemsep

θˆi

∀γi.

(ii) A l’inverse, lorsque|vi|>√

v, il existe une valeur deγi au delà de laquelle msep

θˆi

> msep

θˆi

.

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 9 / 26

(10)

mse

p

θ ˆ

i

peut être supérieure à mse

p

θ ˆ

i

0.0 0.2 0.4 0.6 0.8 1.0

0 2 4 6 8

Design MSE of the Composite Estimator: msep(θˆi*)

γi

msep(θˆi*)/σv2

for different values of vi

vi = 0 vi = σv

vi = 2 σv

vi = 3 σv

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 10 / 26

(11)

mse

p

θ ˆ

i

peut être supérieure à mse

p

θ ˆ

i

0.0 0.2 0.4 0.6 0.8 1.0

0 2 4 6 8

Design MSE of the Composite Estimator: msep(θˆi*)

γi

msep(θˆi*)/σv2

for different values of vi

vi = 0 vi = σv

vi = 2 σv

vi = 3 σv

ψ˜i = ψi

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 11 / 26

(12)

L’effet local v

i

doit donc être d’ampleur limitée si on espère obtenir que mse

p

θ ˆ

i

≤ mse

p

θ ˆ

i

On raisonne maintenant àγi fixé pour un domaine i donné.

Definition (Limites devi)

vi(−)et vi(+)sont les deux valeurs limites telles que :

msep

θˆi

≤ msep

θˆi

⇐⇒ vi ∈[vi(−), vi(+)]

Proposition (Limites devi) (i) vi(+) =−vi(−) ≈ σv

r1+γi

γi

, sous l’hypothèseψi≈ψ˜i.

(ii) Pour des grandes valeurs deγi (i.e. γi proche de1), le paramètre|vi|doit être inférieur à√

v pour avoirmsep

θˆi

≤ msep

θˆi

.

(iii) Pour de petites valeurs deγi, le paramètrevi(+) peut prendre de très grandes valeurs !

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 12 / 26

(13)

Pour un domaine i donné

0.0 0.2 0.4 0.6 0.8 1.0

−6

−4

−2 0 2 4 6

Limit values for the local effect vi

γi

vi(+)/σv

vi(−)/σv

+ ou − 2

msep(θˆ

i

x)<msep(θˆi)

msep(θˆi

x)>msep(θˆi)

msep(θˆ

i

x)>msep(θˆi)

Figure:Valeurs limites de l’effet local en fonction deγi

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 13 / 26

(14)

Deux diagnostics pour choisir entre l’estimateur direct et l’estimateur indirect

Pour un domainei donné, le choix entre l’estimateur direct et l’estimateur indirect dépend de :

(i) La valeur du coefficientγi qui est connue (ou estimée) ;

(ii) La valeur devi, qui est certesinconnuemais qui est captée indirectement à travers la quantité observée : θˆi−β>zi = ei + vi.

On utilise deux approches différentes pour dériver les deux diagnostics destinés à décider quel estimateur est le plus précis sous le plan de sondage :

(i) La première approche s’appuie sur destests statistiques d’hypothèsesqui concernent le paramètrevi dans le cadre d’une inférence sous le plan.

(ii) La seconde approche dite“ Empirical Bayes ” (EB) s’appuie sur une distribution conditionnelle devi.

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 14 / 26

(15)

Première approche : test d’hypothèses sous le plan

vi est considéré comme unparamètreinconnu.

Sous le plan de sondage, la variable aléatoireθˆi−β>zi suit la loi : θˆi−β>zi |vi, zi ∼ N(vi, ψi),

Nous avons une unique observation de cette variable aléatoireθˆi−β>zi

On utilise deux tests pour évaluer si|vi| est plus petit quevi(+) (i) Deux jeux d’hypothèses:

H0(+) :vi = vi(+) H1(+) :vi >vi(+) H0(−) :vi = vi(−) H1(−) :vi <vi(−) (ii) Statistiques de test:

Si(+) = εi − √ 1+γi

√1−γi

× sψ˜i

ψi

∼ N(0, 1)

Si(−) = εi + √ 1+γi

√1−γi

× sψ˜i

ψi

∼ N(0, 1)

oùεi = θˆi−β>zi

q σ2v+ ˜ψi

est l’erreur standardisée du domainei.

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 15 / 26

(16)

Première approche : test d’hypothèses sous le plan

(iii) P-values:

Pvalue(+) = Φ (−Si(+)) Pvalue(−) = Φ (Si(−))

oùΦ(·)est la fonction de répartition de la loi normale.

Definition (Premier diagnostic)

Le premier diagnostic est défini comme le minimum des deux P-values (Pvalue(−), Pvalue(+)):

Diag(D)i = Φ √

1+γi − |εi|

√1−γi

oùεi =√θˆi−β>zi

σ2v+ ˜ψi est l’erreur standardisée du domainei.

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 16 / 26

(17)

Première approche : test d’hypothèses sous le plan

Le premier diagnostic s’interprète de la façon suivante : (i) QuandDiag(D)i est faible, on rejèteH0, ce qui signifie qu’on “garde”

l’estimateur directθˆi.

(ii) A l’inverse, lorsqueDiag(D)i est grand, on accepteH0, ce qui signifie qu’on

“garde” l’estimateur compositeθˆi.

Pour obtenir une règle de décision il est nécessaire de choisir un seuil: (i) On peut par exemple s’inspirer des valeurs utilisées habituellement comme

niveaux pour les tests (α=5%ou 10%). Avec ces valeurs, compte tenu du sens du test, on favorise l’estimateur composite.

(ii) Une autre idée est d’adopter une approche empirique et de regarder la distribution des valeurs du diagnostic pour lesmdomaines

{Diag(D)i, i∈(1, . . . , m)}et de repérer une rupture.

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 17 / 26

(18)

Seconde approche : approche Empirical Bayes

Dans cette approche,vi est vue comme la réalisation d’une variable aléatoire qui suit une loi normaleN(0, σv2).

Selon l’approche “Empirical Bayes” (Rao et Molina, 2015, chap 9, pages 271-272), nous avons la loi conditionnelle devi :

vi|θˆi−β>zi ∼ N

γi(ˆθi−β>zi), (1−γi2v .

Le second diagnostic est défini comme la probabilité conditionnelle d’avoir msep

θˆi

≤ msep

θˆi

, c’est-à-dire:

Diag(EB)i = Prob msep

θˆi

≤ msep

θˆi

|θˆi−β>zi

= Prob

vi(−)≤vi ≤vi(+)|θˆi−β>zi

= Φ vi(+)−γi(ˆθi−β>zi)

√1−γi σv

!

−Φ vi(−)−γi(ˆθi−β>zi)

√1−γi σv

!

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 18 / 26

(19)

Seconde approche : approche Empirical Bayes

Definition (Second diagnostic)

Diag(EB)i = Φ

r γi 1−γi

i|+

√1+γi γi

−1

+ Φ

r γi 1−γi

√ 1+γi

γi

− |εi|

,

oùεi =

θˆi−β>zi

q σ2v+ ˜ψi

est l’erreur standardisée du domainei.

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 19 / 26

(20)

Etude par simulation

On réalise l’étude par simulation à partir d’un jeu de données réelles de l’enquête emploi canadienne de mai 2011 :

(i) m=140 aires métropolitaines de recensement et aires de recensement (ii) zi est le ratio du nombre d’allocataires de l’assurance chômage dans l’airei sur

le nombre de personnes de plus de 15 dans l’airei.

(iii) ni est la taille de l’échantillon dans l’airei

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 20 / 26

(21)

Etude par simulation

Ensuite, à partir de ces données réelles, on simule les paramètresθi pour les mdomaines.

Les paramètres d’intérêtθi peuvent être interprétés comme des taux de chômage desmdomaines.

On réalise trois jeux de simulations pour lesθi : un jeu qu’on appellera jeu initial, puis un second jeu appelé “premier jeu modifié” et enfin un troisième jeu qualifié de “second jeu modifié”.

Dans lejeu initial,θi suit une loi bétaBeta(β>zi, σv2), oùσv =0.87%et β>= (0.0484, 1.95).

Dans lepremier jeu modifié(5σv): on a modifié manuellement les valeurs de θi pour 4 aires de manière à avoirvi=5×σv.

Dans lesecond jeu modifié(15σv): on a modifié manuellement les valeurs de θi des mêmes 4 aires de manière à avoirvi =15×σv.

Le plan de sondage est un tirage aléatoire simple stratifié par aire avec remise. ψi andψ˜i sont calculés une fois unique pour chaquei =1, . . . , m.

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 21 / 26

(22)

Simulations Monte Carlo Simulation avec K = 10 000 replications

On répèteK =10 000 fois l’échantillonnage.

Pour chaque itérationk, k=1, . . . , K, on sélectionne un échantillon et on calcule :

L’estimateur directθˆi(k) l’estimateur compositeθˆi(k):

θˆi(k) = ˆγi(k) ˆθi(k) + {1−ˆγi(k)} bβ(k)>zi

(i) ˆγi(k) = ˆσ2v(k) ˆ σv2(k) + ˜ψi

(ii) bβ(k)etσˆv(k)sont estimés (moindres carrées pondérés pourβbet maximum de vraisemblance réduite (REML) pourσˆv).

On calcule également les quantités Monte Carlovˆi(+)(k),vˆi(−)(k),εˆi(k), Diag(EB)\ i(k)etDiag\(D)i(k).

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 22 / 26

(23)

Mesures Monte Carlo

Diag(EB)\ i etDiag(D)\ i sont les moyennes Monte Carlo des diagnostics calculés à l’occasion desK =10 000 itérations.

La mesure Monte Carlo de l’erreur quadratique sous le plan de sondage de l’estimateurθˆi vaut :

mseMC(ˆθi) = 1 K

K

X

k=1

θˆi(k)−θi2

.

On calcule la différence relative entre la mesure Monte Carlo de l’EQM sous le plan de l’estimateur composite et l’EQM sous le plan de l’estimateur direct θˆi:

mseMC(ˆθi) − ψi

ψi

.

Quand ce ratio est positif, on a un estimateur indirect moins précis que l’estimateur direct. On va comparer la valeur moyenne des deux diagnostics à ce ratio. Le diagnostic sera donc performant si les valeurs qu’il prend pour chacun des domaines sont corrélées aux valeurs du ratio pour ces mêmes domaines.

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 23 / 26

(24)

● ●

●●

● ●

●●

● ●

●●

● ● ●

● ●

●●

−1.0 −0.5 0.0 0.5

0.00.20.40.60.81.0

Diag(D)i for the 140 areas

(mseMC(θ^ i x)− ψi)ψi Diag(D)i

n=10 n=100 n=501 n=3773

● ●

●●

● ●

●●

● ●

●●

● ●

●●

● ●

●●

● ●

● ●

●●

−1.0 −0.5 0.0 0.5

0.00.20.40.60.81.0

Diag(EB)i for the 140 areas

(mseMC(θ^ i x)− ψi)ψi Diag(EB)i

n=10 n=100 n=501 n=3773

Figure:diagnostics D et EB Monte Carlo avec le premier jeu modifié (5σv)

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 24 / 26

(25)

● ●

●●●

● ●

● ●

−1.0 −0.5 0.0 0.5 1.0 1.5 2.0

0.00.20.40.60.81.0

Diag(D)i for the 140 areas

(mseMC(θ^ i x)− ψi)ψi Diag(D)i

n=10 n=100 n=501 n=3773

●●

● ●

●● ●●

● ●

● ●

● ●●●

●●●

●●●●

● ●

● ● ●

● ●

●● ●

−1.0 −0.5 0.0 0.5 1.0 1.5 2.0

0.00.20.40.60.81.0

Diag(EB)i for the 140 areas

(mseMC(θ^ i x)− ψi)ψi Diag(EB)i

n=10 n=100 n=501 n=3773

Figure:diagnostics D et EB Monte Carlo avec le second jeu modifié (15σv)

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 25 / 26

(26)

●●

●●

● ●

●●

● ●

● ●

●● ●

● ●

−1.0 −0.5 0.0 0.5 1.0 1.5

0.00.20.40.60.81.0

Diag(D)i for the 140 areas

(mseMC(θ^ i x)− ψi)ψi Diag(D)i

n=10 n=100 n=501 n=3773

●●

●●●●●●

●●

● ●

●●

● ●

● ●

● ●

● ●

●● ●

● ●

● ●● ●

−1.0 −0.5 0.0 0.5 1.0 1.5

0.00.20.40.60.81.0

Diag(EB)i for the 140 areas

(mseMC(θ^ i x)− ψi)ψi Diag(EB)i

n=10 n=100 n=501 n=3773

Figure:diagnostics D Monte Carlo avec le jeu initial

Éric Lesage (INSEE) Colloque francophone sur les sondages 24-26 octobre 2018 26 / 26

Références

Documents relatifs

Cela fait, la boîte de visée est positionnée à l’emplacement de chaque jalon pour déterminer l’individu le plus proche dans la visée perpendiculaire à la base.. Pour cela, il

Thus the main conclusions drawn from the results based on pedigree information are in agreement with conclusions made from the molecular data, although the correlations

Patients with intronic, splice site, or nonsense DMD mutations, with available muscle biopsy Western blot data, were included irrespective of whether they presented with severe

D’une statistique est une distribution de probabilité des valeurs prises par cette statis- tique mesurées sur tous les échantillons possibles.. D’une moyenne empirique a pour

Exercice 9 : Le nombre X de demandes hebdomadaires d’un certain produit suit une loi de Poisson de paramètre inconnu λ. On veut évaluer la probabilité p que X

Un nouvel estimateur des quantiles extrêmes basé sur le modèle “log Weibull-tail” généralisé.. Clément Albert, Anne Dutfoy, Laurent Gardes,

Résumé – Parmi les estimateurs de matrice de covariance, l’estimateur de Tyler régularisé offre des performances constantes quelle que soit la distribution statistique des

Nous ´ evaluons les propri´ et´ es de convergence de l’estimateur ` a distance finie sur des donn´ ees simul´ ees selon un mod` ele lin´ eaire ` a effets mixtes d’une part, et