• Aucun résultat trouvé

Mesure de l’incertitude liée à l’estimation sur petits domaines basée sur un modèle : une évaluation J. N. K. Rao Université Carleton, Ottawa, Canada

N/A
N/A
Protected

Academic year: 2022

Partager "Mesure de l’incertitude liée à l’estimation sur petits domaines basée sur un modèle : une évaluation J. N. K. Rao Université Carleton, Ottawa, Canada"

Copied!
26
0
0

Texte intégral

(1)

1

Mesure de l’incertitude liée à l’estimation

sur petits domaines basée sur un modèle : une évaluation

J. N. K. Rao

Université Carleton, Ottawa, Canada

Communication sollicitée présentée lors du 9e Colloque francophone sur les sondages, du 11 au 14 octobre 2016 à Gatineau, Québec, Canada

(2)

2

Mesures d’incertitude pour les estimateurs directs

 Échantillon s, poids de sondage d kk ,  s

Estimateur du total de la population Y basé sur le plan:

ˆ k s k k

Y

d y = Y yˆ( )

 Estimateur de variance : v Y( )ˆ  v y( )  s Y2( )ˆ

 CV( )Yˆ  s Y( ) /ˆ Yˆ

(3)

3

 Intervalles de confiance s’appuyant sur la loi normale :

/2 /2

ˆ ˆ ˆ ˆ

[Yz s Y Y( ),  z s Y( )]

 Neyman (1934) : « Si les méthodes d’échantillonnage et d’estimation nous permettent d’attribuer à chacun des échantillons possibles s un intervalle de confiance tel que la fréquence des erreurs de couverture ne dépasse pas la valeur 1 prévue, quelles que soient les propriétés

inconnues de la population, je qualifierais la méthode d’échantillonnage de représentative et la méthode d’estimation, de convergente. »

(4)

4

L’estimateur de variance n’est pas unique :

Estimateur GREG : ˆG ( k k ) k

Y

k s d g y  Yˆ (X Xˆ )T Bˆ Estimateurs de variance : v Y( ˆG)  v e( ) et v Y1( ˆG)  v ge( )

Résidus : ˆ

k k k

eyx B  ykyˆk Poids GREG : wkg dk k ,ks

Exemple : Estimateur par le ratio YˆR  ( /Y X Xˆ ˆ )  RXˆ

ˆ ˆ

/ and

k k k k

gX X eyRx

(5)

5

Quel estimateur de variance choisir ?

L’estimateur par le ratio converge sous le plan et est sans biais par rapport au modèle en vertu du modèle du ratio

( ) , ( ) 2

m k k m k k

E y  x V y  x

 Contrairement à v Y( ˆR), v Y1( ˆR) est convergent sous le plan et également asymptotiquement sans biais pour la

variance sous le modèle de ˆ YR.

(6)

6

Qu’en est-il de la couverture de l’intervalle de confiance ? Neyman a-t-il raison ?

 Pivot (YˆRY) / (s YˆR)  Y eˆ( ) / ( )s e

 Si les écarts par rapport au modèle du ratio ne sont pas importants, alors l’asymétrie des résidus ek sera faible même si y et x présentent une forte asymétrie et les IC normaux fonctionnent bien. Par conséquent, la structure de la population revêt une importance dans les

inférences fondées sur le plan, contrairement à la croyance populaire.

(7)

7

Exemple (Dorfman, 1994; Rao et coll., 2003)

 EAS en deux phases, estimateur par la régression linéaire

( )

ylr  y b x x

 Vrai modèle : yi  8xi2 i et asymétrie des résidus de régression linéaire 6,40. Pour la taille de l’échantillon de première phase n  80 et la taille de l’échantillon de

deuxième phase n  40, la couverture de l’IC est de 61% .

 Estimateur assisté par un modèle de régression quadratique : la couverture de l’IC est de 91%.

(8)

8

Estimation directe par domaine

( )

s i = échantillon appartenant au domaine i, aik étant l’indicatrice d’appartenance au domaine

Estimateur sans biais :

( )

ˆi k s i k k

Y

d y Estimateur GREG :

( )

ˆRi k k ( / ˆ ˆ) i

k s i

Y

w yX X Y ˆRi

Y n’apporte aucun gain d’efficacité par rapport à ˆ Yi.

(9)

9

Approche modèle pour l’EPD : modèle de Fay-Herriot au niveau des domaines

 Les paramètres d’intérêt sont les moyennes des

domaines Yi et les covariables associées au niveau du domaine zi sont disponibles.

 Les estimateurs directs ˆ

Yi ne sont pas fiables si les tailles d’échantillon des domaines sont petites. Il faut aller

chercher de la stabilité en mobilisant tous les domaines par le biais de modèles de liaison qui utilisent les zi.

Modèle de liaison :

( ) , ~ (0, 2)

i g Yi zi v vi i iid N v

     

(10)

10

Exemples de modèles de liaison : g P( )i  sin (1 Pi ) pour les proportions YiPi (Casas-Cordero et coll., 2016) et

( )i log( )i

g YY pour le revenu dans des petites localités (Fay et Herriot, 1987).

Modèle d’échantillonnage « correspondant » au modèle de liaison :

ˆi i e ei, |i i ~ind N(0, i)

     , où i est connu

Modèle combiné : ˆ

i zi vi ei

     (modèle linéaire mixte)

 Le modèle « sans correspondance » utilise ˆ

i i i

Y  Y f avec E f( )i  0.

(11)

11

 Données : {( , ),ˆi zi i 1,...,m}. Estimateurs des

paramètres du modèle ( , v2) : Méthode de moments de FH, MV, MV réduit.

 Meilleur estimateur empirique (EB) de iYi : ˆiEB ˆi iˆ (1 ˆi )zi ˆ

       ,  ˆi  ˆv2 / (ˆv2 i )

 Modèles sans correspondance : Estimateur hiérarchique bayésien (HB) de la moyenne du domaine Yi (You et Rao, 2002).

(12)

12

Estimation de l’erreur quadratique moyenne (EQM) inconditionnelle :

 Estimateur de l’EQM sans biais d’ordre deux pour MLR :

2 2 2

1 2 3

ˆ ˆ ˆ ˆ

mse(iEB)  g i(v )  g i(v )  2g i(v )

 Le premier terme g1i(ˆv2)   ˆi i. Le second terme dû à l’estimation de  et le dernier terme dû à l’estimation de

2

v sont d’ordre inférieur : O m( 1).

(13)

13

Bootstrap paramétrique

 Étape 1 : Générez i* à partir de N z( i ˆ ˆ, v2).

Étape 2 : Générez ˆi* à partir de N( i*, i).

Étape 3 : Appliquez EB aux données de bootstrap ˆ*

(i , ),zi i 1,...,m pour obtenir les estimations d’EB ˆiEB*. Étape 4 : Répétez les étapes 1 à 3 B fois.

(14)

14

 Estimateur de l’EQM bootstrap :

1 * * 2

ˆ ˆ

( EB) [ EB ( ) ( )]

B i b i i

mse   B

b  b

 mse (BˆiEB)  g1i(ˆv2)  g2i(ˆv2)  g3i(ˆv2)

 Il est possible d’obtenir un estimateur ajusté pour le biais de mse(ˆiEB), mais cela exige de mettre en œuvre un

double bootstrap.

(15)

15

Propriétés sous le plan de mse(ˆiEB)

 On suppose que tous les paramètres sont connus :

2

ˆ 1

mse(iEB)  g i(v )

 L’espérance sous le plan de la moyenne des estimateurs de l’EQM convergent en probabilité sous le modèle vers la moyenne des EQM sous le plan des estimateurs EB quand m  .

(16)

16

Estimateur sans biais sous le plan de l’EQM

 Ecrivons ˆiEB sous la formeˆihi ( ) où   ( ,... 1 m).

 mse (dˆiEB) i  2 hi( ) /ˆ  ˆi hi2( )

est sans biais par rapport au modèle d’échantillonnage. Il peut prendre des valeurs négatives.

 Dans le cas particulier où les paramètres du modèle sont connus, nous avons

2 2

ˆ ˆ

( B) (1 )[( T ) ( )]

d i i i i i i v i

mse         z    

(17)

17

 La CV de l’estimateur de l’EQM sous le plan peut être très grand, particulièrement pour les domaines qui

comportent de grandes variances d’échantillonnage

(Datta et coll., 2011). Notons que pour de grandes valeurs de i nous avons i  0 et

2 2

ˆ ˆ

( B) ( T ) ( )

d i i i i v

mse     z    

ce qui est instable et peut prendre des valeurs négatives.

Estimateur composite de l’EQM

msec(ˆiEB)  ˆimsed (ˆiEB)  (1 ˆi)mse(ˆiEB)

(18)

18

 On accorde moins de poids à l’estimateur de l’EQM sous le plan lorsque la variance de l’échantillonnage est grande et cela contrôle son CV.

 L’estimateur composite de l’EQM a un biais sous le plan plus petit que l’estimateur de l’EQM basé sur le modèle.

Résultats de la simulation

m  30 domaines avec des valeurs de i (2; 0,6; 0,5; 0,4;

0,2) données à six domaines chacune.

On génère les vi ~ N(0,1), qui sont gardées fixes ; On calcule ensuite iziT  vi.

(19)

19

 On génère {ˆi( )r ,i 1,...,30; r 1,..., R} à partir du modèle d’échantillonnage  ˆi  i ei avec ei ~ N(0,i).

 Pour chaque simulation, on estime les paramètres du modèle et on calcule les estimateurs EB et les

estimateurs de leur EQM (R  30,000).

L’EQM réelle est calculée à l’aide de R100,000.

 Le biais relatif (BR) des estimateurs de l’EQM et la racine carrée de l’erreur quadratique moyenne relative

(REQMR) sont calculés pour chacun des domaines triés par ordre de taille d’échantillon croissant.

(20)

20

(21)

21

(22)

22

EQM conditionnelle à ˆi

MSEc(ˆiEB)  E[(ˆiEB i) |2ˆi]

 Datta et coll. (2011) ont obtenu un estimateur sans biais d’ordre deux de l’EQM conditionnelle. Le terme principal demeure toutefois inchangé :g1i (ˆv2). Seul le terme g3i est touché; il dépend de ˆi.

 L’estimateur de l’EQM conditionnelle est similaire à

l’estimateur de l’EQM inconditionnelle en termes de BR et de CV.

(23)

23

Intervalles de confiance

Pivot : ti  (ˆiEB i) / {g1i(ˆv2)}1/2

Pivot bootstrap : ti*  (ˆi*EB ˆiEB) / {g1i(ˆv*2)}1/2

Procédure : Générer B pivots bootstrap ti*(1),..., ( )t Bi* et déterminer les points inférieur et supérieur q1 and q2 de sorte que l’aire entre les points inférieur et supérieur de la distribution bootstrap empirique soit égale au niveau

spécifique 1 .

(24)

24

 Intervalle calibré bootstrap de i obtenu à partir de

1 i 2

q  t q sous la forme c1i  i c2i .

 Cet intervalle est bon à l’ordre deux, à la condition que l’hypothèse de normalité tienne (Chatterjee et coll., 2008). L’intervalle pour une relation bijective

( )i 1( )i

h   g  est obtenu sous la forme

1 2

( i) ( )i ( i) h ch   h c .

 Casas-Cordero et coll. (2014) ont utilisé les intervalles bootstrap pour obtenir les taux de pauvreté dans les communes du Chili. Dans leur cas

( ) sin ( )2

i i i i

Y  P h    .

(25)

25

Modèle au niveau de l’unité statistique

 Les données au niveau de l’unité

{(y xij, ij), j 1,..., ;n ii 1,..., }m et les moyennes de la région de la population Xi sont disponibles.

 Modèle de régression linéaire à erreurs emboitées de la population :

, 1,..., ; 1,...,

ij ij i ij i

yx  v e jN im

 Le modèle de la population tient pour l’échantillon : aucun biais lié à la sélection de l’échantillon.

(26)

26

 On dispose du meilleur estimateur empirique (EB) ˆ EB

Yi et de l’estimateur de son EQM basé sur le modèle (Rao et Molina, 20015, chapitre 7).

L’estimateur sans biais sous le plan de l’EQM (MSE Yd ( ˆi EB)) a été calculé dans le cas d’un échantillonnage aléatoire simple à l’intérieur des domaines (en présumant que les paramètres du modèle sont connus).

 L’estimateur composite connexe de l’EQM est obtenu sous forme de moyenne pondérée des deux estimateurs de l’EQM.

Références

Documents relatifs

où 7^ et 7^ sont les deux sous-arcs de ôî2 (dans la sphère de Riemann) joignant z^ et z^ ; Les domaines de Lavrentiev sont des domaines réguliers ; le but de cette partie

HAZIZA Université de Montréal, Crest-Ensai Traitement des données influentes dans le cas d’un sondage à deux phases avec une application au traitement de la non-réponse

Quant aux difficultés techniques - parfois il s’agit d’ailleurs plutôt de "curiosités", ou d’interrogations voire même de perplexité face à des points encore obscurs

EURAREA : projet général autour des techniques avancées d’estimation sur petits domaines (modèles spatiaux, temporels, SPREE (=cross-classification) ) (Grande-Bretagne

Estimateurs non param´ etriques de la fonction de r´ epartition d’une variable censur´ ee ` a droite sur petits domaines : approche bas´ ee sur un mod` ele.. Sandrine C ASANOVA

NOTE: Preliminary results on Hájek type estimators (12) indicate that accuracy differences to HT type methods are small and exist in small domains and are systematically in favour

De nombreuses ´ etudes men´ ees ` a EDF R&D se basent sur l’analyse de courbes de con- sommation ´ electrique moyennes pour diff´ erentes sous-populations, en particulier de

Adaptation des modèles linéaires mixtes, des arbres de régression et des forêts aléatoires dans le contexte des données fonctionnelles pour l’estimation sur petits domaines.