• Aucun résultat trouvé

Estimation simplifi´ee de la variance dans le cas de l’´echantillonnage `a deux phases

N/A
N/A
Protected

Academic year: 2022

Partager "Estimation simplifi´ee de la variance dans le cas de l’´echantillonnage `a deux phases"

Copied!
25
0
0

Texte intégral

(1)

Estimation simplifi´ ee de la variance dans le cas de l’´ echantillonnage ` a deux phases

Audrey B´eliveau

Simon Fraser University

Travail en collaboration avec David Haziza et Jean-Fran¸cois Beaumont Universit´e de Montr´eal et Statistique Canada

Colloque francophone sur les sondages 2012

Rennes, France

(2)

Plan de la pr´ esentation

1. Introduction

2. Variance de l’estimateur par double dilatation 3. Estimateur de la variance simplifi´e

4. Quand est-il appropri´e ? 5. Quelques liens int´eressants 6. R´esum´e

(3)

Echantillonnage ` ´ a deux phases

U : population finie de tailleN

s1 : ´echantillon de 1`ere phase, de taille n1

s2 : ´echantillon de 2e phase, de taille n2, s´electionn´e `a partir de s1

I1i : variable indicatrice de s´election de l’unit´ei dans s1 I2i : variable indicatrice de s´election de l’unit´ei dans s2

Vecteurs d’indicatrices : I1 = (I11,· · ·,I1N)0 andI2= (I21,· · · ,I2N)0 Probabilit´e d’inclusion de l’unit´e i danss11i =P(I1i = 1) Probabilit´e d’inclusion conjointe des unit´esi et j dans s1 : π1ij =P(I1i = 1,I1j = 1)

Probabilit´e d’inclusion de l’unit´e i danss2 : π2i(I1) =P(I2i = 1|I1;I1i = 1)

Probabilit´e d’inclusion conjointe des unit´esi et j dans s2 : π2ij(I1) =P(I2i = 1,I2j = 1|I1;I1i = 1,I1j = 1)

(4)

Echantillonnage ` ´ a deux phases

U : population finie de tailleN

s1 : ´echantillon de 1`ere phase, de taille n1

s2 : ´echantillon de 2e phase, de taille n2, s´electionn´e `a partir de s1 I1i : variable indicatrice de s´election de l’unit´ei dans s1

I2i : variable indicatrice de s´election de l’unit´ei dans s2

Vecteurs d’indicatrices : I1 = (I11,· · ·,I1N)0 andI2= (I21,· · · ,I2N)0

Probabilit´e d’inclusion de l’unit´e i danss11i =P(I1i = 1) Probabilit´e d’inclusion conjointe des unit´esi et j dans s1 : π1ij =P(I1i = 1,I1j = 1)

Probabilit´e d’inclusion de l’unit´e i danss2 : π2i(I1) =P(I2i = 1|I1;I1i = 1)

Probabilit´e d’inclusion conjointe des unit´esi et j dans s2 : π2ij(I1) =P(I2i = 1,I2j = 1|I1;I1i = 1,I1j = 1)

(5)

Echantillonnage ` ´ a deux phases

U : population finie de tailleN

s1 : ´echantillon de 1`ere phase, de taille n1

s2 : ´echantillon de 2e phase, de taille n2, s´electionn´e `a partir de s1 I1i : variable indicatrice de s´election de l’unit´ei dans s1

I2i : variable indicatrice de s´election de l’unit´ei dans s2

Vecteurs d’indicatrices : I1 = (I11,· · ·,I1N)0 andI2= (I21,· · · ,I2N)0 Probabilit´e d’inclusion de l’unit´e i danss11i =P(I1i = 1) Probabilit´e d’inclusion conjointe des unit´esi et j dans s1 : π1ij =P(I1i = 1,I1j = 1)

Probabilit´e d’inclusion de l’unit´e i danss2 : π2i(I1) =P(I2i = 1|I1;I1i = 1)

Probabilit´e d’inclusion conjointe des unit´esi et j dans s2 : π2ij(I1) =P(I2i = 1,I2j = 1|I1;I1i = 1,I1j = 1)

(6)

Echantillonnage ` ´ a deux phases

U : population finie de tailleN

s1 : ´echantillon de 1`ere phase, de taille n1

s2 : ´echantillon de 2e phase, de taille n2, s´electionn´e `a partir de s1 I1i : variable indicatrice de s´election de l’unit´ei dans s1

I2i : variable indicatrice de s´election de l’unit´ei dans s2

Vecteurs d’indicatrices : I1 = (I11,· · ·,I1N)0 andI2= (I21,· · · ,I2N)0 Probabilit´e d’inclusion de l’unit´e i danss11i =P(I1i = 1) Probabilit´e d’inclusion conjointe des unit´esi et j dans s1 : π1ij =P(I1i = 1,I1j = 1)

Probabilit´e d’inclusion de l’unit´e i danss2 : π2i(I1) =P(I2i = 1|I1;I1i = 1)

Probabilit´e d’inclusion conjointe des unit´esi et j dans s2 : π2ij(I1) =P(I2i = 1,I2j = 1|I1;I1i = 1,I1j = 1)

(7)

Echantillonnage ` ´ a deux phases

U(N)

1i 0, 2i 0 II

1i 1, 2i 0

II

1i 1, 2i 1 I I

1( 1) s n

2( 2) s n

(8)

Invariance

Un plan `a deux phases poss`edela propri´et´e d’invariance si P(I2|I1) =P(I2)

Invariance ⇒ π2i(I1) =π2i et π2ij(I1) =π2ij Exemple de non-invariance :

Echantillon al´´ eatoire simple sans remise (EASSR) `a la premi`ere phase Echantillon proportionnel `´ a la taille `a la deuxi`eme phase, c’est-`a-dire,

π2i(I1) =n2

xi P

i∈s1xi

,

o`uxi repr´esente la taille de l’unit´ei et est disponible pour toutis1.

(9)

Estimation pontuelle

But : estimer le total de la variable d’int´erˆet y au niveau de la population :

Y =X

i∈U

yi

Disponibilit´e de y : seulement pour i ∈s2

Estimateur par double dilatation : YˆDE =X

i∈s2

yi

π1iπ2i(I1) =X

i∈s2

yi πiDE est sans biais sous le plan pourY ; i.e.,

E1E2( ˆYDE|I1) =Y

(10)

Variance totale

Erreur totale de ˆYDE :

DE −Y = YˆE−Y

| {z }

Erreur due `a la 1`erephase

+ ˆYDE−YˆE

| {z }

Erreur due `a la 2ephase

(1)

o`u ˆYE =P

i∈s1π−11i yi est l’estimateur qui aurait ´et´e utilis´e dans le cas d’un plan de sondage `a une phase

Variance totale de ˆYDE : V

DE

= V1E2

DE|I1

+E1V2

DE|I1

= X

i∈U

X

j∈U

1ij −π1iπ1j) yi

π1i yj

π1j

+ E1

 X

i∈s1

X

j∈s1

2ij(I1)−π2i(I12j(I1)) yi πi

yj πj

(11)

Estimation de la variance totale

Un estimateur sans biais de V YˆDE

est obtenu en estimant s´epar´ement les deux termes contribuant `a la variance :

Vˆ YˆDE

=X

i∈s2

X

j∈s2

1ij

π2ij(I1)yiyj +X

i∈s2

X

j∈s2

2ij(I1) yi π1i

yj π1j

≡Vˆ1+ ˆV2, o`u

1ij = π1ij −π1iπ1j

π1ijπ1iπ1j et

2ij(I1) = π2ij(I1)−π2i(I12j(I1) π2ij(I12i(I12j(I1) .

(12)

Estimation de la variance totale

1 et ˆV2 d´ependent des probabilit´es d’inclusion jointes `a la 2e phase, π2ij(I1), qui peuvent ˆetre difficiles (voire impossibles) `a obtenir.

Le calcul de ˆV YˆDE

= ˆV1+ ˆV2 requiert un logiciel sp´ecialis´e con¸cu sp´ecialement pour l’estimation de la variance dans le cas des plans `a deux phases.

But : proposer un estimateur de la variance simplifi´e qui ne d´epend pas desπ2ij(I1) ;

peut ˆetre calcul´e `a partir des logiciels con¸cus pour l’estimation de la variance dans le cas des plans `a une phase.

(13)

Un estimateur de la variance simplifi´ e

En notant que

1

π1ij = 1

π1iπ1j −∆1ij

et 1

π2ij(I1) = 1

π2i(I12j(I1)−∆2ij(I1)

on peut r´earranger les termes de sorte que l’estimateur de la variance totale, ˆV

DE

, s’exprime comme

Vˆ YˆDE

=X

i∈s2

X

j∈s2

1ij yi π2i(I1)

yj

π2j(I1)+X

i∈s2

X

j∈s2

2ij(I1) π1ij yiyj

≡Vˆ1R + ˆV2R.

(14)

Un estimateur de la variance simplifi´ e

Estimateur de la variance simplifi´e : ˆV1R ne d´epend pas desπ2ij(I1) ;

peut ˆetre calcul´e `a partir des logiciels con¸cus pour l’estimation de la variance dans le cas des plans `a une phase, car peut ˆetre exprim´e comme

Vˆ1R =X

i∈s1

X

j∈s1

1ijzizj,

o`u

zi = yi

π2i(I1)I2i;

Cette expression correspond `a l’estimateur de la variance dans le cas des plans `a une phase appliqu´e `a la variablez.

Ne requiert pas la propri´et´e d’invariance.

Question : Quand ˆV2R est-il n´egligeable ?

(15)

Evaluer la contribution de ˆ ´ V

2R

Contribution de ˆV2R `a la variance totale : Cb2R ≡ Vˆ2R

Vˆ YˆDE

Nous consid´erons ´egalement

Ce2R ≡ Vˆ2R2

≥Cb2R

Si la propri´et´e d’invariance est satisfaite, on peut aussi utiliser C2R ≡ E1E2( ˆV2R|I1)

E1E2

Vˆ( ˆYDE)|I1

(16)

V ˆ

2R

est-il n´ egligeable ? Le cas d’un plan de Poisson ` a la 2

e

phase

Utile dans le contexte de la non-r´eponse.

Plan de Poisson `a la 2e phase : consiste `a proc´eder `a des ´epreuves de Bernoulli independantes `a la 2e phase avec probabilit´e π2i(I1).

⇒I2i andI2j sont ind´ependants si i 6=j Contribution de ˆV2R :Ce2RVˆˆ2R

V2

|eC2R| ≤max(π1i)

Condition usuelle : max(π1i) =O(n1/N) ⇒ l’estimateur de la variance simplifi´e ˆV1R est appropri´e si n1/N est n´egligeable.

(17)

V ˆ

2R

est-il n´ egligeable ? Le cas d’un plan ` a deux degr´ es

La population d’´el´ements est partitionn´ee enN grappes.

1er degr´e : un ´echantillon de grappes de taille n est s´electionn´e ; 2e degr´e : un ´echantillon est s´electionn´ee dans chaque grappe s´electionn´ee au 1er degr´e ;

Echantillonnage `´ a deux degr´es : cas particulier de l’´echantillonnage `a deux phases ;

2e phase : ind´ependance de la s´election entre les grappes.

(18)

V ˆ

2R

est-il n´ egligeable ? Le cas d’un plan ` a deux degr´ es

Contribution de ˆV2R :Ce2RVˆˆ2R

V2

|eC2R| ≤max(π1i)

Condition usuelle : max(π1i) =O(n/N)⇒ l’estimateur de la variance simplifi´e ˆV1R est appropri´e si n/N est n´egligeable.

Estimateur de la variance simplifi´e : identique `a l’estimateur simplifi´e dans S¨arndal, Swensson et Wretman (1992, Chapitre 4)

(19)

V ˆ

2R

est-il n´ egligeable ? Le cas de l’´ echantillonnage al´ eatoire simple sans remise ` a la 2

e

phase

Contribution de ˆV2R :C2RE1E2( ˆV2R|I1)

E1E2(Vˆ( ˆYDE)|I1)

C2R = − P

i∈Uyi2

+n1P

i∈Uyi2

−P

i∈U

P

j∈U1ijπ1ijyiyj − P

i∈Uyi

2

+n1P

i∈U yi2 π1i

.

Sous de faibles conditions de r´egularit´e, le num´erateur et le d´enominateur sontO(N2).

2R n’est g´en´eralement pas n´egligeable dans le cas de l’EASSR `a la 2e phase.

On ne peut pas utiliser l’estimateur de la variance simplifi´e ˆV1R, mˆeme si n1/N est n´egligeable.

(20)

V ˆ

2R

est-il n´ egligeable ? Le cas de l’´ echantillonnage al´ eatoire simple sans remise ` a la 2

e

phase

Supposons queP

i∈Uyi = 0. Alors,C2R est O(n1/N)

⇒ Vˆ2R est n´egligeable lorsque la fraction de sondage `a la 1`ere phase est n´egligeable.

Lien avec le calage : lorsqueP

i∈UEi = 0 on peut utiliser un estimateur de la variance simplifi´e si n1/N est n´egligeable Cas particulier : l’estimateur de H´ajek

C = P

i∈s1 1 π1i

P

i∈s2

1 πi

DE

EASSR `a la 2e phase : ´etudi´e par Kott et Stukel (1997, Survey Methodology) et Kim, Navarro et Fuller (2006, JASA)

(21)

Quelques liens int´ eressants

Variance totale de ˆYDE en utilisant l’approche renvers´ee (en supposant l’invariance) :

V YˆDE

=E2V1

DE|I2

+V2E1

DE|I2 La contribution de V2E1

DE|I2

`

a la variance totale est V2E1

DE|I2 V

DE =On1 N

V2E1

DE|I2

est n´egligeable lorsque la fraction de sondage `a la 1`ere phase est n´egligeable.

Estimation de E2V1

DE|I2

: il suffit de trouver un estimateur sans biais deV1

DE|I2

(22)

Quelques liens int´ eressants

Estimateur de la variance simplifi´e : estimateur de E2V1

DE|I2 obtenu en traitant lesπ2i comme fixes.

Probl`eme : ´etant donn´e I2, lesπ2i sont des variables al´eatoires

⇒ l’estimateur de la variance simplifi´e n’est g´en´eralement pas valide (ex : estimateur par double dilatation + EASSR `a la 2e phase) Kott et Stukel (1997, SM) : estimation de la variance par le jackknife en traitant lesπ2i comme fixes.

(23)

Quelques liens int´ eressants

Estimateur par double dilatation + EASSR `a la 2e phase : YˆDE = X

i∈s2

1 π1i

1 π2i

yi

= n1 n2

X

i∈s2

w1iyi

= P

i∈s1w1iπ1i

P

i∈s1w1i1iI2i) X

i∈s1

w1i(I2iyi)

Estimation de V1

DE|I2

: on peut utiliser une lin´earisation de Taylor de premier ordre.

(24)

Quelques liens int´ eressants

Kim, Navarro et Fuller (2006, JASA) : utilisent une m´ethode de r´e´echantillonnage (bootstrap)

DE(j) = P

i∈s1w1i(j)π1i P

i∈s1w1i(j)1iI2i) X

i∈s1

w1i(j)(I2iyi)

Estimateur de la variance par r´epliques : VˆKNF =

L

X

j=1

cj

DE(j)−YˆDE2

L’id´ee peut ˆetre appliqu´ee au cas des estimateurs de calage (ex : l’estimateur de H´ajek).

(25)

R´ esum´ e

Nous avons propos´e un estimateur de la variance simplifi´e : valide pour certains plans de sondages et/ou estimateurs ponctuels peut ˆetre utilis´e pour n’importe quel estimateur de calage (pas uniquement l’estimateur de H´ajek)

justifi´e par l’approche renvers´ee

Nous avons ´etabli des liens entre l’estimateur de la variance simplifi´e et les r´esultats de Kott et Stukel (1997) et Kim, Navarro et Fuller (2006).

Références

Documents relatifs

Chaque r´ eponse doit ˆ etre

D’une statistique est une distribution de probabilité des valeurs prises par cette statis- tique mesurées sur tous les échantillons possibles.. D’une moyenne empirique a pour

BRUGIÈRE, Théorème de limite centrale pour un estimateur de la variance d’un processus de diffusion dans le cas multidimensionnel, C.R. TAYLOR, First Passage Times for

We have shown how variance due to incomplete knowledge can be modelled by different possible worlds for resolving unspecified issues, and how variance due to intended diversity can

Exercice 9 : Le nombre X de demandes hebdomadaires d’un certain produit suit une loi de Poisson de paramètre inconnu λ. On veut évaluer la probabilité p que X

[r]

[r]

Opérateur  moment