Estimation simplifiée de la variance dans le cas de l’échantillonnage à deux phases

(1)

Estimation simplifi´ ee de la variance dans le cas de l’´ echantillonnage ` a deux phases

Audrey B´eliveau

Simon Fraser University

Travail en collaboration avec David Haziza et Jean-Fran¸cois Beaumont Universit´e de Montr´eal et Statistique Canada

Colloque francophone sur les sondages 2012

Rennes, France

(2)

Plan de la pr´ esentation

1. Introduction

2. Variance de l’estimateur par double dilatation 3. Estimateur de la variance simplifi´e

4. Quand est-il approprié ? 5. Quelques liens intéressants 6. Résumé

(3)

Echantillonnage ` ´ a deux phases

U : population finie de tailleN

s1 : ´echantillon de 1^`^ere phase, de taille n1

s₂ : échantillon de 2ê phase, de taille n₂, sélectionné à partir de s₁

I_1i : variable indicatrice de sélection de l’unitéi dans s₁ I_2i : variable indicatrice de sélection de l’unitéi dans s2

Vecteurs d’indicatrices : I1 = (I11,· · ·,I1N)⁰ andI2= (I21,· · · ,I2N)⁰ Probabilité d’inclusion de l’unité i danss1 :π1i =P(I1i = 1) Probabilité d’inclusion conjointe des unitési et j dans s₁ : π1ij =P(I1i = 1,I1j = 1)

Probabilit´e d’inclusion de l’unit´e i danss₂ : π2i(I1) =P(I2i = 1|I₁;I1i = 1)

Probabilit´e d’inclusion conjointe des unit´esi et j dans s2 : π_2ij(I1) =P(I_2i = 1,I_2j = 1|I₁;I_1i = 1,I_1j = 1)

(4)

Echantillonnage ` ´ a deux phases

s₂ : échantillon de 2ê phase, de taille n₂, sélectionné à partir de s₁ I_1i : variable indicatrice de sélection de l’unitéi dans s₁

I_2i : variable indicatrice de s´election de l’unit´ei dans s2

Vecteurs d’indicatrices : I1 = (I11,· · ·,I1N)⁰ andI2= (I21,· · · ,I2N)⁰

Probabilité d’inclusion de l’unité i danss1 :π1i =P(I1i = 1) Probabilité d’inclusion conjointe des unitési et j dans s₁ : π1ij =P(I1i = 1,I1j = 1)

(5)

Echantillonnage ` ´ a deux phases

(6)

Echantillonnage ` ´ a deux phases

Probabilit´e d’inclusion de l’unit´e i danss2 : π2i(I1) =P(I2i = 1|I₁;I1i = 1)

(7)

Echantillonnage ` ´ a deux phases

U(N)

1_i 0, 2_i 0 I  I 

1_i 1, 2_i 0

I  I 

1_i 1, 2_i 1 I  I 

1( 1) s n

2( 2) s n

(8)

Invariance

Un plan à deux phases possèdela propriété d’invariance si P(I₂|I₁) =P(I₂)

Invariance ⇒ π_2i(I₁) =π_2i et π_2ij(I₁) =π_2ij Exemple de non-invariance :

Echantillon al´´ eatoire simple sans remise (EASSR) à la première phase Echantillon proportionnel `´ a la taille à la deuxième phase, c’est-à-dire,

π2i(I1) =n2

x_i P

i∈s1xi

,

oùxi représente la taille de l’unitéi et est disponible pour touti∈s1.

(9)

Estimation pontuelle

But : estimer le total de la variable d’int´erˆet y au niveau de la population :

Y =X

i∈U

y_i

Disponibilit´e de y : seulement pour i ∈s2

Estimateur par double dilatation : Yˆ_DE =X

i∈s2

y_i

π_1iπ_2i(I₁) =X

i∈s2

y_i π_i^∗ Yˆ_DE est sans biais sous le plan pourY ; i.e.,

E1E2( ˆYDE|I₁) =Y

(10)

Variance totale

Erreur totale de ˆY_DE :

Yˆ_DE −Y = Yˆ_E−Y

| {z }

Erreur due `a la 1^`^erephase

+ ˆY_DE−Yˆ_E

| {z }

Erreur due `a la 2^ephase

(1)

o`u ˆY_E =P

i∈s₁π⁻¹_1i y_i est l’estimateur qui aurait été utilisé dans le cas d’un plan de sondage à une phase

Variance totale de ˆYDE : V

YˆDE

= V1E2

YˆDE|I₁

+E1V2

YˆDE|I₁

= X

i∈U

X

j∈U

(π_1ij −π_1iπ_1j) yi

π_1i yj

π_1j

+ E₁





 X

i∈s1

X

j∈s1

(π_2ij(I₁)−π_2i(I₁)π_2j(I₁)) y_i π^∗_i

y_j π_j^∗







(11)

Estimation de la variance totale

Un estimateur sans biais de V Yˆ_DE

est obtenu en estimant séparément les deux termes contribuant à la variance :

Vˆ YˆDE

=X

i∈s2

X

j∈s2

∆_1ij

π2ij(I1)yiyj +X

i∈s2

X

j∈s2

∆2ij(I1) y_i π1i

y_j π1j

≡Vˆ1+ ˆV2, o`u

∆_1ij = π1ij −π1iπ1j

π_1ijπ_1iπ_1j et

∆2ij(I1) = π_2ij(I₁)−π_2i(I₁)π_2j(I₁) π2ij(I1)π2i(I1)π2j(I1) .

(12)

Estimation de la variance totale

Vˆ₁ et ˆV₂ dépendent des probabilités d’inclusion jointes à la 2ê phase, π_2ij(I₁), qui peuvent être difficiles (voire impossibles) à obtenir.

Le calcul de ˆV Yˆ_DE

= ˆV₁+ ˆV₂ requiert un logiciel spécialisé con¸cu spécialement pour l’estimation de la variance dans le cas des plans à deux phases.

But : proposer un estimateur de la variance simplifi´e qui ne d´epend pas desπ2ij(I1) ;

peut être calculé à partir des logiciels con¸cus pour l’estimation de la variance dans le cas des plans à une phase.

(13)

Un estimateur de la variance simplifi´ e

En notant que

1

π_1ij = 1

π_1iπ_1j −∆_1ij

et 1

π_2ij(I₁) = 1

π_2i(I₁)π_2j(I₁)−∆_2ij(I₁)

on peut r´earranger les termes de sorte que l’estimateur de la variance totale, ˆV

Yˆ_DE

, s’exprime comme

Vˆ Yˆ_DE

=X

i∈s₂

X

j∈s₂

∆_1ij y_i π_2i(I₁)

yj

π_2j(I₁)+X

i∈s₂

X

j∈s₂

∆2ij(I1) π_1ij y_iy_j

≡Vˆ₁^R + ˆV₂^R.

(14)

Un estimateur de la variance simplifi´ e

Estimateur de la variance simplifi´e : ˆV₁^R ne d´epend pas desπ2ij(I1) ;

peut être calculé à partir des logiciels con¸cus pour l’estimation de la variance dans le cas des plans à une phase, car peut être exprimé comme

Vˆ₁^R =X

i∈s1

X

j∈s1

∆_1ijz_iz_j,

o`u

zi = yi

π2i(I1)I2i;

Cette expression correspond à l’estimateur de la variance dans le cas des plans à une phase appliqué à la variablez.

Ne requiert pas la propri´et´e d’invariance.

Question : Quand ˆV₂^R est-il n´egligeable ?

(15)

Evaluer la contribution de ˆ ´ V

₂^R

Contribution de ˆV₂^R `a la variance totale : Cb₂^R ≡ Vˆ₂^R

Vˆ YˆDE

Nous consid´erons ´egalement

Ce₂^R ≡ Vˆ₂^R Vˆ2

≥Cb₂^R

Si la propri´et´e d’invariance est satisfaite, on peut aussi utiliser C₂^R ≡ E₁E₂( ˆV₂^R|I₁)

E₁E₂

Vˆ( ˆY_DE)|I₁

(16)

V ˆ

₂^R

est-il n´ egligeable ? Le cas d’un plan de Poisson ` a la 2

^e

phase

Utile dans le contexte de la non-r´eponse.

Plan de Poisson à la 2ê phase : consiste à procéder à des épreuves de Bernoulli independantes à la 2ê phase avec probabilité π_2i(I₁).

⇒I_2i andI_2j sont ind´ependants si i 6=j Contribution de ˆV₂^R :Ce₂^R ≡ ^V^ˆ_ˆ²^R

V2

|eC₂^R| ≤max(π_1i)

Condition usuelle : max(π_1i) =O(n1/N) ⇒ l’estimateur de la variance simplifié ˆV₁^R est approprié si n₁/N est négligeable.

(17)

V ˆ

₂^R

est-il n´ egligeable ? Le cas d’un plan ` a deux degr´ es

La population d’éléments est partitionnée enN grappes.

1êr degré : un échantillon de grappes de taille n est sélectionné ; 2ê degré : un échantillon est sélectionnée dans chaque grappe sélectionnée au 1êr degré ;

Echantillonnage `´ a deux degrés : cas particulier de l’échantillonnage à deux phases ;

2ê phase : indépendance de la sélection entre les grappes.

(18)

V ˆ

₂^R

est-il n´ egligeable ? Le cas d’un plan ` a deux degr´ es

Contribution de ˆV₂^R :Ce₂^R ≡ ^V^ˆ_ˆ²^R

V2

|eC₂^R| ≤max(π_1i)

Condition usuelle : max(π_1i) =O(n/N)⇒ l’estimateur de la variance simplifié ˆV₁^R est approprié si n/N est négligeable.

Estimateur de la variance simplifié : identique à l’estimateur simplifié dans Särndal, Swensson et Wretman (1992, Chapitre 4)

(19)

V ˆ

₂^R

est-il n´ egligeable ? Le cas de l’´ echantillonnage al´ eatoire simple sans remise ` a la 2

^e

phase

Contribution de ˆV₂^R :C₂^R ≡ ^E¹^E²^{( ˆ}^V²^R^|I¹⁾

E1E2(^V^ˆ^{( ˆ}^YDE)|I₁)

C₂^R = − P

i∈Uy_i2

+n₁P

i∈Uy_i²

−P

i∈U

P

j∈U∆1ijπ1ijyiyj − P

i∈Uyi

2

+n1P

i∈U y_i² π1i

.

Sous de faibles conditions de régularité, le numérateur et le dénominateur sontO(N²).

Vˆ₂^R n’est généralement pas négligeable dans le cas de l’EASSR à la 2ê phase.

On ne peut pas utiliser l’estimateur de la variance simplifié ˆV₁^R, même si n₁/N est négligeable.

(20)

V ˆ

₂^R

est-il n´ egligeable ? Le cas de l’´ echantillonnage al´ eatoire simple sans remise ` a la 2

^e

phase

Supposons queP

i∈Uyi = 0. Alors,C₂^R est O(n1/N)

⇒ Vˆ₂^R est négligeable lorsque la fraction de sondage à la 1^`êre phase est négligeable.

Lien avec le calage : lorsqueP

i∈UEi = 0 on peut utiliser un estimateur de la variance simplifié si n1/N est négligeable Cas particulier : l’estimateur de Hájek

Yˆ_C = P

i∈s₁ 1 π1i

P

i∈s2

1 π_i^∗

Yˆ_DE

EASSR à la 2ê phase : étudié par Kott et Stukel (1997, Survey Methodology) et Kim, Navarro et Fuller (2006, JASA)

(21)

Quelques liens int´ eressants

Variance totale de ˆY_DE en utilisant l’approche renvers´ee (en supposant l’invariance) :

V Yˆ_DE

=E₂V₁

Yˆ_DE|I₂

+V₂E₁

Yˆ_DE|I₂ La contribution de V2E1

YˆDE|I₂

`

a la variance totale est V₂E₁

Yˆ_DE|I₂ V

Yˆ_DE =On₁ N

V2E1

YˆDE|I₂

est négligeable lorsque la fraction de sondage à la 1^`êre phase est négligeable.

Estimation de E2V1

YˆDE|I₂

: il suffit de trouver un estimateur sans biais deV1

YˆDE|I₂

(22)

Quelques liens int´ eressants

Estimateur de la variance simplifi´e : estimateur de E2V1

YˆDE|I₂ obtenu en traitant lesπ_2i comme fixes.

Problème : étant donné I₂, lesπ_2i sont des variables aléatoires

⇒ l’estimateur de la variance simplifié n’est généralement pas valide (ex : estimateur par double dilatation + EASSR à la 2ê phase) Kott et Stukel (1997, SM) : estimation de la variance par le jackknife en traitant lesπ2i comme fixes.

(23)

Quelques liens int´ eressants

Estimateur par double dilatation + EASSR `a la 2^e phase : YˆDE = X

i∈s2

1 π1i

1 π2i

yi

= n₁ n₂

X

i∈s₂

w_1iy_i

= P

i∈s1w1iπ1i

P

i∈s₁w_1i(π_1iI_2i) X

i∈s₁

w1i(I2iyi)

Estimation de V1

Yˆ_DE|I₂

: on peut utiliser une lin´earisation de Taylor de premier ordre.

(24)

Quelques liens int´ eressants

Kim, Navarro et Fuller (2006, JASA) : utilisent une méthode de rééchantillonnage (bootstrap)

Yˆ_DE^(j) = P

i∈s₁w_1i^(j)π_1i P

i∈s₁w_1i^(j⁾(π1iI2i) X

i∈s₁

w_1i^(j)(I_2iy_i)

Estimateur de la variance par r´epliques : Vˆ_KNF =

L

X

j=1

c_j

Yˆ_DE^(j)−Yˆ_DE2

L’idée peut être appliquée au cas des estimateurs de calage (ex : l’estimateur de Hájek).

(25)

R´ esum´ e

Nous avons proposé un estimateur de la variance simplifié : valide pour certains plans de sondages et/ou estimateurs ponctuels peut être utilisé pour n’importe quel estimateur de calage (pas uniquement l’estimateur de Hájek)

justifi´e par l’approche renvers´ee

Nous avons établi des liens entre l’estimateur de la variance simplifié et les résultats de Kott et Stukel (1997) et Kim, Navarro et Fuller (2006).