Estimation simplifi´ ee de la variance dans le cas de l’´ echantillonnage ` a deux phases
Audrey B´eliveau
Simon Fraser University
Travail en collaboration avec David Haziza et Jean-Fran¸cois Beaumont Universit´e de Montr´eal et Statistique Canada
Colloque francophone sur les sondages 2012
Rennes, France
Plan de la pr´ esentation
1. Introduction
2. Variance de l’estimateur par double dilatation 3. Estimateur de la variance simplifi´e
4. Quand est-il appropri´e ? 5. Quelques liens int´eressants 6. R´esum´e
Echantillonnage ` ´ a deux phases
U : population finie de tailleN
s1 : ´echantillon de 1`ere phase, de taille n1
s2 : ´echantillon de 2e phase, de taille n2, s´electionn´e `a partir de s1
I1i : variable indicatrice de s´election de l’unit´ei dans s1 I2i : variable indicatrice de s´election de l’unit´ei dans s2
Vecteurs d’indicatrices : I1 = (I11,· · ·,I1N)0 andI2= (I21,· · · ,I2N)0 Probabilit´e d’inclusion de l’unit´e i danss1 :π1i =P(I1i = 1) Probabilit´e d’inclusion conjointe des unit´esi et j dans s1 : π1ij =P(I1i = 1,I1j = 1)
Probabilit´e d’inclusion de l’unit´e i danss2 : π2i(I1) =P(I2i = 1|I1;I1i = 1)
Probabilit´e d’inclusion conjointe des unit´esi et j dans s2 : π2ij(I1) =P(I2i = 1,I2j = 1|I1;I1i = 1,I1j = 1)
Echantillonnage ` ´ a deux phases
U : population finie de tailleN
s1 : ´echantillon de 1`ere phase, de taille n1
s2 : ´echantillon de 2e phase, de taille n2, s´electionn´e `a partir de s1 I1i : variable indicatrice de s´election de l’unit´ei dans s1
I2i : variable indicatrice de s´election de l’unit´ei dans s2
Vecteurs d’indicatrices : I1 = (I11,· · ·,I1N)0 andI2= (I21,· · · ,I2N)0
Probabilit´e d’inclusion de l’unit´e i danss1 :π1i =P(I1i = 1) Probabilit´e d’inclusion conjointe des unit´esi et j dans s1 : π1ij =P(I1i = 1,I1j = 1)
Probabilit´e d’inclusion de l’unit´e i danss2 : π2i(I1) =P(I2i = 1|I1;I1i = 1)
Probabilit´e d’inclusion conjointe des unit´esi et j dans s2 : π2ij(I1) =P(I2i = 1,I2j = 1|I1;I1i = 1,I1j = 1)
Echantillonnage ` ´ a deux phases
U : population finie de tailleN
s1 : ´echantillon de 1`ere phase, de taille n1
s2 : ´echantillon de 2e phase, de taille n2, s´electionn´e `a partir de s1 I1i : variable indicatrice de s´election de l’unit´ei dans s1
I2i : variable indicatrice de s´election de l’unit´ei dans s2
Vecteurs d’indicatrices : I1 = (I11,· · ·,I1N)0 andI2= (I21,· · · ,I2N)0 Probabilit´e d’inclusion de l’unit´e i danss1 :π1i =P(I1i = 1) Probabilit´e d’inclusion conjointe des unit´esi et j dans s1 : π1ij =P(I1i = 1,I1j = 1)
Probabilit´e d’inclusion de l’unit´e i danss2 : π2i(I1) =P(I2i = 1|I1;I1i = 1)
Probabilit´e d’inclusion conjointe des unit´esi et j dans s2 : π2ij(I1) =P(I2i = 1,I2j = 1|I1;I1i = 1,I1j = 1)
Echantillonnage ` ´ a deux phases
U : population finie de tailleN
s1 : ´echantillon de 1`ere phase, de taille n1
s2 : ´echantillon de 2e phase, de taille n2, s´electionn´e `a partir de s1 I1i : variable indicatrice de s´election de l’unit´ei dans s1
I2i : variable indicatrice de s´election de l’unit´ei dans s2
Vecteurs d’indicatrices : I1 = (I11,· · ·,I1N)0 andI2= (I21,· · · ,I2N)0 Probabilit´e d’inclusion de l’unit´e i danss1 :π1i =P(I1i = 1) Probabilit´e d’inclusion conjointe des unit´esi et j dans s1 : π1ij =P(I1i = 1,I1j = 1)
Probabilit´e d’inclusion de l’unit´e i danss2 : π2i(I1) =P(I2i = 1|I1;I1i = 1)
Probabilit´e d’inclusion conjointe des unit´esi et j dans s2 : π2ij(I1) =P(I2i = 1,I2j = 1|I1;I1i = 1,I1j = 1)
Echantillonnage ` ´ a deux phases
U(N)
1i 0, 2i 0 I I
1i 1, 2i 0
I I
1i 1, 2i 1 I I
1( 1) s n
2( 2) s n
Invariance
Un plan `a deux phases poss`edela propri´et´e d’invariance si P(I2|I1) =P(I2)
Invariance ⇒ π2i(I1) =π2i et π2ij(I1) =π2ij Exemple de non-invariance :
Echantillon al´´ eatoire simple sans remise (EASSR) `a la premi`ere phase Echantillon proportionnel `´ a la taille `a la deuxi`eme phase, c’est-`a-dire,
π2i(I1) =n2
xi P
i∈s1xi
,
o`uxi repr´esente la taille de l’unit´ei et est disponible pour touti∈s1.
Estimation pontuelle
But : estimer le total de la variable d’int´erˆet y au niveau de la population :
Y =X
i∈U
yi
Disponibilit´e de y : seulement pour i ∈s2
Estimateur par double dilatation : YˆDE =X
i∈s2
yi
π1iπ2i(I1) =X
i∈s2
yi πi∗ YˆDE est sans biais sous le plan pourY ; i.e.,
E1E2( ˆYDE|I1) =Y
Variance totale
Erreur totale de ˆYDE :
YˆDE −Y = YˆE−Y
| {z }
Erreur due `a la 1`erephase
+ ˆYDE−YˆE
| {z }
Erreur due `a la 2ephase
(1)
o`u ˆYE =P
i∈s1π−11i yi est l’estimateur qui aurait ´et´e utilis´e dans le cas d’un plan de sondage `a une phase
Variance totale de ˆYDE : V
YˆDE
= V1E2
YˆDE|I1
+E1V2
YˆDE|I1
= X
i∈U
X
j∈U
(π1ij −π1iπ1j) yi
π1i yj
π1j
+ E1
X
i∈s1
X
j∈s1
(π2ij(I1)−π2i(I1)π2j(I1)) yi π∗i
yj πj∗
Estimation de la variance totale
Un estimateur sans biais de V YˆDE
est obtenu en estimant s´epar´ement les deux termes contribuant `a la variance :
Vˆ YˆDE
=X
i∈s2
X
j∈s2
∆1ij
π2ij(I1)yiyj +X
i∈s2
X
j∈s2
∆2ij(I1) yi π1i
yj π1j
≡Vˆ1+ ˆV2, o`u
∆1ij = π1ij −π1iπ1j
π1ijπ1iπ1j et
∆2ij(I1) = π2ij(I1)−π2i(I1)π2j(I1) π2ij(I1)π2i(I1)π2j(I1) .
Estimation de la variance totale
Vˆ1 et ˆV2 d´ependent des probabilit´es d’inclusion jointes `a la 2e phase, π2ij(I1), qui peuvent ˆetre difficiles (voire impossibles) `a obtenir.
Le calcul de ˆV YˆDE
= ˆV1+ ˆV2 requiert un logiciel sp´ecialis´e con¸cu sp´ecialement pour l’estimation de la variance dans le cas des plans `a deux phases.
But : proposer un estimateur de la variance simplifi´e qui ne d´epend pas desπ2ij(I1) ;
peut ˆetre calcul´e `a partir des logiciels con¸cus pour l’estimation de la variance dans le cas des plans `a une phase.
Un estimateur de la variance simplifi´ e
En notant que
1
π1ij = 1
π1iπ1j −∆1ij
et 1
π2ij(I1) = 1
π2i(I1)π2j(I1)−∆2ij(I1)
on peut r´earranger les termes de sorte que l’estimateur de la variance totale, ˆV
YˆDE
, s’exprime comme
Vˆ YˆDE
=X
i∈s2
X
j∈s2
∆1ij yi π2i(I1)
yj
π2j(I1)+X
i∈s2
X
j∈s2
∆2ij(I1) π1ij yiyj
≡Vˆ1R + ˆV2R.
Un estimateur de la variance simplifi´ e
Estimateur de la variance simplifi´e : ˆV1R ne d´epend pas desπ2ij(I1) ;
peut ˆetre calcul´e `a partir des logiciels con¸cus pour l’estimation de la variance dans le cas des plans `a une phase, car peut ˆetre exprim´e comme
Vˆ1R =X
i∈s1
X
j∈s1
∆1ijzizj,
o`u
zi = yi
π2i(I1)I2i;
Cette expression correspond `a l’estimateur de la variance dans le cas des plans `a une phase appliqu´e `a la variablez.
Ne requiert pas la propri´et´e d’invariance.
Question : Quand ˆV2R est-il n´egligeable ?
Evaluer la contribution de ˆ ´ V
2RContribution de ˆV2R `a la variance totale : Cb2R ≡ Vˆ2R
Vˆ YˆDE
Nous consid´erons ´egalement
Ce2R ≡ Vˆ2R Vˆ2
≥Cb2R
Si la propri´et´e d’invariance est satisfaite, on peut aussi utiliser C2R ≡ E1E2( ˆV2R|I1)
E1E2
Vˆ( ˆYDE)|I1
V ˆ
2Rest-il n´ egligeable ? Le cas d’un plan de Poisson ` a la 2
ephase
Utile dans le contexte de la non-r´eponse.
Plan de Poisson `a la 2e phase : consiste `a proc´eder `a des ´epreuves de Bernoulli independantes `a la 2e phase avec probabilit´e π2i(I1).
⇒I2i andI2j sont ind´ependants si i 6=j Contribution de ˆV2R :Ce2R ≡ Vˆˆ2R
V2
|eC2R| ≤max(π1i)
Condition usuelle : max(π1i) =O(n1/N) ⇒ l’estimateur de la variance simplifi´e ˆV1R est appropri´e si n1/N est n´egligeable.
V ˆ
2Rest-il n´ egligeable ? Le cas d’un plan ` a deux degr´ es
La population d’´el´ements est partitionn´ee enN grappes.
1er degr´e : un ´echantillon de grappes de taille n est s´electionn´e ; 2e degr´e : un ´echantillon est s´electionn´ee dans chaque grappe s´electionn´ee au 1er degr´e ;
Echantillonnage `´ a deux degr´es : cas particulier de l’´echantillonnage `a deux phases ;
2e phase : ind´ependance de la s´election entre les grappes.
V ˆ
2Rest-il n´ egligeable ? Le cas d’un plan ` a deux degr´ es
Contribution de ˆV2R :Ce2R ≡ Vˆˆ2R
V2
|eC2R| ≤max(π1i)
Condition usuelle : max(π1i) =O(n/N)⇒ l’estimateur de la variance simplifi´e ˆV1R est appropri´e si n/N est n´egligeable.
Estimateur de la variance simplifi´e : identique `a l’estimateur simplifi´e dans S¨arndal, Swensson et Wretman (1992, Chapitre 4)
V ˆ
2Rest-il n´ egligeable ? Le cas de l’´ echantillonnage al´ eatoire simple sans remise ` a la 2
ephase
Contribution de ˆV2R :C2R ≡ E1E2( ˆV2R|I1)
E1E2(Vˆ( ˆYDE)|I1)
C2R = − P
i∈Uyi2
+n1P
i∈Uyi2
−P
i∈U
P
j∈U∆1ijπ1ijyiyj − P
i∈Uyi
2
+n1P
i∈U yi2 π1i
.
Sous de faibles conditions de r´egularit´e, le num´erateur et le d´enominateur sontO(N2).
Vˆ2R n’est g´en´eralement pas n´egligeable dans le cas de l’EASSR `a la 2e phase.
On ne peut pas utiliser l’estimateur de la variance simplifi´e ˆV1R, mˆeme si n1/N est n´egligeable.
V ˆ
2Rest-il n´ egligeable ? Le cas de l’´ echantillonnage al´ eatoire simple sans remise ` a la 2
ephase
Supposons queP
i∈Uyi = 0. Alors,C2R est O(n1/N)
⇒ Vˆ2R est n´egligeable lorsque la fraction de sondage `a la 1`ere phase est n´egligeable.
Lien avec le calage : lorsqueP
i∈UEi = 0 on peut utiliser un estimateur de la variance simplifi´e si n1/N est n´egligeable Cas particulier : l’estimateur de H´ajek
YˆC = P
i∈s1 1 π1i
P
i∈s2
1 πi∗
YˆDE
EASSR `a la 2e phase : ´etudi´e par Kott et Stukel (1997, Survey Methodology) et Kim, Navarro et Fuller (2006, JASA)
Quelques liens int´ eressants
Variance totale de ˆYDE en utilisant l’approche renvers´ee (en supposant l’invariance) :
V YˆDE
=E2V1
YˆDE|I2
+V2E1
YˆDE|I2 La contribution de V2E1
YˆDE|I2
`
a la variance totale est V2E1
YˆDE|I2 V
YˆDE =On1 N
V2E1
YˆDE|I2
est n´egligeable lorsque la fraction de sondage `a la 1`ere phase est n´egligeable.
Estimation de E2V1
YˆDE|I2
: il suffit de trouver un estimateur sans biais deV1
YˆDE|I2
Quelques liens int´ eressants
Estimateur de la variance simplifi´e : estimateur de E2V1
YˆDE|I2 obtenu en traitant lesπ2i comme fixes.
Probl`eme : ´etant donn´e I2, lesπ2i sont des variables al´eatoires
⇒ l’estimateur de la variance simplifi´e n’est g´en´eralement pas valide (ex : estimateur par double dilatation + EASSR `a la 2e phase) Kott et Stukel (1997, SM) : estimation de la variance par le jackknife en traitant lesπ2i comme fixes.
Quelques liens int´ eressants
Estimateur par double dilatation + EASSR `a la 2e phase : YˆDE = X
i∈s2
1 π1i
1 π2i
yi
= n1 n2
X
i∈s2
w1iyi
= P
i∈s1w1iπ1i
P
i∈s1w1i(π1iI2i) X
i∈s1
w1i(I2iyi)
Estimation de V1
YˆDE|I2
: on peut utiliser une lin´earisation de Taylor de premier ordre.
Quelques liens int´ eressants
Kim, Navarro et Fuller (2006, JASA) : utilisent une m´ethode de r´e´echantillonnage (bootstrap)
YˆDE(j) = P
i∈s1w1i(j)π1i P
i∈s1w1i(j)(π1iI2i) X
i∈s1
w1i(j)(I2iyi)
Estimateur de la variance par r´epliques : VˆKNF =
L
X
j=1
cj
YˆDE(j)−YˆDE2
L’id´ee peut ˆetre appliqu´ee au cas des estimateurs de calage (ex : l’estimateur de H´ajek).
R´ esum´ e
Nous avons propos´e un estimateur de la variance simplifi´e : valide pour certains plans de sondages et/ou estimateurs ponctuels peut ˆetre utilis´e pour n’importe quel estimateur de calage (pas uniquement l’estimateur de H´ajek)
justifi´e par l’approche renvers´ee
Nous avons ´etabli des liens entre l’estimateur de la variance simplifi´e et les r´esultats de Kott et Stukel (1997) et Kim, Navarro et Fuller (2006).