Estimation de la variance par lin´ earisation via l’indicatrice d’´ echantillonnage avec application ` a
la non-r´ eponse
Audrey-Anne Vall´ee et
Yves Till´e
Universit´e de Neuchˆatel
Colloque Francophone sur les sondages 13 octobre 2016
Gatineau
Estimation de la variance dans le cas complet Estimation
Estimation de la variance
Approche propos´ee pour la lin´earisation Exemple
Non-r´eponse
Traitement de la non-r´eponse Sources d’al´ea
Cadres de travail pour l’inf´erence
Estimation de la variance en pr´esence de non-r´eponse D´ecomposition de la variance
M´ethodologie Exemple
Estimation de la variance dans le cas complet Non-r´eponse Estimation de la variance en pr´esence de non-r´eponse References
Estimation
Estimation de la variance
Approche propos´ee pour la lin´earisation Exemple
Estimation d’un paramˆ etre
I U: population de N unit´es;
I But: estimer un param`etre d’int´erˆet θ, avec variable d’int´erˆet y;
I Echantillon:´ a= (a1. . .ak. . .aN)> o`u ak vaut 1 si l’unit´e k est s´electionn´ee, 0 sinon;
I π = (π1. . . πk. . . πN)>: o`u πk est la probabilit´e d’inclusion d’ordre 1 de k;
I θb=θ(y,b a): estimateur deθ.
Estimation de la variance de θ b
I Estimateur obtenu directement dans les cas simples;
I M´ethodes de r´e-´echantillonnage:
I Bootstrap (Efron, 1979; Shao et Steel, 1999),
I Jackknife (Quenouille, 1949; Rao et Shao, 1992);
I Lin´earisation de θben fonction de:
I totaux estim´es (Binder, 1983, 1996; Woodruff, 1971),
I poids de sondages (Demnati et Rao, 2004, 2010).
Estimation de la variance dans le cas complet Non-r´eponse Estimation de la variance en pr´esence de non-r´eponse References
Estimation
Estimation de la variance
Approche propos´ee pour la lin´earisation Exemple
Estimation de la variance de θ b
I totaux estim´es (Binder, 1983, 1996; Woodruff, 1971),
I poids de sondages (Demnati et Rao, 2004, 2010).
Lin´earisation pas en fonction des ´el´ements al´eatoires directement.
→Rien n’assure que θbest lin´eaire en ak.
→Rien n’assure la possibilit´e de calculer une variance.
→Difficilement applicable en pr´esence de non-r´eponse.
Approche propos´ ee pour lin´ eariser
Motivation: On d´esire calculer Vp(bθ), o`u l’´el´ement al´eatoire de bθ=θ(y,b a) est a. Rendreθblin´eaire en termes des ak,k = 1. . .N.
Lin´earisation propos´ee, (Graf, 2011)
θ(y,b a) =θ(y,b π) +X
`∈U
z`(a`−π`) +R o`u z`= ∂a∂bθ
`
a=π et R d´epend des d´eriv´ees secondes.
Variance de l’estimateur Vp(bθ)≈Vp X
`∈U
z`a`
!
=X
k∈U
X
`∈U
(πk`−πkπ`)zkz`
Estimation de la variance dans le cas complet Non-r´eponse Estimation de la variance en pr´esence de non-r´eponse References
Estimation
Estimation de la variance
Approche propos´ee pour la lin´earisation Exemple
Approche propos´ ee pour lin´ eariser
Variance de l’estimateur Vp(bθ)≈Vp
X
`∈U
z`a`
!
=X
k∈U
X
`∈U
(πk`−πkπ`)zkz`
Estimation de la variance On a quez`= ∂a∂bθ
`
a=π n’est pas disponible.
On propose deux estimations dez`: zb` et ze` =∂bθ/∂a`. On obtient l’estimateur
Vbp(θ) =b X
k∈s
X
`∈s
πk`−πkπ`
πk` zekze`.
Estimateur cal´e
I θb=H(a,w) l’estimateur cal´e deθ.
I w= (w1. . .wk. . .wN)>, wk =Fk(x>kλ)/πk est le poids de calage de l’unit´ek tel queP
Uakwkxk =P
Uxk.
I La variable lin´earis´ee estz`= ∂a∂bθ
` =w`e`.
I e`: r´esidus de r´egression lin´eaire deh`(a,w) sur les variables auxiliaresx, pond´er´es parF`0(x>`λ).
I h`(a,w): lin´earisation comme si les poids de sondage ´etaient fixes.
I Estimation d’un total: R´esultat coh´erent avec Demnati et Rao (2004).
Estimation de la variance dans le cas complet Non-r´eponse Estimation de la variance en pr´esence de non-r´eponse References
Traitement de la non-r´eponse Sources d’al´ea
Cadres de travail pour l’inf´erence
Estimation de la variance dans le cas complet Estimation
Estimation de la variance
Approche propos´ee pour la lin´earisation Exemple
Non-r´eponse
Traitement de la non-r´eponse Sources d’al´ea
Cadres de travail pour l’inf´erence
Estimation de la variance en pr´esence de non-r´eponse D´ecomposition de la variance
M´ethodologie Exemple
Traitements de la non-r´ eponse
Deux types de non-r´eponse:
I Non-r´eponse partielle,
I Non-r´eponse totale.
Deux traitements de la non-r´eponse:
I Imputation des valeurs manquantes,
I Repond´eration des unit´es r´epondantes.
SoitθbI l’estimateur de θconsid´erant le traitement de la non-r´eponse.
Estimation de la variance dans le cas complet Non-r´eponse Estimation de la variance en pr´esence de non-r´eponse References
Traitement de la non-r´eponse Sources d’al´ea
Cadres de travail pour l’inf´erence
Sources d’al´ ea en pr´ esence de non-r´ eponse trait´ ee
s(n) sr(nr)
U(N)
3 sources d’al´ea de θbI:
I Echantillon´ a,
I R´eponseR= (R1. . .Rk. . .RN)>,
I Variable d’int´erˆet y.
On ´ecrit bθI =θbI(y,a,R)
Cadres de travail pour l’inf´ erence
I Bas´e sur le plan de sondage: ´Echantillon aet r´eponse R al´eatoires. Variable d’int´erˆety vue comme fixe.
I Bas´e sur un mod`ele: ´Echantillonaet mod`ele dey al´eatoires.
Hypoth`eses sur la r´eponse Rqui est ind´ependante dey conditionnellement.
Estimation de la variance dans le cas complet Non-r´eponse Estimation de la variance en pr´esence de non-r´eponse References
D´ecomposition de la variance M´ethodologie
Exemple
Estimation de la variance dans le cas complet Estimation
Estimation de la variance
Approche propos´ee pour la lin´earisation Exemple
Non-r´eponse
Traitement de la non-r´eponse Sources d’al´ea
Cadres de travail pour l’inf´erence
Estimation de la variance en pr´esence de non-r´eponse D´ecomposition de la variance
M´ethodologie Exemple
D´ ecomposition de la variance
Deux approches:
I Deux-phases: U →s →sr.
I Renvers´ee: U →Ur →Sr. D´ecompositions de la variance de θbI:
Inf´erence bas´ee sur Approche Plan de sonsage Mod`ele
Deux-phases EpEq(bθI−θ)2 EmEpEq(bθI−θ)2 Renvers´ee EqEp(θbI−θ)2 EqEmEp(θbI−θ)2
Comment calculer ces esp´erances quand l’estimateur et le traitement de la non-r´eponse sont complexes?
Estimation de la variance dans le cas complet Non-r´eponse Estimation de la variance en pr´esence de non-r´eponse References
D´ecomposition de la variance M´ethodologie
Exemple
M´ ethodologie pour estimer la variance par lin´ earisation
Proposition: Pour chaque esp´erance, lin´eariser le param`etre en fonction de l’´el´ement al´eatoire directement.
Variance renvers´ee bas´ee sur le plan de sondage
Ici, le plan de sondage et la r´eponse sont al´eatoires. Donc lin´eariser en fonction dea`, puis en fonction de R`.
1. D´ecomposion de la variance: V(bθI) =EqVp(bθI|R)+VqEp(bθI|R).
M´ ethodologie pour estimer la variance par lin´ earisation
Variance renvers´ee bas´ee sur le plan de sondage
1. D´ecomposion de la variance: V(bθI) =EqVp(bθI|R)+VqEp(bθI|R).
2. Lin´earisation viaa`:
θbI ≈θbI(y,π,R)+X
U
z`a(a`−π`), z`a= ∂θbI
∂a`
.
3. Approximation des termes de la variance:
Vp(bθI|R)≈P P
U(πk`−πkπ`)zkaz`a,Ep(θbI|R)≈θbI(y,π,R).
4. Lin´earisation viaR`:
θbI(y,π,R)≈θbI(y,π,p) +X
U
z`aR(R`−p`), z`aR=∂θbI(y,π,R)/∂R`.
5. Approximation de la variance:
VqEp(bθI|R)≈VqθbI(y,π,R)≈P P
U(pk`−pkp`)zkaRz`aR.
Estimation de la variance dans le cas complet Non-r´eponse Estimation de la variance en pr´esence de non-r´eponse References
D´ecomposition de la variance M´ethodologie
Exemple
Repond´eration par le calage pour estimer un total
I θbI =P
UakRkwkyk estimateur repond´er´e de θ=P
Uyk.
I wk =Fk(x>kλ)/πk tel queP
UakRkwkxk =P
Uxk.
I La lin´earisation viaa`:
z`a= ∂θbI
∂a` =w`e`.
I EqVp(bθI)≈EqP P
U(πk`−πkπ`)wkw`eke`.
I Lin´earisation viaR`:
z`aR = ∂bθI(y,π,R)
∂R` =F`(x>` λ)e`.
I VqEp(bθI)=P P
U(pk`−pkp`)F`(x>` λ)Fk(x>kλ)eke`.
I Si pk est estim´e parFk(x>kλ), r´esultat obtenu par Kott (2006).
Conclusion
La m´ethodologie d’approximation
I assure la lin´earisation de l’estimateur en les ´el´ements al´eatoires,
I assure la possibilit´e de calculer esp´erance/variance,
I assure l’obtention d’un estimateur de variance explicite,
I est efficace pour tous les cas: estimateurs complexes, estimateurs cal´es, estimateurs imput´es, estimateurs repond´er´es,
I est simple puisqu’il suffit de suivre une m´ethodologie,
I est coh´erente et intuitive.
Estimation de la variance dans le cas complet Non-r´eponse Estimation de la variance en pr´esence de non-r´eponse References
Binder, D. A. (1983). On the variances of asymptotically normal estimators from complex survey. International Statistical Review,51, 279–292.
Binder, D. A. (1996). Linearization methods for single phase and two-phase samples:
a cookbook approach. Survey Methodology,22, 17–22.
Demnati, A. et Rao, J. N. K. (2004). Linearization variance estimators for survey data (with discussion).Survey Methodology,30, 17–34.
Demnati, A. et Rao, J. N. K. (2010). Linearization variance estimators for model parameters from complex survey data.Survey Methodology,36, 193–201.
Efron, B. (1979). Bootstrap methods: Another look at the jackknife.Annals of Statistics,7, 1–26.
Graf, M. (2011). Use of survey weights for the analysis of compositional data. In Compositional Data Analysis: Theory and Applications(eds. V. Pawlowsky-Glahn et A. Buccianti), 114–127. Chichester: Wiley.
Kott, P. S. (2006). Using calibration weighting to adjust for nonresponse and coverage errors. Survey Methodology,32, 133–142.
Quenouille, M. H. (1949). Problems in plane sampling. The Annals of Mathematical Statistics, 355–375.
Rao, J. N. K. et Shao, J. (1992). Jackknife variance estimation with survey data under hot-deck imputation. Biometrika,79, 811–822.
Shao, J. et Steel, P. (1999). Variance estimation for survey data with composite imputation and nonneglible sampling fractions. Journal of the American Statistical Association,94, 254–265.
Woodruff, R. S. (1971). A simple method for approximating the variance of a complicated estimate.Journal of the American Statistical Association,66,