Estimation de la variance par linéarisation via l’indicatrice d’échantillonnage avec application à la non-réponse

(1)

Estimation de la variance par lin´ earisation via l’indicatrice d’´ echantillonnage avec application ` a

la non-r´ eponse

Audrey-Anne Vall´ee et

Yves Till´e

Universit´e de Neuchˆatel

Colloque Francophone sur les sondages 13 octobre 2016

Gatineau

(2)

Estimation de la variance dans le cas complet Estimation

Estimation de la variance

Approche propos´ee pour la lin´earisation Exemple

Non-r´eponse

Traitement de la non-r´eponse Sources d’al´ea

Cadres de travail pour l’inf´erence

Estimation de la variance en présence de non-réponse Décomposition de la variance

M´ethodologie Exemple

(3)

Estimation de la variance dans le cas complet Non-réponse Estimation de la variance en présence de non-réponse References

Estimation

Estimation d’un paramˆ etre

I U: population de N unit´es;

I But: estimer un paramètre d’intérêt θ, avec variable d’intérêt y;

I Echantillon:´ a= (a₁. . .a_k. . .a_N)^> où a_k vaut 1 si l’unité k est sélectionnée, 0 sinon;

I π = (π₁. . . π_k. . . π_N)^>: o`u π_k est la probabilit´e d’inclusion d’ordre 1 de k;

I θb=θ(y,b a): estimateur deθ.

(4)

Estimation de la variance de θ b

I Estimateur obtenu directement dans les cas simples;

I Méthodes de ré-échantillonnage:

I Bootstrap (Efron, 1979; Shao et Steel, 1999),

I Jackknife (Quenouille, 1949; Rao et Shao, 1992);

I Lin´earisation de θben fonction de:

I totaux estim´es (Binder, 1983, 1996; Woodruff, 1971),

I poids de sondages (Demnati et Rao, 2004, 2010).

(5)

Estimation

Estimation de la variance de θ b

I totaux estim´es (Binder, 1983, 1996; Woodruff, 1971),

I poids de sondages (Demnati et Rao, 2004, 2010).

Linéarisation pas en fonction des éléments aléatoires directement.

→Rien n’assure que θbest lin´eaire en ak.

→Rien n’assure la possibilit´e de calculer une variance.

→Difficilement applicable en pr´esence de non-r´eponse.

(6)

Approche propos´ ee pour lin´ eariser

Motivation: On désire calculer V_p(bθ), où l’élément aléatoire de bθ=θ(y,b a) est a. Rendreθblinéaire en termes des a_k,k = 1. . .N.

Lin´earisation propos´ee, (Graf, 2011)

θ(y,b a) =θ(y,b π) +X

`∈U

z`(a`−π`) +R o`u z_`= _∂a^∂b^θ

`

a=π et R dépend des dérivées secondes.

Variance de l’estimateur V_p(bθ)≈V_p X

`∈U

z_`a_`

!

=X

k∈U

X

`∈U

(π_k`−π_kπ_`)z_kz_`

(7)

Estimation

Approche propos´ ee pour lin´ eariser

Variance de l’estimateur Vp(bθ)≈Vp

X

`∈U

z`a`

!

=X

k∈U

X

`∈U

(πk`−πkπ`)zkz`

Estimation de la variance On a quez_`= _∂a^∂b^θ

`

a=π n’est pas disponible.

On propose deux estimations dez_`: zb_` et ze_` =∂bθ/∂a_`. On obtient l’estimateur

Vbp(θ) =b X

k∈s

X

`∈s

πk`−πkπ`

π_k` zekze`.

(8)

Estimateur cal´e

I θb=H(a,w) l’estimateur cal´e deθ.

I w= (w1. . .wk. . .wN)^>, wk =Fk(x^>_kλ)/πk est le poids de calage de l’unit´ek tel queP

Uakwkxk =P

Uxk.

I La variable lin´earis´ee estz`= _∂a^∂b^θ

` =w`e`.

I e`: résidus de régression linéaire deh`(a,w) sur les variables auxiliaresx, pondérés parF_`⁰(x^>_`λ).

I h`(a,w): lin´earisation comme si les poids de sondage ´etaient fixes.

I Estimation d’un total: R´esultat coh´erent avec Demnati et Rao (2004).

(9)

Non-r´eponse

(10)

Traitements de la non-r´ eponse

Deux types de non-r´eponse:

I Non-r´eponse partielle,

I Non-r´eponse totale.

Deux traitements de la non-r´eponse:

I Imputation des valeurs manquantes,

I Repondération des unités répondantes.

Soitθb_I l’estimateur de θconsid´erant le traitement de la non-r´eponse.

(11)

Sources d’al´ ea en pr´ esence de non-r´ eponse trait´ ee

s(n) sr(nr)

U(N)

3 sources d’al´ea de θb_I:

I Echantillon´ a,

I R´eponseR= (R₁. . .R_k. . .R_N)^>,

I Variable d’int´erˆet y.

On ´ecrit bθI =θbI(y,a,R)

(12)

Cadres de travail pour l’inf´ erence

I Basé sur le plan de sondage: Échantillon aet réponse R aléatoires. Variable d’intérêty vue comme fixe.

I Basé sur un modèle: Échantillonaet modèle dey aléatoires.

Hypothèses sur la réponse Rqui est indépendante dey conditionnellement.

(13)

D´ecomposition de la variance M´ethodologie

Exemple

Non-r´eponse

(14)

D´ ecomposition de la variance

Deux approches:

I Deux-phases: U →s →sr.

I Renvers´ee: U →Ur →Sr. D´ecompositions de la variance de θb_I:

Inférence basée sur Approche Plan de sonsage Modèle

Deux-phases E_pE_q(bθ_I−θ)² E_mE_pE_q(bθ_I−θ)² Renvers´ee EqEp(θbI−θ)² EqEmEp(θbI−θ)²

Comment calculer ces esp´erances quand l’estimateur et le traitement de la non-r´eponse sont complexes?

(15)

Exemple

M´ ethodologie pour estimer la variance par lin´ earisation

Proposition: Pour chaque espérance, linéariser le paramètre en fonction de l’élément aléatoire directement.

Variance renvers´ee bas´ee sur le plan de sondage

Ici, le plan de sondage et la réponse sont aléatoires. Donc linéariser en fonction dea`, puis en fonction de R`.

1. D´ecomposion de la variance: V(bθI) =EqVp(bθI|R)+VqEp(bθI|R).

(16)

M´ ethodologie pour estimer la variance par lin´ earisation

Variance renvers´ee bas´ee sur le plan de sondage

1. D´ecomposion de la variance: V(bθI) =EqVp(bθI|R)+VqEp(bθI|R).

2. Lin´earisation viaa`:

θbI ≈θbI(y,π,R)+X

U

z_`^a(a`−π`), z_`^a= ∂θbI

∂a`

.

3. Approximation des termes de la variance:

Vp(bθI|R)≈P P

U(πk`−πkπ`)z_k^az_`^a,Ep(θbI|R)≈θbI(y,π,R).

4. Lin´earisation viaR`:

θbI(y,π,R)≈θbI(y,π,p) +X

U

z`^aR(R`−p`), z`^aR=∂θbI(y,π,R)/∂R`.

5. Approximation de la variance:

VqEp(bθI|R)≈VqθbI(y,π,R)≈P P

U(pk`−pkp`)zk^aRz`^aR.

(17)

Exemple

Repond´eration par le calage pour estimer un total

I θb_I =P

Ua_kR_kw_ky_k estimateur repond´er´e de θ=P

Uy_k.

I w_k =F_k(x^>_kλ)/π_k tel queP

Ua_kR_kw_kx_k =P

Ux_k.

I La lin´earisation viaa`:

z_`^a= ∂θb_I

∂a_` =w_`e_`.

I EqVp(bθ_I)≈EqP P

U(π_k_`−π_kπ_`)w_kw_`e_ke_`.

I Lin´earisation viaR`:

z_`^aR = ∂bθ_I(y,π,R)

∂R_` =F`(x^>_` λ)e`.

I VqEp(bθI)=P P

U(pk`−pkp`)F`(x^>_` λ)Fk(x^>_kλ)eke`.

I Si p_k est estim´e parF_k(x^>_kλ), r´esultat obtenu par Kott (2006).

(18)

Conclusion

La m´ethodologie d’approximation

I assure la linéarisation de l’estimateur en les éléments aléatoires,

I assure la possibilit´e de calculer esp´erance/variance,

I assure l’obtention d’un estimateur de variance explicite,

I est efficace pour tous les cas: estimateurs complexes, estimateurs calés, estimateurs imputés, estimateurs repondérés,

I est simple puisqu’il suffit de suivre une m´ethodologie,

I est coh´erente et intuitive.

(19)

Binder, D. A. (1983). On the variances of asymptotically normal estimators from complex survey. International Statistical Review,51, 279–292.

Binder, D. A. (1996). Linearization methods for single phase and two-phase samples:

a cookbook approach. Survey Methodology,22, 17–22.

Demnati, A. et Rao, J. N. K. (2004). Linearization variance estimators for survey data (with discussion).Survey Methodology,30, 17–34.

Demnati, A. et Rao, J. N. K. (2010). Linearization variance estimators for model parameters from complex survey data.Survey Methodology,36, 193–201.

Efron, B. (1979). Bootstrap methods: Another look at the jackknife.Annals of Statistics,7, 1–26.

Graf, M. (2011). Use of survey weights for the analysis of compositional data. In Compositional Data Analysis: Theory and Applications(eds. V. Pawlowsky-Glahn et A. Buccianti), 114–127. Chichester: Wiley.

Kott, P. S. (2006). Using calibration weighting to adjust for nonresponse and coverage errors. Survey Methodology,32, 133–142.

Quenouille, M. H. (1949). Problems in plane sampling. The Annals of Mathematical Statistics, 355–375.

Rao, J. N. K. et Shao, J. (1992). Jackknife variance estimation with survey data under hot-deck imputation. Biometrika,79, 811–822.

Shao, J. et Steel, P. (1999). Variance estimation for survey data with composite imputation and nonneglible sampling fractions. Journal of the American Statistical Association,94, 254–265.

Woodruff, R. S. (1971). A simple method for approximating the variance of a complicated estimate.Journal of the American Statistical Association,66,