Estimation de variance sous une non-réponse monotone pour une enquête de type cohorte

(1)

Estimation de variance sous une non-réponse monotone pour une enquête de type cohorte

Guillaume Chauvet (ENSAI) En collaboration avec H. Juillard (INED)

Colloque Francophone sur les Sondages Gatineau, le 13/10/16

(2)

Résumé

Nous nous intéressons aux enquêtes par cohorte, avec suivi d'un panel d'individus liés par un évènement commun. La cohorte est gé- néralement sujette à une non-réponse initiale, puis à un problème d'attrition à tous les temps d'enquête.

Nous considérons le cas d'une non-réponse totale monotone, traitée par repondération à chaque temps. En étendant les résultats de Kim et Kim (2007), nous donnons des estimateurs de variance applicables à chaque temps d'enquête.

Nous comparons les résultats obtenus avec un estimateur simplié de la variance de non-réponse, traitant les probabilités de réponse comme connues.

(3)

Notation

Traitement de la non-réponse initiale Traitement de l'attrition

Etude par simulations

(4)

Notation

(5)

Notation

Soit une population d'individusU. Un échantillons0 est sélectionné selon un plan de sondagep(·), avec π_i >0 pour tout i∈U. Dans le cadre de ELFE, sélection d'un échantillon de nouveaux-nés selon un plan de sondage produit (Juillard et al., 2015).

En l'absence de non-réponse, le totalty peut être estimé sans biais par l'estimateur de Horvitz-Thompson

Yˆ₀ =X

i∈s₀

y_i

π_i avec V( ˆY₀) = X

i,j∈U

∆_ijy_i π_i

y_j π_j.

Le termeV( ˆY0)représente la variance d'échantillonnage (incompres- sible). Nous noterons Vˆ_t^p(·) pour un estimateur de cette variance calculé au tempst.

(6)

Traitement de la non-réponse

initiale

(7)

Traitement de la non-réponse initiale

En raison de la non-réponse initiale, seul un sous-échantillon de ré- pondantss₁ ⊂s₀est observé. Le mécanisme de réponse est modélisé selon un plan de Poisson, avecp¹_i la probabilité de réponse de l'indi- viduiau temps t= 1.

On postule un modèle paramétrique pour la probabilité de réponse, logistique pour simplier :

logit(p¹_i) = (z_i¹)^>α¹,

avecz_i¹ un vecteur de variables auxiliaires connues au temps t= 1. L'estimation de α¹ conduit aux probabilités estimées pˆ¹_i et à l'estimateur corrigé de la non-réponse initiale

Yˆ1 = X

i∈s1

yi

π_i pˆ¹_i.

(8)

Traitement de la non-réponse initiale

Estimateur de variance

La variance de cet estimateur peut s'écrire V( ˆY₁) = V^p( ˆY₁) +V^nr( ˆY₁).

Variance d'échantillonnage :V^p( ˆY1) =V( ˆY0).

Estim. de la variance de non-réponseV^nr( ˆY₁)(Kim and Kim, 2007) :

Vˆ₁^nr( ˆY₁) = X

i∈s₁

(1−pˆ¹_i) y_i

πipˆ¹_i −k_i¹(z¹_i)^>γˆ₁¹ 2

,

avec γˆ₁¹ = (

X

i∈s1

k^δ_i(1−pˆ¹_i)(z_i¹)^>z¹_i )−1

X

i∈s1

1−pˆ¹_i ˆ

p¹_i (z_i¹)yi

πi

.

Terme de centragek¹_i(z_i¹)^>γˆ₁¹ : prédiction de ^y_πⁱ_i parz_i¹.

(9)

Traitement de la non-réponse initiale

Estimateur simplié de variance

Estimateur de la variance de non-réponseV^nr( ˆY₁) :

Vˆ₁^nr( ˆY₁) = X

i∈s₁

(1−pˆ¹_i) y_i

πipˆ¹_i −k_i¹(z¹_i)^>ˆγ₁¹ 2

.

Estimateur simplié de la variance de non-réponseV^nr( ˆY1):

Vˆ_1,simp^nr ( ˆY₁) = X

i∈s₁

(1−pˆ¹_i) y_i

πipˆ¹_i −0 2

.

Terme de centragek¹_i(z_i¹)^>γˆ₁¹ ignoré.

Estime la variance que l'on aurait en repondérant par lesvraies pro- babilités de réponse.

Tend àsurestimerla variance de non-réponse.

(10)

Traitement de l'attrition

(11)

Traitement de l'attrition

Au tempst, seul un sous-échantillons_t⊂st−1· · · ⊂s₀ (non-réponse monotone) est observé. Chaque mécanisme de réponse est modélisé selon un plan de Poisson, avecp^δ_i la probabilité de réponse de l'indi- viduiau temps δ.

On postule un modèle paramétrique (logistique) pour la probabilité de réponse :

logit(p^δ_i) = (z_i^δ)^>α^δ.

L'estimation desα^δ conduit à l'estimateur corrigé de la non-réponse initiale+attrition

Yˆt=X

i∈s_δ

yi

π_ipˆ^1→t_i avec pˆ^1→t_i =

t

Y

δ=1

ˆ p^δ_i.

(12)

Traitement de l'attrition

Estimateur de variance

La variance de cet estimateur peut s'écrire

V( ˆY_t) = V^p( ˆY_t) +

t

X

δ=1

V^nrδ( ˆY_t).

Variance d'échantillonnage :V^p( ˆY_t) =V( ˆY₀). Estimateur de la variance de non-réponseV^nr( ˆY_t):

Vˆ_t^nr( ˆY_t) =

t

X

δ=1

X

i∈s_t

ˆ

p^δ_i(1−pˆ^δ_i) ˆ p^δ→t_i

y_i

πipˆ^1→δ_i −k^δ_i(z_i^δ)^>ˆγ_t^δ 2

,

avec γˆ_t^δ = (

X

i∈st

k_i^δpˆ^δ_i(1−pˆ^δ_i) ˆ

p^δ→t_i (z_i^δ)^>z_i^δ )−1

X

i∈st

1−pˆ^δ_i ˆ

p^1→t_i (z^δ_i)yi

π_i.

(13)

Traitement de l'attrition

Estimateur simplié de variance

Estimateur de la variance de non-réponseV^nr( ˆYt):

Vˆ_t^nr( ˆY_t) =

t

X

δ=1

X

i∈st

ˆ

yi

π_ipˆ^1→δ_i −k_i^δ(z^δ_i)^>γˆ^δ_t 2

.

Estimateur simplié de la variance de non-réponseV^nr( ˆY_t) :

Vˆ_t^nr( ˆY1) =

t

X

δ=1

X

i∈st

ˆ

yi

πipˆ^1→δ_i −0 2

= X

i∈st

1−pˆ^1→t_i ˆ p^1→t_i 2

y_i π_i

2

.

Estime la variance que l'on aurait en repondérant par les vraies pro- babilités de réponse à chaque temps :variance surestimée.

Tout se passe comme si s_t était obtenu par tirage poissonien de

(14)

Discussion

Est-ce que la surestimation est importante ? Dépend du paramètre et de l'estimateur utilisé :

I Pour un total estimé par Horvitz-Thompson :

→ dépend du pouvoir explicatif des z_i^δ sur yi,

→ potentiellement fort, mais HT peu utilisé en pratique.

I Pour un total estimé par calage :

→ dépend du pouvoir explicatif des z_i^δ sur les résidus E_i =y_i−x^>_i B_y,

→ peut être fort si les variables de calage sont peu explicatives de la variable d'intérêt.

I Pour un paramètre complexe θestimé par calage :

→ dépend du pouvoir explicatif des z_i^δ sur les résidus E_θi=u_i−x^>_i B_u, avecu_i la linéarisée deθ

→ normalement faible

(15)

Etude par simulations

(16)

Cadre des simulations

Population de taille10,000avec 3 variables d'intérêt : y_1i = 10 + 5x_ai+ 5x_bi+ 10u_1i, (R²= 0.50) y_2i = 0.8y_1i+ 10u_2i,

y3i = 0.8y2i+ 10u3i.

L'échantillon initial est sélectionné par sondage aléatoire simple de taillen= 1,000.

A chacun des temps t = 1,2,3, on considère un mécanisme de ré- ponse de Poisson avec

logit(p^δ_i) = −1 +β^δaxai+β^δbxbi.

Probabilités de réponse moyennes de0.75,0.81 et 0.81.

(17)

Cadre des simulations

On réalise5,000simulations. On s'intéresse à l'estimation

I des totauxYt,

I des ratiosRt=Yt/Y1,

I des évolutions∆(1→t) =Yt−Y1.

Les ratios et évolutions sont estimés par substitution.

On considère pour un total l'estimateur :

I de Horvitz-Thompson :Yˆt,

I calé sur les variables 1, xai, xbi du modèle : Yˆwt,

I calé sur d'autres variables 1, x_ci, x_di :Yˆ_wt_˜ .

(18)

Résultats

t t t

1 2 3 1 2 3 1 2 3

Yˆ_t Yˆ_wt Yˆ_wt_˜

RBmc( ˆV) -0 -1 -2 -1 -1 -2 -1 -1 -3

RBmc( ˆV_simp^nr ) 559 188 80 0 -1 -2 83 34 15 Rˆ_t Rˆ_wt Rˆ_wt_˜

RBmc( ˆV) - -0 -2 - -1 -2 - -1 -2

RBmc( ˆV_simp^nr ) - 0 0 - -1 -2 - -1 -1

∆ˆ_tt(1→t) ∆ˆ_tt,w(1→t) ∆ˆ_tt,_w_˜(1→t)

RBmc( ˆV) - -0 -2 - -0 -2 - -1 -3

RBmc( ˆV_simp^nr ) - 19 30 - -1 -2 - 3 5

(19)

Références

Juillard, H., and Chauvet, G. (2016). Variance estimation under monotone non-response for a panel survey.

Juillard, H., Chauvet, G. and Ruiz-Gazen, A. (2016). Estimation under cross-classied sampling with application to a childhood survey.

To appear in Journal of the American Statistical Association.

Kim, J. K. and Kim, J. J. (2007). Nonresponse weighting adjustment using estimated response probability. Canadian Journal of Statistics 35, 501-514.

Lynn, P. (2009). Methods for Longitudinal Surveys. Methodology of Longitudinal Surveys, 1-19.

Skinner, C. (2015). Cross-classied sampling : some estimation theory.

Statistics and Probability Letters 104, 163-168.

(20)

Estimation de variance sous une non-réponse monotone pour une enquête de type cohorte