Estimation de variance sous une non-réponse monotone pour une enquête de type cohorte
Guillaume Chauvet (ENSAI) En collaboration avec H. Juillard (INED)
Colloque Francophone sur les Sondages Gatineau, le 13/10/16
Résumé
Nous nous intéressons aux enquêtes par cohorte, avec suivi d'un pa- nel d'individus liés par un évènement commun. La cohorte est gé- néralement sujette à une non-réponse initiale, puis à un problème d'attrition à tous les temps d'enquête.
Nous considérons le cas d'une non-réponse totale monotone, traitée par repondération à chaque temps. En étendant les résultats de Kim et Kim (2007), nous donnons des estimateurs de variance applicables à chaque temps d'enquête.
Nous comparons les résultats obtenus avec un estimateur simplié de la variance de non-réponse, traitant les probabilités de réponse comme connues.
Notation
Traitement de la non-réponse initiale Traitement de l'attrition
Etude par simulations
Notation
Notation
Soit une population d'individusU. Un échantillons0 est sélectionné selon un plan de sondagep(·), avec πi >0 pour tout i∈U. Dans le cadre de ELFE, sélection d'un échantillon de nouveaux-nés selon un plan de sondage produit (Juillard et al., 2015).
En l'absence de non-réponse, le totalty peut être estimé sans biais par l'estimateur de Horvitz-Thompson
Yˆ0 =X
i∈s0
yi
πi avec V( ˆY0) = X
i,j∈U
∆ijyi πi
yj πj.
Le termeV( ˆY0)représente la variance d'échantillonnage (incompres- sible). Nous noterons Vˆtp(·) pour un estimateur de cette variance calculé au tempst.
Traitement de la non-réponse
initiale
Traitement de la non-réponse initiale
En raison de la non-réponse initiale, seul un sous-échantillon de ré- pondantss1 ⊂s0est observé. Le mécanisme de réponse est modélisé selon un plan de Poisson, avecp1i la probabilité de réponse de l'indi- viduiau temps t= 1.
On postule un modèle paramétrique pour la probabilité de réponse, logistique pour simplier :
logit(p1i) = (zi1)>α1,
aveczi1 un vecteur de variables auxiliaires connues au temps t= 1. L'estimation de α1 conduit aux probabilités estimées pˆ1i et à l'esti- mateur corrigé de la non-réponse initiale
Yˆ1 = X
i∈s1
yi
πi pˆ1i.
Traitement de la non-réponse initiale
Estimateur de variance
La variance de cet estimateur peut s'écrire V( ˆY1) = Vp( ˆY1) +Vnr( ˆY1).
Variance d'échantillonnage :Vp( ˆY1) =V( ˆY0).
Estim. de la variance de non-réponseVnr( ˆY1)(Kim and Kim, 2007) :
Vˆ1nr( ˆY1) = X
i∈s1
(1−pˆ1i) yi
πipˆ1i −ki1(z1i)>γˆ11 2
,
avec γˆ11 = (
X
i∈s1
kδi(1−pˆ1i)(zi1)>z1i )−1
X
i∈s1
1−pˆ1i ˆ
p1i (zi1)yi
πi
.
Terme de centragek1i(zi1)>γˆ11 : prédiction de yπii parzi1.
Traitement de la non-réponse initiale
Estimateur simplié de variance
Estimateur de la variance de non-réponseVnr( ˆY1) :
Vˆ1nr( ˆY1) = X
i∈s1
(1−pˆ1i) yi
πipˆ1i −ki1(z1i)>ˆγ11 2
.
Estimateur simplié de la variance de non-réponseVnr( ˆY1):
Vˆ1,simpnr ( ˆY1) = X
i∈s1
(1−pˆ1i) yi
πipˆ1i −0 2
.
Terme de centragek1i(zi1)>γˆ11 ignoré.
Estime la variance que l'on aurait en repondérant par lesvraies pro- babilités de réponse.
Tend àsurestimerla variance de non-réponse.
Traitement de l'attrition
Traitement de l'attrition
Au tempst, seul un sous-échantillonst⊂st−1· · · ⊂s0 (non-réponse monotone) est observé. Chaque mécanisme de réponse est modélisé selon un plan de Poisson, avecpδi la probabilité de réponse de l'indi- viduiau temps δ.
On postule un modèle paramétrique (logistique) pour la probabilité de réponse :
logit(pδi) = (ziδ)>αδ.
L'estimation desαδ conduit à l'estimateur corrigé de la non-réponse initiale+attrition
Yˆt=X
i∈sδ
yi
πipˆ1→ti avec pˆ1→ti =
t
Y
δ=1
ˆ pδi.
Traitement de l'attrition
Estimateur de variance
La variance de cet estimateur peut s'écrire
V( ˆYt) = Vp( ˆYt) +
t
X
δ=1
Vnrδ( ˆYt).
Variance d'échantillonnage :Vp( ˆYt) =V( ˆY0). Estimateur de la variance de non-réponseVnr( ˆYt):
Vˆtnr( ˆYt) =
t
X
δ=1
X
i∈st
ˆ
pδi(1−pˆδi) ˆ pδ→ti
yi
πipˆ1→δi −kδi(ziδ)>ˆγtδ 2
,
avec γˆtδ = (
X
i∈st
kiδpˆδi(1−pˆδi) ˆ
pδ→ti (ziδ)>ziδ )−1
X
i∈st
1−pˆδi ˆ
p1→ti (zδi)yi
πi.
Traitement de l'attrition
Estimateur simplié de variance
Estimateur de la variance de non-réponseVnr( ˆYt):
Vˆtnr( ˆYt) =
t
X
δ=1
X
i∈st
ˆ
pδi(1−pˆδi) ˆ pδ→ti
yi
πipˆ1→δi −kiδ(zδi)>γˆδt 2
.
Estimateur simplié de la variance de non-réponseVnr( ˆYt) :
Vˆtnr( ˆY1) =
t
X
δ=1
X
i∈st
ˆ
pδi(1−pˆδi) ˆ pδ→ti
yi
πipˆ1→δi −0 2
= X
i∈st
1−pˆ1→ti ˆ p1→ti 2
yi πi
2
.
Estime la variance que l'on aurait en repondérant par les vraies pro- babilités de réponse à chaque temps :variance surestimée.
Tout se passe comme si st était obtenu par tirage poissonien de
Discussion
Est-ce que la surestimation est importante ? Dépend du paramètre et de l'estimateur utilisé :
I Pour un total estimé par Horvitz-Thompson :
→ dépend du pouvoir explicatif des ziδ sur yi,
→ potentiellement fort, mais HT peu utilisé en pratique.
I Pour un total estimé par calage :
→ dépend du pouvoir explicatif des ziδ sur les résidus Ei =yi−x>i By,
→ peut être fort si les variables de calage sont peu explicatives de la variable d'intérêt.
I Pour un paramètre complexe θestimé par calage :
→ dépend du pouvoir explicatif des ziδ sur les résidus Eθi=ui−x>i Bu, avecui la linéarisée deθ
→ normalement faible
Etude par simulations
Cadre des simulations
Population de taille10,000avec 3 variables d'intérêt : y1i = 10 + 5xai+ 5xbi+ 10u1i, (R2= 0.50) y2i = 0.8y1i+ 10u2i,
y3i = 0.8y2i+ 10u3i.
L'échantillon initial est sélectionné par sondage aléatoire simple de taillen= 1,000.
A chacun des temps t = 1,2,3, on considère un mécanisme de ré- ponse de Poisson avec
logit(pδi) = −1 +βδaxai+βδbxbi.
Probabilités de réponse moyennes de0.75,0.81 et 0.81.
Cadre des simulations
On réalise5,000simulations. On s'intéresse à l'estimation
I des totauxYt,
I des ratiosRt=Yt/Y1,
I des évolutions∆(1→t) =Yt−Y1.
Les ratios et évolutions sont estimés par substitution.
On considère pour un total l'estimateur :
I de Horvitz-Thompson :Yˆt,
I calé sur les variables 1, xai, xbi du modèle : Yˆwt,
I calé sur d'autres variables 1, xci, xdi :Yˆwt˜ .
Résultats
t t t
1 2 3 1 2 3 1 2 3
Yˆt Yˆwt Yˆwt˜
RBmc( ˆV) -0 -1 -2 -1 -1 -2 -1 -1 -3
RBmc( ˆVsimpnr ) 559 188 80 0 -1 -2 83 34 15 Rˆt Rˆwt Rˆwt˜
RBmc( ˆV) - -0 -2 - -1 -2 - -1 -2
RBmc( ˆVsimpnr ) - 0 0 - -1 -2 - -1 -1
∆ˆtt(1→t) ∆ˆtt,w(1→t) ∆ˆtt,w˜(1→t)
RBmc( ˆV) - -0 -2 - -0 -2 - -1 -3
RBmc( ˆVsimpnr ) - 19 30 - -1 -2 - 3 5
Références
Juillard, H., and Chauvet, G. (2016). Variance estimation under mo- notone non-response for a panel survey.
Juillard, H., Chauvet, G. and Ruiz-Gazen, A. (2016). Estimation un- der cross-classied sampling with application to a childhood survey.
To appear in Journal of the American Statistical Association.
Kim, J. K. and Kim, J. J. (2007). Nonresponse weighting adjustment using estimated response probability. Canadian Journal of Statistics 35, 501-514.
Lynn, P. (2009). Methods for Longitudinal Surveys. Methodology of Longitudinal Surveys, 1-19.
Skinner, C. (2015). Cross-classied sampling : some estimation theory.
Statistics and Probability Letters 104, 163-168.