• Aucun résultat trouvé

Estimation de variance sous une non-réponse monotone pour une enquête de type cohorte

N/A
N/A
Protected

Academic year: 2022

Partager "Estimation de variance sous une non-réponse monotone pour une enquête de type cohorte"

Copied!
20
0
0

Texte intégral

(1)

Estimation de variance sous une non-réponse monotone pour une enquête de type cohorte

Guillaume Chauvet (ENSAI) En collaboration avec H. Juillard (INED)

Colloque Francophone sur les Sondages Gatineau, le 13/10/16

(2)

Résumé

Nous nous intéressons aux enquêtes par cohorte, avec suivi d'un pa- nel d'individus liés par un évènement commun. La cohorte est gé- néralement sujette à une non-réponse initiale, puis à un problème d'attrition à tous les temps d'enquête.

Nous considérons le cas d'une non-réponse totale monotone, traitée par repondération à chaque temps. En étendant les résultats de Kim et Kim (2007), nous donnons des estimateurs de variance applicables à chaque temps d'enquête.

Nous comparons les résultats obtenus avec un estimateur simplié de la variance de non-réponse, traitant les probabilités de réponse comme connues.

(3)

Notation

Traitement de la non-réponse initiale Traitement de l'attrition

Etude par simulations

(4)

Notation

(5)

Notation

Soit une population d'individusU. Un échantillons0 est sélectionné selon un plan de sondagep(·), avec πi >0 pour tout i∈U. Dans le cadre de ELFE, sélection d'un échantillon de nouveaux-nés selon un plan de sondage produit (Juillard et al., 2015).

En l'absence de non-réponse, le totalty peut être estimé sans biais par l'estimateur de Horvitz-Thompson

0 =X

i∈s0

yi

πi avec V( ˆY0) = X

i,j∈U

ijyi πi

yj πj.

Le termeV( ˆY0)représente la variance d'échantillonnage (incompres- sible). Nous noterons Vˆtp(·) pour un estimateur de cette variance calculé au tempst.

(6)

Traitement de la non-réponse

initiale

(7)

Traitement de la non-réponse initiale

En raison de la non-réponse initiale, seul un sous-échantillon de ré- pondantss1 ⊂s0est observé. Le mécanisme de réponse est modélisé selon un plan de Poisson, avecp1i la probabilité de réponse de l'indi- viduiau temps t= 1.

On postule un modèle paramétrique pour la probabilité de réponse, logistique pour simplier :

logit(p1i) = (zi1)>α1,

aveczi1 un vecteur de variables auxiliaires connues au temps t= 1. L'estimation de α1 conduit aux probabilités estimées pˆ1i et à l'esti- mateur corrigé de la non-réponse initiale

1 = X

i∈s1

yi

πi1i.

(8)

Traitement de la non-réponse initiale

Estimateur de variance

La variance de cet estimateur peut s'écrire V( ˆY1) = Vp( ˆY1) +Vnr( ˆY1).

Variance d'échantillonnage :Vp( ˆY1) =V( ˆY0).

Estim. de la variance de non-réponseVnr( ˆY1)(Kim and Kim, 2007) :

1nr( ˆY1) = X

i∈s1

(1−pˆ1i) yi

πi1i −ki1(z1i)>γˆ11 2

,

avec γˆ11 = (

X

i∈s1

kδi(1−pˆ1i)(zi1)>z1i )−1

X

i∈s1

1−pˆ1i ˆ

p1i (zi1)yi

πi

.

Terme de centragek1i(zi1)>γˆ11 : prédiction de yπii parzi1.

(9)

Traitement de la non-réponse initiale

Estimateur simplié de variance

Estimateur de la variance de non-réponseVnr( ˆY1) :

1nr( ˆY1) = X

i∈s1

(1−pˆ1i) yi

πi1i −ki1(z1i)>ˆγ11 2

.

Estimateur simplié de la variance de non-réponseVnr( ˆY1):

1,simpnr ( ˆY1) = X

i∈s1

(1−pˆ1i) yi

πi1i −0 2

.

Terme de centragek1i(zi1)>γˆ11 ignoré.

Estime la variance que l'on aurait en repondérant par lesvraies pro- babilités de réponse.

Tend àsurestimerla variance de non-réponse.

(10)

Traitement de l'attrition

(11)

Traitement de l'attrition

Au tempst, seul un sous-échantillonst⊂st−1· · · ⊂s0 (non-réponse monotone) est observé. Chaque mécanisme de réponse est modélisé selon un plan de Poisson, avecpδi la probabilité de réponse de l'indi- viduiau temps δ.

On postule un modèle paramétrique (logistique) pour la probabilité de réponse :

logit(pδi) = (ziδ)>αδ.

L'estimation desαδ conduit à l'estimateur corrigé de la non-réponse initiale+attrition

t=X

i∈sδ

yi

πi1→ti avec pˆ1→ti =

t

Y

δ=1

ˆ pδi.

(12)

Traitement de l'attrition

Estimateur de variance

La variance de cet estimateur peut s'écrire

V( ˆYt) = Vp( ˆYt) +

t

X

δ=1

Vnrδ( ˆYt).

Variance d'échantillonnage :Vp( ˆYt) =V( ˆY0). Estimateur de la variance de non-réponseVnr( ˆYt):

tnr( ˆYt) =

t

X

δ=1

X

i∈st

ˆ

pδi(1−pˆδi) ˆ pδ→ti

yi

πi1→δi −kδi(ziδ)>ˆγtδ 2

,

avec γˆtδ = (

X

i∈st

kiδδi(1−pˆδi) ˆ

pδ→ti (ziδ)>ziδ )−1

X

i∈st

1−pˆδi ˆ

p1→ti (zδi)yi

πi.

(13)

Traitement de l'attrition

Estimateur simplié de variance

Estimateur de la variance de non-réponseVnr( ˆYt):

tnr( ˆYt) =

t

X

δ=1

X

i∈st

ˆ

pδi(1−pˆδi) ˆ pδ→ti

yi

πi1→δi −kiδ(zδi)>γˆδt 2

.

Estimateur simplié de la variance de non-réponseVnr( ˆYt) :

tnr( ˆY1) =

t

X

δ=1

X

i∈st

ˆ

pδi(1−pˆδi) ˆ pδ→ti

yi

πi1→δi −0 2

= X

i∈st

1−pˆ1→ti ˆ p1→ti 2

yi πi

2

.

Estime la variance que l'on aurait en repondérant par les vraies pro- babilités de réponse à chaque temps :variance surestimée.

Tout se passe comme si st était obtenu par tirage poissonien de

(14)

Discussion

Est-ce que la surestimation est importante ? Dépend du paramètre et de l'estimateur utilisé :

I Pour un total estimé par Horvitz-Thompson :

→ dépend du pouvoir explicatif des ziδ sur yi,

→ potentiellement fort, mais HT peu utilisé en pratique.

I Pour un total estimé par calage :

→ dépend du pouvoir explicatif des ziδ sur les résidus Ei =yi−x>i By,

→ peut être fort si les variables de calage sont peu explicatives de la variable d'intérêt.

I Pour un paramètre complexe θestimé par calage :

→ dépend du pouvoir explicatif des ziδ sur les résidus Eθi=ui−x>i Bu, avecui la linéarisée deθ

→ normalement faible

(15)

Etude par simulations

(16)

Cadre des simulations

Population de taille10,000avec 3 variables d'intérêt : y1i = 10 + 5xai+ 5xbi+ 10u1i, (R2= 0.50) y2i = 0.8y1i+ 10u2i,

y3i = 0.8y2i+ 10u3i.

L'échantillon initial est sélectionné par sondage aléatoire simple de taillen= 1,000.

A chacun des temps t = 1,2,3, on considère un mécanisme de ré- ponse de Poisson avec

logit(pδi) = −1 +βδaxaiδbxbi.

Probabilités de réponse moyennes de0.75,0.81 et 0.81.

(17)

Cadre des simulations

On réalise5,000simulations. On s'intéresse à l'estimation

I des totauxYt,

I des ratiosRt=Yt/Y1,

I des évolutions∆(1→t) =Yt−Y1.

Les ratios et évolutions sont estimés par substitution.

On considère pour un total l'estimateur :

I de Horvitz-Thompson :Yˆt,

I calé sur les variables 1, xai, xbi du modèle : Yˆwt,

I calé sur d'autres variables 1, xci, xdi :Yˆwt˜ .

(18)

Résultats

t t t

1 2 3 1 2 3 1 2 3

twtwt˜

RBmc( ˆV) -0 -1 -2 -1 -1 -2 -1 -1 -3

RBmc( ˆVsimpnr ) 559 188 80 0 -1 -2 83 34 15 Rˆtwtwt˜

RBmc( ˆV) - -0 -2 - -1 -2 - -1 -2

RBmc( ˆVsimpnr ) - 0 0 - -1 -2 - -1 -1

∆ˆtt(1→t) ∆ˆtt,w(1→t) ∆ˆtt,w˜(1→t)

RBmc( ˆV) - -0 -2 - -0 -2 - -1 -3

RBmc( ˆVsimpnr ) - 19 30 - -1 -2 - 3 5

(19)

Références

Juillard, H., and Chauvet, G. (2016). Variance estimation under mo- notone non-response for a panel survey.

Juillard, H., Chauvet, G. and Ruiz-Gazen, A. (2016). Estimation un- der cross-classied sampling with application to a childhood survey.

To appear in Journal of the American Statistical Association.

Kim, J. K. and Kim, J. J. (2007). Nonresponse weighting adjustment using estimated response probability. Canadian Journal of Statistics 35, 501-514.

Lynn, P. (2009). Methods for Longitudinal Surveys. Methodology of Longitudinal Surveys, 1-19.

Skinner, C. (2015). Cross-classied sampling : some estimation theory.

Statistics and Probability Letters 104, 163-168.

(20)

Annonce

Références

Documents relatifs

We hope to bring to a close the analyses of the convergence of real valued series of the form Σf (n)|n ∈ N for differentiable functions, via the introduction of a theorem as a

Il d´emontre aussi que le processus d’inf´erence EXI-E est polynomial dans le cas de d´efauts unaires, normaux et sans pr´e-requis et avec un ensemble W ne contenant que des

Right plot: Spectral density (black), pointwise mean of the estimates f ˜ n (red) and 95% confidence intervals (green), for n=1000 data points, for Example 1.... Left plot:

Il s’agit alors d’un problème d’évolution avec opérateur maximal monotone ; cf.. L’équation (1.6) peut s’interpréter (après une translation sur l’inconnue)

Dans mon cas c’est probablement la même chose, et pourtant mon enfance a été la période la plus triste de ma vie, la plus ennuyeuse.. J’étais une enfant très faible, j’avais

For the first problem, this paper shows a technique to prohibit any resolvents from being generated in MD. This is done by simply adding some tautologies to the input CNF formula φ

In Section 3, we define the expansion estimator for a total and a corresponding variance estimator when the response probabilities are assumed to be known at each time.. Though

Damlamian (dans ce même travail ces Auteurs donnent des résultats d’existence dans le cas où on a, à la place de un opérateur.. maximal monotone général et .g