le7novembre2012 gautier@ensae.fr EricGautier(CREST(ENSAE)) 7ecolloquefrancophonesurlessondages-ENSAI Modèledesélectionenprésencedenon-réponsenonignorableetpopulationhétérogène

(1)

Mod` ele de s´ election en pr´ esence de non-r´ eponse non ignorable et population h´ et´ erog` ene

7e colloque francophone sur les sondages - ENSAI

Eric Gautier (CREST (ENSAE)) gautier@ensae.fr

le 7 novembre 2012

(2)

Non-r´eponse et sondage

Considérons un modèle de superpopulation où chaque unitéi dans la population totale est une réalisation iid dans la loi jointe de

caract´eristiques (Y,X^T,Z^T,U^T).

IY = variable sujette à non-réponse partielle dans l’enquête étudiée.

IX,Z = vecteurs de caract´eristiques observ´es pour tous dans

l’´echantillon final.X =variable de contrˆole,Z =variable instrumentale.

(X^T,Z^T) rend compte del’hétérogénéité observée.

IU est un vecteur de caractéristiques inobservées, il rend compte de l’hétérogénéité inobservée.

D´efinissons 2 autres variables al´eatoires :DetB.

ID= 1 si l’unit´e se trouve dans l’´echantillon et 0 sinon.

L’échantillon est celui obtenu après tirage de l’enquête puis non-réponse totale. Pour simplifier, nous supposons que les poids obtenus après redressement (y compris le calage sur marge) sont les vrais inverses des probabilités de sélection.

IB= 1 si l’unit´e dans l’´echantillon fourni la valeur de sonY et 0 sinon.

(3)

Non-r´eponse et sondage

Considérons un modèle de superpopulation où chaque unitéi dans la population totale est une réalisation iid dans la loi jointe de

caract´eristiques (Y,X^T,Z^T,U^T).

IY = variable sujette à non-réponse partielle dans l’enquête étudiée.

IX,Z = vecteurs de caract´eristiques observ´es pour tous dans

l’´echantillon final.X =variable de contrˆole,Z =variable instrumentale.

(X^T,Z^T) rend compte del’hétérogénéité observée.

IU est un vecteur de caractéristiques inobservées, il rend compte de l’hétérogénéité inobservée.

D´efinissons 2 autres variables al´eatoires :DetB.

ID= 1 si l’unit´e se trouve dans l’´echantillon et 0 sinon.

L’échantillon est celui obtenu après tirage de l’enquête puis non-réponse totale. Pour simplifier, nous supposons que les poids obtenus après redressement (y compris le calage sur marge) sont les vrais inverses des probabilités de sélection.

IB= 1 si l’unit´e dans l’´echantillon fourni la valeur de sonY et 0 sinon.

(4)

Mod´elisation hierarchique pour l’inf´erence

Gautier, E.(2011) : “Hierarchical Bayesian estimation of inequality measures with non-rectangular censored survey data with an application to wealth distribution of the French households”.Annals of Applied Statistics51632–1656.

1 G =Gb(Y1, . . . ,Yn) + r

V\ Gb

(Y1, . . . ,Yn)o`u∼ N(0,1),

⊥(Y1, . . . ,Yn)|(X1, . . . ,Xn) (sélection sur observables, la non-réponse totale est supposée MAR),

Gb(y1, . . . ,yn) =

Pn

k=1(2ˆr(k)−1)w_ky_k Pn

k=1w_kPn

k=1w_ky_k −1, ˆr(k) =Pn

j=1wj1l{yj≤yk}et V\

Gb

(y1, . . . ,yn) est obtenu sur le lin´earis´e en tenant compte du calage et du plan (exemple : utiliser POULPE) (ref. Deville (1999), Shao (1994))

2 FY|X,D=1(·|X) (que l’on estime, c.f. plus loin).

Nous fournissons un intervalle [b,h], le plus petit possible, tel que bP(G ∈[b,h]|Y1=y1, . . . ,Yr =yr;X1=x1, . . . ,Xn=xn)≥1−α.

Cette probabilité est calculée par Monte-Carlo à partir de la distribution empirique en simulantmcomplétions dansF_Y\|X,D=1(·|xk) puisG pour cesm complétions.

(5)

1 G =Gb(Y1, . . . ,Yn) + r

V\ Gb

(Y1, . . . ,Yn)o`u∼ N(0,1),

Gb(y1, . . . ,yn) =

Pn

k=1w_kPn

Gb

(6)

1 G =Gb(Y1, . . . ,Yn) + r

V\ Gb

(Y1, . . . ,Yn)o`u∼ N(0,1),

Gb(y1, . . . ,yn) =

Pn

k=1w_kPn

Gb

(7)

1 G =Gb(Y1, . . . ,Yn) + r

V\ Gb

(Y1, . . . ,Yn)o`u∼ N(0,1),

Gb(y1, . . . ,yn) =

Pn

k=1w_kPn

Gb

(8)

Non-r´eponse partielle

La non-r´eponse est MAR (Rubin) si∃X, toujours observ´e lorsqueD= 1, tel que∀φ∈Cb(R),

E[φ(Y)B|X,D= 1] =E[φ(Y)|X,D= 1]E[B|X,D= 1]

ou de mani`ere equivalente si

E[φ(Y)|X,B= 1,D= 1] =E[φ(Y)|X,D= 1].

Nous nous intéressons à des situations non-MAR. Dans ce cas, nous ne pouvons pas faire d’inférence sans modéliser explicitement le mécanisme de non-réponse : on dit que la non-réponse est ”non-ignorable”.

Un modèle qui semble flexible :B=1{g(Z)> }etZ⊥(,Y)|X,D= 1 oùg et la loi desont nonparamétriques. Ce modèle est équivalent à B=1{F(Z)>U}oùU|X =x,D= 1∼ U(0,1) etZ⊥(U,Y)|X,D= 1.

Les variables constituant le vecteur d’instrumentsZ doivent être liées à la non-réponse mais pas àY, les variablesX peuvent être introduites pour justifier l’utilisation des instruments. Par exemple l’heure de passage de l’enquêteur, l’identité de l’enquêteur (par exemple s’il n’y en avait que 2), etc. La valeur de l’instrument doit varier pour les unités de l’échantillon.

(9)

E[φ(Y)|X,B= 1,D= 1] =E[φ(Y)|X,D= 1].

(10)

E[φ(Y)|X,B= 1,D= 1] =E[φ(Y)|X,D= 1].

(11)

E[φ(Y)|X,B= 1,D= 1] =E[φ(Y)|X,D= 1].

(12)

Monotonie

Cas non-MAR siU^⊥Y^|X, i.e. le paramètre d’hétérogénéité inobservéeU (des variables manquantes dans le modèle de non-réponse, etc.) est responsable de la sélection endogène.

Ce mod`ele est en fait extrˆemement restrictif !

Il est équivalent (Vytlacil 02) à l’hypothèse de monotonie introduite par Imbens & Angrist 94 :∀z,z⁰∈supp(Z), si on change la valeur des instruments pour tous dezàz⁰

♠ ∀u∈[0,1],1{F(z)>u} ≥1{F(z⁰)>u}(siF(z)≥F(z⁰))

♠ou∀u∈[0,1],1{F(z)>u}<1{F(z⁰)>U}(siF(z)<F(z⁰)).

Dans le cas où il n’y a que deux enquêteurs A et B et que l’on utilise l’identitié de l’enquêteur comme instrument, la monotonie signifie que tout individu dévoilant son Y à A le dévoilerait aussi à B (ou le contraire).

Exemple de raison d’échec : un individu particulier trouve l’enquêteur A plus sympathique que B (ex. car il lui ressemble) et accepte de répondre.

Dans ce cas une caractéristique supplémentaire intervient dans le choix de répondre ou non. Celle-ci n’est pas observée par le statisticien⇒ important d’introduire plusieurs sources d’hétérogénéité dans l’équation de sélection.

(13)

Monotonie

♠ ∀u∈[0,1],1{F(z)>u} ≥1{F(z⁰)>u}(siF(z)≥F(z⁰))

(14)

Monotonie

♠ ∀u∈[0,1],1{F(z)>u} ≥1{F(z⁰)>u}(siF(z)≥F(z⁰))

(15)

Monotonie

♠ ∀u∈[0,1],1{F(z)>u} ≥1{F(z⁰)>u}(siF(z)≥F(z⁰))

(16)

Le modèle à choix binaire et coefficients aléatoires

Gautier, E., et Y. Kitamura(2008) : “Nonparametric estimation in random coefficients binary choice models”. A paraˆıtre dansEconometrica.

Gautier, E., et S. Hooderlein(2011) : “Estimating treatment effects with a nonparametric random coefficients selection equation”. Preprint (v1) arXiv :1109.0362.

Gautier, E., et E. Le Pennec(2011) : “Adaptive estimation in random coefficients binary choice models using needlet thresholding”. Preprint arXiv :1106.3503.

Heckman & Vytlacil 05, le modèle ”benchmark” non additivement séparable et avec plusieurs sources d’hétérogénéité inobservé est un modèle à choix binaire et coefficients aléatoires :

B=1{Z1Γ1+Z2T

Γ2+ Γ0>0}

avecZ1scalaire etZ2de tailleL−1 oùL≥2. Supposons un modèle nonparamétrique pour la loi de (Γ1,Γ^T2,Γ0) et Γ1>0 p.s.

Dans ce modèle, chaque individu a son propre vecteur de coefficients (préférences).

R´e-´ecrivons :B=1{Z1−Z2T

Γ−Θ>0}puis, en posant Se= (Z2^T,1)^T/k(Z2^T,1)k,Ve=Z1/k(Z2^T,1)k, eteΓ = (Γ^T,Θ)^T, B=1{eS^TeΓ<Ve}.

(17)

B=1{Z1Γ1+Z2T

Γ2+ Γ0>0}

(18)

B=1{Z1Γ1+Z2T

Γ2+ Γ0>0}

(19)

B=1{Z1Γ1+Z2T

Γ2+ Γ0>0}

(20)

B=1{Z1Γ1+Z2T

Γ2+ Γ0>0}

(21)

Non-monotonie

Le modèlepermet des situations non-monotones dans le mécanisme de non-réponse. Fixonsv ∈supp(Ve),s ets⁰danssupp

feS|Ve(·|v)

, et posons Ds(γ) =1{s^Tγ <v}

Dans la zone 2Ds= 0 etDs⁰ = 1, dans la 4Ds= 1 etDs⁰= 0

(22)

Hypoth`eses

(H-1) La loi conditionnelle de (Z1,Z2,Γ^T,Θ) sachantX =x,D= 1 est absoluement continue par rapport `a la mesure de Lebesgue

∀x ∈supp fX|D=1

.Z1et Ypeuvent en fait ˆetre discrets.

⇒restrictions d’exclusion (H-2) (Z1,Z2)⊥(Y,Γ^T,Θ)|X,D= 1.

(H-3) 0<P(B= 1|X,D= 1)<1 p.s.

(H-4) ∀x ∈supp f_X|D=1

,supp

feS|X,D=1(·|x)

=H⁺ et

∀s ∈S^L: s^T(0, . . . ,0,1)≥0,supp

fVe|eS,X,D=1(·|s,x)

⊃

inf_γ∈supp

f

eΓ|X,D=1(·|x)s^Tγ,sup_γ∈supp

f

eΓ|X,D=1(·|x)s^Tγ

.

(23)

Hypoth`eses

∀x ∈supp fX|D=1

(H-3) 0<P(B= 1|X,D= 1)<1 p.s.

,supp

feS|X,D=1(·|x)

=H⁺ et

∀s ∈S^L: s^T(0, . . . ,0,1)≥0,supp

⊃

inf_γ∈supp

f

.

(24)

Hypoth`eses

∀x ∈supp fX|D=1

(H-3) 0<P(B= 1|X,D= 1)<1 p.s.

,supp

feS|X,D=1(·|x)

=H⁺ et

∀s ∈S^L: s^T(0, . . . ,0,1)≥0,supp

⊃

inf_γ∈supp

f

.

(25)

Hypoth`eses

∀x ∈supp fX|D=1

(H-3) 0<P(B= 1|X,D= 1)<1 p.s.

,supp

feS|X,D=1(·|x)

=H⁺ et

∀s ∈S^L: s^T(0, . . . ,0,1)≥0,supp

⊃

inf_γ∈supp

f

.

(26)

Identification

NotonsY0=YB, dans ce cas la non-réponse correspond à un 0 (on suppose queP(Y = 0|D= 1,X) = 0 p.s.) etE^Dl’espérance conditionnelle sachant D= 1.

Theorem

∀φ: E^D[|φ(Y)|]<∞, p.p. x ∈supp(X) feΓ|X,D=1(·|x) =R⁻¹

∂vED

h B

S,e Ve

=·,X =xi ED

h φ(Y)

eΓ =·,X =xi

feΓ|X,D=1(·|x) =R⁻¹

∂vED

h φ(Y0)B

eS,Ve

=·,X =xi .

g = extension deg qui vaut 0 en dehors du domaine de d´efinition

⇒(ex)

F_Y|X,D=1(y|x) =R

R^LR⁻¹

∂vED

h

1{Y0≤y}B

S,e Ve

=·,X=xi (γ)dγ

⇒(ex) mesure d’in´egalit´e, quantiles, etc.

(27)

(28)

Estimateur

AT[f](γ) :=R

s∈S^L:s^T(0,...,0,1)≥0

R∞

−∞KT(s^Tγ−u)f(s,u)dudσ(s) = inverse r´egularis´ee deR,KT(u) := 2(2π)^−LRT

0 cos(tu)t^L−1Ψ(t/T)dt o`u Ψ∈ S(R) est symmetrique et Ψ(0) = 1 (ex.ψ=ψ0o`u

ψ0: x7→exp

1−maxn

1 1−x²,0o

).

Estimateur :ATn

\

∂vED[φ(Y0)B|(eS,Ve) =·,X =x]

(γ), l’estimateur de la dérivée de la fonction de régression est obtenu par polynômes locaux, etc.

FY|X,D=1(y|x) = R

R^LAT_n

\

∂vED[1{Y0≤y}B|(eS,Ve) =·,X =x]

(γ)1{γ∈ Bn}dγ o`uBn

est un ferm´e born´e deR^L.

(29)

Estimateur

AT[f](γ) :=R

s∈S^L:s^T(0,...,0,1)≥0

R∞

ψ0: x7→exp

1−maxn

1 1−x²,0o

).

Estimateur :ATn

\

FY|X,D=1(y|x) = R

R^LAT_n

\

(30)

Estimateur

AT[f](γ) :=R

s∈S^L:s^T(0,...,0,1)≥0

R∞

ψ0: x7→exp

1−maxn

1 1−x²,0o

).

Estimateur :ATn

\

FY|X,D=1(y|x) = R

R^LAT_n

\

(31)

Estimateur simple

(H-5) p.p. pours ∈S^L: s^T(0, . . . ,0,1)≥0 et p.s. pourx∈supp(X), supp

=R; Pour la fonctionφconsid´er´ee, p.p. en s∈S^L: s^T(0, . . . ,0,1)≥0 et p.s. enx ∈supp(fX|D=1),

v 7→ED[φ(Y0)B|(eS,Ve) = (s,v),X=x] est continue et v 7→ED[φ(Y0)B|(eS,Ve) = (s,v),X=x] et

v 7→∂vED[φ(Y0)B|(eS,Ve) = (s,v),X =x] sont born´ees par des polynˆomes env.

Sous (H-5) nous pouvons utiliser l’estimateur 1

n

X

i=1

KeT_n(esi^Tγ−evi)Tτ_n(φ(y0i))bi

f \

eS,eV,X|D=1(esi,evi,x)

1n f \

eS,eV,X|D=1(esi,evi,x) >tn

o

Kηn(xi−x)

o`uKeT(u) := 2(2π)^−LRT

0 sin(tu)t^LΨ(t/T)dt,f \

eS,eV,X|D=1 est un estimateur plug-in def

eS,eV,X|D=1,Tτ(x) =−τ1{x<−τ}+x1{|x| ≤τ}+τ1{x > τ}

etKηest un noyau multivari´e de fenˆetreη.

(32)

Estimateur simple

(H-5) p.p. pours ∈S^L: s^T(0, . . . ,0,1)≥0 et p.s. pourx∈supp(X), supp

=R; Pour la fonctionφconsid´er´ee, p.p. en s∈S^L: s^T(0, . . . ,0,1)≥0 et p.s. enx ∈supp(fX|D=1),

v 7→ED[φ(Y0)B|(eS,Ve) = (s,v),X=x] est continue et v 7→ED[φ(Y0)B|(eS,Ve) = (s,v),X=x] et

v 7→∂vED[φ(Y0)B|(eS,Ve) = (s,v),X =x] sont born´ees par des polynˆomes env.

Sous (H-5) nous pouvons utiliser l’estimateur 1

n

X

i=1

KeT_n(esi^Tγ−evi)Tτ_n(φ(y0i))bi

f \

eS,eV,X|D=1(esi,evi,x)

1n f \

eS,eV,X|D=1(esi,evi,x) >tn

o

Kηn(xi−x)

o`uKeT(u) := 2(2π)^−LRT

0 sin(tu)t^LΨ(t/T)dt,f \

eS,eV,X|D=1 est un estimateur plug-in def

eS,eV,X|D=1,Tτ(x) =−τ1{x<−τ}+x1{|x| ≤τ}+τ1{x > τ}

etKηest un noyau multivari´e de fenˆetreη.

(33)

R´esultats asymptotiques

g(γ) =R⁻¹

∂vED

h φ(Y0)B

S,e Ve

=·i

(γ),est estim´e par

ˆ g(γ) = 1

n

X

i=1

KeTn(es_i⁰γ−evi)Tτ_n(φ(y0i))bi

max

f_e_S,\_V|D=1_e (esi,evi),mn

.

W^s,∞(R^L) :=

f ∈L^∞(R^L) : ∀|α| ≤s, ∂^αf ∈L^∞(R^L) o`us ∈N\ {0}, α∈N^L,|α|:=PL

l=1αl and∂^αf :=QL l=1∂_l^α^lf, kfks,∞:=P

α:|α|≤sk∂^αfk∞.

Nous consid´erons les ellipsoides de Sobolev W^s,∞(M) :=n

f ∈W^s,∞(R^L) : kfks,∞≤Mo Bn un fermé deR^L etd(Bn) son diamètre pour la norme Euclidiène.

(34)

g(γ) =R⁻¹

∂vED

h φ(Y0)B

S,e Ve

=·i

ˆ g(γ) = 1

n

X

i=1

max

.

W^s,∞(R^L) :=

(35)

g(γ) =R⁻¹

∂vED

h φ(Y0)B

S,e Ve

=·i

ˆ g(γ) = 1

n

X

i=1

max

.

W^s,∞(R^L) :=

(36)

R´esultats asymptotiques 2

Proposition

Supposons (H-5) et g∈W^s∞(M),∃α >0 : log(T_n³/mn) +Llog(d(Bn))≤α,

∃rIV,n →

n→∞0et MIV tq limn→∞r_IV⁻¹_,n max

i=1,...,n

f

eS,eV|D=1(esi,evi)−f\

eS,eV|D=1(esi,evi)

≤MIV a.s.

pour M(α), C(s)avec proba 1,∀ >0, ∃N>0 : ∀N>N k(ˆg−g)1{B_n}k_∞≤(M_IV+) min (τn,kφk_∞)r_IV,rm⁻¹_n

E





 Ke_Tn

eS⁰γ−Ve max

\ f

eS,Ve|D=1

eS,Ve ,m_n





 _∞

+ (M_IV+) min (τ_n,kφk∞)r_IV_,nm^−3/2_n (M(α) +) logn

n 1/2

T_n^L+1/2

+m^−1/2_n (M(α) +) min (τ_n,kφk∞) logn

n 1/2

T_n^L+1/2

+ min (τ_n,kφk_∞) sup γ∈Bn

Z

(s,v):f

eS,V|D=1e (s,v)<mn

Ke_Tn(s⁰γ−v) dσ(s)dv

+MC(s)T_n^−s

+ 1

(2π)^LT_n^L+2k|t|^Lψk₁E[|φ(Y)|1{|φ(Y)|> τ_r}].

(37)

R´esultats asymptotiques 3

Dans le cas id´eal o`u : (1)f

eS,eV|D=1est minoré, (2) sa densité est suffisamment régulière pour que le premier terme soit négligéable et (3) le biais lié à la troncature est négligeable (ex.lorsqueφest borné), nous obtenons,∃MI >0

limn→∞

logn n

−_2s+2L+1^s

kˆg−gk_∞≤MI p.s.

lorsqueTn(n/log(n))1/(2s+2L+1)

. La vitesse d’un probl`eme direct est (n/log(n))^s/(2s+L).

(38)

Extensions - Approfondissements

Il est possible de consid´erer des instruments binaires.

Mod`eles d’attrition dans les panel et mod`ele de censure.

Inf´erence sur la distribution deY sans imputation mais en utilisant le plan pour l’estimation de la loi deY.

Effets hétérogènes deX surY (modèle à coefficients aléatoires) en présence de non-réponse non-MAR.

avec J. Heckman : distribution des gains ex-ante et ex-post, avec H.

Broome et S. Hoderlein : application du papier d’évaluation des politiques publiques à l’effet des études supérieures sur le salaire (à partir de NLSY 79).

(39)

(40)

(41)

(42)

(43)

Quelques ´el´ements de bibliographie

Gautier, E.(2005) : “ Eléments sur la sélection dans les enquêtes et sur la nonréponse non ignorable”, Actes des Journées de Méthodologie Statistique 2005.

Heckman, J. J., et E. Vytlacil(2005) : “Structural Equations, Treatment Effects, and Econometric Policy Evaluation”.Econometrica.

Helgason, S.(1999) :The Radon Transform. Birkhauser.

Imbens, G. W., et J. D. Angrist(1994) : “Identification and Estimation of Local Average Treatment Effects”.Econometrica.

Little R.J.A. et Rubin D.B.(2002) :Statistical analysis with missing data. Wiley.

Vytlacil, E.(2002) : “Independence, Monotonicity, and Latent Index Models : An Equivalence Result”.

Econometrica.

(44)

Econometrica.

(45)

Econometrica.

(46)

Econometrica.

(47)

Econometrica.

(48)

Econometrica.

(49)

le7novembre2012 gautier@ensae.fr EricGautier(CREST(ENSAE)) 7ecolloquefrancophonesurlessondages-ENSAI Modèledesélectionenprésencedenon-réponsenonignorableetpopulationhétérogène

Mod` ele de s´ election en pr´ esence de non-r´ eponse non ignorable et population h´ et´ erog` ene

7e colloque francophone sur les sondages - ENSAI

Eric Gautier (CREST (ENSAE)) gautier@ensae.fr

le 7 novembre 2012

MERCI POUR VOTRE ATTENTION !