L’imputation non-paramétrique par des fonctions B-spline pour le traitement de la non-réponse partielle dans les enquêtes par sondages

(1)

L’imputation non-param´ etrique par des fonctions B-spline pour le traitement de la non-r´ eponse

partielle dans les enquˆ etes par sondages

Camelia Goga

LMB - Univ. de Bourgogne Franche-Comt´e en collaboration avec

DavidHaziza- Univ. de Montr´eal

Journ´ee Besan¸con-Dijon 25 juin 2018

(2)

Plan de l’expos´ e

Motivation : estimation de totaux en pr´esence de la non-r´eponse partielle ;

Un nouvel estimateur imputé basé sur la régression non-paramétrique par des fonctionsB-splines ;

Propriétés asymptotiques et une étude par simulations ;

2/29

(3)

Population, ´ echantillon et l’estimateur d’Horvitz-Thompson

SoitU ={1, . . . , k, . . . , N}une population finie et soit s⊂U un

´

echantillon s´electionn´e selon un plan de sondage samplep(·); Soientπ_k=P r(k∈s) =P

k∈sp(s)et π_kl=P r(k, l∈s) =P

k,l∈sp(s)les probabilités d’inclusion de premier et deuxième degré ;

SoitY une variable d’int´erˆet et l’objectif est l’estimation du total : ty=X

k∈U

yk

Si tous les individus échantillonnés répondentet siπk>0pour tous lesk∈U,alors le totalty est estimé sans biais par l’estimateur d’Horvitz-Thompson :

ˆt_HT =X

k∈s

1

π_ky_k =X

k∈U

1

π_ky_k1_{k∈s}

Var(ˆtHT) =X

k∈U

X

k∈U

(πkl−πkπl)yk

πk

yl

πl

(4)

Et en pr´ esence de la non-r´ eponse ...

Malheureusement, il y a des personnes ´echantillonn´ees

qui n’ont répondu à aucune question :non-réponse totale qui ont répondu qu’à certaines questions :non-response partielle;

indiv. Y1 Y2 Y3

1 y₁₁ y₁₂ y₁₃

2 ? ? ?

3 ? y32 y33

4 y41 y42 y43

5 ? ? ?

6 ? y62 ?

La non-r´eponse arrive dans quasiment toutes les enquˆetes

d’individus, la classe d’âge la plus ”touchée” est 18-25 ans (jusqu’à 80%-90% de non-réponse) ;

Dans d’autres domaines comme l’agriculture, ”wildlife surveys”, ...

le terme ”donn´ees manquantes” est plus utilis´e.

4/29

(5)

Pourquoi ”traiter” les non-r´ epondants ?

La pratique la plus courante est d’enlever les non-r´epondants du fichier.

Dans ce cas les estimateurs construits à partir de répondants seulement peuvent être très biaisés :

taille total moyenne variance r´epondants Nr tr y_rU S_r² non-r´epondants Nm tm y_mU S_m²

population N t y_U S_U²

Soity_run estimateur (approx.) sans biais de y_rU,on a y_U =N_r

N y_rU+N_m N y_mU et

E(y_r)−y_U ' N_m

N (y_rU−y_mU).

Ce biais est petit siNm'0ouy_rU−y_mU '0ce qui est tr`es rarement satisfait !

(6)

M´ ecanisme de non-r´ eponse

Soit la variable r´eponse r_k=

1 si l’individu k r´epond

0 sinon

La probabilit´e de r´eponse estφk =P(rk= 1)qui est inconnue.

Trois types de m´ecanisme de non-r´eponse :

1 Missing completely at random (MCAR): φne d´epend ni deY ni des variables auxiliairesZ(age, sexe, ...) ;

2 Missing at random (MAR)ou mécanisme de réponse ignorable : φdépend deZ(ex. age) mais pas deY; la non-réponse dépend que des valeurs observées deY ;

3 Not Missing at random (NMAR) ou mécanisme de réponse non-ignorable :φdépend deY (ex. revenu) donc des valeurs observées et non-observées de Y;

6/29

(7)

Traitement de la non-r´ eponse partielle

Soitsml’ensemble des non-répondants= l’ensemble des individus pour lesquelsY est manquant etsr l’ensemble desrépondants; La valeur manquanteyk, pourk∈sm,est remplacée par une valeur imputéey_k^∗;

Le totalty est estimé par l’estimateur imputé : tÎ = X

k∈sr

yk

πk

+ X

k∈sm

y_k^∗ πk

= X

k∈s

1 πk

(r_ky_k+ (1−r_k)y_k^∗)

o`urk est la variable de r´eponse.

Le biais et la variance detˆ_I plus compliqués à calculer : le plan d’échantillonnage, le mécanisme de non-réponse et d’imputation ;

(8)

M´ ethodes d’imputation dans le cas MAR

Des variables auxiliaires connues pour les répondants et les non-répondants sont utilisées pour construire un modèle pour prédire les valeurs manquantes (mais elles ne seront jamais aussi bien que les vraies valeurs) ;

indiv. Y1 Y2 Y3 Z1 (ˆage) Z2 (sexe)

1 y₁₁ y₁₂ y₁₃ x₁₁ x₁₂

2 ? ? ? x₂₁ x₂₂

3 ? y₃₂ y₃₃ x₃₁ x₃₂

4 y₄₁ y₄₂ y₄₃ x₄₁ x₄₂

5 ? ? ? x₅₁ x₅₂

6 ? y62 ? x61 x62

Méthodes d’imputation aléatoires ou pas, paramétriques telles que l’imputation par la moyenne ou par le ratio, ou l’imputation hot-deck (survol dans Haziza, 2009) ;

Méthode d’imputation non-paramétriques par le plus proche-voisin proposée par Chen and Shao (2000) ; Beaumont and Bocci (2009) ;

8/29

(9)

Estimateur non-param´ etrique bas´ e sur les B-splines

On consid`ere que la populationU est divis´ee dansJ classes disjointesC_j, j= 1, . . . , J (Chen & Shao, 2000 ; Cardot, De Moliner, Goga, 2018) ;

On consid`ere qu’une variable auxiliaireZ (uni-vari´ee) est disponible etzk est connu pour tous lesk∈U;

Soit un modèle non-paramétrique à l’intérieur de chaque classe : y_k=f_j(z_k) +ε_k, k∈C_j

oùf_j est une fonction inconnue et lisse ; les résidus ε_k sont indépendants de moyenne 0et varianceσ_k².

On propose d’imputer la valeur manquante y_k, k∈s_m par : ˆ

yk = ˆfj(zk), k∈s^(j)_m =sm∩Cj

oùfˆj(zk)est l’estimateur defj obtenu par une régression non-paramétrique par desB-splines et considéré seulement sur les répondants ;

(10)

Nouveaux challenges dans ce cadre non-param´ etrique

On peut ´ecrire :

ˆtI−ty = ˆtHT−ty

| {z } erreur d’´echantillonnage

+ ˆtI −ˆtHT

| {z } erreur d’imputation L’inférence statistique est par au modèle de superpopulation,m,au plan d’échantillonnagepet le mécanisme de non-réponse q;

On aEp(ˆt_HT−t_y) = 0,alors le biais total de l’estimateur imputé se réduit à (dans le cas d’une seule classe) :

Empq(ˆt_I−ˆt_HT) =EpqEm(ˆt_I−ˆt_HT|s, s_r) =Epq

X

sm

1

πkEm(ˆy_k−y_k|s, s_r) Dans le cas des modèles non-paramétriques, les estimateurs def sous le modèle sont toujours biaisé (Sarda & Vieu, 2000),

contrairement au cas param´etrique.

10/29

(11)

Les fonctions B-splines

L’ensemble de fonctions spline d’ordrem(m≥2) avec Knoeuds intérieurs : polynômes de degrém−1 sur les intervalles entre les noeuds. Les splines sont des fonctions très flexibles pour s’adapter aux données statistiques ;

SoientB1, . . . , Bq la base des fonctions B-spline de dimension q=K+m:

q

X

`=1

B_`(z) = 1, z∈[0,1].

En pratique, on prendm= 3ou4.

Le nombre de noeuds et leur position sont deux questions d´elicates.

Les noeuds sont le plus souvent placés aux quantiles deZ et pour palier le choix du nombre de noeuds, on peut prendre beaucoup de noeuds et ajouter une pénalité (Ruppertet al., 2003).

(12)

Les fonctions B-spline pour m = 3 et K = 3

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

Fonction B1

x

B1

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

Fonction B2

x

B2

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

Fonction B3

x

B3

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

Fonction B4

x

B4

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

Fonction B5

x

B5

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

Fonction B6

x

B6

12/29

(13)

Estimation de la fonction f

j

Sous le mod`ele,fj est estim´ee par (Zhouet al., 1998) : f˜j(z) =

q

X

`=1

β˜_`^(j)B`(z) =b⁰(z) ˜β^(j), b⁰(z) = (B`(z))^q_`=1

oùβ˜_`^(j)est déterminé par un critère des moindres carrés :

β˜^(j)=Arg min

β∈R^q

X

i∈C_j

yi−

q

X

`=1

β^(j)_` B`(zi)

!2

=



 X

i∈C_j

b(zi)b⁰(zi)





−1

X

i∈C_j

b(zi)yi

Avec des donn´ees d’enquˆete,fˆ_j(z) =b⁰(z) ˆβ^(j)(Goga, 2005 ; Goga &

Ruiz-Gazen, 2014) o`u

βˆ^(j)=



 X

i∈s^(j)

b(zi)b⁰(zi) πi





−1

X

i∈s^(j)

b(zi)yi

πi

o`us^(j)=s∩Cj, j= 1, . . . , J.

(14)

Estimation de la fonction f

j

Sous le mod`ele,fj est estim´ee par (Zhouet al., 1998) : f˜j(z) =

q

X

`=1

β˜_`^(j)B_`(z) =b⁰(z) ˜β^(j), b⁰(z) = (B_`(z))^q_`=1

oùβ˜_`^(j)est déterminé par un critère des moindres carrés :

β˜^(j)=Arg min

β∈R^q

X

i∈C_j

yi−

q

X

`=1

β^(j)_` B`(zi)

!2

=



 X

i∈C_j

b(zi)b⁰(zi)





−1

X

i∈C_j

b(zi)yi

Avec des données d’enquêtes etdonnées manquantes, on a fˆ_j(z) =b⁰(z) ˆβ^(j) où :

βˆ^(j)=





 X

i∈s^(j)_r

b(zi)b⁰(zi) πiφ^(j)_i







−1

X

i∈s^(j)_r

b(zi)yi

πiφ^(j)_i

oùs^(j)r =s_r∩C_j etφ^(j)_i est la probabilité de réponse de l’individu i∈C_j, j= 1, . . . , J.

14/29

(15)

L’estimateur imput´ e par des fonctions B-splines

Nous sugg´erons imputer les valeurs manquantes par ˆ

y_k^(j)=b⁰(zk) ˆβ^(j)= X

i∈s^(j)r

b⁰(zk) ˆT⁻¹_φj b(z_i) πiφ^(j)_i

! yi,

o`uTˆ_φj = X

i∈s^(j)r

b(z_i)b⁰(z_i)/π_iφ^(j)_i ; cette m´ethode d’imputation est

”lin´eaire” dansY (Beaumont & Bissonnette, 2011).

L’estimateur imputé par desB-spline est donné par : tÎ = X

k∈sr

yk

πk

+

J

X

j=1

X

k∈s^(j)m

ˆ y_k^(j)

πk

=

J

X

j=1



 X

k∈s^(j)r

yk−yˆ^(j)_k

π_k + X

k∈s^(j)

ˆ y^(j)_k

π_k





(16)

R´ esultat

Si les probabilités de réponse sont constantes à l’intérieur des classes alors :

X

k∈s^(j)r

y_k−yˆ^(j)_k πk

= 0 pour tout j.

Alors, l’estimateur imput´e peut s’´ecrire sour une forme de projection :

ˆtI =

J

X

j=1

X

k∈s^(j)

ˆ y_k^(j)

πk

,

et égal à une somme pondérée de valeurs deY pour les répondants : tÎ =

J

X

j=1

X

k∈s^(j)r

1 πk

g^(j)_k yk,

o`ug^(j)_k = P

i∈s^(j)π⁻¹_i b⁰_iTˆ⁻¹_j b⁰_k, k∈s^(j)r .

16/29

(17)

Hypoth` eses

Sur le plan d’échantillonnage(Robinson and Särndal, 1983, Breidt and Opsomer, 2000) etle mécanisme de non-réponse:

limN→∞(n/N)∈(0,1);Nj=O(N), j= 1, . . . , J;

mink∈Uπk≥λ >˜ 0,mink≤l∈Uπkl≥λ^∗>0, limN→∞nmaxk6=l∈U|∆_kl|<∞

φ^(j)_i =φ^(j)≥c >0for alli∈Cj, j= 1, . . . , J.

Sur les modèles d’imputation: fj est supposée a fois diférentiable et limN→∞P

k∈Uσ_k²/N <∞; Sur les fonctionsB-spline

Il existe une distribution Q(z)avec une densit´e strictement positive sur[0,1]telle quesup_z∈[0,1]|QN(z)−Q(z)|=o(1/K),avec Q_N(z)la distribution empirique de(z_i)_i∈U (Zhouet al., 1998).

K=o(N)etK=O(n^a)aveca <1/3;

(18)

Propri´ et´ es asymptotiques de l’estimateur imput´ e

On suppose que le m´ecanisme de non-r´eponse est ignorable.

R´ esultat

On montre que :

1

NE|ˆt_I−t_y|=O 1

√n

,

donc l’estimateur imputé par des B-spline est asymptotiquement sans biais et convergent ;E(·)est considérée par rapport au modèle d’imputation, le plan de sondage et le mécanisme de non-réponse.

R´ esultat

Le biais total est : 1

NE(ˆtI−ty) =o 1

√n

.

18/29

(19)

Le calcul de la variance

On a :

ˆtI−ty= ˆtHT −ty

| {z } erreur d’´echantillonnage

+ ˆtI−ˆtHT

| {z } erreur d’imputation et la d´ecomposition de la variance (Sarndal, 1992) :

Vtot(ˆt_I −t_y)'Empq ˆt_I−t_y²

=VSAM+VIM P +VM IX

oùVSAM est la variance due à l’échantillonnage,VIM P la variance due à l’imputation etVM IX le terme de covariance mixte.

(20)

Etude par simulation

On consid`ere une population de tailleN = 5000;

On génère une variable auxiliaireZ dans une distribution uniforme sur[0,1]et la variable d’intérêtY selon quatre modèles (Breidt and Opsomer (2000)) :

(Linear) :y_i= 1 + 2(z_i−0.5) +_i; (Quadratic) :y_i= 1 + 2(z_i−0.5)²+_i;

(Bump):y_i= 1 + 2(z_i−0.5) + exp(−200{(z_i−0.5)}²) +_i; (Exponential) :yi= exp(−8zi) +i,

et les résidusi sont générés selon une loi normale.

20/29

(21)

Nous sommes intéressés à estimer le total t_y =X

i∈U

y_i

pour les quatre mod`eles ;

Nous considéronsR= 10,000échantillons aléatoire simple sans remise de taillen= 250

Les indicateurs de réponseri sont générés selon Bernoulli(pi), oùpi

est généré selon log

pi

1−p_i

=γ0+γ1zi,

et les paramètresγ0 etγ1ont été fixés de fa¸con à que le taux de réponse général est d’approximativement70%.

(22)

On consid`ere les proc´edures d’imputation suivantes :

(i) Imputation par la régression linéaire (LRI), pour laquelle les valeur imputées sont données par :

y^∗_i =z⁰_i X

i∈s

π⁻¹_i riziz⁰_i

!−1

X

i∈s

π_i⁻¹riziyi

avec zi= (1, zi)⁰.

(ii) Imputation par le plus-proche voisin basée sur la variablez, pour laquelle les valeurs imputées sonty_i^∗=z_j, j∈s_r telles que (z_j−z_i)² est minimisé.

(iii) L’imputation par B-spline (SI). Le nombre de noeuds est de K= 2; 5 et10, m= 3.

22/29

(23)

Mesures de comparaison

Biais relatif

RBM C(bθ) =100 R

R

X

r=1

(bt_I(r)−ty) t_y ,

oùbt_I(r) est l’estimateur imputébtI dans ler-ème échantillon.

L’efficacité relative (RE) debtI par rapport à l’estimateur basé sur les données complètesbtcomp :

RE(·) = 100× M SEM C btI(·) M SEM C btcomp

.

oùbtI(·)est l’estimateur imputébtI et l’erreur quadratique moyenne Monte Carlo est donnée par :

M SE_{M C}(bt_I) = 1 R

R

X

r=1

(bt_I(r)−t_y)².

(24)

Table:Biais relatif et efficacit´e relative de type Monte Carlo pour les totaux etn=250

LRI NNI SI SI SI

K= 2 K= 5 K= 10

(Linear) 0.0 0.1 0.1 0.1 0.1

(129) (161) (140) (141) (143)

(Quadratic) -3.2 -0.1 -0.1 -0.1 -0.1

(305) (230) (182) (185) (189)

(Bump) 3.4 0.1 0.1 0.1 0.1

(195) (150) (137) (135) (135) (Exponential) -26.1 -1.7 -1.8 -1.7 -1.7

(262) (217) (177) (179) (182)

24/29

(25)

Estimation de la fonction de r´ epartition et des quantiles

La fonction de r´epartitionF_N(t) =P

i∈U1_{y_i_≤t}/N est estim´ee par l’estimateur imput´e :

FbI(t) = X

i∈s

π⁻¹_i

!−1

X

i∈sr

1_{y_i_≤t}

πi

+ X

i∈sm

1_{y^∗

i≤t}

πi

! .

La m´ediane est estim´ee par : θˆ_1/2= inf

t {FbI(t)≥1 2}

(26)

L’imputation al´ eatoire

L’imputation aléatoire peut être vue comme une imputation déterministe plus un résidu aléatoire :

y_i^∗=f(zb i) +^∗_i,

où ^∗_i est sélectionné aléatoirement parmi les résidus standardisés des répondants{˜ej;j∈sr}, avec la probabilité

P(^∗_i = ˜ej) = π⁻¹_j P

l∈srπ_l⁻¹,

o`u˜e_j=e_j−e¯_r ete_j=y_j−fb(z_j)avece¯_r= P

j∈srπ_j⁻¹ej

P

j∈srπ⁻¹_j .

26/29

(27)

Table:Biais relatif et efficacit´e relative de type Monte Carlo pour les quantiles etn=500

Quantile Mod`ele LRI SI NNI RLRI RSI

K= 5 K= 5

Linear -5.6 -5.6 -0.2 0.3 0.4

(318) (336) (160) (132) (129)

θb1/2 Quadratic -7.5 -0.4 0.0 -3.3 0.0

(1181) (252) (246) (377) (186)

Bump -4.6 0.1 -0.1 2.0 0.7

(247) (138) (135) (149) (120) Exponential 29.3 -0.7 -1.7 -23.3 -3.0

(283) (185) (197) (250) (157)

(28)

Conclusion et travail en cours

Une nouvelle m´ethode d’imputation bas´ee sur des fonctions

B-spline new non-parametric imputation method based on B-spline functions ;

Cette méthode est simple à mettre en oeuvre (très similaire à l’imputation par la regression), très bonnes propriétés asymptotiques et performances pratiques ;

Travail en cours :

résultats asymptotic sur l’imputation aléatoire et équilibrée par des B-spline ;

plus d’études de simulation sur l’estimation de la variance ; extension au cas multi-varié en considérant des modèles additifs.

28/29

(29)

Courte bibliographie

Beaumont, J-F. and Bissonnette, J. (2011). Variance estimation under composite imputation : The methodology behind SEVANI.Survey Methodology,37, 171-179.

Beaumont, J-F. and Bocci, C. (2009). Variance estimation when donor imputation is used to fill in missing values.The Canadian Journal of Statistics,37, 400-416.

Cardot, H., De Moliner, A. and Goga, C. (2018). Estimation of total electricity consumption curves by sampling in a finite population when some trajectories are partially unobserved (in revision for Canadian Journal of Statistics, special edition for CANSSI project),

Chen, J. and Shao, J. (2000). Nearest Neighbor Imputation for Survey Data.Journal of Official Statistics, 16, 113-131.

Goga, C. (2005), Réduction de la variance dans les sondages en présence d’information auxiliaire : une approche non paramétrique par splines de régression, The Canadian Journal of Statistics,33, 1-18.

Goga, C. and Ruiz-Gazen (2014). Efficient estimation of non-linear finite population parameters by using non-parametrics. (JRSSB, 76, 113-140).

Haziza, D. (2009). Imputation and inference in the presence of missing data.Handbook of statist., 29A, Sample surveys : design methods and applications. Elsevier/North Holland, Amsterdam 215-246.

Ruppert, D., Wand, M.P. and Caroll, R. (2003).Semiparametric regression, Cambridge : Cambridge University Press.

Sarda, P. & Vieu, P. (2000). Kernel regression, inSmoothing and regression : approaches, computation and application (ed. M.G. Schimek), New-York Wiley.

Sarndal, C.-R. (1992). Methods for estimating the precision of survey estimates when imputation is has been used,Survey Methodology, 18, 2, 241-252.