• Aucun résultat trouvé

Consistance sous un modèle de réponse de la fonction de répartition estimée en présence de

N/A
N/A
Protected

Academic year: 2022

Partager "Consistance sous un modèle de réponse de la fonction de répartition estimée en présence de"

Copied!
36
0
0

Texte intégral

(1)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Consistance sous un modèle de réponse de la fonction de répartition estimée en présence de

données manquantes

Hélène Boistard (Université Toulouse I) Guillaume Chauvet (Ensai, Crest) David Haziza (Université de Montréal)

(2)

Plan de l’exposé

Notations

Estimateur imputé du total

Estimateur imputé de la fonction de répartition

Etude par simulations

(3)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Notations

(4)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Notation

On considère une population finie d’individusU ={1, . . . , k, . . . , N}, où chaque individu est supposé identifiable par son label. Pour chaque individuk, soit :

yk la valeur prise par une variable d’intérêt y, πk sa probabilité de sélection (>0),

dk= 1/πk le poids de sondage.

ty =

k∈U

yk par ˆt=

k∈S

dkyk, FN(t) =N−1X

k∈U

1(yk≤t) par FˆN(t) = ˆN−1X

k∈S

dk1(yk≤t).

(5)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Notation

On considère une population finie d’individusU ={1, . . . , k, . . . , N}, où chaque individu est supposé identifiable par son label. Pour chaque individuk, soit :

yk la valeur prise par une variable d’intérêt y, πk sa probabilité de sélection (>0),

dk= 1/πk le poids de sondage.

En situation de réponse complète, on estime sans biais ty =X

yk par ˆt=X dkyk,

(6)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Estimateur imputé

En cas de non-réponse poury, une valeur manquanteyk est généra- lement remplacée par une valeur imputéeyk (e.g. Haziza, 2009) :

ˆtyI = X

k∈Sr

dkyk+ X

k∈Sm

dkyk, FˆI(t) = Nˆ−1[X

k∈Sr

dk1(yk ≤t) + X

k∈Sm

dk1(yk ≤t)].

(7)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Estimateur imputé

En cas de non-réponse poury, une valeur manquanteyk est généra- lement remplacée par une valeur imputéeyk (e.g. Haziza, 2009) :

ˆtyI = X

k∈Sr

dkyk+ X

k∈Sm

dkyk, FˆI(t) = Nˆ−1[X

k∈Sr

dk1(yk ≤t) + X

k∈Sm

dk1(yk ≤t)].

Deux mécanismes aléatoires supplémentaires interviennent : leméca.

de non-réponse (S ⇒ Sr), et le méca. d’imputation (yk ⇒ yk).

(8)

Estimateur imputé

En cas de non-réponse poury, une valeur manquanteyk est généra- lement remplacée par une valeur imputéeyk (e.g. Haziza, 2009) :

ˆtyI = X

k∈Sr

dkyk+ X

k∈Sm

dkyk, FˆI(t) = Nˆ−1[X

k∈Sr

dk1(yk ≤t) + X

k∈Sm

dk1(yk ≤t)].

Deux mécanismes aléatoires supplémentaires interviennent : leméca.

de non-réponse (S ⇒ Sr), et le méca. d’imputation (yk ⇒ yk).

(9)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Estimateur imputé

En cas de non-réponse poury, une valeur manquanteyk est généra- lement remplacée par une valeur imputéeyk (e.g. Haziza, 2009) :

ˆtyI = X

k∈Sr

dkyk+ X

k∈Sm

dkyk, FˆI(t) = Nˆ−1[X

k∈Sr

dk1(yk ≤t) + X

k∈Sm

dk1(yk ≤t)].

Deux mécanismes aléatoires supplémentaires interviennent : leméca.

de non-réponse(S ⇒Sr), et le méca. d’imputation(yk⇒yk).

(10)

Estimateur imputé du total

(11)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Modèle d’imputation

Le mécanisme d’imputation est motivé par un modèle d’imputation

⇒prédiction de yk à l’aide d’une information auxiliairexk : m : yk = x>k β+σ√

vkk. Dans ce modèle :

β et σ2 sont des paramètres inconnus, vk est une constante connue,

les résidusksont des variables aléatoiresiid, centrées réduites.

(12)

Modèle d’imputation

Le mécanisme d’imputation est motivé par un modèle d’imputation

⇒prédiction de yk à l’aide d’une information auxiliairexk : m : yk = x>k β+σ√

vkk. Dans ce modèle :

β et σ2 sont des paramètres inconnus, vk est une constante connue,

les résidusksont des variables aléatoiresiid, centrées réduites.

(13)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Imputation déterministe

L’imputation par la régression déterministe est obtenue en prenant yk=x>k βˆr, avec

βˆr =

 X

k∈Sr

ωkvk−1xkx>k

−1

X

k∈Sr

ωkvk−1xkyk

un estimateur du paramètreβinconnu, etωkunpoids d’imputation (>0) associé à l’uniték (Haziza, 2009).

Dans ce cas, l’estimateur imputé du total est égal à ˆtyI = X

k∈Sr

dkyk+ X

k∈Sm

dk

h x>k βˆr

i .

(14)

Imputation déterministe

L’imputation par la régression déterministe est obtenue en prenant yk=x>k βˆr, avec

βˆr =

 X

k∈Sr

ωkvk−1xkx>k

−1

X

k∈Sr

ωkvk−1xkyk

un estimateur du paramètreβinconnu, etωkunpoids d’imputation (>0) associé à l’uniték (Haziza, 2009).

Dans ce cas, l’estimateur imputé du total est égal à ˆtyI = X

k∈Sr

dkyk+ X

k∈Sm

dk

h x>k βˆr

i .

(15)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Approche sous le Modèle d’Imputation (IM)

L’inférence se fait sous le modèle (postulé) d’imputation. Le méca- nisme de non-réponse n’est pas explicitement modélisé.

Un choix quelconque des poids d’imputation ωk conduit à un esti- mateur du total approximativementmpq non biaisé :

EmEpEq(ˆtyI−ty) ' 0.

(16)

Approche sous le Modèle d’Imputation (IM)

L’inférence se fait sous le modèle (postulé) d’imputation. Le méca- nisme de non-réponse n’est pas explicitement modélisé.

Un choix quelconque des poids d’imputation ωk conduit à un esti- mateur du total approximativementmpq non biaisé :

EmEpEq(ˆtyI−ty) ' 0.

(17)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Approche sous le Modèle de Non-Réponse (NM)

Pour se prémunir contre une mauvaise spécification du modèle m, il est intéressant de disposer d’un méca. d’imputation donnant une estimation non biaisée sous un modèle de non-réponse.

Modèle de non-réponse : jeu d’hypothèses sur le mécanisme (in- connu) de non-réponse. On suppose ici que la probabilité de réponse à la variableyk suit le modèle logistique

pk≡Pr(rk= 1) = exp φ>0xk 1 + exp φ>0xk

.

(18)

Approche sous le Modèle de Non-Réponse (NM)

Pour se prémunir contre une mauvaise spécification du modèle m, il est intéressant de disposer d’un méca. d’imputation donnant une estimation non biaisée sous un modèle de non-réponse.

Modèle de non-réponse : jeu d’hypothèses sur le mécanisme (in- connu) de non-réponse. On suppose ici que la probabilité de réponse à la variableyk suit le modèle logistique

pk≡Pr(rk= 1) = exp φ>0xk

1 + exp φ>0xk

.

(19)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Approche sous le Modèle de Non-Réponse (NM)

Pour se prémunir contre une mauvaise spécification du modèle m, il est intéressant de disposer d’un méca. d’imputation donnant une estimation non biaisée sous un modèle de non-réponse.

Modèle de non-réponse : jeu d’hypothèses sur le mécanisme (in- connu) de non-réponse. On suppose ici que la probabilité de réponse à la variableyk suit le modèle logistique

pk≡Pr(rk= 1) = exp φ>0xk

1 + exp φ>0xk

.

(20)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Approche sous le Modèle de Non-Réponse (NM)

L’utilisation du mécanisme d’imputation par la régression détermi- niste, avec les poids d’imputation ωk = dk1−pk

pk , conduit à un estimateur imputé du totalpqnon biaisé (Haziza et Rao, 2006) :

EpEq(ˆtyI−ty) ' 0.

(21)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Approche sous le Modèle de Non-Réponse (NM)

L’utilisation du mécanisme d’imputation par la régression détermi- niste, avec les poids d’imputation ωk = dk1−pk

pk , conduit à un estimateur imputé du totalpqnon biaisé (Haziza et Rao, 2006) :

EpEq(ˆtyI−ty) ' 0.

On parle d’estimation doublement robuste du total, voir égale- ment Kott (1994), Kim et Park (2006).

(22)

Estimateur imputé de la

fonction de répartition

(23)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Imputation déterministe

L’utilisation d’une imputation par la régression déterministe conduit à l’estimateur

I(t) = 1 Nˆ

 X

k∈Sr

dk1(yk≤t) + X

k∈Sm

dk1(x>k βˆr ≤t)

.

Cependant, cet estimateur est mpq biaisé. Pour résoudre ce pro- blème, Chambers et Dunstan (1986) ont proposé un estimateur cor- rigé du biais a posteriori.

(24)

Imputation aléatoire : approche IM

L’imputation par la régression aléatoire est obtenue en prenant yk = x>k βˆr+ ˆσ√

vkk,

i.e. en rajoutant à la prédiction deyk un terme aléatoire.

Les résidus k sont tirés au hasard et avec remise, avec des pro- babilités proportionnelles aux poids d’imputationωk, parmi les résidus observés sur les répondants.

L’estimateur imputéˆtyI est approximativementmpqI non biaisé : EmEpEqEI(ˆtyI−ty) ' 0.

(25)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Imputation aléatoire : approche IM

Sous des hypothèses standard, Chauvet, Deville et Haziza (2011) montrent que la fonction de répartition imputée par la régression aléatoire est consistante sous l’approche IM :

I(t)−FN(t) →P 0.

Ce résultat s’étend au cas où les résidus aléatoires sont sélectionnés de façon équilibrée :

X(1−rk)√

vkk = 0 ⇒ tˆyI =EI(ˆtyI|yU, S, Sr)

(26)

Imputation aléatoire : approche NM

Pour se prémunir contre une mauvaise spécification du modèle d’im- putation, on cherche un mécanisme d’imputation donnant une esti- mation non biaisée sous l’approche NM.

Nous nous restreignons ici au cas du hot-deck aléatoire : une valeur manquanteyk est remplacée en sélectionnant au hasard et avec re- mise un donneuryj ∈Sr, avec des probabilités proportionnelles aux poids d’imputationωj.

Théorème (BCH, 2012) Le choixωk=dk1−pp k

k dans le hot-deck aléatoire donne une estimation consistante deFN(·) sous l’approche NM :

I(t)−FN(t) →P 0.

(27)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Etude par simulations

(28)

Cadre

Population de tailleN = 10 000, générée selon le modèle yk = 10 +x1i+x2ii,

où les x1i, x2i sont générés selon une loi gamma et lesηi selon une loi normale centrée. On utiliseR2 = 0.70.

Echantillon S de taille n = 500 sélectionné par sondage aléatoire simple. La non-réponse est générée selon un mécanisme poissonien, avec

P r(ri= 1|x1i, x2i) = exp (−1 + 1.6x1i+ 1.6x2i) 1 + exp (−1 + 1.6x1i+ 1.6x2i). Probabilité de réponse moyenne de 0.60.

(29)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Imputation par la régression aléatoire

On réalise B = 1000 simulations. On s’intéresse à l’estimation de FN(tα), avecα= 0.05, 0.25, 0.50, 0.75, 0.95.

Pour illustrer les risques d’une mauvaise spécification du modèle d’im- putation, on examine les performances de l’imputation par la ré- gression aléatoire non pondérée:

avec le modèle correct : x= (1, x1, x2), avec un modèle incomplet : x= (1, x1).

On calcule le biais relatif (RB), et le MSE relatif q

(30)

Résultats obtenus

α

0.05 0.25 0.50 0.75 0.95 x= (1, x1, x2) REGI RB 0.9 0.8 0.1 -0.1 0.0

RMSE 23.9 9.3 5.0 2.7 1.1

x= (1, x1) REGI RB -18.8 -12.9 -8.5 -4.6 -1.0 RMSE 29.4 16.0 10.2 5.6 1.7

Tab.:Biais relatif et erreur quadratique moyenne de Monte Carlo (en pourcentage) pour la fonction de répartition imputée par la régression aléatoire

(31)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Résultats obtenus

α

0.05 0.25 0.50 0.75 0.95 x= (1, x1, x2) REGI RB 0.9 0.8 0.1 -0.1 0.0

RMSE 23.9 9.3 5.0 2.7 1.1 x= (1, x1) REGI RB -18.8 -12.9 -8.5 -4.6 -1.0

RMSE 29.4 16.0 10.2 5.6 1.7 Tab.:Biais relatif et erreur quadratique moyenne de Monte Carlo (en pourcentage) pour la fonction de répartition imputée par la régression

(32)

Imputation par hot-deck

On s’intéresse également à l’estimation deFN(tα), avec

α = 0.05, 0.25, 0.50, 0.75, 0.95. On modélise le mécanisme de non-réponse de façon :

correcte : x= (1, x1, x2)⇒pˆ1, incomplète : x= (1, x1)⇒pˆ2.

On examine les performances de l’imputation par hot-deck: non-pondéré :ωk= 1,

pondéré avec les bonnes probas de réponse : ωk=dk 1−ˆpˆp1

1 , pondéré avec les mauvaises probas de réponse : ωk=dk 1−ˆpˆp2

2 .

(33)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Résultats obtenus

α

0.05 0.25 0.50 0.75 0.95 RHDI RB -29.3 -22.7 -16.2 -9.6 -2.4 RMSE 37.7 24.7 17.4 10.4 3.0

RHDI-P1 RB 0.6 0.2 0.1 -0.2 0.0

RMSE 34.2 11.7 6.0 3.1 1.2 RHDI-P2 RB -17.4 -13.1 -9.0 -5.0 -1.1

RMSE 33.0 16.7 11.0 6.1 1.8 Tab.:Biais relatif et erreur quadratique moyenne de Monte Carlo (en

(34)

Résultats obtenus

α

0.05 0.25 0.50 0.75 0.95 RHDI RB -29.3 -22.7 -16.2 -9.6 -2.4 RMSE 37.7 24.7 17.4 10.4 3.0

RHDI-P1 RB 0.6 0.2 0.1 -0.2 0.0

RMSE 34.2 11.7 6.0 3.1 1.2

RHDI-P2 RB -17.4 -13.1 -9.0 -5.0 -1.1 RMSE 33.0 16.7 11.0 6.1 1.8 Tab.:Biais relatif et erreur quadratique moyenne de Monte Carlo (en pourcentage) pour trois méthodes de hot-deck aléatoire

(35)

Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations

Résultats obtenus

α

0.05 0.25 0.50 0.75 0.95 RHDI RB -29.3 -22.7 -16.2 -9.6 -2.4 RMSE 37.7 24.7 17.4 10.4 3.0

RHDI-P1 RB 0.6 0.2 0.1 -0.2 0.0

RMSE 34.2 11.7 6.0 3.1 1.2 RHDI-P2 RB -17.4 -13.1 -9.0 -5.0 -1.1

RMSE 33.0 16.7 11.0 6.1 1.8 Tab.:Biais relatif et erreur quadratique moyenne de Monte Carlo (en

(36)

Bibliographie

Chambers, R.L., Dunstan, R. (1986).Estimating distribution functions from sur- vey data, Biometrika, vol 73, pp. 597–604.

Chauvet, G., Deville, J.-C., and Haziza, D. (2011).On balanced random impu- tation in surveys, Biometrika, vol 98, 459-471.

Deville, J.-C., and Tillé, Y. (2004).Efficient balanced sampling : the cube me- thod, Biometrika, 91, pages 893-912.

Haziza, D. (2009). Imputation and inference in the presence of missing data, Handbook of Statistics, vol.29, chap. 10.

Kim, J.K. and Park, H.A. (2006).Imputation using response probability. Cana- dian Journal Statistics 34, 171-182.

Kott, P.S. (1994).A note on handling nonresponse in sample surveys. Journal of the American Statistical Association 89, 693-696.

Références

Documents relatifs

Cette analyse spatiale met en évidence l’existence et la diversité des pratiques d’irrigation selon les régions, avec une irrigation principalement

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

Dans cet article, après avoir proposé une solution simple pour résoudre l’ambiguïté de bas-relief (partie 3), nous avons montré dans la partie 4 comment adapter la mé- thode

Comme sur les données simulées de la section 3.6.2, la procédure avec 5 000 itérations donne des résultats proches de ceux renvoyés lorsqu’un critère d’arrêt est utilisé,

Dans ce travail, nous nous int´ eressons ` a l’estimation de la fonction de va- riance en r´ egression par agr´ egation de type s´ election mod` ele (MS).. Le but de la proc´ edure

Dans cet exposé, nous étudions les propriétés asymptotiques des estimateurs variation- nels des paramètres pour le modèle Mixnet, ainsi que pour un modèle semi-paramétrique lié

Ce travail a pour but de proposer des outils visant à comparer des résul- tats expérimentaux avec des modèles pour la dispersion de traceur en milieu poreux, dans le cadre de

2 Cadre agronomique Le projet CASDAR L’analyse d’incertitude Le mod` ele SUNFLO.. 3 Cadre statistique Mat´ eriels et M´ ethodes