Imputation, MIVQUE et pr´eservation des relations entre variables

(1)

Brigitte Gelein⁽¹⁾ David Causeur ⁽²⁾ David Haziza ⁽³⁾

(1)Ensai,⁽²⁾Agrocampus Ouest,⁽³⁾Universit´e de Montr´eal

7^e COLLOQUE FRANCOPHONE SUR LES SONDAGES Novembre 2012

(2)

La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :

les caractéristiques des non-répondants sont généralement différentes de celles des répondants⇒ biais de non-réponse,

la non-réponse diminue la taille de l’échantillon effectivement observée⇒variance de non-réponse.

On distingue deux types de non-r´eponse :

la non-réponse totale(”unit non-response”) : pour une unité, aucune information n’est relevée⇒ repondération,

la non-réponse partielle (”item non-response”) : pour une unité, une partie seulement de l’information est relevée

⇒ imputation.

(3)

⇒ imputation.

(4)

⇒ imputation.

(5)

⇒ imputation.

(6)

⇒ imputation.

(7)

⇒ imputation.

(8)

⇒ imputation.

(9)

Observations Y1 Y2 X

1 ? ?

2 ? ?

3 ?

4 ?

5 ?

6 ?

7

8

9

10

L’imputation simple consiste à remplacer une valeur manquante par une valeur artificielle (*), dans le but de réduire le biais de non-réponse :

Y_1i^∗ si r_1i = 0 Y_2i^∗ si r2i = 0 avec

r_1i l’indicatrice de réponse à Y₁, r2i l’indicatrice de réponse à Y2

pour l’unit´e i

Valeurs manquantes symbolisées par ’ ?’, Valeurs observées symbolisées par ’’.

(10)

Observations Y1 Y2 X

1 ? ?

2 ? ?

3 ?

4 ?

5 ?

6 ?

7

8

9

10

L’imputation simple consiste à remplacer une valeur manquante par une valeur artificielle (*), dans le but de réduire le biais de non-réponse :

Y_1i^∗ si r_1i = 0 Y_2i^∗ si r2i = 0 avec

r_1i l’indicatrice de réponse à Y₁, r2i l’indicatrice de réponse à Y2

pour l’unit´e i

Valeurs manquantes symbolisées par ’ ?’, Valeurs observées symbolisées par ’’.

(11)

L’imputation marginale : traiter les variables d’intérêt séparément

Des estimateurs asymptotiquement non biaisés pour les pa- ramètres univariés (ex. un total, une moyenne) si le modèle d’imputation et/ou de non-réponse est correctement spécifié.

Des estimateurs biaisés pour les paramètres mesurant les liens entre variables d’intérêt.

Solutions :

Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).

une méthode d’imputation préservant les relations entre variables d’intérêt : Shao et Wang (2002).

(12)

L’imputation marginale : traiter les variables d’intérêt séparément Des estimateurs asymptotiquement non biaisés pour les pa- ramètres univariés (ex. un total, une moyenne) si le modèle d’imputation et/ou de non-réponse est correctement spécifié.

Solutions :

(13)

Solutions :

(14)

Solutions :

(15)

Solutions :

(16)

Solutions :

(17)

Solutions :

Une méthode d’imputation préservant les relations entre variables d’intérêt : Shao et Wang (2002).

(18)

U : population finie de tailleN Y1 etY2 : variables d’intérêt Coefficient de corrélation :

ρ12= t11−t10t01/N

(t20−(t10)²/N)^1/2(t02−(t01)²/N)^1/2, o`u

tkl =X

i∈U

Y_1i^kY_2i^l,

(k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.

Exemples : t10=P

i∈UY_1i,t20=P

i∈UY_1i² et t₁₁=P

i∈UY_1iY_2i

(19)

ρ12= t11−t10t01/N

(t20−(t10)²/N)^1/2(t02−(t01)²/N)^1/2, o`u

tkl =X

i∈U

Y_1i^kY_2i^l,

(k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.

Exemples : t10=P

i∈UY_1i,t20=P

i∈UY_1iY_2i

(20)

ρ12= t11−t10t01/N

(t20−(t10)²/N)^1/2(t02−(t01)²/N)^1/2, o`u

tkl =X

i∈U

Y_1i^kY_2i^l,

(k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.

Exemples : t10=P

i∈UY_1i,t20=P

i∈UY_1iY_2i

(21)

ρ12= t11−t10t01/N

(t20−(t10)²/N)^1/2(t02−(t01)²/N)^1/2, o`u

tkl =X

i∈U

Y_1i^kY_2i^l,

(k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.

Exemples : t10=P

i∈UY_1i,t20=P

i∈UY_1iY_2i

(22)

S : échantillon sélectionné selon un plan de sondagep(.) Estimateur de ρ₁₂ en l’absence de non-réponse : plug-in

ˆ

ρ12π = ˆt11,π−ˆt10,πˆt01,π/N

ˆt_20,π−(ˆt_10,π)²/N1/2 ˆt_02,π−(ˆt_01,π)²/N1/2, o`u

ˆtkl,π =X

i∈S

wiY_1i^kY_2i^l et w_i = 1/π_i le poids de sondage de l’unit´e i

ˆ

ρ_12π est asymptotiquement sans biais sous le plan p(.)

(23)

ˆ

ˆtkl,π =X

i∈S

wiY_1i^kY_2i^l

et w_i = 1/π_i le poids de sondage de l’unit´e i ˆ

(24)

ˆ

ˆtkl,π =X

i∈S

wiY_1i^kY_2i^l

et w_i = 1/π_i le poids de sondage de l’unit´e i ˆ

(25)

Non r´eponse : Estimateur imput´e deρ12

ˆ

ρ12I = ˆt_11,I−ˆt_10,Iˆt_01,I/N

ˆt20,I−(ˆt10,I)²/N1/2 ˆt02,I−(ˆt01,I)²/N1/2, avec

ˆt_kl_,I =X

i∈s

w_iY˜₁^k_iY˜₂^l_i Y˜_1i =Y_1i sir_1i = 1 et ˜Y_1i =Y_1i^∗ sir_1i = 0.

Y˜_2i =Y_2i sir_2i = 1 et ˜Y_2i =Y_2i^∗ sir_2i = 0.

Principale difficult´e : estimer sans biais le produit crois´e,t11.

(26)

ˆ

ρ12I = ˆt_11,I−ˆt_10,Iˆt_01,I/N

ˆt_kl_,I =X

i∈s

(27)

ˆ

ρ12I = ˆt_11,I−ˆt_10,Iˆt_01,I/N

ˆt_kl_,I =X

i∈s

(28)

ˆ

ρ12I = ˆt_11,I−ˆt_10,Iˆt_01,I/N

ˆt_kl_,I =X

i∈s

(29)

Modèle d’imputation : modèle de régression bivarié m: Y_1i = x⁰_iβ₁+√

v_1i_1i Y2i = x⁰_iβ2+√

v_2i2i

o`u v_1i =v₁(x_i) etv_2i =v₂(x_i) pour deux fonctions connues v₁(.)>0 etv₂(.)>0,

Cov_m(_1i, _2i)≡σ₁₂,Var_m(_1i)≡σ²₁ et Var_m(_2i)≡σ²₂ Utilisation des estimateurs sur cas complets: βˆ1r, ˆβ2r et ˆΣr =

σˆ²_1r,σˆ12r

ˆ σ_12r,σˆ_2r²

(30)

Modèle d’imputation : modèle de régression bivarié m: Y_1i = x⁰_iβ₁+√

v_1i_1i Y2i = x⁰_iβ2+√

v_2i2i

o`u v_1i =v₁(x_i) etv_2i =v₂(x_i) pour deux fonctions connues v₁(.)>0 etv₂(.)>0,

Cov_m(_1i, _2i)≡σ₁₂,Var_m(_1i)≡σ²₁ et Var_m(_2i)≡σ²₂ Utilisation des estimateurs sur cas complets: βˆ1r, ˆβ2r et ˆΣr =

σˆ²_1r,σˆ12r

ˆ σ_12r,σˆ_2r²

(31)

Pour ry1i = 0 et ry2i = 1, on utilise les valeurs imput´ees y_1i^∗ =x⁰_i βˆ_1r+√

v_1i

σˆ12r

√v2iσˆ²_2r

y_2i −x⁰_iβˆ_2r + ˜^∗_1i

avec ˜^∗_1i ind´ependants, EI(˜^∗_1i) = 0 et Var_I(˜^∗_1i) = ˆσ²_1r −σˆ²_12r/ˆσ_2r²

Pour ry1i = 1 et ry2i = 0, solution analogue

Pour r_y_1i = 0 et r_y_2i = 0, les (^∗_1i, ^∗_2i) ind´ependants, EI(^∗_1i, ^∗_2i) = 0 et de variance-covariance ˆΣr =

σˆ²_1r,σˆ12r

ˆ σ12r,σˆ_2r²

y_1i^∗ = x⁰_iβˆ_1r +√ v_1i^∗_1i y_2i^∗ = x⁰_iβˆ_2r +√

v_2i^∗_2i

(32)

v_1i

σˆ12r

√v2iσˆ²_2r

y_2i −x⁰_iβˆ_2r + ˜^∗_1i

σˆ²_1r,σˆ12r

ˆ σ12r,σˆ_2r²

v_2i^∗_2i

(33)

v_1i

σˆ12r

√v2iσˆ²_2r

y_2i −x⁰_iβˆ_2r + ˜^∗_1i

σˆ²_1r,σˆ12r

ˆ σ12r,σˆ_2r²

v_2i^∗_2i

(34)

Biais conditionnel de non-r´eponse : BmI( ˆρ12I) =EmEI( ˆρ12I−ρˆ12π)

Asymptotiquement sans biais sous le mod`ele d’imputation :B_mI( ˆρ_12I)≈0

Souffre d’une source supplémentaire de variance : la variance d’imputation⇒Not fully efficient (Kim and Fuller, 2004) La procédure de Shao et Wang repose sur l’estimation de coefficients qui peuvent aussi être estimés grâce à l’approche MIVQUE : Minimum In Variance Quadratic Unbiased Es- timators (MIVQUE).

(35)

(36)

(37)

(38)

(39)

L’approche MIVQUE :

utilis´ee pour estimer les composantes de la variance d’un mod`ele mixte,

basée sur une caractérisation algébrique de la structure de covariance des variables,

adaptée par Causeur (2006) pour l’estimation de paramètres d’un modèle linéaire multivarié dans un contexte Missing At Random,

pour am´eliorer la proc´edure d’imputation de Shao et Wang : diminution de la variance.

(40)

(41)

(42)

(43)

(44)

(45)

1 utiliser la méthode de Shao et Wang pour donner une première valeur aux données à imputer

2 modifier itérativement ces premières valeurs de fa¸con à obte- nir des valeurs estimées de paramètres proches de celles du MIVQUE.

Y1 Y2 X

? ? X1

? ? X2

Y1,3 ? X3

Y1,4 ? X4

? Y2,5 X5

? Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

a - Non r´eponse symbole ’ ?’

⇒ 1

Y1 Y2 X

Yˆ1,1 Yˆ2,1 X1

Yˆ1,2 Yˆ2,2 X2

Y1,3 Yˆ2,3 X3

Y1,4 Yˆ2,4 X4

Yˆ1,5 Y2,5 X5

Yˆ1,6 Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

b - 1^ieresvaleurs imput´eesYˆ

⇒ 2

Y1 Y2 X

Y_1,1^∗ Y_2,1^∗ X1

Y_1,2^∗ Y_2,2^∗ X2

Y1,3 Y_2,3^∗ X3

Y1,4 Y_2,4^∗ X4

Y_1,5^∗ Y2,5 X5

Y_1,6^∗ Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

c - Valeurs finalesY^∗

(46)

Y1 Y2 X

? ? X1

? ? X2

Y1,3 ? X3

Y1,4 ? X4

? Y2,5 X5

? Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

⇒ 1

Y1 Y2 X

Yˆ1,1 Yˆ2,1 X1

Yˆ1,2 Yˆ2,2 X2

Y1,3 Yˆ2,3 X3

Y1,4 Yˆ2,4 X4

Yˆ1,5 Y2,5 X5

Yˆ1,6 Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

⇒ 2

Y1 Y2 X

Y_1,1^∗ Y_2,1^∗ X1

Y_1,2^∗ Y_2,2^∗ X2

Y1,3 Y_2,3^∗ X3

Y1,4 Y_2,4^∗ X4

Y_1,5^∗ Y2,5 X5

Y_1,6^∗ Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

(47)

Y1 Y2 X

? ? X1

? ? X2

Y1,3 ? X3

Y1,4 ? X4

? Y2,5 X5

? Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

⇒ 1

Y1 Y2 X

Yˆ1,1 Yˆ2,1 X1

Yˆ1,2 Yˆ2,2 X2

Y1,3 Yˆ2,3 X3

Y1,4 Yˆ2,4 X4

Yˆ1,5 Y2,5 X5

Yˆ1,6 Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

⇒ 2

Y1 Y2 X

Y_1,1^∗ Y_2,1^∗ X1

Y_1,2^∗ Y_2,2^∗ X2

Y1,3 Y_2,3^∗ X3

Y1,4 Y_2,4^∗ X4

Y_1,5^∗ Y2,5 X5

Y_1,6^∗ Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

(48)

Etape 2 : calibrage sur le MIVQUE

Définition d’un système de cinq équations correspondant chacune à un des totaux :tkl =P

i∈UY_1i^kY_2i^l , o`u (k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.











ˆt10I=N µˆ1M

ˆt01I=N µˆ2M

ˆt20I=N (ˆµ1M)²+ (N−1) ˆσ_1M² ˆt02I=N (ˆµ2M)²+ (N−1) ˆσ_2M²

ˆt_11I=N µˆ_1M µˆ_2M+ (N−1) ˆσ_12M

avecN la taille de la population, µ1et µ2, les esp´erances deY1 etY2 et θˆM l’estimateur MIVQUE du param`etreθ.

(49)

Etape 2 : calibrage sur le MIVQUE

Définition d’un système de cinq équations correspondant chacune à un des totaux :tkl =P

i∈UY_1i^kY_2i^l , o`u (k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.











ˆt10I=N µˆ1M

ˆt01I=N µˆ2M

ˆt20I=N (ˆµ1M)²+ (N−1) ˆσ_1M² ˆt02I=N (ˆµ2M)²+ (N−1) ˆσ_2M²

ˆt_11I=N µˆ_1M µˆ_2M+ (N−1) ˆσ_12M

avecN la taille de la population, µ1et µ2, les esp´erances deY1 etY2 et θˆM l’estimateur MIVQUE du param`etreθ.

(50)

Nous avons généré une population de tailleN = 1 000 avec Y₁,Y₂ etX

X ∼Gamma

Les données bivariées (Y_1i,Y_2i)’s ont été générées selon le modèle bivarié avecx_i =x_i,v_1i =v_2i =x_i et β₁ =β₂ = 1.

Y_1i =X_i +√ X_iε_i1 Y2i =Xi +√

Xiεi2

Param`etres de la population

µ₁ µ₂ σ₁² σ₂² σ₁₂ ρ₁₂ 2.10 2.12 11.21 11.52 9.32 0.82

(51)

X ∼Gamma

Y_1i =X_i +√ X_iε_i1 Y2i =Xi +√

Xiεi2

µ₁ µ₂ σ₁² σ₂² σ₁₂ ρ₁₂ 2.10 2.12 11.21 11.52 9.32 0.82

(52)

X ∼Gamma

Y_1i =X_i +√ X_iε_i1 Y2i =Xi +√

Xiεi2

µ₁ µ₂ σ₁² σ₂² σ₁₂ ρ₁₂ 2.10 2.12 11.21 11.52 9.32 0.82

(53)

X ∼Gamma

Y_1i =X_i +√ X_iε_i1 Y2i =Xi +√

Xiεi2

µ₁ µ₂ σ₁² σ₂² σ₁₂ ρ₁₂ 2.10 2.12 11.21 11.52 9.32 0.82

(54)

Dans cette population, nous avons effectué un recensement (poids de sondagewi = 1) et simulé 1000 fois la non-réponse avec, pour chaque unité i :

la probabilitéπ₁ de répondre àY₁ dépend de la valeur deX π1i = 1/(1 +exp(−0.4055X_i/X)

la probabilitéπ₂ de répondre àY₂ dépend de la valeur deX π2i = 1/(1 +exp(−0.4055X_i/X)

Ceci conduit en moyenne à une probabilité de réponse de π₁=π₂ = 0.6.

(55)

(56)

(57)

Biais relatif de Efficacité Relative Monte Carlo en % de Monte Carlo : BR(ˆθ_I) = Ê^MC^{( ˆ}^θ_θÎ^)−θÎ

I ×100 ER(ˆθ_I) = ^EQM^MC^{( ˆ}^θ^I⁾

EQM_MC( ˆθ_I^Shao−Wang)

Imputation

Shao et Wang Imputation

Non Shao et Wang

Paramètres Calibrée Calibrée Calibrée

µ1 0.04% -0.09% 0.51

µ2 0.23% -0.03% 0.53

σ₁² 0.13% 0.34% 0.59

σ₂² 0.03% 0.32% 0.61

σ₁₂ 0.18% 0.34% 0.54

ρ₁₂ 0.11% 0.02% 0.72

(58)

En présence de non-réponse, la méthode de Shao et Wang ca- librée sur le MIVQUE permet de fournir un fichier de données complet

- en pr´eservant les relations entre variables et - en limitant la variance d’imputation.

La méthode de Shao et Wang ainsi que le MIVQUE peuvent s’étendre au cas multivarié.

(59)

En présence de non-réponse, la méthode de Shao et Wang ca- librée sur le MIVQUE permet de fournir un fichier de données complet

- en pr´eservant les relations entre variables et - en limitant la variance d’imputation.

La méthode de Shao et Wang ainsi que le MIVQUE peuvent s’étendre au cas multivarié.

(60)

Causeur D. (2006), MIVQUE and Maximum Likelihood Estima- tion for Multivariate Linear Models with Incomplete Observations Sankhya : The Indian Journal of Statistics, 68, Part 3, 409-435.

Kim J.K. et Fuller W.A. (2004), Fractional hot-deck imputation.

Biometrika, 91, pp. 559- 578.

Shao J. et Wang H. (2002), Sample correlation coefficients based on survey data under regression imputation.Journal of the American Statistical Association, 97, 544-552.

Skinner C.J. et Rao J.N.K. (2002), Jackknife variance for multivariate statistics under hot deck imputation from common donors.

Journal of Statistical Planning and Inference, 102, 149-167.