• Aucun résultat trouvé

Imputation, MIVQUE et pr´eservation des relations entre variables

N/A
N/A
Protected

Academic year: 2022

Partager "Imputation, MIVQUE et pr´eservation des relations entre variables"

Copied!
60
0
0

Texte intégral

(1)

Brigitte Gelein(1) David Causeur (2) David Haziza (3)

(1)Ensai,(2)Agrocampus Ouest,(3)Universit´e de Montr´eal

7e COLLOQUE FRANCOPHONE SUR LES SONDAGES Novembre 2012

(2)

La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :

les caract´eristiques des non-r´epondants sont g´en´eralement diff´erentes de celles des r´epondants⇒ biais de non-r´eponse,

la non-r´eponse diminue la taille de l’´echantillon effectivement observ´ee⇒variance de non-r´eponse.

On distingue deux types de non-r´eponse :

la non-r´eponse totale(”unit non-response”) : pour une unit´e, aucune information n’est relev´ee⇒ repond´eration,

la non-r´eponse partielle (”item non-response”) : pour une unit´e, une partie seulement de l’information est relev´ee

⇒ imputation.

(3)

La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :

les caract´eristiques des non-r´epondants sont g´en´eralement diff´erentes de celles des r´epondants⇒ biais de non-r´eponse,

la non-r´eponse diminue la taille de l’´echantillon effectivement observ´ee⇒variance de non-r´eponse.

On distingue deux types de non-r´eponse :

la non-r´eponse totale(”unit non-response”) : pour une unit´e, aucune information n’est relev´ee⇒ repond´eration,

la non-r´eponse partielle (”item non-response”) : pour une unit´e, une partie seulement de l’information est relev´ee

⇒ imputation.

(4)

La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :

les caract´eristiques des non-r´epondants sont g´en´eralement diff´erentes de celles des r´epondants⇒ biais de non-r´eponse,

la non-r´eponse diminue la taille de l’´echantillon effectivement observ´ee⇒variance de non-r´eponse.

On distingue deux types de non-r´eponse :

la non-r´eponse totale(”unit non-response”) : pour une unit´e, aucune information n’est relev´ee⇒ repond´eration,

la non-r´eponse partielle (”item non-response”) : pour une unit´e, une partie seulement de l’information est relev´ee

⇒ imputation.

(5)

La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :

les caract´eristiques des non-r´epondants sont g´en´eralement diff´erentes de celles des r´epondants⇒ biais de non-r´eponse,

la non-r´eponse diminue la taille de l’´echantillon effectivement observ´ee⇒variance de non-r´eponse.

On distingue deux types de non-r´eponse :

la non-r´eponse totale(”unit non-response”) : pour une unit´e, aucune information n’est relev´ee⇒ repond´eration,

la non-r´eponse partielle (”item non-response”) : pour une unit´e, une partie seulement de l’information est relev´ee

⇒ imputation.

(6)

La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :

les caract´eristiques des non-r´epondants sont g´en´eralement diff´erentes de celles des r´epondants⇒ biais de non-r´eponse,

la non-r´eponse diminue la taille de l’´echantillon effectivement observ´ee⇒variance de non-r´eponse.

On distingue deux types de non-r´eponse :

la non-r´eponse totale(”unit non-response”) : pour une unit´e, aucune information n’est relev´ee⇒ repond´eration,

la non-r´eponse partielle (”item non-response”) : pour une unit´e, une partie seulement de l’information est relev´ee

⇒ imputation.

(7)

La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :

les caract´eristiques des non-r´epondants sont g´en´eralement diff´erentes de celles des r´epondants⇒ biais de non-r´eponse,

la non-r´eponse diminue la taille de l’´echantillon effectivement observ´ee⇒variance de non-r´eponse.

On distingue deux types de non-r´eponse :

la non-r´eponse totale(”unit non-response”) : pour une unit´e, aucune information n’est relev´ee⇒ repond´eration,

la non-r´eponse partielle (”item non-response”) : pour une unit´e, une partie seulement de l’information est relev´ee

⇒ imputation.

(8)

La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :

les caract´eristiques des non-r´epondants sont g´en´eralement diff´erentes de celles des r´epondants⇒ biais de non-r´eponse,

la non-r´eponse diminue la taille de l’´echantillon effectivement observ´ee⇒variance de non-r´eponse.

On distingue deux types de non-r´eponse :

la non-r´eponse totale(”unit non-response”) : pour une unit´e, aucune information n’est relev´ee⇒ repond´eration,

la non-r´eponse partielle (”item non-response”) : pour une unit´e, une partie seulement de l’information est relev´ee

⇒ imputation.

(9)

Observations Y1 Y2 X

1 ? ?

2 ? ?

3 ?

4 ?

5 ?

6 ?

7

8

9

10

L’imputation simple consiste `a remplacer une valeur manquante par une valeur artificielle (*), dans le but de r´eduire le biais de non-r´eponse :

Y1i si r1i = 0 Y2i si r2i = 0 avec

r1i l’indicatrice de r´eponse `a Y1, r2i l’indicatrice de r´eponse `a Y2

pour l’unit´e i

Valeurs manquantes symbolis´ees par ’ ?’, Valeurs observ´ees symbolis´ees par ’’.

(10)

Observations Y1 Y2 X

1 ? ?

2 ? ?

3 ?

4 ?

5 ?

6 ?

7

8

9

10

L’imputation simple consiste `a remplacer une valeur manquante par une valeur artificielle (*), dans le but de r´eduire le biais de non-r´eponse :

Y1i si r1i = 0 Y2i si r2i = 0 avec

r1i l’indicatrice de r´eponse `a Y1, r2i l’indicatrice de r´eponse `a Y2

pour l’unit´e i

Valeurs manquantes symbolis´ees par ’ ?’, Valeurs observ´ees symbolis´ees par ’’.

(11)

L’imputation marginale : traiter les variables d’int´erˆet s´epar´ement

Des estimateurs asymptotiquement non biais´es pour les pa- ram`etres univari´es (ex. un total, une moyenne) si le mod`ele d’imputation et/ou de non-r´eponse est correctement sp´ecifi´e.

Des estimateurs biais´es pour les param`etres mesurant les liens entre variables d’int´erˆet.

Solutions :

Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).

une m´ethode d’imputation pr´eservant les relations entre variables d’int´erˆet : Shao et Wang (2002).

(12)

L’imputation marginale : traiter les variables d’int´erˆet s´epar´ement Des estimateurs asymptotiquement non biais´es pour les pa- ram`etres univari´es (ex. un total, une moyenne) si le mod`ele d’imputation et/ou de non-r´eponse est correctement sp´ecifi´e.

Des estimateurs biais´es pour les param`etres mesurant les liens entre variables d’int´erˆet.

Solutions :

Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).

une m´ethode d’imputation pr´eservant les relations entre variables d’int´erˆet : Shao et Wang (2002).

(13)

L’imputation marginale : traiter les variables d’int´erˆet s´epar´ement Des estimateurs asymptotiquement non biais´es pour les pa- ram`etres univari´es (ex. un total, une moyenne) si le mod`ele d’imputation et/ou de non-r´eponse est correctement sp´ecifi´e.

Des estimateurs biais´es pour les param`etres mesurant les liens entre variables d’int´erˆet.

Solutions :

Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).

une m´ethode d’imputation pr´eservant les relations entre variables d’int´erˆet : Shao et Wang (2002).

(14)

L’imputation marginale : traiter les variables d’int´erˆet s´epar´ement Des estimateurs asymptotiquement non biais´es pour les pa- ram`etres univari´es (ex. un total, une moyenne) si le mod`ele d’imputation et/ou de non-r´eponse est correctement sp´ecifi´e.

Des estimateurs biais´es pour les param`etres mesurant les liens entre variables d’int´erˆet.

Solutions :

Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).

une m´ethode d’imputation pr´eservant les relations entre variables d’int´erˆet : Shao et Wang (2002).

(15)

L’imputation marginale : traiter les variables d’int´erˆet s´epar´ement Des estimateurs asymptotiquement non biais´es pour les pa- ram`etres univari´es (ex. un total, une moyenne) si le mod`ele d’imputation et/ou de non-r´eponse est correctement sp´ecifi´e.

Des estimateurs biais´es pour les param`etres mesurant les liens entre variables d’int´erˆet.

Solutions :

Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).

une m´ethode d’imputation pr´eservant les relations entre variables d’int´erˆet : Shao et Wang (2002).

(16)

L’imputation marginale : traiter les variables d’int´erˆet s´epar´ement Des estimateurs asymptotiquement non biais´es pour les pa- ram`etres univari´es (ex. un total, une moyenne) si le mod`ele d’imputation et/ou de non-r´eponse est correctement sp´ecifi´e.

Des estimateurs biais´es pour les param`etres mesurant les liens entre variables d’int´erˆet.

Solutions :

Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).

une m´ethode d’imputation pr´eservant les relations entre variables d’int´erˆet : Shao et Wang (2002).

(17)

L’imputation marginale : traiter les variables d’int´erˆet s´epar´ement Des estimateurs asymptotiquement non biais´es pour les pa- ram`etres univari´es (ex. un total, une moyenne) si le mod`ele d’imputation et/ou de non-r´eponse est correctement sp´ecifi´e.

Des estimateurs biais´es pour les param`etres mesurant les liens entre variables d’int´erˆet.

Solutions :

Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).

Une m´ethode d’imputation pr´eservant les relations entre variables d’int´erˆet : Shao et Wang (2002).

(18)

U : population finie de tailleN Y1 etY2 : variables d’int´erˆet Coefficient de corr´elation :

ρ12= t11−t10t01/N

(t20−(t10)2/N)1/2(t02−(t01)2/N)1/2, o`u

tkl =X

i∈U

Y1ikY2il,

(k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.

Exemples : t10=P

i∈UY1i,t20=P

i∈UY1i2 et t11=P

i∈UY1iY2i

(19)

U : population finie de tailleN Y1 etY2 : variables d’int´erˆet Coefficient de corr´elation :

ρ12= t11−t10t01/N

(t20−(t10)2/N)1/2(t02−(t01)2/N)1/2, o`u

tkl =X

i∈U

Y1ikY2il,

(k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.

Exemples : t10=P

i∈UY1i,t20=P

i∈UY1i2 et t11=P

i∈UY1iY2i

(20)

U : population finie de tailleN Y1 etY2 : variables d’int´erˆet Coefficient de corr´elation :

ρ12= t11−t10t01/N

(t20−(t10)2/N)1/2(t02−(t01)2/N)1/2, o`u

tkl =X

i∈U

Y1ikY2il,

(k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.

Exemples : t10=P

i∈UY1i,t20=P

i∈UY1i2 et t11=P

i∈UY1iY2i

(21)

U : population finie de tailleN Y1 etY2 : variables d’int´erˆet Coefficient de corr´elation :

ρ12= t11−t10t01/N

(t20−(t10)2/N)1/2(t02−(t01)2/N)1/2, o`u

tkl =X

i∈U

Y1ikY2il,

(k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.

Exemples : t10=P

i∈UY1i,t20=P

i∈UY1i2 et t11=P

i∈UY1iY2i

(22)

S : ´echantillon s´electionn´e selon un plan de sondagep(.) Estimateur de ρ12 en l’absence de non-r´eponse : plug-in

ˆ

ρ12π = ˆt11,π−ˆt10,πˆt01,π/N

ˆt20,π−(ˆt10,π)2/N1/2 ˆt02,π−(ˆt01,π)2/N1/2, o`u

ˆtkl,π =X

i∈S

wiY1ikY2il et wi = 1/πi le poids de sondage de l’unit´e i

ˆ

ρ12π est asymptotiquement sans biais sous le plan p(.)

(23)

S : ´echantillon s´electionn´e selon un plan de sondagep(.) Estimateur de ρ12 en l’absence de non-r´eponse : plug-in

ˆ

ρ12π = ˆt11,π−ˆt10,πˆt01,π/N

ˆt20,π−(ˆt10,π)2/N1/2 ˆt02,π−(ˆt01,π)2/N1/2, o`u

ˆtkl,π =X

i∈S

wiY1ikY2il

et wi = 1/πi le poids de sondage de l’unit´e i ˆ

ρ12π est asymptotiquement sans biais sous le plan p(.)

(24)

S : ´echantillon s´electionn´e selon un plan de sondagep(.) Estimateur de ρ12 en l’absence de non-r´eponse : plug-in

ˆ

ρ12π = ˆt11,π−ˆt10,πˆt01,π/N

ˆt20,π−(ˆt10,π)2/N1/2 ˆt02,π−(ˆt01,π)2/N1/2, o`u

ˆtkl,π =X

i∈S

wiY1ikY2il

et wi = 1/πi le poids de sondage de l’unit´e i ˆ

ρ12π est asymptotiquement sans biais sous le plan p(.)

(25)

Non r´eponse : Estimateur imput´e deρ12

ˆ

ρ12I = ˆt11,I−ˆt10,Iˆt01,I/N

ˆt20,I−(ˆt10,I)2/N1/2 ˆt02,I−(ˆt01,I)2/N1/2, avec

ˆtkl,I =X

i∈s

wi1ki2li1i =Y1i sir1i = 1 et ˜Y1i =Y1i sir1i = 0.

2i =Y2i sir2i = 1 et ˜Y2i =Y2i sir2i = 0.

Principale difficult´e : estimer sans biais le produit crois´e,t11.

(26)

Non r´eponse : Estimateur imput´e deρ12

ˆ

ρ12I = ˆt11,I−ˆt10,Iˆt01,I/N

ˆt20,I−(ˆt10,I)2/N1/2 ˆt02,I−(ˆt01,I)2/N1/2, avec

ˆtkl,I =X

i∈s

wi1ki2li1i =Y1i sir1i = 1 et ˜Y1i =Y1i sir1i = 0.

2i =Y2i sir2i = 1 et ˜Y2i =Y2i sir2i = 0.

Principale difficult´e : estimer sans biais le produit crois´e,t11.

(27)

Non r´eponse : Estimateur imput´e deρ12

ˆ

ρ12I = ˆt11,I−ˆt10,Iˆt01,I/N

ˆt20,I−(ˆt10,I)2/N1/2 ˆt02,I−(ˆt01,I)2/N1/2, avec

ˆtkl,I =X

i∈s

wi1ki2li1i =Y1i sir1i = 1 et ˜Y1i =Y1i sir1i = 0.

2i =Y2i sir2i = 1 et ˜Y2i =Y2i sir2i = 0.

Principale difficult´e : estimer sans biais le produit crois´e,t11.

(28)

Non r´eponse : Estimateur imput´e deρ12

ˆ

ρ12I = ˆt11,I−ˆt10,Iˆt01,I/N

ˆt20,I−(ˆt10,I)2/N1/2 ˆt02,I−(ˆt01,I)2/N1/2, avec

ˆtkl,I =X

i∈s

wi1ki2li1i =Y1i sir1i = 1 et ˜Y1i =Y1i sir1i = 0.

2i =Y2i sir2i = 1 et ˜Y2i =Y2i sir2i = 0.

Principale difficult´e : estimer sans biais le produit crois´e,t11.

(29)

Mod`ele d’imputation : mod`ele de r´egression bivari´e m: Y1i = x0iβ1+√

v1i1i Y2i = x0iβ2+√

v2i2i

o`u v1i =v1(xi) etv2i =v2(xi) pour deux fonctions connues v1(.)>0 etv2(.)>0,

Covm(1i, 2i)≡σ12,Varm(1i)≡σ21 et Varm(2i)≡σ22 Utilisation des estimateurs sur cas complets: βˆ1r, ˆβ2r et ˆΣr =

σˆ21r,σˆ12r

ˆ σ12r,σˆ2r2

(30)

Mod`ele d’imputation : mod`ele de r´egression bivari´e m: Y1i = x0iβ1+√

v1i1i Y2i = x0iβ2+√

v2i2i

o`u v1i =v1(xi) etv2i =v2(xi) pour deux fonctions connues v1(.)>0 etv2(.)>0,

Covm(1i, 2i)≡σ12,Varm(1i)≡σ21 et Varm(2i)≡σ22 Utilisation des estimateurs sur cas complets: βˆ1r, ˆβ2r et ˆΣr =

σˆ21r,σˆ12r

ˆ σ12r,σˆ2r2

(31)

Pour ry1i = 0 et ry2i = 1, on utilise les valeurs imput´ees y1i =x0i βˆ1r+√

v1i

σˆ12r

√v2iσˆ22r

y2i −x0iβˆ2r + ˜1i

avec ˜1i ind´ependants, EI1i) = 0 et VarI1i) = ˆσ21r −σˆ212r/ˆσ2r2

Pour ry1i = 1 et ry2i = 0, solution analogue

Pour ry1i = 0 et ry2i = 0, les (1i, 2i) ind´ependants, EI(1i, 2i) = 0 et de variance-covariance ˆΣr =

σˆ21r,σˆ12r

ˆ σ12r,σˆ2r2

y1i = x0iβˆ1r +√ v1i1i y2i = x0iβˆ2r +√

v2i2i

(32)

Pour ry1i = 0 et ry2i = 1, on utilise les valeurs imput´ees y1i =x0i βˆ1r+√

v1i

σˆ12r

√v2iσˆ22r

y2i −x0iβˆ2r + ˜1i

avec ˜1i ind´ependants, EI1i) = 0 et VarI1i) = ˆσ21r −σˆ212r/ˆσ2r2

Pour ry1i = 1 et ry2i = 0, solution analogue

Pour ry1i = 0 et ry2i = 0, les (1i, 2i) ind´ependants, EI(1i, 2i) = 0 et de variance-covariance ˆΣr =

σˆ21r,σˆ12r

ˆ σ12r,σˆ2r2

y1i = x0iβˆ1r +√ v1i1i y2i = x0iβˆ2r +√

v2i2i

(33)

Pour ry1i = 0 et ry2i = 1, on utilise les valeurs imput´ees y1i =x0i βˆ1r+√

v1i

σˆ12r

√v2iσˆ22r

y2i −x0iβˆ2r + ˜1i

avec ˜1i ind´ependants, EI1i) = 0 et VarI1i) = ˆσ21r −σˆ212r/ˆσ2r2

Pour ry1i = 1 et ry2i = 0, solution analogue

Pour ry1i = 0 et ry2i = 0, les (1i, 2i) ind´ependants, EI(1i, 2i) = 0 et de variance-covariance ˆΣr =

σˆ21r,σˆ12r

ˆ σ12r,σˆ2r2

y1i = x0iβˆ1r +√ v1i1i y2i = x0iβˆ2r +√

v2i2i

(34)

Biais conditionnel de non-r´eponse : BmI( ˆρ12I) =EmEI( ˆρ12I−ρˆ12π)

Asymptotiquement sans biais sous le mod`ele d’imputation :BmI( ˆρ12I)≈0

Souffre d’une source suppl´ementaire de variance : la va- riance d’imputation⇒Not fully efficient (Kim and Fuller, 2004) La proc´edure de Shao et Wang repose sur l’estimation de co- efficients qui peuvent aussi ˆetre estim´es grˆace `a l’approche MIVQUE : Minimum In Variance Quadratic Unbiased Es- timators (MIVQUE).

(35)

Biais conditionnel de non-r´eponse : BmI( ˆρ12I) =EmEI( ˆρ12I−ρˆ12π)

Asymptotiquement sans biais sous le mod`ele d’imputation :BmI( ˆρ12I)≈0

Souffre d’une source suppl´ementaire de variance : la va- riance d’imputation⇒Not fully efficient (Kim and Fuller, 2004) La proc´edure de Shao et Wang repose sur l’estimation de co- efficients qui peuvent aussi ˆetre estim´es grˆace `a l’approche MIVQUE : Minimum In Variance Quadratic Unbiased Es- timators (MIVQUE).

(36)

Biais conditionnel de non-r´eponse : BmI( ˆρ12I) =EmEI( ˆρ12I−ρˆ12π)

Asymptotiquement sans biais sous le mod`ele d’imputation :BmI( ˆρ12I)≈0

Souffre d’une source suppl´ementaire de variance : la va- riance d’imputation⇒Not fully efficient (Kim and Fuller, 2004) La proc´edure de Shao et Wang repose sur l’estimation de co- efficients qui peuvent aussi ˆetre estim´es grˆace `a l’approche MIVQUE : Minimum In Variance Quadratic Unbiased Es- timators (MIVQUE).

(37)

Biais conditionnel de non-r´eponse : BmI( ˆρ12I) =EmEI( ˆρ12I−ρˆ12π)

Asymptotiquement sans biais sous le mod`ele d’imputation :BmI( ˆρ12I)≈0

Souffre d’une source suppl´ementaire de variance : la va- riance d’imputation⇒Not fully efficient (Kim and Fuller, 2004) La proc´edure de Shao et Wang repose sur l’estimation de co- efficients qui peuvent aussi ˆetre estim´es grˆace `a l’approche MIVQUE : Minimum In Variance Quadratic Unbiased Es- timators (MIVQUE).

(38)

Biais conditionnel de non-r´eponse : BmI( ˆρ12I) =EmEI( ˆρ12I−ρˆ12π)

Asymptotiquement sans biais sous le mod`ele d’imputation :BmI( ˆρ12I)≈0

Souffre d’une source suppl´ementaire de variance : la va- riance d’imputation⇒Not fully efficient (Kim and Fuller, 2004) La proc´edure de Shao et Wang repose sur l’estimation de co- efficients qui peuvent aussi ˆetre estim´es grˆace `a l’approche MIVQUE : Minimum In Variance Quadratic Unbiased Es- timators (MIVQUE).

(39)

L’approche MIVQUE :

utilis´ee pour estimer les composantes de la variance d’un mod`ele mixte,

bas´ee sur une caract´erisation alg´ebrique de la structure de co- variance des variables,

adapt´ee par Causeur (2006) pour l’estimation de param`etres d’un mod`ele lin´eaire multivari´e dans un contexte Missing At Random,

pour am´eliorer la proc´edure d’imputation de Shao et Wang : diminution de la variance.

(40)

L’approche MIVQUE :

utilis´ee pour estimer les composantes de la variance d’un mod`ele mixte,

bas´ee sur une caract´erisation alg´ebrique de la structure de co- variance des variables,

adapt´ee par Causeur (2006) pour l’estimation de param`etres d’un mod`ele lin´eaire multivari´e dans un contexte Missing At Random,

pour am´eliorer la proc´edure d’imputation de Shao et Wang : diminution de la variance.

(41)

L’approche MIVQUE :

utilis´ee pour estimer les composantes de la variance d’un mod`ele mixte,

bas´ee sur une caract´erisation alg´ebrique de la structure de co- variance des variables,

adapt´ee par Causeur (2006) pour l’estimation de param`etres d’un mod`ele lin´eaire multivari´e dans un contexte Missing At Random,

pour am´eliorer la proc´edure d’imputation de Shao et Wang : diminution de la variance.

(42)

L’approche MIVQUE :

utilis´ee pour estimer les composantes de la variance d’un mod`ele mixte,

bas´ee sur une caract´erisation alg´ebrique de la structure de co- variance des variables,

adapt´ee par Causeur (2006) pour l’estimation de param`etres d’un mod`ele lin´eaire multivari´e dans un contexte Missing At Random,

pour am´eliorer la proc´edure d’imputation de Shao et Wang : diminution de la variance.

(43)

L’approche MIVQUE :

utilis´ee pour estimer les composantes de la variance d’un mod`ele mixte,

bas´ee sur une caract´erisation alg´ebrique de la structure de co- variance des variables,

adapt´ee par Causeur (2006) pour l’estimation de param`etres d’un mod`ele lin´eaire multivari´e dans un contexte Missing At Random,

pour am´eliorer la proc´edure d’imputation de Shao et Wang : diminution de la variance.

(44)

L’approche MIVQUE :

utilis´ee pour estimer les composantes de la variance d’un mod`ele mixte,

bas´ee sur une caract´erisation alg´ebrique de la structure de co- variance des variables,

adapt´ee par Causeur (2006) pour l’estimation de param`etres d’un mod`ele lin´eaire multivari´e dans un contexte Missing At Random,

pour am´eliorer la proc´edure d’imputation de Shao et Wang : diminution de la variance.

(45)

1 utiliser la m´ethode de Shao et Wang pour donner une premi`ere valeur aux donn´ees `a imputer

2 modifier it´erativement ces premi`eres valeurs de fa¸con `a obte- nir des valeurs estim´ees de param`etres proches de celles du MIVQUE.

Y1 Y2 X

? ? X1

? ? X2

Y1,3 ? X3

Y1,4 ? X4

? Y2,5 X5

? Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

a - Non r´eponse symbole ’ ?’

1

Y1 Y2 X

Yˆ1,1 Yˆ2,1 X1

Yˆ1,2 Yˆ2,2 X2

Y1,3 Yˆ2,3 X3

Y1,4 Yˆ2,4 X4

Yˆ1,5 Y2,5 X5

Yˆ1,6 Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

b - 1ieresvaleurs imput´eesYˆ

2

Y1 Y2 X

Y1,1 Y2,1 X1

Y1,2 Y2,2 X2

Y1,3 Y2,3 X3

Y1,4 Y2,4 X4

Y1,5 Y2,5 X5

Y1,6 Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

c - Valeurs finalesY

(46)

1 utiliser la m´ethode de Shao et Wang pour donner une premi`ere valeur aux donn´ees `a imputer

2 modifier it´erativement ces premi`eres valeurs de fa¸con `a obte- nir des valeurs estim´ees de param`etres proches de celles du MIVQUE.

Y1 Y2 X

? ? X1

? ? X2

Y1,3 ? X3

Y1,4 ? X4

? Y2,5 X5

? Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

a - Non r´eponse symbole ’ ?’

1

Y1 Y2 X

Yˆ1,1 Yˆ2,1 X1

Yˆ1,2 Yˆ2,2 X2

Y1,3 Yˆ2,3 X3

Y1,4 Yˆ2,4 X4

Yˆ1,5 Y2,5 X5

Yˆ1,6 Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

b - 1ieresvaleurs imput´eesYˆ

2

Y1 Y2 X

Y1,1 Y2,1 X1

Y1,2 Y2,2 X2

Y1,3 Y2,3 X3

Y1,4 Y2,4 X4

Y1,5 Y2,5 X5

Y1,6 Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

c - Valeurs finalesY

(47)

1 utiliser la m´ethode de Shao et Wang pour donner une premi`ere valeur aux donn´ees `a imputer

2 modifier it´erativement ces premi`eres valeurs de fa¸con `a obte- nir des valeurs estim´ees de param`etres proches de celles du MIVQUE.

Y1 Y2 X

? ? X1

? ? X2

Y1,3 ? X3

Y1,4 ? X4

? Y2,5 X5

? Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

a - Non r´eponse symbole ’ ?’

1

Y1 Y2 X

Yˆ1,1 Yˆ2,1 X1

Yˆ1,2 Yˆ2,2 X2

Y1,3 Yˆ2,3 X3

Y1,4 Yˆ2,4 X4

Yˆ1,5 Y2,5 X5

Yˆ1,6 Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

b - 1ieresvaleurs imput´eesYˆ

2

Y1 Y2 X

Y1,1 Y2,1 X1

Y1,2 Y2,2 X2

Y1,3 Y2,3 X3

Y1,4 Y2,4 X4

Y1,5 Y2,5 X5

Y1,6 Y2,6 X6

Y1,7 Y2,7 X7

... ... ...

c - Valeurs finalesY

(48)

Etape 2 : calibrage sur le MIVQUE

D´efinition d’un syst`eme de cinq ´equations correspondant chacune `a un des totaux :tkl =P

i∈UY1ikY2il , o`u (k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.

ˆt10I=N µˆ1M

ˆt01I=N µˆ2M

ˆt20I=N µ1M)2+ (N1) ˆσ1M2 ˆt02I=N µ2M)2+ (N1) ˆσ2M2

ˆt11I=N µˆ1M µˆ2M+ (N1) ˆσ12M

avecN la taille de la population, µ1et µ2, les esp´erances deY1 etY2 et θˆM l’estimateur MIVQUE du param`etreθ.

(49)

Etape 2 : calibrage sur le MIVQUE

D´efinition d’un syst`eme de cinq ´equations correspondant chacune `a un des totaux :tkl =P

i∈UY1ikY2il , o`u (k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.

ˆt10I=N µˆ1M

ˆt01I=N µˆ2M

ˆt20I=N µ1M)2+ (N1) ˆσ1M2 ˆt02I=N µ2M)2+ (N1) ˆσ2M2

ˆt11I=N µˆ1M µˆ2M+ (N1) ˆσ12M

avecN la taille de la population, µ1et µ2, les esp´erances deY1 etY2 et θˆM l’estimateur MIVQUE du param`etreθ.

(50)

Nous avons g´en´er´e une population de tailleN = 1 000 avec Y1,Y2 etX

X ∼Gamma

Les donn´ees bivari´ees (Y1i,Y2i)’s ont ´et´e g´en´er´ees selon le mod`ele bivari´e avecxi =xi,v1i =v2i =xi et β12 = 1.

Y1i =Xi +√ Xiεi1 Y2i =Xi +√

Xiεi2

Param`etres de la population

µ1 µ2 σ12 σ22 σ12 ρ12 2.10 2.12 11.21 11.52 9.32 0.82

(51)

Nous avons g´en´er´e une population de tailleN = 1 000 avec Y1,Y2 etX

X ∼Gamma

Les donn´ees bivari´ees (Y1i,Y2i)’s ont ´et´e g´en´er´ees selon le mod`ele bivari´e avecxi =xi,v1i =v2i =xi et β12 = 1.

Y1i =Xi +√ Xiεi1 Y2i =Xi +√

Xiεi2

Param`etres de la population

µ1 µ2 σ12 σ22 σ12 ρ12 2.10 2.12 11.21 11.52 9.32 0.82

(52)

Nous avons g´en´er´e une population de tailleN = 1 000 avec Y1,Y2 etX

X ∼Gamma

Les donn´ees bivari´ees (Y1i,Y2i)’s ont ´et´e g´en´er´ees selon le mod`ele bivari´e avecxi =xi,v1i =v2i =xi et β12 = 1.

Y1i =Xi +√ Xiεi1 Y2i =Xi +√

Xiεi2

Param`etres de la population

µ1 µ2 σ12 σ22 σ12 ρ12 2.10 2.12 11.21 11.52 9.32 0.82

(53)

Nous avons g´en´er´e une population de tailleN = 1 000 avec Y1,Y2 etX

X ∼Gamma

Les donn´ees bivari´ees (Y1i,Y2i)’s ont ´et´e g´en´er´ees selon le mod`ele bivari´e avecxi =xi,v1i =v2i =xi et β12 = 1.

Y1i =Xi +√ Xiεi1 Y2i =Xi +√

Xiεi2

Param`etres de la population

µ1 µ2 σ12 σ22 σ12 ρ12 2.10 2.12 11.21 11.52 9.32 0.82

(54)

Dans cette population, nous avons effectu´e un recensement (poids de sondagewi = 1) et simul´e 1000 fois la non-r´eponse avec, pour chaque unit´e i :

la probabilit´eπ1 de r´epondre `aY1 d´epend de la valeur deX π1i = 1/(1 +exp(−0.4055Xi/X)

la probabilit´eπ2 de r´epondre `aY2 d´epend de la valeur deX π2i = 1/(1 +exp(−0.4055Xi/X)

Ceci conduit en moyenne `a une probabilit´e de r´eponse de π12 = 0.6.

(55)

Dans cette population, nous avons effectu´e un recensement (poids de sondagewi = 1) et simul´e 1000 fois la non-r´eponse avec, pour chaque unit´e i :

la probabilit´eπ1 de r´epondre `aY1 d´epend de la valeur deX π1i = 1/(1 +exp(−0.4055Xi/X)

la probabilit´eπ2 de r´epondre `aY2 d´epend de la valeur deX π2i = 1/(1 +exp(−0.4055Xi/X)

Ceci conduit en moyenne `a une probabilit´e de r´eponse de π12 = 0.6.

(56)

Dans cette population, nous avons effectu´e un recensement (poids de sondagewi = 1) et simul´e 1000 fois la non-r´eponse avec, pour chaque unit´e i :

la probabilit´eπ1 de r´epondre `aY1 d´epend de la valeur deX π1i = 1/(1 +exp(−0.4055Xi/X)

la probabilit´eπ2 de r´epondre `aY2 d´epend de la valeur deX π2i = 1/(1 +exp(−0.4055Xi/X)

Ceci conduit en moyenne `a une probabilit´e de r´eponse de π12 = 0.6.

(57)

Biais relatif de Efficacit´e Relative Monte Carlo en % de Monte Carlo : BR(ˆθI) = EMC( ˆθθI)−θI

I ×100 ER(ˆθI) = EQMMC( ˆθI)

EQMMC( ˆθIShao−Wang)

Imputation

Shao et Wang Imputation

Non Shao et Wang

Param`etres Calibr´ee Calibr´ee Calibr´ee

µ1 0.04% -0.09% 0.51

µ2 0.23% -0.03% 0.53

σ12 0.13% 0.34% 0.59

σ22 0.03% 0.32% 0.61

σ12 0.18% 0.34% 0.54

ρ12 0.11% 0.02% 0.72

(58)

En pr´esence de non-r´eponse, la m´ethode de Shao et Wang ca- libr´ee sur le MIVQUE permet de fournir un fichier de donn´ees complet

- en pr´eservant les relations entre variables et - en limitant la variance d’imputation.

La m´ethode de Shao et Wang ainsi que le MIVQUE peuvent s’´etendre au cas multivari´e.

(59)

En pr´esence de non-r´eponse, la m´ethode de Shao et Wang ca- libr´ee sur le MIVQUE permet de fournir un fichier de donn´ees complet

- en pr´eservant les relations entre variables et - en limitant la variance d’imputation.

La m´ethode de Shao et Wang ainsi que le MIVQUE peuvent s’´etendre au cas multivari´e.

(60)

Causeur D. (2006), MIVQUE and Maximum Likelihood Estima- tion for Multivariate Linear Models with Incomplete Observations Sankhya : The Indian Journal of Statistics, 68, Part 3, 409-435.

Kim J.K. et Fuller W.A. (2004), Fractional hot-deck imputation.

Biometrika, 91, pp. 559- 578.

Shao J. et Wang H. (2002), Sample correlation coefficients based on survey data under regression imputation.Journal of the American Statistical Association, 97, 544-552.

Skinner C.J. et Rao J.N.K. (2002), Jackknife variance for multi- variate statistics under hot deck imputation from common donors.

Journal of Statistical Planning and Inference, 102, 149-167.

Références

Documents relatifs

La droite (AO) est l’axe des abscisses, et (OH) est l’axe des ordonnées. b) Pour chacune de ces fonctions affines, associer son nom à une formule.. b) Ecrire la solution de

Le transfert d’énergie a donc lieu de A vers B, c’est à dire du corps de température thermodynamique la plus élevée vers le corps de température thermodynamique la plus

29 April - 1 May: Facts and Events (with Terence Parsons and Stephen Neale) 6-8 May: Humean supervenience (with Frank Jackson and John Hawthorne). 1-3 July: Time and tense (with

On lance trois fois de suite une pièce de monnaie. X est la variable aléatoire qui compte le nombre de fois où Face est sorti sur les trois lancers. Un consommateur choisit au

Chauvet et Haziza (2011) ont élaboré une version équilibrée de la méthode de Shao et Wang permettant de préserver les relations entre deux variables tout en réduisant la

• Test error when varying the proportion of missing val- ues: the mixture directly used as a regressor does not work as well as a neural net- work or kernel ridge regres- sor

2° Le coefficient de corrélation ne traduit la plus ou moins grande dépen- dance entre les variables que lorsque la densité de répartition des couples répond à certaines

Dans les conditions indiquées au n° 3, cette courbe se décompose en deux sextiques gauches, dont l'une est représentée par les trois équations (1) : cette sextique gauche a pour