Brigitte Gelein(1) David Causeur (2) David Haziza (3)
(1)Ensai,(2)Agrocampus Ouest,(3)Universit´e de Montr´eal
7e COLLOQUE FRANCOPHONE SUR LES SONDAGES Novembre 2012
La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :
les caract´eristiques des non-r´epondants sont g´en´eralement diff´erentes de celles des r´epondants⇒ biais de non-r´eponse,
la non-r´eponse diminue la taille de l’´echantillon effectivement observ´ee⇒variance de non-r´eponse.
On distingue deux types de non-r´eponse :
la non-r´eponse totale(”unit non-response”) : pour une unit´e, aucune information n’est relev´ee⇒ repond´eration,
la non-r´eponse partielle (”item non-response”) : pour une unit´e, une partie seulement de l’information est relev´ee
⇒ imputation.
La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :
les caract´eristiques des non-r´epondants sont g´en´eralement diff´erentes de celles des r´epondants⇒ biais de non-r´eponse,
la non-r´eponse diminue la taille de l’´echantillon effectivement observ´ee⇒variance de non-r´eponse.
On distingue deux types de non-r´eponse :
la non-r´eponse totale(”unit non-response”) : pour une unit´e, aucune information n’est relev´ee⇒ repond´eration,
la non-r´eponse partielle (”item non-response”) : pour une unit´e, une partie seulement de l’information est relev´ee
⇒ imputation.
La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :
les caract´eristiques des non-r´epondants sont g´en´eralement diff´erentes de celles des r´epondants⇒ biais de non-r´eponse,
la non-r´eponse diminue la taille de l’´echantillon effectivement observ´ee⇒variance de non-r´eponse.
On distingue deux types de non-r´eponse :
la non-r´eponse totale(”unit non-response”) : pour une unit´e, aucune information n’est relev´ee⇒ repond´eration,
la non-r´eponse partielle (”item non-response”) : pour une unit´e, une partie seulement de l’information est relev´ee
⇒ imputation.
La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :
les caract´eristiques des non-r´epondants sont g´en´eralement diff´erentes de celles des r´epondants⇒ biais de non-r´eponse,
la non-r´eponse diminue la taille de l’´echantillon effectivement observ´ee⇒variance de non-r´eponse.
On distingue deux types de non-r´eponse :
la non-r´eponse totale(”unit non-response”) : pour une unit´e, aucune information n’est relev´ee⇒ repond´eration,
la non-r´eponse partielle (”item non-response”) : pour une unit´e, une partie seulement de l’information est relev´ee
⇒ imputation.
La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :
les caract´eristiques des non-r´epondants sont g´en´eralement diff´erentes de celles des r´epondants⇒ biais de non-r´eponse,
la non-r´eponse diminue la taille de l’´echantillon effectivement observ´ee⇒variance de non-r´eponse.
On distingue deux types de non-r´eponse :
la non-r´eponse totale(”unit non-response”) : pour une unit´e, aucune information n’est relev´ee⇒ repond´eration,
la non-r´eponse partielle (”item non-response”) : pour une unit´e, une partie seulement de l’information est relev´ee
⇒ imputation.
La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :
les caract´eristiques des non-r´epondants sont g´en´eralement diff´erentes de celles des r´epondants⇒ biais de non-r´eponse,
la non-r´eponse diminue la taille de l’´echantillon effectivement observ´ee⇒variance de non-r´eponse.
On distingue deux types de non-r´eponse :
la non-r´eponse totale(”unit non-response”) : pour une unit´e, aucune information n’est relev´ee⇒ repond´eration,
la non-r´eponse partielle (”item non-response”) : pour une unit´e, une partie seulement de l’information est relev´ee
⇒ imputation.
La non-r´eponse a des cons´equences sur le biais et la variance des estimateurs :
les caract´eristiques des non-r´epondants sont g´en´eralement diff´erentes de celles des r´epondants⇒ biais de non-r´eponse,
la non-r´eponse diminue la taille de l’´echantillon effectivement observ´ee⇒variance de non-r´eponse.
On distingue deux types de non-r´eponse :
la non-r´eponse totale(”unit non-response”) : pour une unit´e, aucune information n’est relev´ee⇒ repond´eration,
la non-r´eponse partielle (”item non-response”) : pour une unit´e, une partie seulement de l’information est relev´ee
⇒ imputation.
Observations Y1 Y2 X
1 ? ?
2 ? ?
3 ?
4 ?
5 ?
6 ?
7
8
9
10
L’imputation simple consiste `a remplacer une valeur manquante par une valeur artificielle (*), dans le but de r´eduire le biais de non-r´eponse :
Y1i∗ si r1i = 0 Y2i∗ si r2i = 0 avec
r1i l’indicatrice de r´eponse `a Y1, r2i l’indicatrice de r´eponse `a Y2
pour l’unit´e i
Valeurs manquantes symbolis´ees par ’ ?’, Valeurs observ´ees symbolis´ees par ’’.
Observations Y1 Y2 X
1 ? ?
2 ? ?
3 ?
4 ?
5 ?
6 ?
7
8
9
10
L’imputation simple consiste `a remplacer une valeur manquante par une valeur artificielle (*), dans le but de r´eduire le biais de non-r´eponse :
Y1i∗ si r1i = 0 Y2i∗ si r2i = 0 avec
r1i l’indicatrice de r´eponse `a Y1, r2i l’indicatrice de r´eponse `a Y2
pour l’unit´e i
Valeurs manquantes symbolis´ees par ’ ?’, Valeurs observ´ees symbolis´ees par ’’.
L’imputation marginale : traiter les variables d’int´erˆet s´epar´ement
Des estimateurs asymptotiquement non biais´es pour les pa- ram`etres univari´es (ex. un total, une moyenne) si le mod`ele d’imputation et/ou de non-r´eponse est correctement sp´ecifi´e.
Des estimateurs biais´es pour les param`etres mesurant les liens entre variables d’int´erˆet.
Solutions :
Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).
une m´ethode d’imputation pr´eservant les relations entre variables d’int´erˆet : Shao et Wang (2002).
L’imputation marginale : traiter les variables d’int´erˆet s´epar´ement Des estimateurs asymptotiquement non biais´es pour les pa- ram`etres univari´es (ex. un total, une moyenne) si le mod`ele d’imputation et/ou de non-r´eponse est correctement sp´ecifi´e.
Des estimateurs biais´es pour les param`etres mesurant les liens entre variables d’int´erˆet.
Solutions :
Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).
une m´ethode d’imputation pr´eservant les relations entre variables d’int´erˆet : Shao et Wang (2002).
L’imputation marginale : traiter les variables d’int´erˆet s´epar´ement Des estimateurs asymptotiquement non biais´es pour les pa- ram`etres univari´es (ex. un total, une moyenne) si le mod`ele d’imputation et/ou de non-r´eponse est correctement sp´ecifi´e.
Des estimateurs biais´es pour les param`etres mesurant les liens entre variables d’int´erˆet.
Solutions :
Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).
une m´ethode d’imputation pr´eservant les relations entre variables d’int´erˆet : Shao et Wang (2002).
L’imputation marginale : traiter les variables d’int´erˆet s´epar´ement Des estimateurs asymptotiquement non biais´es pour les pa- ram`etres univari´es (ex. un total, une moyenne) si le mod`ele d’imputation et/ou de non-r´eponse est correctement sp´ecifi´e.
Des estimateurs biais´es pour les param`etres mesurant les liens entre variables d’int´erˆet.
Solutions :
Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).
une m´ethode d’imputation pr´eservant les relations entre variables d’int´erˆet : Shao et Wang (2002).
L’imputation marginale : traiter les variables d’int´erˆet s´epar´ement Des estimateurs asymptotiquement non biais´es pour les pa- ram`etres univari´es (ex. un total, une moyenne) si le mod`ele d’imputation et/ou de non-r´eponse est correctement sp´ecifi´e.
Des estimateurs biais´es pour les param`etres mesurant les liens entre variables d’int´erˆet.
Solutions :
Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).
une m´ethode d’imputation pr´eservant les relations entre variables d’int´erˆet : Shao et Wang (2002).
L’imputation marginale : traiter les variables d’int´erˆet s´epar´ement Des estimateurs asymptotiquement non biais´es pour les pa- ram`etres univari´es (ex. un total, une moyenne) si le mod`ele d’imputation et/ou de non-r´eponse est correctement sp´ecifi´e.
Des estimateurs biais´es pour les param`etres mesurant les liens entre variables d’int´erˆet.
Solutions :
Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).
une m´ethode d’imputation pr´eservant les relations entre variables d’int´erˆet : Shao et Wang (2002).
L’imputation marginale : traiter les variables d’int´erˆet s´epar´ement Des estimateurs asymptotiquement non biais´es pour les pa- ram`etres univari´es (ex. un total, une moyenne) si le mod`ele d’imputation et/ou de non-r´eponse est correctement sp´ecifi´e.
Des estimateurs biais´es pour les param`etres mesurant les liens entre variables d’int´erˆet.
Solutions :
Imputation marginale puis construction d’estimateurs corrig´es du biais (ex. Skinner et Rao, 2002).
Une m´ethode d’imputation pr´eservant les relations entre variables d’int´erˆet : Shao et Wang (2002).
U : population finie de tailleN Y1 etY2 : variables d’int´erˆet Coefficient de corr´elation :
ρ12= t11−t10t01/N
(t20−(t10)2/N)1/2(t02−(t01)2/N)1/2, o`u
tkl =X
i∈U
Y1ikY2il,
(k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.
Exemples : t10=P
i∈UY1i,t20=P
i∈UY1i2 et t11=P
i∈UY1iY2i
U : population finie de tailleN Y1 etY2 : variables d’int´erˆet Coefficient de corr´elation :
ρ12= t11−t10t01/N
(t20−(t10)2/N)1/2(t02−(t01)2/N)1/2, o`u
tkl =X
i∈U
Y1ikY2il,
(k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.
Exemples : t10=P
i∈UY1i,t20=P
i∈UY1i2 et t11=P
i∈UY1iY2i
U : population finie de tailleN Y1 etY2 : variables d’int´erˆet Coefficient de corr´elation :
ρ12= t11−t10t01/N
(t20−(t10)2/N)1/2(t02−(t01)2/N)1/2, o`u
tkl =X
i∈U
Y1ikY2il,
(k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.
Exemples : t10=P
i∈UY1i,t20=P
i∈UY1i2 et t11=P
i∈UY1iY2i
U : population finie de tailleN Y1 etY2 : variables d’int´erˆet Coefficient de corr´elation :
ρ12= t11−t10t01/N
(t20−(t10)2/N)1/2(t02−(t01)2/N)1/2, o`u
tkl =X
i∈U
Y1ikY2il,
(k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.
Exemples : t10=P
i∈UY1i,t20=P
i∈UY1i2 et t11=P
i∈UY1iY2i
S : ´echantillon s´electionn´e selon un plan de sondagep(.) Estimateur de ρ12 en l’absence de non-r´eponse : plug-in
ˆ
ρ12π = ˆt11,π−ˆt10,πˆt01,π/N
ˆt20,π−(ˆt10,π)2/N1/2 ˆt02,π−(ˆt01,π)2/N1/2, o`u
ˆtkl,π =X
i∈S
wiY1ikY2il et wi = 1/πi le poids de sondage de l’unit´e i
ˆ
ρ12π est asymptotiquement sans biais sous le plan p(.)
S : ´echantillon s´electionn´e selon un plan de sondagep(.) Estimateur de ρ12 en l’absence de non-r´eponse : plug-in
ˆ
ρ12π = ˆt11,π−ˆt10,πˆt01,π/N
ˆt20,π−(ˆt10,π)2/N1/2 ˆt02,π−(ˆt01,π)2/N1/2, o`u
ˆtkl,π =X
i∈S
wiY1ikY2il
et wi = 1/πi le poids de sondage de l’unit´e i ˆ
ρ12π est asymptotiquement sans biais sous le plan p(.)
S : ´echantillon s´electionn´e selon un plan de sondagep(.) Estimateur de ρ12 en l’absence de non-r´eponse : plug-in
ˆ
ρ12π = ˆt11,π−ˆt10,πˆt01,π/N
ˆt20,π−(ˆt10,π)2/N1/2 ˆt02,π−(ˆt01,π)2/N1/2, o`u
ˆtkl,π =X
i∈S
wiY1ikY2il
et wi = 1/πi le poids de sondage de l’unit´e i ˆ
ρ12π est asymptotiquement sans biais sous le plan p(.)
Non r´eponse : Estimateur imput´e deρ12
ˆ
ρ12I = ˆt11,I−ˆt10,Iˆt01,I/N
ˆt20,I−(ˆt10,I)2/N1/2 ˆt02,I−(ˆt01,I)2/N1/2, avec
ˆtkl,I =X
i∈s
wiY˜1kiY˜2li Y˜1i =Y1i sir1i = 1 et ˜Y1i =Y1i∗ sir1i = 0.
Y˜2i =Y2i sir2i = 1 et ˜Y2i =Y2i∗ sir2i = 0.
Principale difficult´e : estimer sans biais le produit crois´e,t11.
Non r´eponse : Estimateur imput´e deρ12
ˆ
ρ12I = ˆt11,I−ˆt10,Iˆt01,I/N
ˆt20,I−(ˆt10,I)2/N1/2 ˆt02,I−(ˆt01,I)2/N1/2, avec
ˆtkl,I =X
i∈s
wiY˜1kiY˜2li Y˜1i =Y1i sir1i = 1 et ˜Y1i =Y1i∗ sir1i = 0.
Y˜2i =Y2i sir2i = 1 et ˜Y2i =Y2i∗ sir2i = 0.
Principale difficult´e : estimer sans biais le produit crois´e,t11.
Non r´eponse : Estimateur imput´e deρ12
ˆ
ρ12I = ˆt11,I−ˆt10,Iˆt01,I/N
ˆt20,I−(ˆt10,I)2/N1/2 ˆt02,I−(ˆt01,I)2/N1/2, avec
ˆtkl,I =X
i∈s
wiY˜1kiY˜2li Y˜1i =Y1i sir1i = 1 et ˜Y1i =Y1i∗ sir1i = 0.
Y˜2i =Y2i sir2i = 1 et ˜Y2i =Y2i∗ sir2i = 0.
Principale difficult´e : estimer sans biais le produit crois´e,t11.
Non r´eponse : Estimateur imput´e deρ12
ˆ
ρ12I = ˆt11,I−ˆt10,Iˆt01,I/N
ˆt20,I−(ˆt10,I)2/N1/2 ˆt02,I−(ˆt01,I)2/N1/2, avec
ˆtkl,I =X
i∈s
wiY˜1kiY˜2li Y˜1i =Y1i sir1i = 1 et ˜Y1i =Y1i∗ sir1i = 0.
Y˜2i =Y2i sir2i = 1 et ˜Y2i =Y2i∗ sir2i = 0.
Principale difficult´e : estimer sans biais le produit crois´e,t11.
Mod`ele d’imputation : mod`ele de r´egression bivari´e m: Y1i = x0iβ1+√
v1i1i Y2i = x0iβ2+√
v2i2i
o`u v1i =v1(xi) etv2i =v2(xi) pour deux fonctions connues v1(.)>0 etv2(.)>0,
Covm(1i, 2i)≡σ12,Varm(1i)≡σ21 et Varm(2i)≡σ22 Utilisation des estimateurs sur cas complets: βˆ1r, ˆβ2r et ˆΣr =
σˆ21r,σˆ12r
ˆ σ12r,σˆ2r2
Mod`ele d’imputation : mod`ele de r´egression bivari´e m: Y1i = x0iβ1+√
v1i1i Y2i = x0iβ2+√
v2i2i
o`u v1i =v1(xi) etv2i =v2(xi) pour deux fonctions connues v1(.)>0 etv2(.)>0,
Covm(1i, 2i)≡σ12,Varm(1i)≡σ21 et Varm(2i)≡σ22 Utilisation des estimateurs sur cas complets: βˆ1r, ˆβ2r et ˆΣr =
σˆ21r,σˆ12r
ˆ σ12r,σˆ2r2
Pour ry1i = 0 et ry2i = 1, on utilise les valeurs imput´ees y1i∗ =x0i βˆ1r+√
v1i
σˆ12r
√v2iσˆ22r
y2i −x0iβˆ2r + ˜∗1i
avec ˜∗1i ind´ependants, EI(˜∗1i) = 0 et VarI(˜∗1i) = ˆσ21r −σˆ212r/ˆσ2r2
Pour ry1i = 1 et ry2i = 0, solution analogue
Pour ry1i = 0 et ry2i = 0, les (∗1i, ∗2i) ind´ependants, EI(∗1i, ∗2i) = 0 et de variance-covariance ˆΣr =
σˆ21r,σˆ12r
ˆ σ12r,σˆ2r2
y1i∗ = x0iβˆ1r +√ v1i∗1i y2i∗ = x0iβˆ2r +√
v2i∗2i
Pour ry1i = 0 et ry2i = 1, on utilise les valeurs imput´ees y1i∗ =x0i βˆ1r+√
v1i
σˆ12r
√v2iσˆ22r
y2i −x0iβˆ2r + ˜∗1i
avec ˜∗1i ind´ependants, EI(˜∗1i) = 0 et VarI(˜∗1i) = ˆσ21r −σˆ212r/ˆσ2r2
Pour ry1i = 1 et ry2i = 0, solution analogue
Pour ry1i = 0 et ry2i = 0, les (∗1i, ∗2i) ind´ependants, EI(∗1i, ∗2i) = 0 et de variance-covariance ˆΣr =
σˆ21r,σˆ12r
ˆ σ12r,σˆ2r2
y1i∗ = x0iβˆ1r +√ v1i∗1i y2i∗ = x0iβˆ2r +√
v2i∗2i
Pour ry1i = 0 et ry2i = 1, on utilise les valeurs imput´ees y1i∗ =x0i βˆ1r+√
v1i
σˆ12r
√v2iσˆ22r
y2i −x0iβˆ2r + ˜∗1i
avec ˜∗1i ind´ependants, EI(˜∗1i) = 0 et VarI(˜∗1i) = ˆσ21r −σˆ212r/ˆσ2r2
Pour ry1i = 1 et ry2i = 0, solution analogue
Pour ry1i = 0 et ry2i = 0, les (∗1i, ∗2i) ind´ependants, EI(∗1i, ∗2i) = 0 et de variance-covariance ˆΣr =
σˆ21r,σˆ12r
ˆ σ12r,σˆ2r2
y1i∗ = x0iβˆ1r +√ v1i∗1i y2i∗ = x0iβˆ2r +√
v2i∗2i
Biais conditionnel de non-r´eponse : BmI( ˆρ12I) =EmEI( ˆρ12I−ρˆ12π)
Asymptotiquement sans biais sous le mod`ele d’imputation :BmI( ˆρ12I)≈0
Souffre d’une source suppl´ementaire de variance : la va- riance d’imputation⇒Not fully efficient (Kim and Fuller, 2004) La proc´edure de Shao et Wang repose sur l’estimation de co- efficients qui peuvent aussi ˆetre estim´es grˆace `a l’approche MIVQUE : Minimum In Variance Quadratic Unbiased Es- timators (MIVQUE).
Biais conditionnel de non-r´eponse : BmI( ˆρ12I) =EmEI( ˆρ12I−ρˆ12π)
Asymptotiquement sans biais sous le mod`ele d’imputation :BmI( ˆρ12I)≈0
Souffre d’une source suppl´ementaire de variance : la va- riance d’imputation⇒Not fully efficient (Kim and Fuller, 2004) La proc´edure de Shao et Wang repose sur l’estimation de co- efficients qui peuvent aussi ˆetre estim´es grˆace `a l’approche MIVQUE : Minimum In Variance Quadratic Unbiased Es- timators (MIVQUE).
Biais conditionnel de non-r´eponse : BmI( ˆρ12I) =EmEI( ˆρ12I−ρˆ12π)
Asymptotiquement sans biais sous le mod`ele d’imputation :BmI( ˆρ12I)≈0
Souffre d’une source suppl´ementaire de variance : la va- riance d’imputation⇒Not fully efficient (Kim and Fuller, 2004) La proc´edure de Shao et Wang repose sur l’estimation de co- efficients qui peuvent aussi ˆetre estim´es grˆace `a l’approche MIVQUE : Minimum In Variance Quadratic Unbiased Es- timators (MIVQUE).
Biais conditionnel de non-r´eponse : BmI( ˆρ12I) =EmEI( ˆρ12I−ρˆ12π)
Asymptotiquement sans biais sous le mod`ele d’imputation :BmI( ˆρ12I)≈0
Souffre d’une source suppl´ementaire de variance : la va- riance d’imputation⇒Not fully efficient (Kim and Fuller, 2004) La proc´edure de Shao et Wang repose sur l’estimation de co- efficients qui peuvent aussi ˆetre estim´es grˆace `a l’approche MIVQUE : Minimum In Variance Quadratic Unbiased Es- timators (MIVQUE).
Biais conditionnel de non-r´eponse : BmI( ˆρ12I) =EmEI( ˆρ12I−ρˆ12π)
Asymptotiquement sans biais sous le mod`ele d’imputation :BmI( ˆρ12I)≈0
Souffre d’une source suppl´ementaire de variance : la va- riance d’imputation⇒Not fully efficient (Kim and Fuller, 2004) La proc´edure de Shao et Wang repose sur l’estimation de co- efficients qui peuvent aussi ˆetre estim´es grˆace `a l’approche MIVQUE : Minimum In Variance Quadratic Unbiased Es- timators (MIVQUE).
L’approche MIVQUE :
utilis´ee pour estimer les composantes de la variance d’un mod`ele mixte,
bas´ee sur une caract´erisation alg´ebrique de la structure de co- variance des variables,
adapt´ee par Causeur (2006) pour l’estimation de param`etres d’un mod`ele lin´eaire multivari´e dans un contexte Missing At Random,
pour am´eliorer la proc´edure d’imputation de Shao et Wang : diminution de la variance.
L’approche MIVQUE :
utilis´ee pour estimer les composantes de la variance d’un mod`ele mixte,
bas´ee sur une caract´erisation alg´ebrique de la structure de co- variance des variables,
adapt´ee par Causeur (2006) pour l’estimation de param`etres d’un mod`ele lin´eaire multivari´e dans un contexte Missing At Random,
pour am´eliorer la proc´edure d’imputation de Shao et Wang : diminution de la variance.
L’approche MIVQUE :
utilis´ee pour estimer les composantes de la variance d’un mod`ele mixte,
bas´ee sur une caract´erisation alg´ebrique de la structure de co- variance des variables,
adapt´ee par Causeur (2006) pour l’estimation de param`etres d’un mod`ele lin´eaire multivari´e dans un contexte Missing At Random,
pour am´eliorer la proc´edure d’imputation de Shao et Wang : diminution de la variance.
L’approche MIVQUE :
utilis´ee pour estimer les composantes de la variance d’un mod`ele mixte,
bas´ee sur une caract´erisation alg´ebrique de la structure de co- variance des variables,
adapt´ee par Causeur (2006) pour l’estimation de param`etres d’un mod`ele lin´eaire multivari´e dans un contexte Missing At Random,
pour am´eliorer la proc´edure d’imputation de Shao et Wang : diminution de la variance.
L’approche MIVQUE :
utilis´ee pour estimer les composantes de la variance d’un mod`ele mixte,
bas´ee sur une caract´erisation alg´ebrique de la structure de co- variance des variables,
adapt´ee par Causeur (2006) pour l’estimation de param`etres d’un mod`ele lin´eaire multivari´e dans un contexte Missing At Random,
pour am´eliorer la proc´edure d’imputation de Shao et Wang : diminution de la variance.
L’approche MIVQUE :
utilis´ee pour estimer les composantes de la variance d’un mod`ele mixte,
bas´ee sur une caract´erisation alg´ebrique de la structure de co- variance des variables,
adapt´ee par Causeur (2006) pour l’estimation de param`etres d’un mod`ele lin´eaire multivari´e dans un contexte Missing At Random,
pour am´eliorer la proc´edure d’imputation de Shao et Wang : diminution de la variance.
1 utiliser la m´ethode de Shao et Wang pour donner une premi`ere valeur aux donn´ees `a imputer
2 modifier it´erativement ces premi`eres valeurs de fa¸con `a obte- nir des valeurs estim´ees de param`etres proches de celles du MIVQUE.
Y1 Y2 X
? ? X1
? ? X2
Y1,3 ? X3
Y1,4 ? X4
? Y2,5 X5
? Y2,6 X6
Y1,7 Y2,7 X7
... ... ...
a - Non r´eponse symbole ’ ?’
⇒ 1
Y1 Y2 X
Yˆ1,1 Yˆ2,1 X1
Yˆ1,2 Yˆ2,2 X2
Y1,3 Yˆ2,3 X3
Y1,4 Yˆ2,4 X4
Yˆ1,5 Y2,5 X5
Yˆ1,6 Y2,6 X6
Y1,7 Y2,7 X7
... ... ...
b - 1ieresvaleurs imput´eesYˆ
⇒ 2
Y1 Y2 X
Y1,1∗ Y2,1∗ X1
Y1,2∗ Y2,2∗ X2
Y1,3 Y2,3∗ X3
Y1,4 Y2,4∗ X4
Y1,5∗ Y2,5 X5
Y1,6∗ Y2,6 X6
Y1,7 Y2,7 X7
... ... ...
c - Valeurs finalesY∗
1 utiliser la m´ethode de Shao et Wang pour donner une premi`ere valeur aux donn´ees `a imputer
2 modifier it´erativement ces premi`eres valeurs de fa¸con `a obte- nir des valeurs estim´ees de param`etres proches de celles du MIVQUE.
Y1 Y2 X
? ? X1
? ? X2
Y1,3 ? X3
Y1,4 ? X4
? Y2,5 X5
? Y2,6 X6
Y1,7 Y2,7 X7
... ... ...
a - Non r´eponse symbole ’ ?’
⇒ 1
Y1 Y2 X
Yˆ1,1 Yˆ2,1 X1
Yˆ1,2 Yˆ2,2 X2
Y1,3 Yˆ2,3 X3
Y1,4 Yˆ2,4 X4
Yˆ1,5 Y2,5 X5
Yˆ1,6 Y2,6 X6
Y1,7 Y2,7 X7
... ... ...
b - 1ieresvaleurs imput´eesYˆ
⇒ 2
Y1 Y2 X
Y1,1∗ Y2,1∗ X1
Y1,2∗ Y2,2∗ X2
Y1,3 Y2,3∗ X3
Y1,4 Y2,4∗ X4
Y1,5∗ Y2,5 X5
Y1,6∗ Y2,6 X6
Y1,7 Y2,7 X7
... ... ...
c - Valeurs finalesY∗
1 utiliser la m´ethode de Shao et Wang pour donner une premi`ere valeur aux donn´ees `a imputer
2 modifier it´erativement ces premi`eres valeurs de fa¸con `a obte- nir des valeurs estim´ees de param`etres proches de celles du MIVQUE.
Y1 Y2 X
? ? X1
? ? X2
Y1,3 ? X3
Y1,4 ? X4
? Y2,5 X5
? Y2,6 X6
Y1,7 Y2,7 X7
... ... ...
a - Non r´eponse symbole ’ ?’
⇒ 1
Y1 Y2 X
Yˆ1,1 Yˆ2,1 X1
Yˆ1,2 Yˆ2,2 X2
Y1,3 Yˆ2,3 X3
Y1,4 Yˆ2,4 X4
Yˆ1,5 Y2,5 X5
Yˆ1,6 Y2,6 X6
Y1,7 Y2,7 X7
... ... ...
b - 1ieresvaleurs imput´eesYˆ
⇒ 2
Y1 Y2 X
Y1,1∗ Y2,1∗ X1
Y1,2∗ Y2,2∗ X2
Y1,3 Y2,3∗ X3
Y1,4 Y2,4∗ X4
Y1,5∗ Y2,5 X5
Y1,6∗ Y2,6 X6
Y1,7 Y2,7 X7
... ... ...
c - Valeurs finalesY∗
Etape 2 : calibrage sur le MIVQUE
D´efinition d’un syst`eme de cinq ´equations correspondant chacune `a un des totaux :tkl =P
i∈UY1ikY2il , o`u (k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.
ˆt10I=N µˆ1M
ˆt01I=N µˆ2M
ˆt20I=N (ˆµ1M)2+ (N−1) ˆσ1M2 ˆt02I=N (ˆµ2M)2+ (N−1) ˆσ2M2
ˆt11I=N µˆ1M µˆ2M+ (N−1) ˆσ12M
avecN la taille de la population, µ1et µ2, les esp´erances deY1 etY2 et θˆM l’estimateur MIVQUE du param`etreθ.
Etape 2 : calibrage sur le MIVQUE
D´efinition d’un syst`eme de cinq ´equations correspondant chacune `a un des totaux :tkl =P
i∈UY1ikY2il , o`u (k,l)∈ {(1,0),(2,0),(1,1),(0,1),(0,2)}.
ˆt10I=N µˆ1M
ˆt01I=N µˆ2M
ˆt20I=N (ˆµ1M)2+ (N−1) ˆσ1M2 ˆt02I=N (ˆµ2M)2+ (N−1) ˆσ2M2
ˆt11I=N µˆ1M µˆ2M+ (N−1) ˆσ12M
avecN la taille de la population, µ1et µ2, les esp´erances deY1 etY2 et θˆM l’estimateur MIVQUE du param`etreθ.
Nous avons g´en´er´e une population de tailleN = 1 000 avec Y1,Y2 etX
X ∼Gamma
Les donn´ees bivari´ees (Y1i,Y2i)’s ont ´et´e g´en´er´ees selon le mod`ele bivari´e avecxi =xi,v1i =v2i =xi et β1 =β2 = 1.
Y1i =Xi +√ Xiεi1 Y2i =Xi +√
Xiεi2
Param`etres de la population
µ1 µ2 σ12 σ22 σ12 ρ12 2.10 2.12 11.21 11.52 9.32 0.82
Nous avons g´en´er´e une population de tailleN = 1 000 avec Y1,Y2 etX
X ∼Gamma
Les donn´ees bivari´ees (Y1i,Y2i)’s ont ´et´e g´en´er´ees selon le mod`ele bivari´e avecxi =xi,v1i =v2i =xi et β1 =β2 = 1.
Y1i =Xi +√ Xiεi1 Y2i =Xi +√
Xiεi2
Param`etres de la population
µ1 µ2 σ12 σ22 σ12 ρ12 2.10 2.12 11.21 11.52 9.32 0.82
Nous avons g´en´er´e une population de tailleN = 1 000 avec Y1,Y2 etX
X ∼Gamma
Les donn´ees bivari´ees (Y1i,Y2i)’s ont ´et´e g´en´er´ees selon le mod`ele bivari´e avecxi =xi,v1i =v2i =xi et β1 =β2 = 1.
Y1i =Xi +√ Xiεi1 Y2i =Xi +√
Xiεi2
Param`etres de la population
µ1 µ2 σ12 σ22 σ12 ρ12 2.10 2.12 11.21 11.52 9.32 0.82
Nous avons g´en´er´e une population de tailleN = 1 000 avec Y1,Y2 etX
X ∼Gamma
Les donn´ees bivari´ees (Y1i,Y2i)’s ont ´et´e g´en´er´ees selon le mod`ele bivari´e avecxi =xi,v1i =v2i =xi et β1 =β2 = 1.
Y1i =Xi +√ Xiεi1 Y2i =Xi +√
Xiεi2
Param`etres de la population
µ1 µ2 σ12 σ22 σ12 ρ12 2.10 2.12 11.21 11.52 9.32 0.82
Dans cette population, nous avons effectu´e un recensement (poids de sondagewi = 1) et simul´e 1000 fois la non-r´eponse avec, pour chaque unit´e i :
la probabilit´eπ1 de r´epondre `aY1 d´epend de la valeur deX π1i = 1/(1 +exp(−0.4055Xi/X)
la probabilit´eπ2 de r´epondre `aY2 d´epend de la valeur deX π2i = 1/(1 +exp(−0.4055Xi/X)
Ceci conduit en moyenne `a une probabilit´e de r´eponse de π1=π2 = 0.6.
Dans cette population, nous avons effectu´e un recensement (poids de sondagewi = 1) et simul´e 1000 fois la non-r´eponse avec, pour chaque unit´e i :
la probabilit´eπ1 de r´epondre `aY1 d´epend de la valeur deX π1i = 1/(1 +exp(−0.4055Xi/X)
la probabilit´eπ2 de r´epondre `aY2 d´epend de la valeur deX π2i = 1/(1 +exp(−0.4055Xi/X)
Ceci conduit en moyenne `a une probabilit´e de r´eponse de π1=π2 = 0.6.
Dans cette population, nous avons effectu´e un recensement (poids de sondagewi = 1) et simul´e 1000 fois la non-r´eponse avec, pour chaque unit´e i :
la probabilit´eπ1 de r´epondre `aY1 d´epend de la valeur deX π1i = 1/(1 +exp(−0.4055Xi/X)
la probabilit´eπ2 de r´epondre `aY2 d´epend de la valeur deX π2i = 1/(1 +exp(−0.4055Xi/X)
Ceci conduit en moyenne `a une probabilit´e de r´eponse de π1=π2 = 0.6.
Biais relatif de Efficacit´e Relative Monte Carlo en % de Monte Carlo : BR(ˆθI) = EMC( ˆθθI)−θI
I ×100 ER(ˆθI) = EQMMC( ˆθI)
EQMMC( ˆθIShao−Wang)
Imputation
Shao et Wang Imputation
Non Shao et Wang
Param`etres Calibr´ee Calibr´ee Calibr´ee
µ1 0.04% -0.09% 0.51
µ2 0.23% -0.03% 0.53
σ12 0.13% 0.34% 0.59
σ22 0.03% 0.32% 0.61
σ12 0.18% 0.34% 0.54
ρ12 0.11% 0.02% 0.72
En pr´esence de non-r´eponse, la m´ethode de Shao et Wang ca- libr´ee sur le MIVQUE permet de fournir un fichier de donn´ees complet
- en pr´eservant les relations entre variables et - en limitant la variance d’imputation.
La m´ethode de Shao et Wang ainsi que le MIVQUE peuvent s’´etendre au cas multivari´e.
En pr´esence de non-r´eponse, la m´ethode de Shao et Wang ca- libr´ee sur le MIVQUE permet de fournir un fichier de donn´ees complet
- en pr´eservant les relations entre variables et - en limitant la variance d’imputation.
La m´ethode de Shao et Wang ainsi que le MIVQUE peuvent s’´etendre au cas multivari´e.
Causeur D. (2006), MIVQUE and Maximum Likelihood Estima- tion for Multivariate Linear Models with Incomplete Observations Sankhya : The Indian Journal of Statistics, 68, Part 3, 409-435.
Kim J.K. et Fuller W.A. (2004), Fractional hot-deck imputation.
Biometrika, 91, pp. 559- 578.
Shao J. et Wang H. (2002), Sample correlation coefficients based on survey data under regression imputation.Journal of the American Statistical Association, 97, 544-552.
Skinner C.J. et Rao J.N.K. (2002), Jackknife variance for multi- variate statistics under hot deck imputation from common donors.
Journal of Statistical Planning and Inference, 102, 149-167.