Estimation de la variance d'un changement temporel
Yves G. BERGER
Estimation de la variance d'un changement temporel
Net-SILC 2
Remerciements : Emilio Escobar (ITAM, Mexico)
Emilio Di Meglio (Eurostat Unit F4 “Quality of Life”) Emanuela Di Falco (Eurostat Unit F4 “Quality of Life”) Melike Oguz Alper (University of Southampton)
Guillaume Osier (STATEC)
Objectif
• Une méthode “simple” à mettre en œuvre pour l' estimation de variance d'un changement
• Exemple : risque de pauvreté ou d'exclusion sociale Utilisation de techniques statistiques existantes
Plan
• Introduction (Rotation, échantillons qui se chevauchent)
• Approche du Modèle Linéaire Général
1ère Partie : Comment ça fonctionne?
2ème Partie : Pourquoi ça fonctionne?
•
Résultats NumériquesEchantillons qui se chevauchent
Echantillons qui se chevauchent
Variance d'un changement
• 1ère vague :
• 2ème vague :
è Estimateur du changement =
è Variance de l'estimateur du changement :
Variance d'un changement
• et è Estimateurs Standards
• Estimation de plus compliquée : - Echantillons différents
- Non réponse
- et peuvent être non linéaire (quotients,...)
- Plan de sondage (rotation, , , stratification,..)
Approche “Naive”
(basée sur l'échantillon commun)
• Perte de données
• Perte importante si les vagues ne sont pas consécutives
• Estimés différents des estimés cross-sectionaux
• Biaisé
Approche Proposée
• Pas de perte de données
• Changement entre estimés cross-sectionaux
• Variance approximativement sans biais
Outil statistique utilisé
•
Modèle Linéaire Général
(General Linear Model, MANOVA)• Ne pas confondre avec - Modèle Linéaire Généralisé - Régression Multiple
- Modèles longitudinaux à effets aléatoires
• Outil simple et flexible pour estimer la covariance.
• Peut être utilisé avec des logiciel standard
GLM PROC REG
Estimation de covariances par un Modèle Linéaire Général:
Comment ça fonctionne?
Modèle Linéaire Général
• Pas une approche modèle de super-population !!
• Basé sur le plan de sondage
• Le Modèle Linéaire Général est un outil de calcul
(pas un mode d'inférence)
•
Variables explicatives tiennent compte de la stratification• Interactions tiennent compte de la rotation
Modèle Linéaire Général : une strate
Variables independents Variables Explicatives
Rotation 1 Rotation 2 Interaction
1 0 1 0 0
4 0 1 0 0
3 4 1 1 1
2 1 1 1 1
6 7 1 1 1
5 4 1 1 1
0 2 0 1 0
0 8 0 1 0
Modèle Linéaire Général : une strate
•
A cause de la Rotation :Les variables dépendantes ont des valeurs manquantes è Valeurs manquantes remplacées par zéro !
•
Les variables explicatives (Rotation et Stratification) n'ont pas de valeurs manquantesModèle Linéaire Général : une strate
•
Variables Dépendantes : et•
Variables Explicatives: Rotations + InteractionsModèle Linéaire Général : Exemple
Modèle Linéaire Général : Exemple SPSS
Modèle Linéaire Général : Exemple SPSS
- 2 variables dépendantes Y1 et Y2
- 3 variables explicatives Z1, Z2 et Z1 x Z2.
Modèle Linéaire Général : Exemple SPSS
Modèle Linéaire Général. Exemple SPSS
Correlation = 0.982 Covariance
Modèle Linéaire Général : Stratification
Modèle Linéaire Général : Stratification
•
Plus de variables explicatives :Stratification è variables dichotomiques {0, 1}
Variables
Dépendantes
Variables Explicatives Interaction
et Stratification+ Rotation + Stratification x Rotation
Variables Dépendantes Stratification Rotation
Les interactions doivent être spécifées avec l'option “model”
Nous avons besoin de la matrice de corrélation résiduelle
La matrice de corrélation résiduelle
Corrélations è Covariances
Estimation de covariances par un Modèle Linéaire Général :
Pourquoi ça fonctionne ?
Plan de sondage avec rotation
Echantillon s1 de taille n1 sans remise avec π1;i =pr{i ∈s1}.
Echantillon s2 de taille n2 sans remise avec π2;i(s1) =pr{i ∈s2|s1} telle que s2 contientnc unités des1
nc taille de l’échantillon commun (nc <n2)
Considérons que les taillesn1,n2 etnc sont fixées (non aléatoires).
Changement temporelle : Estimation
∆ = ˆˆ τ2−τˆ1. ˆ
τ1 =X
i∈s1
y1;i π1;i
etτˆ2 =X
i∈s2
y2;i π2;i
varc( ˆ∆) =∇0dvar(ˆτ)∇, où
Plan de Poisson conditionel rotatif : Berger (2004)
1ère vague : échantillon de poisson avecπ∗1;i 2ème vague : échantillon de poisson avec π2;i∗ (s1∗) Les tailles sont aléatoires !
Rejete les échantillons qui n’ont pas les taillesn1 andn2 andnc
−→ Plan de Poissonconditionelavec des tailles fixées.
Approximation du plan de sondage réel Plan systématique rotatif (ex : Holmes et Skinner, 2000),
Plan de sondage avec groupes de rotation (ex : Kalton, 2009) ,
Probabilités d’inclusion d’order un
Plan réjectif −→π∗1;i 6=π1;i etπ∗2;i(s1)6=π2;i(s1) Hájek (1964)
Théorème 1 Si P
i∈Uπ1;i∗ (1−π∗1;i)→ ∞ etP
i∈Uπ∗2;i(s1∗)[1−π2;i∗ (s1∗)]→ ∞pour tous s1∗, alors
Hypothèse
Hypothèse 1
(ˆτ1,τˆ2,n∗1,n∗2,n∗c)0 ∼N(u,Σ∗); sous le plan de Poisson non-conditionel où Σ∗ est la matrice de variance-covariance sous le plan de Poisson
non-conditionel.
Plan de Poisson non-conditionel −→ Indépendance−→ Normalité Hájek (1964)
L’Hypothèse 1 n’est pas necessaire si les probabilités sont égales au seins des strates.
La matrice de variance-covariance Σ∗ de uˆ sous le plan de Poisson non-conditionel
(ˆτ1,τˆ2,n∗1,n∗2,n∗c)0 ∼N(u,Σ∗)
Σ∗ =
Σ∗τ τ Σ∗τn Σ∗τn0 Σ∗nn
Σ∗ est la matrice 2×2 de covariance du vecteurτˆ = (ˆτ ,ˆτ )0
Matrice de variance-covariance de τˆ = (ˆτ1,τˆ2)0 sous le plan de Poisson conditionel
(ˆτ1,τˆ2,n∗1,n∗2,n∗c)0 ∼N(u,Σ∗)
Σ∗ =
Σ∗τ τ Σ∗τn Σ∗τn0 Σ∗nn
Plan de Poissonconditionel −→ Distributionconditionel : (ˆτ|n∗=n)∼N(τ,Σ); où
Σ=Σ∗τ τ −Σ∗τnΣ∗−1nn Σ∗τ0n (fonction de totaux)
Estimateur de la matrice de variance-covariance Σ∗ de uˆ sous le plan de Poisson non-conditionel - Berger (2004)
Σˆ∗τ τ =
X
i∈s
d˘1;iy˘i;12 X
i∈s
c˘12;iy˘i;1y˘i;2
X
i∈s
˘c12;i˘yi;1y˘i;2
X
i∈s
d˘2;iy˘i;22
X
i∈s
d˘1;iz1;i
X
i∈s
˘c12;iz1;iz2;i
X
i∈s
˘c1;iz1;iz2;i
Fractions de sondage négligeable : Berger et Priam (2010)
Hypothèse 2
Les fractions de sondage sont négligeables.
−→ Les matrices Σˆ∗τ τ,Σˆ∗nn et Σˆ∗τn se simplifient
Σˆ∗τ τ lY˘0sY˘s , Σˆ∗nn lZ0sZs et Σˆ∗τn lY˘0sZs avec
Y˘s = (˘y1,y˘2) , Zs = (z1,z2,z1×z2) ; où
y˘1 = (˘y1;1,˘y1;2,· · ·,˘y1;n)0 , y˘2 = (˘y2;1,˘y2;2,· · ·,˘y2;n)0 , z1 = (z1;1,z1;2,· · · ,z1;n)0 , z2 = (z2;1,z2;2,· · · ,z2;n)0 ,
z1×z2 = (z1;1z2;1,z1;2z2;2,· · ·,z1;nz2;n)0 Interactions
Finallement, le Modèle Linéaire Général
Σˆ∗τ τ lY˘0sY˘s , Σˆ∗nn lZ0sZs et Σˆ∗τn lY˘0sZs
−→ Estimateurs deΣ
Σˆ = Σˆ∗τ τ −Σˆ∗τnΣˆ∗−1nn Σˆ∗
0
τn
l Y˘0sY˘s−Y˘0sZs(Z0sZs)−1Z0sY˘s
−→ Σˆ =variance-covariance résiduelle du Modèle Linéaire Général
Measure de changement complexe
θˆ1 =f(ˆτ1)et θˆ2=f(ˆτ2)
−→ ∆ˆθ= ˆθ2−θˆ1 =f(ˆτ); où τˆ = (ˆτ01,τˆ02)0
−→ ∆ˆθ−∆θ l∇(τ)0(ˆτ−τ)ˆ
−→ varc(ˆθ2−θˆ1) =∇(ˆτ)0dvar(ˆτ)∇(ˆτ)
dvar(ˆτ) estimé à partir du Modèle Linéaire Général
Le nombre de variables dépendantes est égale au nombre de totaux
Imputation : Berger et Escobar (2012, JMS)
Approche renversée de Fay (1991)
Non réponse−→ Échantillon −→ Imputation aléatoire (ex : Hotdeck) var(∆)b = Er(vard(∆bR,S|R)) +varr(Ed(∆bR,S|R))
+Er(Ed(varI(∆|Rb ,S)|R))
l Er(vard(∆bR,S|R)) +Er(Ed(varI(∆|Rb ,S)|R)) avec∆bR,S =EI(∆|Rb ,S)
Simulations (Swedish Labour Force Survey)
Andersson, Andersson et Lundquist (2011)
• Population de 29 500 individus rotation = 87.5%
Echantillon stratifié of 500 individus (3 strates d'age)
• Variable d'intérêt : Nombre d'heures de travail
• Estimateur par régression
• Estimation de changement au seins de domaines
Simulations (Swedish Labour Force Survey)
Distribution
de l'estimateur de variance pour un
domaine
Risque de pauvreté et d'exclusion sociale (EU-SILC)
•
Indicateur clef pour mesurer l'évolution de la pauvreté enEurope (AROPE)
•
2009 – 2010•
Plusieurs degrés « unités = grappes »•
300 000 ménages•
Net-SILC 2Risque de pauvreté (EU-SILC)
•
Le seuil de pauvreté est estimé à partir d'une médiane•
Seuil de pauvreté fixe Seuil de pauvreté aléatoireQuotient Osier (2009) Deville (1999)
•
EU-SILC – TurquieRemerciement : Melike Oguz Alper (University of Southampton)
Remarque Générales
•
Ou sont passé les ?!/..◦
Pas besoin de calculer des◦
Faible taux de sondage◦
Le conditionnement tient compte de l'effet des•
Statistique Suède(Claes Andersson, Karin Andersson, Peter Lundquist, Tiina Orusild)