Estimation de la variance d'un changement temporel

(1)

Estimation de la variance d'un changement temporel

Yves G. BERGER

(2)

Estimation de la variance d'un changement temporel

Net-SILC 2

Remerciements : Emilio Escobar (ITAM, Mexico)

Emilio Di Meglio (Eurostat Unit F4 “Quality of Life”) Emanuela Di Falco (Eurostat Unit F4 “Quality of Life”) Melike Oguz Alper (University of Southampton)

Guillaume Osier (STATEC)

(3)

Objectif

• Une méthode “simple” à mettre en œuvre pour l' estimation de variance d'un changement

• Exemple : risque de pauvreté ou d'exclusion sociale Utilisation de techniques statistiques existantes

(4)

Plan

• Introduction (Rotation, échantillons qui se chevauchent)

• Approche du Modèle Linéaire Général

1ère Partie : Comment ça fonctionne?

2ème Partie : Pourquoi ça fonctionne?

•

Résultats Numériques

(5)

Echantillons qui se chevauchent

(6)

Echantillons qui se chevauchent

(7)

Variance d'un changement

• 1ère vague :

• 2ème vague :

è Estimateur du changement =

è Variance de l'estimateur du changement :

(8)

Variance d'un changement

• et è Estimateurs Standards

• Estimation de plus compliquée : - Echantillons différents

- Non réponse

- et peuvent être non linéaire (quotients,...)

- Plan de sondage (rotation, , , stratification,..)

(9)

Approche “Naive”

(basée sur l'échantillon commun)

• Perte de données

• Perte importante si les vagues ne sont pas consécutives

• Estimés différents des estimés cross-sectionaux

• Biaisé

(10)

Approche Proposée

• Pas de perte de données

• Changement entre estimés cross-sectionaux

• Variance approximativement sans biais

(11)

Outil statistique utilisé

•

Modèle Linéaire Général

(General Linear Model, MANOVA)

• Ne pas confondre avec - Modèle Linéaire Généralisé - Régression Multiple

- Modèles longitudinaux à effets aléatoires

• Outil simple et flexible pour estimer la covariance.

• Peut être utilisé avec des logiciel standard

GLM PROC REG

(12)

Estimation de covariances par un Modèle Linéaire Général:

Comment ça fonctionne?

(13)

Modèle Linéaire Général

• Pas une approche modèle de super-population !!

• Basé sur le plan de sondage

• Le Modèle Linéaire Général est un outil de calcul

(pas un mode d'inférence)

•

Variables explicatives tiennent compte de la stratification

• Interactions tiennent compte de la rotation

(14)

Modèle Linéaire Général : une strate

Variables independents Variables Explicatives

Rotation 1 Rotation 2 Interaction

1 0 1 0 0

4 0 1 0 0

3 4 1 1 1

2 1 1 1 1

6 7 1 1 1

5 4 1 1 1

0 2 0 1 0

0 8 0 1 0

(15)

Modèle Linéaire Général : une strate

•

A cause de la Rotation :

Les variables dépendantes ont des valeurs manquantes è Valeurs manquantes remplacées par zéro !

•

Les variables explicatives (Rotation et Stratification) n'ont pas de valeurs manquantes

(16)

Modèle Linéaire Général : une strate

•

Variables Dépendantes : et

•

Variables Explicatives: Rotations + Interactions

(17)

Modèle Linéaire Général : Exemple

(18)

Modèle Linéaire Général : Exemple SPSS

(19)

Modèle Linéaire Général : Exemple SPSS

- 2 variables dépendantes Y1 et Y2

- 3 variables explicatives Z1, Z2 et Z1 x Z2.

(20)

Modèle Linéaire Général : Exemple SPSS

(21)

Modèle Linéaire Général. Exemple SPSS

 Correlation = 0.982  Covariance

(22)

Modèle Linéaire Général : Stratification

(23)

Modèle Linéaire Général : Stratification

•

Plus de variables explicatives :

Stratification è variables dichotomiques {0, 1}

Variables

Dépendantes

Variables Explicatives Interaction

et Stratification+ Rotation + Stratification x Rotation

(24)

Variables Dépendantes Stratification Rotation

(25)

(26)

Les interactions doivent être spécifées avec l'option “model”

(27)

(28)

(29)

Nous avons besoin de la matrice de corrélation résiduelle

(30)

La matrice de corrélation résiduelle

Corrélations è Covariances

(31)

Estimation de covariances par un Modèle Linéaire Général :

Pourquoi ça fonctionne ?

(32)

Plan de sondage avec rotation

Echantillon s₁ de taille n₁ sans remise avec π1;i =pr{i ∈s₁}.

Echantillon s₂ de taille n₂ sans remise avec π_2;i(s₁) =pr{i ∈s₂|s₁} telle que s₂ contientn_c unités des₁

n_c taille de l’échantillon commun (n_c <n₂)

Considérons que les taillesn₁,n₂ etn_c sont fixées (non aléatoires).

(33)

Changement temporelle : Estimation

∆ = ˆˆ τ2−τˆ1. ˆ

τ1 =X

i∈s1

y_1;i π1;i

etτˆ2 =X

i∈s2

y_2;i π2;i

varc( ˆ∆) =∇⁰dvar(ˆτ)∇, où

(34)

Plan de Poisson conditionel rotatif : Berger (2004)

1ère vague : échantillon de poisson avecπ^∗_1;i 2ème vague : échantillon de poisson avec π_2;i^∗ (s₁^∗) Les tailles sont aléatoires !

Rejete les échantillons qui n’ont pas les taillesn₁ andn₂ andn_c

−→ Plan de Poissonconditionelavec des tailles fixées.

Approximation du plan de sondage réel Plan systématique rotatif (ex : Holmes et Skinner, 2000),

Plan de sondage avec groupes de rotation (ex : Kalton, 2009) ,

(35)

Probabilités d’inclusion d’order un

Plan réjectif −→π^∗_1;i 6=π_1;i etπ^∗_2;i(s₁)6=π_2;i(s₁) Hájek (1964)

Théorème 1 Si P

i∈Uπ_1;i^∗ (1−π^∗_1;i)→ ∞ etP

i∈Uπ^∗_2;i(s₁^∗)[1−π_2;i^∗ (s₁^∗)]→ ∞pour tous s₁^∗, alors

(36)

Hypothèse

Hypothèse 1

(ˆτ₁,τˆ₂,n^∗₁,n^∗₂,n^∗_c)⁰ ∼N(u,Σ^∗); sous le plan de Poisson non-conditionel où Σ^∗ est la matrice de variance-covariance sous le plan de Poisson

non-conditionel.

Plan de Poisson non-conditionel −→ Indépendance−→ Normalité Hájek (1964)

L’Hypothèse 1 n’est pas necessaire si les probabilités sont égales au seins des strates.

(37)

La matrice de variance-covariance Σ^∗ de uˆ sous le plan de Poisson non-conditionel

(ˆτ1,τˆ2,n^∗₁,n^∗₂,n^∗_c)⁰ ∼N(u,Σ^∗)

Σ^∗ =

Σ^∗_{τ τ} Σ^∗_τn Σ^∗_τn⁰ Σ^∗_nn

Σ^∗ est la matrice 2×2 de covariance du vecteurτˆ = (ˆτ ,ˆτ )⁰

(38)

Matrice de variance-covariance de τˆ = (ˆτ₁,τˆ₂)⁰ sous le plan de Poisson conditionel

(ˆτ1,τˆ2,n^∗₁,n^∗₂,n^∗_c)⁰ ∼N(u,Σ^∗)

Σ^∗ =

Σ^∗_{τ τ} Σ^∗_τn Σ^∗_τn⁰ Σ^∗_nn

Plan de Poissonconditionel −→ Distributionconditionel : (ˆτ|n^∗=n)∼N(τ,Σ); où

Σ=Σ^∗_{τ τ} −Σ^∗_τ_nΣ^∗−1_nn Σ^∗_τ⁰_n (fonction de totaux)

(39)

Estimateur de la matrice de variance-covariance Σ^∗ de uˆ sous le plan de Poisson non-conditionel - Berger (2004)

Σˆ^∗_{τ τ} =





 X

i∈s

d˘1;iy˘_i;1² X

i∈s

c˘12;iy˘i;1y˘i;2

X

i∈s

˘c12;i˘yi;1y˘i;2

X

i∈s

d˘2;iy˘_i;2²









 X

i∈s

d˘1;iz1;i

X

i∈s

˘c12;iz1;iz2;i

X

i∈s

˘c1;iz1;iz2;i





(40)

Fractions de sondage négligeable : Berger et Priam (2010)

Hypothèse 2

Les fractions de sondage sont négligeables.

−→ Les matrices Σˆ^∗_{τ τ},Σˆ^∗_nn et Σˆ^∗_τn se simplifient

Σˆ^∗_{τ τ} lY˘⁰_sY˘_s , Σˆ^∗_nn lZ⁰_sZ_s et Σˆ^∗_τn lY˘⁰_sZ_s avec

Y˘_s = (˘y₁,y˘₂) , Z_s = (z₁,z₂,z₁×z₂) ; où

y˘₁ = (˘y1;1,˘y1;2,· · ·,˘y1;n)⁰ , y˘₂ = (˘y2;1,˘y2;2,· · ·,˘y2;n)⁰ , z1 = (z1;1,z1;2,· · · ,z1;n)⁰ , z2 = (z2;1,z2;2,· · · ,z2;n)⁰ ,

z1×z2 = (z1;1z2;1,z1;2z2;2,· · ·,z1;nz2;n)⁰ Interactions

(41)

Finallement, le Modèle Linéaire Général

Σˆ^∗_{τ τ} lY˘⁰_sY˘_s , Σˆ^∗_nn lZ⁰_sZ_s et Σˆ^∗_τn lY˘⁰_sZ_s

−→ Estimateurs deΣ

Σˆ = Σˆ^∗_{τ τ} −Σˆ^∗_τnΣˆ^∗−1_nn Σˆ^∗

0

τn

l Y˘⁰_sY˘_s−Y˘⁰_sZ_s(Z⁰_sZ_s)⁻¹Z⁰_sY˘_s

−→ Σˆ =variance-covariance résiduelle du Modèle Linéaire Général

(42)

Measure de changement complexe

θˆ₁ =f(ˆτ₁)et θˆ₂=f(ˆτ₂)

−→ ∆ˆ_θ= ˆθ2−θˆ1 =f(ˆτ); où τˆ = (ˆτ⁰₁,τˆ⁰₂)⁰

−→ ∆ˆ_θ−∆_θ l∇(τ)⁰(ˆτ−τ)ˆ

−→ varc(ˆθ2−θˆ1) =∇(ˆτ)⁰dvar(ˆτ)∇(ˆτ)

dvar(ˆτ) estimé à partir du Modèle Linéaire Général

Le nombre de variables dépendantes est égale au nombre de totaux

(43)

Imputation : Berger et Escobar (2012, JMS)

Approche renversée de Fay (1991)

Non réponse−→ Échantillon −→ Imputation aléatoire (ex : Hotdeck) var(∆)b = E_r(var_d(∆bR,S|R)) +var_r(E_d(∆bR,S|R))

+E_r(E_d(var_I(∆|Rb ,S)|R))

l E_r(var_d(∆bR,S|R)) +E_r(E_d(var_I(∆|Rb ,S)|R)) avec∆bR,S =E_I(∆|Rb ,S)

(44)

Simulations (Swedish Labour Force Survey)

Andersson, Andersson et Lundquist (2011)

• Population de 29 500 individus rotation = 87.5%

Echantillon stratifié of 500 individus (3 strates d'age)

• Variable d'intérêt : Nombre d'heures de travail

• Estimateur par régression

• Estimation de changement au seins de domaines

(45)

Simulations (Swedish Labour Force Survey)

Distribution

de l'estimateur de variance pour un

domaine

(46)

Risque de pauvreté et d'exclusion sociale (EU-SILC)

•

Indicateur clef pour mesurer l'évolution de la pauvreté en

Europe (AROPE)

•

2009 – 2010

•

Plusieurs degrés « unités = grappes »

•

300 000 ménages

•

^{Net-SILC 2}

(47)

(48)

Risque de pauvreté (EU-SILC)

•

Le seuil de pauvreté est estimé à partir d'une médiane

•

Seuil de pauvreté fixe Seuil de pauvreté aléatoire

Quotient Osier (2009) Deville (1999)

•

EU-SILC – Turquie

(49)

(50)

Remerciement : Melike Oguz Alper (University of Southampton)

(51)

Remarque Générales

•

Ou sont passé les ?!/..

◦

Pas besoin de calculer des

◦

Faible taux de sondage

◦

Le conditionnement tient compte de l'effet des

•

Statistique Suède

(Claes Andersson, Karin Andersson, Peter Lundquist, Tiina Orusild)

◦

Expérimentation satisfaisante

(52)

Conclusion

•

Il ne s'agit pas d'une approche basée sur un modèle de super- population

•

Le modèle ne doit pas ajuster les données ! Approche valable même si le modèle est mauvais

•

Tiens compte de la rotation (également valable si pas de rotation)

•

Simple et flexible à mettre en œuvre (utilisation d'un outil statistique existant)