• Aucun résultat trouvé

Estimation de la variance d'un changement temporel

N/A
N/A
Protected

Academic year: 2022

Partager "Estimation de la variance d'un changement temporel"

Copied!
52
0
0

Texte intégral

(1)

Estimation de la variance d'un changement temporel

Yves G. BERGER

(2)

Estimation de la variance d'un changement temporel

Net-SILC 2

Remerciements : Emilio Escobar (ITAM, Mexico)

Emilio Di Meglio (Eurostat Unit F4 “Quality of Life”) Emanuela Di Falco (Eurostat Unit F4 “Quality of Life”) Melike Oguz Alper (University of Southampton)

Guillaume Osier (STATEC)

(3)

Objectif

• Une méthode “simple” à mettre en œuvre pour l' estimation de variance d'un changement

• Exemple : risque de pauvreté ou d'exclusion sociale Utilisation de techniques statistiques existantes

(4)

Plan

• Introduction (Rotation, échantillons qui se chevauchent)

• Approche du Modèle Linéaire Général

1ère Partie : Comment ça fonctionne?

2ème Partie : Pourquoi ça fonctionne?

Résultats Numériques

(5)

Echantillons qui se chevauchent

(6)

Echantillons qui se chevauchent

(7)

Variance d'un changement

• 1ère vague :

• 2ème vague :

è Estimateur du changement =

è Variance de l'estimateur du changement :

(8)

Variance d'un changement

• et è Estimateurs Standards

• Estimation de plus compliquée : - Echantillons différents

- Non réponse

- et peuvent être non linéaire (quotients,...)

- Plan de sondage (rotation, , , stratification,..)

(9)

Approche “Naive”

(basée sur l'échantillon commun)

• Perte de données

• Perte importante si les vagues ne sont pas consécutives

• Estimés différents des estimés cross-sectionaux

• Biaisé

(10)

Approche Proposée

• Pas de perte de données

• Changement entre estimés cross-sectionaux

• Variance approximativement sans biais

(11)

Outil statistique utilisé

Modèle Linéaire Général

(General Linear Model, MANOVA)

• Ne pas confondre avec - Modèle Linéaire Généralisé - Régression Multiple

- Modèles longitudinaux à effets aléatoires

• Outil simple et flexible pour estimer la covariance.

• Peut être utilisé avec des logiciel standard

GLM PROC REG

(12)

Estimation de covariances par un Modèle Linéaire Général:

Comment ça fonctionne?

(13)

Modèle Linéaire Général

Pas une approche modèle de super-population !!

• Basé sur le plan de sondage

• Le Modèle Linéaire Général est un outil de calcul

(pas un mode d'inférence)

Variables explicatives tiennent compte de la stratification

Interactions tiennent compte de la rotation

(14)

Modèle Linéaire Général : une strate

Variables independents Variables Explicatives

Rotation 1 Rotation 2 Interaction

1 0 1 0 0

4 0 1 0 0

3 4 1 1 1

2 1 1 1 1

6 7 1 1 1

5 4 1 1 1

0 2 0 1 0

0 8 0 1 0

(15)

Modèle Linéaire Général : une strate

A cause de la Rotation :

Les variables dépendantes ont des valeurs manquantes è Valeurs manquantes remplacées par zéro !

Les variables explicatives (Rotation et Stratification) n'ont pas de valeurs manquantes

(16)

Modèle Linéaire Général : une strate

Variables Dépendantes : et

Variables Explicatives: Rotations + Interactions

(17)

Modèle Linéaire Général : Exemple

(18)

Modèle Linéaire Général : Exemple SPSS

(19)

Modèle Linéaire Général : Exemple SPSS

- 2 variables dépendantes Y1 et Y2

- 3 variables explicatives Z1, Z2 et Z1 x Z2.

(20)

Modèle Linéaire Général : Exemple SPSS

(21)

Modèle Linéaire Général. Exemple SPSS

 Correlation = 0.982  Covariance

(22)

Modèle Linéaire Général : Stratification

(23)

Modèle Linéaire Général : Stratification

Plus de variables explicatives :

Stratification è variables dichotomiques {0, 1}

Variables

Dépendantes

Variables Explicatives Interaction

et Stratification+ Rotation + Stratification x Rotation

(24)

Variables Dépendantes Stratification Rotation

(25)
(26)

Les interactions doivent être spécifées avec l'option “model”

(27)
(28)
(29)

Nous avons besoin de la matrice de corrélation résiduelle

(30)

La matrice de corrélation résiduelle

Corrélations è Covariances

(31)

Estimation de covariances par un Modèle Linéaire Général :

Pourquoi ça fonctionne ?

(32)

Plan de sondage avec rotation

Echantillon s1 de taille n1 sans remise avec π1;i =pr{i s1}.

Echantillon s2 de taille n2 sans remise avec π2;i(s1) =pr{i s2|s1} telle que s2 contientnc unités des1

nc taille de l’échantillon commun (nc <n2)

Considérons que les taillesn1,n2 etnc sont fixées (non aléatoires).

(33)

Changement temporelle : Estimation

∆ = ˆˆ τ2τˆ1. ˆ

τ1 =X

i∈s1

y1;i π1;i

etτˆ2 =X

i∈s2

y2;i π2;i

varc( ˆ∆) =0dvarτ)∇, où

(34)

Plan de Poisson conditionel rotatif : Berger (2004)

1ère vague : échantillon de poisson avecπ1;i 2ème vague : échantillon de poisson avec π2;i (s1) Les tailles sont aléatoires !

Rejete les échantillons qui n’ont pas les taillesn1 andn2 andnc

−→ Plan de Poissonconditionelavec des tailles fixées.

Approximation du plan de sondage réel Plan systématique rotatif (ex : Holmes et Skinner, 2000),

Plan de sondage avec groupes de rotation (ex : Kalton, 2009) ,

(35)

Probabilités d’inclusion d’order un

Plan réjectif −→π1;i 6=π1;i etπ2;i(s1)6=π2;i(s1) Hájek (1964)

Théorème 1 Si P

i∈Uπ1;i (1π1;i)→ ∞ etP

i∈Uπ2;i(s1)[1π2;i (s1)]→ ∞pour tous s1, alors

(36)

Hypothèse

Hypothèse 1

τ1,τˆ2,n1,n2,nc)0 N(u,Σ); sous le plan de Poisson non-conditionel où Σ est la matrice de variance-covariance sous le plan de Poisson

non-conditionel.

Plan de Poisson non-conditionel −→ Indépendance−→ Normalité Hájek (1964)

L’Hypothèse 1 n’est pas necessaire si les probabilités sont égales au seins des strates.

(37)

La matrice de variance-covariance Σ de uˆ sous le plan de Poisson non-conditionel

τ1,τˆ2,n1,n2,nc)0 N(u,Σ)

Σ =

Στ τ Στn Στn0 Σnn

Σ est la matrice 2×2 de covariance du vecteurτˆ = (ˆτ ,ˆτ )0

(38)

Matrice de variance-covariance de τˆ = (ˆτ1,τˆ2)0 sous le plan de Poisson conditionel

τ1,τˆ2,n1,n2,nc)0 N(u,Σ)

Σ =

Στ τ Στn Στn0 Σnn

Plan de Poissonconditionel −→ Distributionconditionel : τ|n=n)N(τ,Σ); où

Σ=Στ τ ΣτnΣ∗−1nn Στ0n (fonction de totaux)

(39)

Estimateur de la matrice de variance-covariance Σ de uˆ sous le plan de Poisson non-conditionel - Berger (2004)

Σˆτ τ =

X

i∈s

d˘1;iy˘i;12 X

i∈s

c˘12;iy˘i;1y˘i;2

X

i∈s

˘c12;i˘yi;1y˘i;2

X

i∈s

d˘2;iy˘i;22

X

i∈s

d˘1;iz1;i

X

i∈s

˘c12;iz1;iz2;i

X

i∈s

˘c1;iz1;iz2;i

(40)

Fractions de sondage négligeable : Berger et Priam (2010)

Hypothèse 2

Les fractions de sondage sont négligeables.

−→ Les matrices Σˆτ τ,Σˆnn et Σˆτn se simplifient

Σˆτ τ lY˘0sY˘s , Σˆnn lZ0sZs et Σˆτn lY˘0sZs avec

Y˘s = (˘y1,y˘2) , Zs = (z1,z2,z1×z2) ;

y˘1 = y1;1,˘y1;2,· · ·,˘y1;n)0 , y˘2 = y2;1,˘y2;2,· · ·,˘y2;n)0 , z1 = (z1;1,z1;2,· · · ,z1;n)0 , z2 = (z2;1,z2;2,· · · ,z2;n)0 ,

z1×z2 = (z1;1z2;1,z1;2z2;2,· · ·,z1;nz2;n)0 Interactions

(41)

Finallement, le Modèle Linéaire Général

Σˆτ τ lY˘0sY˘s , Σˆnn lZ0sZs et Σˆτn lY˘0sZs

−→ Estimateurs deΣ

Σˆ = Σˆτ τ ΣˆτnΣˆ∗−1nn Σˆ

0

τn

l Y˘0sY˘sY˘0sZs(Z0sZs)−1Z0sY˘s

−→ Σˆ =variance-covariance résiduelle du Modèle Linéaire Général

(42)

Measure de changement complexe

θˆ1 =fτ1)et θˆ2=fτ2)

−→ ˆθ= ˆθ2θˆ1 =fτ); où τˆ = (ˆτ01,τˆ02)0

−→ ˆθθ l∇(τ)0ττ)ˆ

−→ varcθ2θˆ1) =∇(ˆτ)0dvarτ)∇(ˆτ)

dvarτ) estimé à partir du Modèle Linéaire Général

Le nombre de variables dépendantes est égale au nombre de totaux

(43)

Imputation : Berger et Escobar (2012, JMS)

Approche renversée de Fay (1991)

Non réponse−→ Échantillon −→ Imputation aléatoire (ex : Hotdeck) var(∆)b = Er(vard(bR,S|R)) +varr(Ed(bR,S|R))

+Er(Ed(varI(∆|Rb ,S)|R))

l Er(vard(bR,S|R)) +Er(Ed(varI(∆|Rb ,S)|R)) avecbR,S =EI(∆|Rb ,S)

(44)

Simulations (Swedish Labour Force Survey)

Andersson, Andersson et Lundquist (2011)

• Population de 29 500 individus rotation = 87.5%

Echantillon stratifié of 500 individus (3 strates d'age)

• Variable d'intérêt : Nombre d'heures de travail

• Estimateur par régression

• Estimation de changement au seins de domaines

(45)

Simulations (Swedish Labour Force Survey)

Distribution

de l'estimateur de variance pour un

domaine

(46)

Risque de pauvreté et d'exclusion sociale (EU-SILC)

Indicateur clef pour mesurer l'évolution de la pauvreté en

Europe (AROPE)

2009 – 2010

Plusieurs degrés « unités = grappes »

300 000 ménages

Net-SILC 2

(47)
(48)

Risque de pauvreté (EU-SILC)

Le seuil de pauvreté est estimé à partir d'une médiane

Seuil de pauvreté fixe Seuil de pauvreté aléatoire

Quotient Osier (2009) Deville (1999)

EU-SILC – Turquie

(49)
(50)

Remerciement : Melike Oguz Alper (University of Southampton)

(51)

Remarque Générales

Ou sont passé les ?!/..

Pas besoin de calculer des

Faible taux de sondage

Le conditionnement tient compte de l'effet des

Statistique Suède

(Claes Andersson, Karin Andersson, Peter Lundquist, Tiina Orusild)

Expérimentation satisfaisante

(52)

Conclusion

Il ne s'agit pas d'une approche basée sur un modèle de super- population

Le modèle ne doit pas ajuster les données ! Approche valable même si le modèle est mauvais

Tiens compte de la rotation (également valable si pas de rotation)

Simple et flexible à mettre en œuvre (utilisation d'un outil statistique existant)

Références

Documents relatifs

Power  reflects  the  probability  of  rejecting  a  false  null  hypothesis  (Figure  1).  However,  power is  often  overlooked  when  designing  a 

Dans ce travail, nous nous int´ eressons ` a l’estimation de la fonction de va- riance en r´ egression par agr´ egation de type s´ election mod` ele (MS).. Le but de la proc´ edure

Abstract: For a large class of distributions and large samples, it is shown that estimates of the variance σ 2 and of the standard deviation σ are more often Pitman closer to

Then, the defined oracle, whose relevance was empirically confirmed on realistic channels in a millimeter wave massive MIMO context, was compared to the classical LMMSE

In the present paper fixed effects and other variance components also regarded as nuisances are integrated out so that inferences about individual variances

R´ esum´ e – Nous proposons une m´ethode permettant sous certaines hypoth`eses de diminuer la variance d’un estimateur optimal sans d´egrader son risque, en utilisant

ABSTRACT: Expressing the density of the determinant of a sample covariance matrix in terms of Meijer’s G-function , we provide a confidence interval for the determinant if

Dans une version longue de cet article (Patilea et Ra¨ıssi (2010)) nous utilisons les diff´erents r´esultats pr´esent´es dans ce r´esum´e pour d´evelopper des tests de causalit´e