Estimation sur petits domaines à l’Insee:
premier bilan et pistes de progrès
Colloque francophone sur les sondages, Rennes, 2012
Pascal Ardilly
Insee - Direction de la méthodologie
Que peut-on trouver à l’Insee sur le sujet ?
Destandeau, 1996, "Estimation sur petits domaines : application à l’enquête Education 92" (Actes JMS);
Attal-Toubert, Sautory, 1998, "Estimation de données régionales à l'aide de techniques d'analyse multidimensionnelle" (Document Insee);
Couet, 2002, "Estimations locales dans le cadre de l'enquête HID" (Document Insee);
Pan Ké Shon, Vivier, 2002, "Estimation de l'isolement relationnel dans trois zones urbaines sensibles" (Actes JMS) ;
Ardilly, 2006, "Panorama des principales méthodes d'estimation sur les petits domaines" (Document Insee);
Fesseau et alii, 2007, "Estimations sur petits domaines à partir d'une enquête sur l'illettrisme" (Colloque francophone sur les sondages);
Le Guennec, 2012, "Estimations départementales du handicap à partir de l'enquête Handicap-santé 2008" (Actes JMS);
Le Guennec, 2012, "Application de méthodes petits domaines à des estimations régionales dans l'enquête national Transport 2007-2008" (Actes JMS);
+ variantes + notes internes + rapports de stage …
+ quelques faits (plus ou moins) ignorés : estimation départementale du chômage (par exemple).
Opérations (connues) en cours : - EFL (niveau communal)
- Indicateurs de pauvreté, SILC (niveau régional) - Innovation (enquête auprès des entreprises)
DONC :
Une préoccupation grandissante à l'Insee, sous l'impulsion en particulier :
- du manque de moyens financiers, - d'Eurostat (Essnet, règlements…),
mais les compétences de la statistique publique française sur ce sujet restent encore bien limitées …
Et hors Insee ?
Colloque francophone sur les sondages : 1 présentation (2007 - Attal-Toubert & Sautory) Les SSM ? Les universités ?
Environnement / projets européens
Environnement CROS (Collaboration between Researchers and Official Statisticians)
http://www.cros-portal.eu/page/small-area-estimation
EURAREA : projet général autour des techniques avancées d’estimation sur petits domaines (modèles spatiaux, temporels, SPREE (=cross-classification) ) (Grande-Bretagne - coordonateur - Italie, Espagne, Suède, Norvège, Finland, Pologne)
http://www.ons.gov.uk/ons/guide-method/method- quality/general-methodology/spatial-analysis-and-
SAMPLE : projet consacré à la pauvreté et aux conditions de vie, avec application Web diffusée (Italie, Grande Bretagne, Espagne, Pologne - uniquement des universités)
http://www.sample-project.eu/
AMELI : projet consacré aux indicateurs d’inégalité (indicateurs de Laeken)
http://www.ameli.surveystatistics.net/
BIAS : projet tourné vers l’intégration de données de sources différentes et le traitement simultané de modèles par des techniques bayésiennes
http://www.bias-project.org.uk/index.htm
Environnement ESS (European Statistical System)
Essnet SAE (Italie - coordonateur - Grande-Bretagne, Pays-Bas, Norvège, Allemagne, Suisse, Espagne, Pologne, France)
→ Pays (qui semblent) les plus avancés :
- Grande Bretagne (forte coopération avec l'université)
- Italie (forte coopération avec l'université) - Pays-Bas
- Pays scandinaves
Ouvrages :
J.N.K. Rao, 2003, "Small area estimation", Wiley
N. Longford, 2005, "Missing data and small-area estimation", Springer
P. Mukhopadhyay, 1998, “Small area estimation in survey sampling”, Narosa
+ Recueil de Platek, Rao, Särndal, Singh, 1987, "Small area statistics", Wiley
+ Actes colloques internationaux spécialisés « Small
Ce qui suit résulte d’une prise de conscience (plus ou moins tardive) d’aspects importants à souligner, de points mal compris, ou de pièges.
Ces points sont abordés - par contrainte - de
manière superficielle…
**
Aspects stratégiques **
1) Accepte-t-on les estimations dépendantes de modèles (nota : on le fait pour la non-réponse) - et donc le biais ?
Mais quelle est l'alternative ?
Exemples vécus peu crédibles … (source : EFL) Aucune grand-mère à Cahors
Aucun homme pacsé à Bastia
Aucun enfant n’est gardé en crèche à Narbonne …
→ le cas échéant, calage sur marges locales (si on dispose de marges locales satisfaisantes ! )
2) Comment juger de la pertinence d'un modèle sur les parties des domaines qui ne sont pas observées ?
i, d T
i, d i,
d
X B e
Y = ⋅ +
etVar ( ) e
d,i= σ
e2> 0
a) on a peu d'information locale, comment détecter
→ La question semble insoluble :
→
Σ , B
...
B B . X ...
X X
N y
y y
D 2 1
D 2
1
D 2 1
r r r
B B
d :
H
0∀
d=
???Mais
Var ( ) B ˆ
d=
n
dO 1
⇒
on va très (trop) souvent accepter H0.→ il faudrait une source externe pour s’en convaincre
→ la présence de termes aléatoires locaux
v
d apporte un échappatoire confortable.i , d d
T i , d i
,
d
X B v e
Y = ⋅ + +
etVar ( ) v
d =σ
v2 >0
En espérance, la question peut toujours être
b) l’ensemble (échantillonnage + non-réponse) doit être non informatif.
Hypothèse : il existe un modèle
l ( y x , θ )
→ on estime
θ
à partir del ( y
dx
d, θ )
Soit
r = { répondants }
. Les données complètes sont les( y
dr, 1
(s,r)) , d ∈ D
.(
dr dr (s,r) d)
drd ) r , s (
dr
, 1 x , ) l y , y , 1 x , dy
y (
l r θ = ∫ r θ
= ∫ l ( y
dr, y
dr1
(s,r), x r
d, θ ) ⋅ p ( s , r x r
d) dy
dr
= p ( s , r x r
d) ⋅ ∫ l ( y
dr, y
dr1
(s,r), x r
d, θ ) dy
dr
= p ( s , r x r
d) ( ⋅ ∫ l y
dx r
d, θ ) dy
dr3) Faut-il accepter que les poids de sondage ne soient pas impliqués ?
i , d d
T i , d i
,
d
X B v e
Y = ⋅ + +
( Yˆ Xˆ B ˆ )
B ˆ ˆ X
Yˆ
dSAE = dT ⋅ +γ
d d − dT ⋅→ Primo, l’implication des poids reste possible :
- F&H (estimateur ‘design-biased’ mais convergent)
- Estimateurs pseudo-EBLUP (convergent)
(
d,w dT,w w)
w , d w
T
d
B ˆ ˆ Yˆ Xˆ B ˆ
X
⋅ +γ
⋅ − ⋅- idem pour les modèles à variables qualitatives
→ On prétend qu’il existe un mécanisme universel qui existe au-delà de la population (super-population) et
- les modèles sont supposés bien spécifiés - l’échantillonnage est supposé non informatif
**
Choix de méthode & modèle **
Critères de choix de modèle
Modèle Information
auxiliaire
X
Stratégie de
prédiction Prédicteur
théorique
Méthodologie d’estimation des
paramètres
β ˆ
etΣ ˆ
PrédicteurTˆˆ
D1) Les modèles stochastiques (versus estimateur
« descriptif »)
- permettent en général de réduire les biais des estimateurs SAE - via l’introduction d’un effet local
v
d (sinon, on se contente du modèle implicite)- n’apportent rien si les domaines sont de très petite taille (
γ
d ≈0
: on récupère du synthétique ≈ pur)- à l’inverse ils peuvent conduire à des estimations numériquement peu crédibles (population rare en particulier) à cause de l’effet local
vˆ
d, non« maitrisé » numériquement
d T
d SAE
d
X B ˆ vˆ
Yˆ
= ⋅ +( y X B ˆ )
ˆ
vˆ
d =γ
d ⋅ d − dT ⋅Ennuyeux en production de masse - évidemment on peut toujours tronquer (arbitrairement …)
- sont plus compliqués à expliquer (aspect diffusion)
2) Modèle niveau domaine ou niveau individu ?
S’il y a peu de domaines (régions…) le modèle au niveau domaine n’est pas envisageable.
Le niveau domaine s’appuie sur davantage d’information auxiliaire en pratique, mais on peut supposer que les liaisons complexes
X ↔ Y
sont moins bien reproduitesDans les modèles individuels, la question de la disponibilité de l'information auxiliaire est centrale.
i , d d
T i , d i
,
d
X B v e
Y = ⋅ + +
( Yˆ Xˆ B ˆ )
B ˆ ˆ X
Yˆ
dSAE = dT ⋅ +γ
d d − dT ⋅Elle doit être :
a) explicative de la variable d'intérêt ; b) présente dans le questionnaire ;
c) présente dans la source auxiliaire - et relever exactement du même concept.
En outre, une source auxiliaire doit concerner toute la population couverte (ou permettre une inférence) ; par exemple, ce n’est pas le cas du fichier DEFM seul !
Avec les modèles linéaires, on peut utiliser des sources multiples (origines diverses des composantes de
X
d).Avec les modèles NON linéaires, nécessité d'un appariement individuel → obstacle dû à l’absence d’identifiants communs entre sources.
) P , 1 ( B
1
i∈c → d,id T
i , d i
, d i ,
d
X B v
P 1
Log P
= ⋅ +− avec
Var ( ) v
d =σ
v2=
SAE , c
N ˆ
d∑
∈∈ ∈ +
d i
s
i
1
i c( )
( )
∑
∈∉ + ⋅ +
+
⋅
d i
s
i d
T i, d
d T
i, d
ˆ vˆ X
exp 1
ˆ vˆ X
exp
β β
Conséquence : estimation localisée du chômage : source auxiliaire limitée au RP (mais pas de DEFM…)
Exception : si
σ
v2 =0
et si les variables deX
d,i sont toutes qualitatives, on peut se contenter d’une source de dénombrements croisant (toutes) les modalités.=
SAE , c
N ˆ
d( )
( ) ∑
∑
∈
∈ + +
⋅ +
⋅ = +
⋅
d
i u v
v u
v , d u
i T
i , d T
i , d
ˆ ) exp( ˆ
1
ˆ ) exp( ˆ
ˆ N X
exp 1
X ˆ exp
β β β β
β β
Données auxiliaires nécessaires et suffisantes - selon la méthode
Modèle / méthode Base de données auxiliaires
Echantillon Calage local Vrais totaux /
moyennes
Données individuelles Fay & Herriot Vrais totaux /
moyennes
Néant Modèle
individuel linéaire
Vrais totaux / moyennes
Données individuelles Poisson Vrais totaux /
moyennes
Néant Logistique Données
individuelles
Données individuelles
Problème d’homogénéité entre sources :
« Chômage spontané déclaré au RP » versus
« Chômage spontané déclaré à l’enquête Emploi ».
Sur 101 ZE où le calage a été effectué : Estimateur utilisé Estimation
totale Calage 1 997 000 Enquête Emploi 1 667 000
Méthodologie actuelle Insee
1 542 000
∑
∩∈ ⋅ =
d s
i
w
iX
iX
di =
X
recherche d’emploi dans le questionnaire Emploid =
X
recherche d’emploi dans le questionnaire du recensementProblème en partie réglé par benchmarking.
Noter que cette question d’homogénéité ne se pose pas pour les modèles d’inspiration agrégée (niveau domaine) - où la « bonne » corrélation
Y
d ↔X
d suffit.3) Disponibilité des outils informatiques en SAS : qu’est-ce qui peut être facilement récupéré ?
- EBLUP « basique » - niveau domaine et individu (avec estimation de MSE) ;
i , d d
T i , d i
,
d
X B v e
Y = ⋅ + +
- EBLUP - modèle temporel (avec estimation de MSE) ;
t , i , d t
, d T
t , i , d t
, i ,
d
X B v e
Y = ⋅ + +
) 1 ( AR
v
d,t → ouv
d,t =α
d ⋅t
+β
d- EBLUP - modèle spatial (avec estimation de MSE) :
i , d d
T i , d i
,
d
X B v e
Y = ⋅ + +
=
) v , v (
Cov
d1 d2
⋅
) 2 d , 1 d ( exp dist
2 v
σ φ
- Estimation SPREE (avec MSE par bootstrap) C’est un estimateur synthétique assurant :
,.
d d d,i
Y ~
∑ Yˆ
=i i d,i
Y ~
.,∑ Yˆ
=i d
i , d
i , d
X
Log Y
=α
+β
+δ
Concrètement, c’est la résultante d’un raking ratio effectué à partir de la structure initiale
X
d,i.On dispose aussi de généralisations :
Modèle dit “Generalized Linear Structural Model » - GLSM :
∑
=− −
j d,j
1 i
,
d
I LogY
LogY
−
⋅
+ −
∑
j d,j
1 i
, d
i
β LogX I LogX
λ
avec0
i i =
∑ λ
Modèle dit “Generalized Linear Structural Mixed Model” - GLSMM
∑
=− −
j d,j
1 i
,
d
I LogY
LogY
−
⋅
+ −
∑
j d,j
1 i
, d
i
β LogX I LogX
λ
+v
d,i0
i i =
∑ λ
et( v
d,2, v
d,3,..., v
d,I)
→N ( ) 0 , Σ
avec∑
−
==
I2 j d,j 1
,
d
v
v
- Prédiction Empirical Bayes (EB) et mse :
)
y ( ˆ E θ θ
=pour une fonction de répartition (modèle M- quantiles - possibilité d’introduire des coefficients de régression locaux) ;
pour des paramètres non-linéaires de pauvreté (unit level linear model).
Il existe par ailleurs des procédures écrites en R - en fort développement.
* Modèles utilisés par les INS du groupe Essnet*
Type de modèle Proportion
% Méthodes « design based » 16
Modèles linéaires « de base » 8
Modèles linéaires mixtes (GLM) 24 Modèles linéaires mixtes « avancés » 16 Modèles linéaires mixtes généralisés
(GLMM)
32
Autres 4
La suite relève de considérations de « qualité » de ces modèles.
**
Qualité des estimateurs SAE **
1) Première tendance : estimer la MSE =
E ( θ ˆ
dSAE −θ
d)
2. Attention, la théorie fournit des estimateurs sans biais, mais l'absence de biais n'est réelle que si le modèle est juste !Que sait-on faire ? Unité, variable,
estimateur Modèle
Estimation de la MSE Niveau domaine, Y
continue (gaussien)
LMM
(F&H)
Analytique + jackknife + bootstrap (EBP) Niveau individuel, Y
continue (gaussien)
LMM Analytique + jackknife + bootstrap (EBP) Y = comptage ou
indicatrice +
fonction de répartition.
Approche Empirical
Bayes (EB) :
V ( θ ˆ
saey )
GLMM
Jackknife ou bootstrap (paramétrique)
Analytique ? (Jiang & Lahiri) Y = comptage ou
indicatrice + fonction de répartition.
Approche par pseudo
GLMM Modèle approché
?
Si on s’en tient à un GLM, on devrait s’en sortir honorablement puisque :
) P , 1 ( B
1
i∈c → d,iβ
⋅
− =
T i , d i
, d i ,
d
X
P 1 Log P
=
SAE , c
N ˆ
d∑
∈∈ ∈ +
d i
s
i
1
i c( )
( )
∑
∈∉ + ⋅
⋅
d i
s
i T
i , d T
i , d
) s ˆ ( X
exp 1
) s ˆ ( X
exp
β β
= f ( s , β ˆ ( s ))
Or
β ˆ ( s ) → N ( β , I
−1( β , s ) )
(n
grand)Curieusement, les développements et l’outil adéquat
ne semblent pas exister …
Modèle linéaire niveau domaine (F&H) et niveau individu (≈ variables quantitatives, continues, gaussiennes) : on dispose d’un estimateur analytique de la MSE - qui reste néanmoins (très) complexe (distinguer 3 niveaux) :
Niveau 1 :
MSE ( γ
d ⋅Tˆ
d +( 1
−γ
d)
⋅X
dTB )
Niveau 2 :
MSE ( γ ˆ
d ⋅Tˆ
d +( 1
−γ ˆ
d)
⋅X
dTB ˆ )
Niveau 3 : Estimateur de ;
MSE ( γ ˆ
d ⋅Tˆ
d +( 1
−γ ˆ
d)
⋅X
dTB ˆ )
RAPPEL : le plus souvent, on ne sait rien dire des propriétés de
θ ˆ
SAEpar rapport à l'aléa de sondage - si ce n’est que l’estimateur est biaisé (et parfois convergent) !Quelques curiosités autour de la variance d’échantillonnage
Ψ
d (modèle F&H) :- quel est l’effet d’une substitution de
Ψ ˆ
d àΨ
d ?- à l’évidence
Ψ
d dépend desY
d,i : dans la théorie F&H, elle n’est pas considérée comme aléatoire ;Conséquence : souci d’homogénéité des concepts (d’équité ?) dans la comparaison de la MSE de l’estimateur SAE avec l’erreur de l’estimateur direct où on ne prend jamais en compte l’aléa du modèle posé !
d d
T d
d
X v e
Yˆ
=β
+ +(
d−
d)
2=
s
Yˆ Y
E Var ( ) e
d= Ψ
d(
dFH d)
2s ,
Y
E Yˆ − Y ≈ γ
d⋅ Ψ
d (m
grand)→ il serait plus honnête de comparer avec :
(
d d)
2 Y ds ,
Y
E Yˆ − Y = E Ψ
Il faudrait tenir compte de l’effet d’un éventuel benchmarking sur la MSE.
La méthode « simple » traditionnelle :
direct
d
SAE d SAE bench d
, SAE
d
Yˆ
Yˆ
Yˆˆ Yˆ
ΩΩ
⋅
=
∑
∈
ne permet hélas pas (semble-t-il ?) de calcul d’erreur, il faut utiliser une méthode un peu plus complexe.
En contrepartie on peut estimer (facilement) l’EQM avec un LMM.
2) Quid du biais ?
Validation de méthode SAE : le problème vient du biais surtout - la variance est de fait un problème plus annexe !
Méthode 1 :
Régression des estimations SAE sur les estimations directes
0 10000 20000 30000 40000 50000
0 10000 20000 30000 40000 50000 60000
Situation des FEMMES - J TOUTES communes
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
0 2000 4000 6000 8000 10000 12000 14000
Situation des FEMMES - J Selection de communes
d dir
d SAE
d
ˆ
ˆ θ ε
θ
= +(
dSAE)
s( )
ddir s ds
ˆ y E ˆ y E
E θ
=θ
+ε
≈ dd
E
sε
θ
+Nuage « symétrique »
⇒
Conditionnellement ày
(aléa surs
), lesε
d sont a priori i.i.d.⇒
D 0 E 1
D
1
i d
s d ≈
∑
≈=
ε
ε
.Phénomène classique de SHRINKAGE - révélateur d’un (ici modeste) biais.
Test de shrinkage : pente de régression = 1
Phénomène manifeste d’OVER SHRINKAGE !!!
Shrinkage : « écrasement » de la distribution des
Yˆ
dSAE par rapport à celle desYˆ
d ;Over shrinkage : « écrasement » de la distribution des
SAE
Yˆ
d par rapport à celle desY
d .→ fort biais
Formation du shrinkage
Propriétés d’ensemble
Propriétés d’ensemble
La situation « classique » : imaginer qu’avec 1000 tirages, les point rouge et vert du nuage évoluent dans des rectangles décalés par rapport à la bissectrice :
Il n’y a pas de fatalité au shrinkage « visible » (donc au biais « significatif »).
Le shrinkage relève des propriétés d’ensemble.
L’absence de shrinkage (visible) ne préjuge pas des propriétés ponctuelles des estimateurs. Ce n’est pas incompatible avec une (forte) réduction de variance de chaque estimateur
θ ˆ
dSAE par rapport àθ ˆ
dDirect.Méthode 2 :
Comparaison avec une estimation directe nationale (ou à un niveau géographique moindre)
* Exemple de l’enquête Famille-Logements (EFL)*
Variable
Estimation petits domaines
Estimation directe
ECAR T
% Nombre de grands-pères 5 923 000 5 991 000 -1 Nombre de grands-mères 8 242 000 8 292 000 -1
Nombre d’hommes en couple non-cohabitant
690 000 616 000 +12
Nombre de femmes en couple non-cohabitant
813 000 747 000 +9
Nombre d’enfants (-18 ans) vivant en famille
traditionnelle
10 170 000 9 579 000 +6
Nombre d’enfants (-18 ans) vivant en famille recomposée
1 600 000 1 528 000 +5
Nombre de PACS hommes 521 000 823 000 - 37 Nombre de PACS femmes 485 000 790 000 - 39
Nombre d’hommes de plus de 74 ans, vivant seul, avec au moins un enfant vivant dans la même commune
57 000 77 000 - 26
Nombre de femmes de plus de 74 ans, vivant seule, avec au
388 000 459 000 -15
*Estimation du nombre de chômeurs par ZE Enquête Emploi 2007, T1
Ensemble des 348 Zones d’Emploi*
Estimateur utilisé Estimation totale Fay et Herriot (ou
synthétique)
2 432 000 Eblup_B 2 441 000 Enquête Emploi 2 436 000
Méthodologie actuelle Insee
2 408 000
*Estimation du nombre de chômeurs par ZE Enquête Emploi 2007, T1
Limitation à 209 Zones d’Emploi*
Estimateur utilisé Estimation totale Calage local 2 649 000 Enquête Emploi 2 170 000
Méthodologie actuelle Insee
2 078 000
*Estimation du nombre de chômeurs par ZE Enquête Emploi 2007, T1
Modélisation de Poisson*
Z E A T
Poisson classique
Poisson
mixte Direct Insee
Ecart Poisson
clas- -sique
Ecart Poisson
mixte
Ecart Insee
1 514 891 500 040 514 275 459 889 0,1 % 2,8 % 10,6 % 2 406 869 408 705 394 334 403 680 3,2 % 3,6 % 2,4 % 3 202 598 214 479 218 159 200 330 7,1 % 1,7 % 8,2 % 4 201 926 199 104 181 870 201 225 11,0 % 9,5 % 10,6 % 5 259 729 261 852 257 199 277 946 1,0 % 1,8 % 8,1 % 7 242 207 251 550 247 656 248 665 2,2 % 1,6 % 0,4 % 8 234 547 246 667 241 831 250 347 3,0 % 2,0 % 3,5 % 9 367 980 366 851 361 093 365 490 1,9 % 1,6 % 1,2 %
2 431 000 2 449 000 2 416 000 2 408 000 Sigma = 29,5
Sigma=
24,6
Sigma=
45,0
Nota : on appliquera ensuite un « benchmarking ».
Méthode 3 :
Source (pseudo) externe si elle existe - Extension locale (HID)
- Recensement (EFL pour certaines petites communes)
* Enquête EFL / estimations communales *
Quantile
Grands-pères Ecart relatif
%
PACS Ecart relatif
%
PACS Ecart absolu
Max 100% 82 400 8
99% 67 300 4
95% 26 150 3
90% 17 100 2
Q3 6 18 1
Médiane - 3 - 20 0
Q1 - 12 - 50 -2
10% - 18 - 100 -3
5% - 22 - 100 -4
1% - 38 - 100 -7
Min 0% - 50 - 100 -13
Méthode 4 :
Diagnostic de couverture intuitif
Comparer les
θ ˆ
dSAE aux IC(95%) d'estimateurs directs.Intuitif et « peu couteux » - mais non rigoureux car ne tient pas compte de la variabilité de
θ ˆ
ddirect (vérifier 95%de couverture des IC est inexact)
- A appliquer seulement pour des
θ ˆ
dSAE synthétiques - Dans ce cas, sert à détecter le besoin d’inclure uneffet aléatoire local
Piège avec les estimateurs mixtes :
direct ,
ˆ
Dθ
: n’importe quel estimateur directSYN , D
θ ˆ
: n’importe quel estimateur synthétique(
D)
D,SYN direct, D D COMP
,
D
. ˆ 1 . ˆ
ˆ φ θ φ θ
θ
= + −avec
φ
D∈ [ ] 0 , 1
φ
Méthode 5 :
Diagnostic de couverture « avancé »
ˆ )
(
IC θ
ddirect =θ ˆ
ddirect ±k
0,05 ⋅Vˆ θ ˆ
ddirectˆ )
(
IC θ
dSAE =θ ˆ
dSAE ±k
0,05 ⋅Vˆ θ ˆ
dSAEen calculant
SAE d direct d 1
SAE d direct d 05
,
0
Vˆ ˆ
Vˆ ˆ ˆ 1
Vˆ Vˆ ˆ 1
. 2
k θ θ
θ
θ
⋅ +
+
=
−
Si
E ( ) θ ˆ
dSAE =θ
d alors 95% de cesIC
se recoupent.D’où un test avec la stat.
N B ( D ; 0 . 95 )
0 H recoupe
D →
Méthode 6 :
Goodness of fit TEST
( )
( ) ( )
∑
=
+
=
D−
1
d SAE
d direct
p d
SAE 2 d direct
d
mse ˆ Vˆ ˆ
ˆ W ˆ
θ θ θ θ
ξ
Si
E ( θ ˆ
dSAE) = θ
d et lesn
d « pas trop petits », alors :
χ
C
ONCLUSION DE CETTE PARTIE:En pratique, le classement des méthodes est délicat : - on a au moins 3 types de critères : le biais, la
MSE, les critères d’ajustement de modèle ;
- les critères de biais sont plutôt qualitatifs ou de type oui / non;
- il faut un indicateur global, sur l’ensemble des domaines ;
- expériences françaises : on ne dispose pas des MSE estimées …
**
Choix du modèle explicatif **
1) Possibilité de sélection de variables avec les modèles linéaires
(méthodes « Stepwise » + critères multiples mais - avec SAS du moins - le modèle est standard).
Que fait-on avec un modèle NON linéaire ? (base de données pour l’estimation du nombre de chômeurs ≈
350
variables … )2) Pour les modèles individuels : effet local fixe, effet local aléatoire ? L'effet fixe est probablement plus simple à comprendre et plus naturel mais la qualité de son estimation sera déplorable - ce qui est une source de perplexité …
i , d d
i , d i
,
d
x
y
= ⋅β
+µ
+ε
( )
=
d
d
n
O 1 ˆ
V µ
( )
= n
O 1
V β ˆ
3) Pondération ou non des régressions ?
Expérience « Chômage par ZE », modèle logistique :
→ Effets certes majeurs sur certains paramètres - Mixte NON pondéré :
σ ˆ
v2 =0 . 082
(0.017) - Mixte pondéré :σ ˆ
v2 =4 . 839
(0.426)Random local effects
Non weighted model FREQUENCY
0 10 20 30 40 50 60 70 80 90 100
v_d_Nonpond MIDPOINT
-0.6 -0.5 -0.4 -0.3 -0.2 -0.1 -0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
Random local effects
Weighted model FREQUENCY
0 10 20 30 40 50 60 70 80 90 100
- - - - - - - - - - - - - - - - 0 0 1 1 2 2 3
Néanmoins, la distribution des estimations
θ ˆ
dSAE apparaît in fine peu sensible à la question…4) Parce que
n
est (très) grand, n’y a-t-il pas un coté illusoire dans les tests (pour valider la présence ou non d’un régresseur) ?5) Faut-il que toute variable retenue se prête à une interprétation « naturelle » ? (ex : proportion de la population en catégorie Tabard « Hôtellerie, restauration » pour expliquer le chômage …)
6) Comment comparer des modèles non emboités - puisque les critères utilisant des vraisemblances pénalisées, comme AIC, ne s’appliquent pas dans ce contexte ?
On peut en revanche utiliser la cross-validation, qui me semble informative en toute circonstance.
Suggestion Essnet :
( y B , v ) 2 . Tr ( H )
f log 2
cAIC = − +
où
Yˆ
=H . Y
=
) H (
Tr
nombre de paramètres du modèle(bien adapté au cas des tirages à plusieurs degrés)
(
d d( )d)
2d d
d d
ˆ 1 ˆ
CV
=∑
⋅ − −∑ ω ω θ θ
par exemple avec
ω
d =Ψ
d +mse θ ˆ
d(−d )7) Modèle implicite : sélection des variables en cas de variables qualitiatives multiples dans un modèle additif ?
⇒
regrouper des cases a posteriori, ou utiliser un algorithme qui s’en charge (type CHAID) : les estimations statistiques priment-elles sur l’interprétation ?8) Intégration ou non des variables géographiques dans le modèle (un modèle par niveau géographique ?).
**
Quelques difficultés techniques **
1) Il faudrait reprendre toute la théorie car la source auxiliaire est supposée exhaustive : problème avec le RP pour les « petites » grandes communes !!!
Si
B
etσ
v2sont connus :( 1 ) X B
Tˆ
Tˆ
dFH =γ
d ⋅ d + −γ
d ⋅ dT( 1 ) Xˆ B
Tˆ
Tˆˆ
dFH =γ
d ⋅ d + −γ
d ⋅ dTd 2
v 2 v
d
σ σ Ψ
γ = +
= ) Tˆˆ ( MSE
dFH( 1 ) B MSE ( Xˆ ) B
) Tˆ (
MSE
dFH+ − γ
d 2⋅
T⋅
d⋅
Cela nécessite l’estimation de
MSE ( Xˆ
d)
. CommeB
etσ
v2sont INconnus :( 1 ˆ ) Xˆ B ˆ
Tˆ ˆ
T ~
Td d
d d FH
d =
γ
⋅ + −γ
⋅( ) ( )
d dT 2
v
d T
2 v
d
ˆ B ˆ MSE Xˆ B ˆ
B ˆ Xˆ
MSE B ˆ
ˆ ˆ
Ψ σ σ
γ
+ ⋅ ⋅ +⋅
⋅
= +
+ on dispose d’une estimation de la
MSE ( ) T ~
dFH .Mais
B ˆ
et 2ˆ
vσ
sont (très) complexes.2) Instabilité de l’estimation de variance d'échantillonnage locale (si modèle niveau domaine) : il faut lisser les variances d’échantillonnage (fonction de variance ?) sinon
0 ˆ
v2 =σ
.3) Calage « local » : méthode d'inspiration individuelle évitant l’appariement mais risque de régresseur nul
→Estimation du chômage par ZE : on a perdu de ce fait 170 ZE sur 287 (nullité DEFM en particulier)
∑ w
⋅X
=X
4) Modèle de Poisson : autoriser un paramètre d’over dispersion
φ
- la phase d’ajustement décidera par elle-même …) v N ˆ ( E )
v N ˆ (
Var
dc d =φ
⋅ dc d**
Pistes de progrès **
1) Eviter l’isolement - qui n’est pas profitable…
2) Ne pas refaire le monde … comprendre et utiliser ce qui existe déjà : centrer sur l’activité d’ingénierie stricto sensu (voir projets européens) ;
3) Militer pour des échantillonnages moins compliqués …
⇒
obstacle systématique pour tout modèle de type F&H.4) Penser aux empilements d'échantillons
5) Penser en amont aux variables explicatives qui devraient être incluses dans le questionnaire
6) Se rappeler que le calage d’un fichier national sur marges locales n’a qu’un coût très limité
B ˆ X
Tˆ
D,SYN = D ⋅ se comporte comme l’estimateur par calage utilisant l’échantillons
complet et les poids initiaux normésN ˆ N ˆ d
d
i,mod = i ⋅ D .( )
( )
∑
∑
∈
∈
=
⋅
s
i i i D
s
i i i,mod
W
X X
W
d , W D Min
i
with
i =
X
vecteur des variables indicatrices.Puis
s i i
cal i syn
_ cal ,
D
W . Y
Tˆ ∑
=
∈→ Méthode pressentie pour les indicateurs régionaux tirés de SILC