Estimation sur petits domaines à l’Insee:

(1)

Estimation sur petits domaines à l’Insee:

premier bilan et pistes de progrès

Colloque francophone sur les sondages, Rennes, 2012

Pascal Ardilly

Insee - Direction de la méthodologie

(2)

Que peut-on trouver à l’Insee sur le sujet ?

Destandeau, 1996, "Estimation sur petits domaines : application à l’enquête Education 92" (Actes JMS);

Attal-Toubert, Sautory, 1998, "Estimation de données régionales à l'aide de techniques d'analyse multidimensionnelle" (Document Insee);

Couet, 2002, "Estimations locales dans le cadre de l'enquête HID" (Document Insee);

Pan Ké Shon, Vivier, 2002, "Estimation de l'isolement relationnel dans trois zones urbaines sensibles" (Actes JMS) ;

Ardilly, 2006, "Panorama des principales méthodes d'estimation sur les petits domaines" (Document Insee);

Fesseau et alii, 2007, "Estimations sur petits domaines à partir d'une enquête sur l'illettrisme" (Colloque francophone sur les sondages);

Le Guennec, 2012, "Estimations départementales du handicap à partir de l'enquête Handicap-santé 2008" (Actes JMS);

Le Guennec, 2012, "Application de méthodes petits domaines à des estimations régionales dans l'enquête national Transport 2007-2008" (Actes JMS);

(3)

+ variantes + notes internes + rapports de stage …

+ quelques faits (plus ou moins) ignorés : estimation départementale du chômage (par exemple).

Opérations (connues) en cours : - EFL (niveau communal)

- Indicateurs de pauvreté, SILC (niveau régional) - Innovation (enquête auprès des entreprises)

DONC :

Une préoccupation grandissante à l'Insee, sous l'impulsion en particulier :

- du manque de moyens financiers, - d'Eurostat (Essnet, règlements…),

mais les compétences de la statistique publique française sur ce sujet restent encore bien limitées …

(4)

Et hors Insee ?

Colloque francophone sur les sondages : 1 présentation (2007 - Attal-Toubert & Sautory) Les SSM ? Les universités ?

Environnement / projets européens

Environnement CROS (Collaboration between Researchers and Official Statisticians)

http://www.cros-portal.eu/page/small-area-estimation

EURAREA : projet général autour des techniques avancées d’estimation sur petits domaines (modèles spatiaux, temporels, SPREE (=cross-classification) ) (Grande-Bretagne - coordonateur - Italie, Espagne, Suède, Norvège, Finland, Pologne)

http://www.ons.gov.uk/ons/guide-method/method- quality/general-methodology/spatial-analysis-and-

(5)

SAMPLE : projet consacré à la pauvreté et aux conditions de vie, avec application Web diffusée (Italie, Grande Bretagne, Espagne, Pologne - uniquement des universités)

http://www.sample-project.eu/

AMELI : projet consacré aux indicateurs d’inégalité (indicateurs de Laeken)

http://www.ameli.surveystatistics.net/

BIAS : projet tourné vers l’intégration de données de sources différentes et le traitement simultané de modèles par des techniques bayésiennes

http://www.bias-project.org.uk/index.htm

Environnement ESS (European Statistical System)

Essnet SAE (Italie - coordonateur - Grande-Bretagne, Pays-Bas, Norvège, Allemagne, Suisse, Espagne, Pologne, France)

(6)

→ Pays (qui semblent) les plus avancés :

- Grande Bretagne (forte coopération avec l'université)

- Italie (forte coopération avec l'université) - Pays-Bas

- Pays scandinaves

Ouvrages :

J.N.K. Rao, 2003, "Small area estimation", Wiley

N. Longford, 2005, "Missing data and small-area estimation", Springer

P. Mukhopadhyay, 1998, “Small area estimation in survey sampling”, Narosa

+ Recueil de Platek, Rao, Särndal, Singh, 1987, "Small area statistics", Wiley

+ Actes colloques internationaux spécialisés « Small

(7)

Ce qui suit résulte d’une prise de conscience (plus ou moins tardive) d’aspects importants à souligner, de points mal compris, ou de pièges.

Ces points sont abordés - par contrainte - de

manière superficielle…

(8)

**

Aspects stratégiques **

1) Accepte-t-on les estimations dépendantes de modèles (nota : on le fait pour la non-réponse) - et donc le biais ?

Mais quelle est l'alternative ?

Exemples vécus peu crédibles … (source : EFL) Aucune grand-mère à Cahors

Aucun homme pacsé à Bastia

Aucun enfant n’est gardé en crèche à Narbonne …

→ le cas échéant, calage sur marges locales (si on dispose de marges locales satisfaisantes ! )

2) Comment juger de la pertinence d'un modèle sur les parties des domaines qui ne sont pas observées ?

i, d T

i, d i,

d

X B e

Y = ⋅ +

^et

Var _{( )} e

_d_,_i

= σ

_e²

> 0

a) on a peu d'information locale, comment détecter

(9)

→ La question semble insoluble :



 









 









 









 









 









 







→



 









 







Σ , B

...

B B . X ...

X X

N y

y y

D 2 1

D 2

1

D 2 1

r r r

B B

d :

H

₀

∀

_d

=

???

Mais

^Var ( ) ^B ^ˆ

^d

⁼ 



 



 n

d

O 1

⇒

on va très (trop) souvent accepter H₀.

→ il faudrait une source externe pour s’en convaincre

→ la présence de termes aléatoires locaux

v

_d apporte un échappatoire confortable.

i , d d

T i , d i

,

d

X B v e

Y = ⋅ + +

^et

^Var ( ) ^v

d =

σ

v² >

⁰

En espérance, la question peut toujours être

(10)

b) l’ensemble (échantillonnage + non-réponse) doit être non informatif.

Hypothèse : il existe un modèle

l ( y x , θ )

→ on estime

θ

à partir de

l ( y

_d

x

_d

, θ )

(11)

Soit

^r ⁼ { ^répondants }

. Les données complètes sont les

( ^y

^dr

^, ¹

⁽^s^,^r⁾

) ^, ^d ^∈ ^D

^.

(

^dr ^d^r ⁽^s^,^r⁾ ^d

)

^d^r

d ) r , s (

dr

, 1 x , ) l y , y , 1 x , dy

y (

l ^r θ = ∫ ^r θ

⁼ ^∫ ^l ( ^y

^dr

^, ^y

^d^r

¹

⁽^s^,^r⁾

^, ^x ^r

^d

^, ^θ ) ^⋅ ^p ⁽ ^s ^, ^r ^x ^r

^d

⁾ ^dy

^d^r

⁼ ^p ( ^s ^, ^r ^x ^r

^d

) ^⋅ ^∫ ^l ( ^y

^dr

^, ^y

^d^r

¹

⁽^s^,^r⁾

^, ^x ^r

^d

^, ^θ ) ^dy

^d^r

⁼ ^p ( ^s ^, ^r ^x ^r

^d

) ( ^⋅ ^∫ ^l ^y

^d

^x ^r

^d

^, ^θ ) ^dy

^d^r

(12)

3) Faut-il accepter que les poids de sondage ne soient pas impliqués ?

i , d d

T i , d i

,

d

X B v e

Y = ⋅ + +

( ^Yˆ ^Xˆ ^B ^ˆ )

B ˆ ˆ X

Yˆ

_d^SAE = _d^T ⋅ +

γ

_d _d − _d^T ⋅

→ Primo, l’implication des poids reste possible :

- F^&H (estimateur ‘design-biased’ mais convergent)

- Estimateurs pseudo-EBLUP (convergent)

(

^d^,^w ^d^T^,^w ^w

)

w , d w

T

d

B ˆ ˆ Yˆ Xˆ B ˆ

X

⋅ +

γ

⋅ − ⋅

- idem pour les modèles à variables qualitatives

→ On prétend qu’il existe un mécanisme universel qui existe au-delà de la population (super-population) et

- les modèles sont supposés bien spécifiés - l’échantillonnage est supposé non informatif

(13)

**

Choix de méthode & modèle **

Critères de choix de modèle

Modèle Information

auxiliaire

X

Stratégie de

prédiction Prédicteur

théorique

Méthodologie d’estimation des

paramètres

β ^ˆ

_et

Σ ^ˆ

Prédicteur

Tˆˆ

D

(14)

1) Les modèles stochastiques (versus estimateur

« descriptif »)

- permettent en général de réduire les biais des estimateurs SAE - via l’introduction d’un effet local

v

d (sinon, on se contente du modèle implicite)

- n’apportent rien si les domaines sont de très petite taille (

γ

_d ≈

0

: on récupère du synthétique ≈^pur)

- à l’inverse ils peuvent conduire à des estimations numériquement peu crédibles (population rare en particulier) à cause de l’effet local

vˆ

_d, non

« maitrisé » numériquement

d T

d SAE

d

X B ˆ vˆ

Yˆ

= ⋅ +

( ^y ^X ^B ^ˆ )

ˆ

vˆ

_d =

γ

_d ⋅ _d − _d^T ⋅

Ennuyeux en production de masse - évidemment on peut toujours tronquer (arbitrairement …)

- sont plus compliqués à expliquer (aspect diffusion)

(15)

2) Modèle niveau domaine ou niveau individu ?

S’il y a peu de domaines (régions…) le modèle au niveau domaine n’est pas envisageable.

Le niveau domaine s’appuie sur davantage d’information auxiliaire en pratique, mais on peut supposer que les liaisons complexes

X ↔ Y

sont moins bien reproduites

Dans les modèles individuels, la question de la disponibilité de l'information auxiliaire est centrale.

i , d d

T i , d i

,

d

X B v e

Y = ⋅ + +

( ^Yˆ ^Xˆ ^B ^ˆ )

B ˆ ˆ X

Yˆ

_d^SAE = _d^T ⋅ +

γ

_d _d − _d^T ⋅

Elle doit être :

a) explicative de la variable d'intérêt ; b) présente dans le questionnaire ;

c) présente dans la source auxiliaire - et relever exactement du même concept.

(16)

En outre, une source auxiliaire doit concerner toute la population couverte (ou permettre une inférence) ; par exemple, ce n’est pas le cas du fichier DEFM seul !

Avec les modèles linéaires, on peut utiliser des sources multiples (origines diverses des composantes de

X

_d).

Avec les modèles NON linéaires, nécessité d'un appariement individuel → obstacle dû à l’absence d’identifiants communs entre sources.

) P , 1 ( B

1

_i_∈_c → _d_,_i

d T

i , d i

, d i ,

d

X B v

P 1

Log P

= ⋅ +

− ^avec

Var ( ) v

d =

σ

v²

=

SAE , c

N ˆ

d

∑

∈∈ ∈ +

d i

s

i

1

i c

( )

∑

∈∉ + ⋅ +

+

⋅

d i

s

i d

T i, d

d T

i, d

ˆ vˆ X

exp 1

ˆ vˆ X

exp

β β

Conséquence : estimation localisée du chômage : source auxiliaire limitée au RP (mais pas de DEFM…)

(17)

Exception : si

σ

_v² =

0

et si les variables de

X

_d_,_i sont toutes qualitatives, on peut se contenter d’une source de dénombrements croisant (toutes) les modalités.

=

SAE , c

N ˆ

d

( )

( ) ^∑

∑

∈

∈ + +

⋅ +

⋅ = +

⋅

d

i u v

v u

v , d u

i T

i , d T

i , d

ˆ ) exp( ˆ

1 ˆ ) exp( ˆ

ˆ N X

exp 1

X ˆ exp

β β β β

β β

Données auxiliaires nécessaires et suffisantes - selon la méthode

Modèle / méthode Base de données auxiliaires

Echantillon Calage local Vrais totaux /

moyennes

Données individuelles Fay & Herriot Vrais totaux /

moyennes

Néant Modèle

individuel linéaire

Vrais totaux / moyennes

Données individuelles Poisson Vrais totaux /

moyennes

Néant Logistique Données

individuelles

Données individuelles

(18)

Problème d’homogénéité entre sources :

« Chômage spontané déclaré au RP » versus

« Chômage spontané déclaré à l’enquête Emploi ».

(19)

Sur 101 ZE où le calage a été effectué : Estimateur utilisé Estimation

totale Calage 1 997 000 Enquête Emploi 1 667 000

Méthodologie actuelle Insee

1 542 000

∑

∩

∈ ⋅ =

d s

i

w

i

X

i

X

d

i =

X

recherche d’emploi dans le questionnaire Emploi

d =

X

recherche d’emploi dans le questionnaire du recensement

Problème en partie réglé par benchmarking.

Noter que cette question d’homogénéité ne se pose pas pour les modèles d’inspiration agrégée (niveau domaine) - où la « bonne » corrélation

Y

_d ↔

X

_d^suffit.

(20)

3) Disponibilité des outils informatiques en SAS : qu’est-ce qui peut être facilement récupéré ?

- EBLUP « basique » - niveau domaine et individu (avec estimation de MSE) ;

i , d d

T i , d i

,

d

X B v e

Y = ⋅ + +

- EBLUP - modèle temporel (avec estimation de MSE) ;

t , i , d t

, d T

t , i , d t

, i ,

d

X B v e

Y = ⋅ + +

) 1 ( AR

v

_d_,_t → ^ou

v

_d_,_t =

α

_d ⋅

t

+

β

_d

- EBLUP - modèle spatial (avec estimation de MSE) :

i , d d

T i , d i

,

d

X B v e

Y = ⋅ + +

=

) v , v (

Cov

_d₁ _d₂ 



 



⋅ 

) 2 d , 1 d ( exp dist

2 v

σ φ

(21)

- Estimation SPREE (avec MSE par bootstrap) C’est un estimateur synthétique assurant :

,.

d d d,i

Y ~

∑ Yˆ

₌

i i d,i

Y ~

.,

∑ Yˆ

₌

i d

i , d

X

Log Y

=

α

+

β

+

δ

Concrètement, c’est la résultante d’un raking ratio effectué à partir de la structure initiale

X

_d_,_i.

(22)

On dispose aussi de généralisations :

Modèle dit “Generalized Linear Structural Model » - GLSM :

∑

₌

− ⁻

j d,j

1 i

,

d

I LogY

LogY



 



 −

⋅

+ ⁻

∑

j d,j

1 i

, d

i

β LogX I LogX

λ

^avec

⁰

i i =

∑ _λ

Modèle dit “Generalized Linear Structural Mixed Model” - GLSMM

∑

₌

− ⁻

j d,j

1 i

,

d

I LogY

LogY



 



 −

⋅

+ ⁻

∑

j d,j

1 i

, d

i

β LogX I LogX

λ

+

^v

_d_,_i

0

i i =

∑ _λ

et

( ^v

_d_,₂

^, ^v

_d_,₃

^,..., ^v

_d_,_I

)

→

^N ( ) ⁰ ^, Σ

^avec

∑

−

=

^I

2 j d,j 1

,

d

v

(23)

- Prédiction Empirical Bayes (EB) et mse :

)

y ( ˆ E θ θ

=

pour une fonction de répartition (modèle M- quantiles - possibilité d’introduire des coefficients de régression locaux) ;

pour des paramètres non-linéaires de pauvreté (unit level linear model).

(24)

Il existe par ailleurs des procédures écrites en R - en fort développement.

* Modèles utilisés par les INS du groupe Essnet*

Type de modèle Proportion

% Méthodes « design based » 16

Modèles linéaires « de base » 8

Modèles linéaires mixtes (GLM) 24 Modèles linéaires mixtes « avancés » 16 Modèles linéaires mixtes généralisés

(GLMM)

32

Autres 4

La suite relève de considérations de « qualité » de ces modèles.

(25)

**

Qualité des estimateurs SAE **

1) Première tendance : estimer la MSE =

E ( θ ˆ

_d^SAE −

θ

_d

)

²^. Attention, la théorie fournit des estimateurs sans biais, mais l'absence de biais n'est réelle que si le modèle est juste !

Que sait-on faire ? Unité, variable,

estimateur Modèle

Estimation de la MSE Niveau domaine, Y

continue (gaussien)

LMM

(F&H)

Analytique + jackknife + bootstrap (EBP) Niveau individuel, Y

continue (gaussien)

LMM Analytique + jackknife + bootstrap (EBP) Y = comptage ou

indicatrice +

fonction de répartition.

Approche Empirical

Bayes (EB) :

V ( θ ˆ

^sae

y )

GLMM

Jackknife ou bootstrap (paramétrique)

Analytique ? (Jiang & Lahiri) Y = comptage ou

indicatrice + fonction de répartition.

Approche par pseudo

GLMM Modèle approché

?

(26)

Si on s’en tient à un GLM, on devrait s’en sortir honorablement puisque :

) P , 1 ( B

1

_i_∈_c → _d_,_i

β

⋅

− =

T i , d i

, d i ,

d

X

P 1 Log P

=

SAE , c

N ˆ

d

∑

∈∈ ∈ +

d i

s

i

1

i c

( )

∑

∈∉ + ⋅

⋅

d i

s

i T

i , d T

i , d

) s ˆ ( X

exp 1

) s ˆ ( X

exp

β β

= f ( s , β ˆ ( s ))

Or

^β ^ˆ ⁽ ^s ⁾ ^→ ^N ( ^β ^, ^I

⁻¹

⁽ ^β ^, ^s ⁾ )

⁽

ⁿ

^grand)

Curieusement, les développements et l’outil adéquat

ne semblent pas exister …

(27)

Modèle linéaire niveau domaine (F&H) et niveau individu (≈ ^variables quantitatives, continues, gaussiennes) : on dispose d’un estimateur analytique de la MSE - qui reste néanmoins (très) complexe (distinguer 3 niveaux) :

Niveau 1 :

^MSE ( ^γ

^d ^⋅

^Tˆ

^d ⁺

( ¹

⁻

^γ

^d

)

^⋅

^X

^d^T

^B )

Niveau 2 :

^MSE ( ^γ ^ˆ

^d ^⋅

^Tˆ

^d ⁺

( ¹

⁻

^γ ^ˆ

^d

)

^⋅

^X

^d^T

^B ^ˆ )

Niveau 3 : Estimateur de ;

^MSE ( ^γ ^ˆ

^d ^⋅

^Tˆ

^d ⁺

( ¹

⁻

^γ ^ˆ

^d

)

^⋅

^X

^d^T

^B ^ˆ )

RAPPEL : le plus souvent, on ne sait rien dire des propriétés de

θ ˆ

^SAEpar rapport à l'aléa de sondage - si ce n’est que l’estimateur est biaisé (et parfois convergent) !

(28)

Quelques curiosités autour de la variance d’échantillonnage

Ψ

_d (modèle F&H) :

- quel est l’effet d’une substitution de

Ψ ˆ

_d^à

Ψ

_d^?

- à l’évidence

Ψ

_d dépend des

Y

_d_,_i : dans la théorie F&H, elle n’est pas considérée comme aléatoire ;

Conséquence : souci d’homogénéité des concepts (d’équité ?) dans la comparaison de la MSE de l’estimateur SAE avec l’erreur de l’estimateur direct où on ne prend jamais en compte l’aléa du modèle posé !

d d

T d

d

X v e

Yˆ

=

β

+ +

(

^d

⁻

^d

)

²

⁼

s

Yˆ Y

E Var ( ) e

d

= Ψ

d

(

^d^FH ^d

)

²

s ,

Y

E Yˆ − Y ≈ γ

_d

⋅ Ψ

_d⁽

m

grand)

→ il serait plus honnête de comparer avec :

(

^d ^d

)

² _Y ^d

s ,

Y

E Yˆ − Y = E Ψ

(29)

Il faudrait tenir compte de l’effet d’un éventuel benchmarking sur la MSE.

La méthode « simple » traditionnelle :

direct

d

SAE d SAE bench d

, SAE

d

Yˆ

Yˆˆ Yˆ

_Ω

Ω

⋅

=

∑

∈

ne permet hélas pas (semble-t-il ?) de calcul d’erreur, il faut utiliser une méthode un peu plus complexe.

En contrepartie on peut estimer (facilement) l’EQM avec un LMM.

(30)

2) Quid du biais ?

Validation de méthode SAE : le problème vient du biais surtout - la variance est de fait un problème plus annexe !

Méthode 1 :

Régression des estimations SAE sur les estimations directes

0 10000 20000 30000 40000 50000

0 10000 20000 30000 40000 50000 60000

Situation des FEMMES - J TOUTES communes

(31)

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

0 2000 4000 6000 8000 10000 12000 14000

Situation des FEMMES - J Selection de communes

d dir

d SAE

d

ˆ

ˆ θ ε

θ

= +

(

^d^SAE

)

_s

( )

^d^dir _s ^d

s

ˆ y E ˆ y E

E θ

=

θ

+

ε

≈ _d

d

E

s

ε

θ

+

Nuage « symétrique »

⇒

Conditionnellement à

y

(aléa sur

s

), les

ε

_d ^sont ^{a priori} i.i.d.

⇒

D 0 E 1

D

1

i d

s d ≈

∑

≈

=

ε

^.

(32)

Phénomène classique de SHRINKAGE - révélateur d’un (ici modeste) biais.

Test de shrinkage : pente de régression = 1

(33)

Phénomène manifeste d’OVER SHRINKAGE !!!

Shrinkage : « écrasement » de la distribution des

Yˆ

_d^SAE par rapport à celle des

Yˆ

_d ;

Over shrinkage : « écrasement » de la distribution des

SAE

Yˆ

d par rapport à celle des

Y

_d .

→ fort biais

(34)

Formation du shrinkage

(35)

Propriétés d’ensemble

(36)

Propriétés d’ensemble

(37)

La situation « classique » : imaginer qu’avec 1000 tirages, les point rouge et vert du nuage évoluent dans des rectangles décalés par rapport à la bissectrice :

(38)

Il n’y a pas de fatalité au shrinkage « visible » (donc au biais « significatif »).

Le shrinkage relève des propriétés d’ensemble.

L’absence de shrinkage (visible) ne préjuge pas des propriétés ponctuelles des estimateurs. Ce n’est pas incompatible avec une (forte) réduction de variance de chaque estimateur

θ ˆ

_d^SAE par rapport à

θ ˆ

_d^Direct^.

(39)

Méthode 2 :

Comparaison avec une estimation directe nationale (ou à un niveau géographique moindre)

* Exemple de l’enquête Famille-Logements (EFL)*

Variable

Estimation petits domaines

Estimation directe

ECAR T

% Nombre de grands-pères 5 923 000 5 991 000 -1 Nombre de grands-mères 8 242 000 8 292 000 -1

Nombre d’hommes en couple non-cohabitant

690 000 616 000 +12

Nombre de femmes en couple non-cohabitant

813 000 747 000 +9

Nombre d’enfants (-18 ans) vivant en famille

traditionnelle

10 170 000 9 579 000 +6

Nombre d’enfants (-18 ans) vivant en famille recomposée

1 600 000 1 528 000 +5

Nombre de PACS hommes 521 000 823 000 - 37 Nombre de PACS femmes 485 000 790 000 - 39

Nombre d’hommes de plus de 74 ans, vivant seul, avec au moins un enfant vivant dans la même commune

57 000 77 000 - 26

Nombre de femmes de plus de 74 ans, vivant seule, avec au

388 000 459 000 -15

(40)

*Estimation du nombre de chômeurs par ZE Enquête Emploi 2007, T1

Ensemble des 348 Zones d’Emploi*

Estimateur utilisé Estimation totale Fay et Herriot (ou

synthétique)

2 432 000 Eblup_B 2 441 000 Enquête Emploi 2 436 000

2 408 000

*Estimation du nombre de chômeurs par ZE Enquête Emploi 2007, T1

Limitation à 209 Zones d’Emploi*

Estimateur utilisé Estimation totale Calage local 2 649 000 Enquête Emploi 2 170 000

2 078 000

(41)

*Estimation du nombre de chômeurs par ZE Enquête Emploi 2007, T1

Modélisation de Poisson*

Z E A T

Poisson classique

Poisson

mixte Direct Insee

Ecart Poisson

clas- -sique

Ecart Poisson

mixte

Ecart Insee

1 514 891 500 040 514 275 459 889 0,1 % 2,8 % 10,6 % 2 406 869 408 705 394 334 403 680 3,2 % 3,6 % 2,4 % 3 202 598 214 479 218 159 200 330 7,1 % 1,7 % 8,2 % 4 201 926 199 104 181 870 201 225 11,0 % 9,5 % 10,6 % 5 259 729 261 852 257 199 277 946 1,0 % 1,8 % 8,1 % 7 242 207 251 550 247 656 248 665 2,2 % 1,6 % 0,4 % 8 234 547 246 667 241 831 250 347 3,0 % 2,0 % 3,5 % 9 367 980 366 851 361 093 365 490 1,9 % 1,6 % 1,2 %

2 431 000 2 449 000 2 416 000 2 408 000 Sigma = 29,5

Sigma=

24,6

Sigma=

45,0

Nota : on appliquera ensuite un « benchmarking ».

(42)

Méthode 3 :

Source (pseudo) externe si elle existe - Extension locale (HID)

- Recensement (EFL pour certaines petites communes)

* Enquête EFL / estimations communales *

Quantile

Grands-pères Ecart relatif

%

PACS Ecart relatif

%

PACS Ecart absolu

Max 100% 82 400 8

99% 67 300 4

95% 26 150 3

90% 17 100 2

Q3 6 18 1

Médiane - 3 - 20 0

Q1 - 12 - 50 -2

10% - 18 - 100 -3

5% - 22 - 100 -4

1% - 38 - 100 -7

Min 0% - 50 - 100 -13

(43)

Méthode 4 :

Diagnostic de couverture intuitif

Comparer les

θ ˆ

_d^SAE aux IC(95%) d'estimateurs directs.

Intuitif et « peu couteux » - mais non rigoureux car ne tient pas compte de la variabilité de

θ ˆ

_d^direct (vérifier 95%

de couverture des IC est inexact)

- A appliquer seulement pour des

θ ˆ

_d^SAE synthétiques - Dans ce cas, sert à détecter le besoin d’inclure un

effet aléatoire local

Piège avec les estimateurs mixtes :

direct ,

ˆ

D

θ

: n’importe quel estimateur direct

SYN , D

θ ˆ

: n’importe quel estimateur synthétique

(

D

)

D,SYN direct

, D D COMP

,

D

. ˆ 1 . ˆ

ˆ φ θ φ θ

θ

= + −

avec

φ

D

∈ [ ] ⁰ ^, ¹

φ

(44)

Méthode 5 :

Diagnostic de couverture « avancé »

ˆ )

(

IC θ

_d^direct ⁼

θ ^ˆ

_d^direct ±

^k

₀_,₀₅ ⋅

^Vˆ θ ^ˆ

_d^direct

ˆ )

(

IC θ

_d^SAE ⁼

θ ^ˆ

_d^SAE ±

^k

₀_,₀₅ ⋅

^Vˆ θ ^ˆ

_d^SAE

en calculant

SAE d direct d 1

SAE d direct d 05

,

0

Vˆ ˆ

Vˆ ˆ ˆ 1

Vˆ Vˆ ˆ 1

. 2

k θ θ

θ

_⋅ ₊











 +

=

−

Si

^E ( ) ^θ ^ˆ

^d^SAE ⁼

^θ

^d alors 95% de ces

IC

se recoupent.

D’où un test avec la stat.

^N ^B ( ^D ^; ⁰ ^. ⁹⁵ )

0 H recoupe

D →

Méthode 6 :

Goodness of fit TEST

( )

( ) ( )

∑

=

+

=

^D

−

1

d SAE

d direct

p d

SAE 2 d direct

d

mse ˆ Vˆ ˆ

ˆ W ˆ

θ θ θ θ

ξ

Si

E ( θ ˆ

_d^SAE

) = θ

_d^{et les}

n

_d « pas trop petits », alors :

χ

(45)

C

ONCLUSION DE CETTE PARTIE:

En pratique, le classement des méthodes est délicat : - on a au moins 3 types de critères : le biais, la

MSE, les critères d’ajustement de modèle ;

- les critères de biais sont plutôt qualitatifs ou de type oui / non;

- il faut un indicateur global, sur l’ensemble des domaines ;

- expériences françaises : on ne dispose pas des MSE estimées …

(46)

**

Choix du modèle explicatif **

1) Possibilité de sélection de variables avec les modèles linéaires

(méthodes « Stepwise » + critères multiples mais - avec SAS du moins - le modèle est standard).

Que fait-on avec un modèle NON linéaire ? (base de données pour l’estimation du nombre de chômeurs ≈

350

variables … )

2) Pour les modèles individuels : effet local fixe, effet local aléatoire ? L'effet fixe est probablement plus simple à comprendre et plus naturel mais la qualité de son estimation sera déplorable - ce qui est une source de perplexité …

i , d d

i , d i

,

d

x

y

= ⋅

β

+

µ

+

ε

( )

_



 



= 

d

n

O 1 ˆ

V µ

( )

⁼ ^_^ ^_^

n

O 1

V β ˆ

(47)

3) Pondération ou non des régressions ?

Expérience « Chômage par ZE », modèle logistique :

→ Effets certes majeurs sur certains paramètres - Mixte NON pondéré :

σ ˆ

_v² =

0 . 082

^(0.017) - Mixte pondéré :

σ ˆ

_v² =

4 . 839

^(0.426)

Random local effects

Non weighted model FREQUENCY

0 10 20 30 40 50 60 70 80 90 100

v_d_Nonpond MIDPOINT

-0.6 -0.5 -0.4 -0.3 -0.2 -0.1 -0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

Random local effects

Weighted model FREQUENCY

0 10 20 30 40 50 60 70 80 90 100

- - - - - - - - - - - - - - - - 0 0 1 1 2 2 3

(48)

Néanmoins, la distribution des estimations

θ ˆ

_d^SAE apparaît in fine peu sensible à la question…

4) Parce que

n

est (très) grand, n’y a-t-il pas un coté illusoire dans les tests (pour valider la présence ou non d’un régresseur) ?

5) Faut-il que toute variable retenue se prête à une interprétation « naturelle » ? (ex : proportion de la population en catégorie Tabard « Hôtellerie, restauration » pour expliquer le chômage …)

(49)

6) Comment comparer des modèles non emboités - puisque les critères utilisant des vraisemblances pénalisées, comme AIC, ne s’appliquent pas dans ce contexte ?

On peut en revanche utiliser la cross-validation, qui me semble informative en toute circonstance.

Suggestion Essnet :

( ^y ^B ^, ^v ) ² ^. ^Tr ⁽ ^H ⁾

f log 2

cAIC = − +

où

Yˆ

=

H . Y

=

) H (

Tr

nombre de paramètres du modèle

(bien adapté au cas des tirages à plusieurs degrés)

(

^d ^d( )^d

)

²

d d

ˆ 1 ˆ

CV

=

∑

⋅ − ⁻

∑ _ω ^ω ^θ ^θ

par exemple avec

ω

_d =

Ψ

_d +

mse θ ˆ

_d⁽⁻^d ⁾

7) Modèle implicite : sélection des variables en cas de variables qualitiatives multiples dans un modèle additif ?

(50)

⇒

regrouper des cases a posteriori, ou utiliser un algorithme qui s’en charge (type CHAID) : les estimations statistiques priment-elles sur l’interprétation ?

8) Intégration ou non des variables géographiques dans le modèle (un modèle par niveau géographique ?).

(51)

**

Quelques difficultés techniques **

1) Il faudrait reprendre toute la théorie car la source auxiliaire est supposée exhaustive : problème avec le RP pour les « petites » grandes communes !!!

Si

B

et

σ

_v²sont connus :

( ¹ ) ^X ^B

Tˆ

_d^FH =

γ

_d ⋅ _d + −

γ

_d ⋅ _d^T

( ¹ ) ^Xˆ ^B

Tˆ

Tˆˆ

_d^FH =

γ

_d ⋅ _d + −

γ

_d ⋅ _d^T

d 2

v 2 v

d

σ σ Ψ

γ = +

= ) Tˆˆ ( MSE

_d^FH

( ¹ ) ^B ^MSE ⁽ ^Xˆ ⁾ ^B

) Tˆ (

MSE

_d^FH

+ − γ

_d ²

⋅

^T

⋅

_d

⋅

Cela nécessite l’estimation de

MSE ( Xˆ

_d

)

. Comme

B

et

σ

_v²sont INconnus :

(52)

( ¹ ^ˆ ) ^Xˆ ^B ^ˆ

Tˆ ˆ

T ~

T

d d

d d FH

d =

γ

⋅ + −

γ

⋅

( ) ( )

^d ^d

T 2

v

d T

2 v

d

ˆ B ˆ MSE Xˆ B ˆ

B ˆ Xˆ

MSE B ˆ

ˆ ˆ

Ψ σ σ

γ

+ ⋅ ⋅ +

⋅

= +

+ on dispose d’une estimation de la

^MSE ( ) ^T ^~

^d^FH ^.

Mais

B ˆ

_et ²

ˆ

v

σ

sont (très) complexes.

2) Instabilité de l’estimation de variance d'échantillonnage locale (si modèle niveau domaine) : il faut lisser les variances d’échantillonnage (fonction de variance ?) sinon

0 ˆ

_v² =

σ

^.

3) Calage « local » : méthode d'inspiration individuelle évitant l’appariement mais risque de régresseur nul

→Estimation du chômage par ZE : on a perdu de ce fait 170 ZE sur 287 (nullité DEFM en particulier)

∑ w

_⋅

X

₌

X

(53)

4) Modèle de Poisson : autoriser un paramètre d’over dispersion

φ

- la phase d’ajustement décidera par elle-même …

) v N ˆ ( E )

v N ˆ (

Var

_d^c _d =

φ

⋅ _d^c _d

(54)

**

Pistes de progrès **

1) Eviter l’isolement - qui n’est pas profitable…

2) Ne pas refaire le monde … comprendre et utiliser ce qui existe déjà : centrer sur l’activité d’ingénierie stricto sensu (voir projets européens) ;

3) Militer pour des échantillonnages moins compliqués …

⇒

obstacle systématique pour tout modèle de type F&H.

4) Penser aux empilements d'échantillons

5) Penser en amont aux variables explicatives qui devraient être incluses dans le questionnaire

(55)

6) Se rappeler que le calage d’un fichier national sur marges locales n’a qu’un coût très limité

B ˆ X

Tˆ

_D_,_SYN = _D ⋅ se comporte comme l’estimateur par calage utilisant l’échantillon

s

complet et les poids initiaux normés

N ˆ N ˆ d

d

_i_,_mod = _i ⋅ ^D ^.

( )

∑

∈

=

⋅

s

i i i D

s

i i i,mod

W

X X

W

d , W D Min

i

with

i =

X

vecteur des variables indicatrices.

Puis

s i i

cal i syn

_ cal ,

D

W . Y

Tˆ ∑

=

∈

→ Méthode pressentie pour les indicateurs régionaux tirés de SILC

Estimation sur petits domaines à l’Insee: