• Aucun résultat trouvé

Calage sur bornes minimales et choix des bornes de calage.

N/A
N/A
Protected

Academic year: 2022

Partager "Calage sur bornes minimales et choix des bornes de calage."

Copied!
34
0
0

Texte intégral

(1)

Calage sur bornes minimales et choix des bornes de calage.

Neuvième colloque francophone sur les Sondages

Emmanuel Gros – Antoine Rebecq 14 octobre 2016

INSEE - DMCSI - Division Sondages

(2)

Sommaire

1. Introduction

2. Calage sur bornes minimales

3. Choix des bornes de calage

2

(3)

Introduction

(4)

Notations

SoitUune population finie de tailleN. On s’intéresse à diverses variablesY1,…,Ypdont on souhaite estimer les totaux surU:

TYj =∑

iU

yj,i

s: échantillon de taillentiré dansU, selon un plan de sondage p(s)conduisant à des probabilités d’inclusionπi. L’estimateur d’Horvitz-Thompson s’écrit :

ˆT=∑

is

yi

πi

4

(5)

L’estimateur par calage

SoitX= (X1, ...,XJ)un vecteur deJvariables auxiliaires dont on connaît les totaux sur la population. On préfère souvent l’estimateur par calage (Deville et Särndal (1992)) :

ˆTYc=∑

is

wiyi

où leswiminimisent la « distance » aux 1

πi tout en vérifiant lesJ équations de calage :

is

wixi=TX

(6)

Calage sur marges – formalisation du problème

On définit une fonctionGtelle queG(wi di

)mesure la « distance » entrewietdi:

G(1) =0

Gest positive et convexe :G(wi

di)est d’autant plus élevée que le rapport wi

di est éloigné de 1

Les poids caléswisont alors solutions du problème d’optimisation suivant :



minwi

is

diG(wi di

) s.c. ∑

iswixi=TX

6

(7)

Calage sur marges – résolution

Solution :

wi=diF(xiλ)ˆ

où est appelée fonction de calage (F= (G)1).

Lefacteur de calagegi=wi

di

=F(xiλ)ˆ dépend (entre autres) du choix de la distance G.

(8)

Méthodes de calage

Méthode linéaire : F(u) =1+u

Méthode exponentielle ou raking ratio :F(u) =exp(u)>0 LetUsont deux constantes telles queL<1<U.

Méthode logit : il s’agit d’une méthode exponentielle bornée : F(u) = L(U−1) +U(1−L)exp(Au)

(U1) + (1−L)exp(Au) et alorsL<F(u)<U

8

(9)

Choix de la méthode de calage

Pas de critère théorique permettant de déterminer la « bonne » méthode de calage.

En pratique, on privilégie en général lesméthodes bornées:

• permettent d’éviter les poids négatifs ou inférieurs à 1 ;

• évitent l’apparition d’unités influentes (notamment estimations sur domaines)

• Pas de garantie de convergence : pour desLetUchoisis trop proches de 1, le calage n’est plus possible.

(10)

Calage sur bornes minimales

(11)

Calage sur bornes minimales

Objectif : déterminer les bornesLetUconduisant au calage le plus « serré » possible,i.e. minimisant l’étendueU−L.

Solution : résolution numérique via un programme d’optimisation.

(12)

Problèmatique

Les poids calés doivent vérifier les contraintes de calage : eXsg=TX

(oùgest le vecteur des facteurs de calage et eXs= (dixj,i)1in,1jJ)

Les bornesLetUcorrespondent au vecteurgqui minimise l’étendue des rapports de poids tout en respectant les

contraintes de calageeXsg=TX.

12

(13)

Formalisation du problème

Cela correspond au programme d’optimisation suivant :





gmin∈Rn

(

imax[[1,n]]gi min

j[[1,n]]gj )

s. c.eXsg=TX

Ce programme est unprogramme linéaire, qui peut donc être résolu numériquement via l’algorithme du simplexe.

Ce programme est de taillen(n−1)×(n+1), donc enO(n3) problèmes de mémoire et de temps de calcul.

(14)

Reformulation du problème en O (n

2

)

On peut montrer que le programme précédent est équivalent au programme suivant :



g∈Rminn,a∈R max

i[[1,n]]|gi−a| s. c.eXsg=TX

Ce programme est encore un programme linéaire, qui peut donc également être résolu numériquement via l’algorithme du simplexe...

...mais de dimension 2n×(n+2),i.e. enO(n2)Beaucoup plus efficace.

implémenté dans la fonctioncalibrationdu package RIcarus

14

(15)

Exemple de choix des bornes de calage

(16)

Choix des bornes de calage

(17)

Problématique

Pratique à l’Insee : on préconise en général l’utilisation de méthodes de calage bornées, avec des bornes :

• suffisamment serrées pour éviter les déformations de poids extrêmes...

• ... mais sans être trop proches des bornesLetUpour éviter les accumulations trop importantes de rapports de poids à ces bornes.

Mais il n’y a aucune justification théorique à cette pratique :

• asymptotiquement, toutes les méthodes sont équivalentes ;

• à distance finie, on ne dispose pas de formules permettant d’évaluer l’impact du choix des bornes sur les estimateurs.

(18)

Cadre de l’étude (1)

On s’appuie sur les données issues d’Esane 2013 dans le commerce hors exhaustif(~les unités de plus de 20 salariés ou plus de 38 M€ de CA) : les liasses fiscales des entreprises fournissent de très nombreuses variables disponibles sur l’ensemble des unités du champvariables auxiliaires pour le calage & calcul de biais et d’EQM.

Procédure retenue :

on tireK=40 000 échantillons de 1 000 unités par SAS stratifié par APE⊗[tranches de taille] avec allocation proportionnelle ;

on cale chaque échantillon selon trois scénarios de calage – raking ratio, logit [0,5-2] et logit minimal – sur les marges suivantes :

• structures par secteur, tranches d’effectif, ZEAT ;

• totaux de chiffre d’affaires, valeur ajoutée, actif total et passif total.

18

(19)

Cadre de l’étude (2)

Pour une variable d’intérêtYdonnée, on calcule les estimateurs calés pour chaque échantillon de chaque scénario de calage :

• ˆTkY,wRR=∑

i∈skwRRi yi,k=1, ...,K

• ˆTkY,wlogit[0,52] =∑

i∈skwlogiti [0,5−2]yi,k=1, ...,K

• ˆTkY,wlogit min=∑

i∈skwlogit mini yi,k=1, ...,K

On évalue enfin la qualité des estimateurs à l’aide de leurs biais relatifs et racines carrée des EQM relatives Monte-Carlo :

• Biais relatif absolu (en %) :

RB(ˆTY,w) = 100 K

K

k=1

|ˆTkY,w−TY| TY

• Racine carrée de l’EQM relative (en %) :

(20)

Distribution des rapports de poids – Raking ratio

Boxplot des quantiles de rapports de poids ­ Raking ratio

Min P01 P05 P10 P25 P50 P75 P90 P95 P99 Max

0 2.5 5.0 7.5 10.0

Rapport de poids RR

Quantiles de la distribution

20

(21)

Distribution des rapports de poids – Logit [0,5-2]

Boxplot des quantiles de rapports de poids ­ Logit [0,5­2]

1.0 1.5 2.0

Rapport de poids logit [0,5­2]

(22)

Distribution des rapports de poids – Logit bornes minimales

Boxplot des quantiles de rapports de poids ­ Logit bornes minimales

Min P01 P05 P10 P25 P50 P75 P90 P95 P99 Max

0 0.5 1.0 1.5 2.0 2.5

Rapport de poids logit bornes minimales

Quantiles de la distribution

22

(23)

RRMSE des estimateurs par division (1)

Calages bornés

20 30 40 50 60 70 80 90 100

RRMSE des estimateurs par division

(24)

RRMSE des estimateurs par division (2)

Calages bornés

0 10 20 30 40 50 60 70 80 90 100

Raking ratio

0 10 20 30 40 50 60 70 80 90

RRMSE des estimateurs par division

methode Logit [0.5­2] Logit bornes minimales Logit bornes minimales saturation < 50%

Logit bornes minimales saturation > 50% Logit bornes minimales saturation > 70% RR 24

(25)

RRMSE des estimateurs par division (3)

Calages bornés

10 20 30 40

RRMSE des estimateurs par division

(26)

RRMSE des estimateurs par division (4)

Calages bornés

0 10 20 30 40

Raking ratio

0 10 20 30

RRMSE des estimateurs par division

methode Logit [0.5­2] Logit bornes minimales Logit bornes minimales saturation < 50%

Logit bornes minimales saturation > 50% Logit bornes minimales saturation > 70% RR 26

(27)

Conclusions

Le choix de bornes de calage « serrées » semble conduire à des estimateurs moins efficaces,en particulier lorsqu’on observe de fortes accumulations de rapports de poids aux bornes.

on observe des résultats similaires avec d’autres scénarios de simulations :

• échantillons tirés selon le PdS de l’ESA, avec génération de non réponse puiscalage directon observe de plus dans ce cas des problèmes importants en termes de biais;

• échantillons tirés selon le PdS de l’ESA, avec génération de non réponse puis correction de la non-réponse par GRH et calage post-CNRrésultats similaires à ceux présentés ici.

Ces résultats semblentvalider la pratique à l’Insee en termes de choix des bornes de calage.

(28)

Merci de votre attention !

28

(29)

RRMSE des estimateurs par tranches d’effectif (1)

Calages bornés

20 30 40 50 60 70 80 90 100 110 120 130 140 150 160

RRMSE des estimateurs par tranche de taille

(30)

RRMSE des estimateurs par tranches d’effectif (2)

Calages bornés

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170

Raking ratio

0 10 20 30 40 50 60 70 80 90 100 110 120 130

RRMSE des estimateurs par tranche de taille

methode Logit [0.5­2] Logit bornes minimales Logit bornes minimales saturation < 50%

Logit bornes minimales saturation > 50% Logit bornes minimales saturation > 70% RR 30

(31)

RRMSE des estimateurs par tranches d’effectif (3)

Calages bornés

10 20 30 40

RRMSE des estimateurs par tranche de taille

(32)

RRMSE des estimateurs par tranches d’effectif (4)

Calages bornés

0 10 20 30 40

Raking ratio

0 10 20 30

RRMSE des estimateurs par tranche de taille

methode Logit [0.5­2] Logit bornes minimales Logit bornes minimales saturation < 50%

Logit bornes minimales saturation > 50% Logit bornes minimales saturation > 70% RR 32

(33)

Méthodes de calage : G(r) versus r

(34)

Méthodes de calage : F(u) versus u

34

Références

Documents relatifs

Les pertes de charge sont comprises entre deux courbes limites correspondant, l'une à l'ouverture minimale de l'orifice, l'autre à l'ouverture maxi- male. On remarquera que pour

mais si elle l’atteignait, ce serait 0 ! Ce nombre est le plus petit des majorants de cette fonction. On dit aussi que c’est sa borne sup´ erieure..

mais si elle l’atteignait, ce serait 0 ! Ce nombre est le plus petit des majorants de cette fonction. On dit aussi que c’est sa borne sup´ erieure..

Dénote by Cl the category of ail classes in this model with mappings which are classes as morphisms (of course, Ce is not a category in our model), Having a class A , P(A) will

Ainsi dans des contextes plus généraux que celui de Ens (e.g.topos, ensembles flous, univers algébriques) le calcul des cardinaux (fi- nis ou non) pourra être déduit de celui

Cependant, la variance de l’estimateur par calage peut devenir importante quand on utilise dans le calage un très grand nombre de variables auxiliaires surtout lorsque certaines de

Dans cette présentation, nous proposons un critère de sélection des variables auxiliaires qui convient d'utiliser pour calculer les poids de calage en se servant des données

– le calage par m´ ethode logit avec des bornes L=0,5 et U=2 conduit, quel que soit l’´ echantillon consid´ er´ e, ` a une distribution des rapports de poids pr´ esentant une