• Aucun résultat trouvé

Les seuils de Kokic et Bell performants dans d'autres cadres que le sondage aléeatoire simple stratifié

N/A
N/A
Protected

Academic year: 2022

Partager "Les seuils de Kokic et Bell performants dans d'autres cadres que le sondage aléeatoire simple stratifié"

Copied!
32
0
0

Texte intégral

(1)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

Les seuils de Kokic et Bell performants dans d’autres cadres que le sondage al´ eatoire simple et

stratifi´ e

Thomas Deroyon, Cyril Favre-Martinoz, Arnaud Fizzala - Insee

Colloque francophone sur les sondages, Lyon, octobre 2018

(2)

Plan

Introduction

La winsorization - principe et m´ethode de Kokic et Bell Ecmoss

Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie

Annexes

2 / 32

(3)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

Unit´ e atypique

D´efinition:

I Les unit´es atypiques sont des unit´es de la population qui, suivant qu’elles appartiennent ou pas `a l’´echantillon, changent beaucoup le niveau des estimateurs calcul´es et diffus´es.

I Exemple - dans un sondage stratifi´e `a un degr´e avec SAS dans les strates (tr`es courant en statistiques d’entreprises), une unit´e est atypique si ses r´eponses diff`erent fortement des r´eponses des autres unit´es de la strate

(4)

Deux types d’unit´ es atypiques

I unit´es atypiques non repr´esentatives: l’unit´e ne peut repr´esenter qu’elle mˆeme

I Exemple : Chiffre d’affaires paraissant ´elev´e dˆu `a une erreur d’unit´e lors de la d´eclaration.

I unit´es atypiques repr´esentatives : l’unit´e diff`ere des autres unit´es de sa strate, mais on ne peut pas supposer qu’elle ne repr´esente qu’elle mˆeme.

I Exemple : Chiffre d’affaires ´elev´e mais confirm´e par l’entreprise.

Cette pr´esentation concerne le traitement des unit´es atypiques repr´esentativesuniquement.

4 / 32

(5)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

Causes d’apparition des unit´ es atypiques repr´ esentatives

Dans les enquˆetes aupr`es des entreprises, la pr´esence d’unit´es atypiques est quasiment in´evitable :

I Variables d’int´erˆet tr`es assym´etriques ;

I D´ecalage temporel entre l’information servant `a constituer les strates (secteur d’activit´e, effectif salari´e, chiffre d’affaires) et la collecte des donn´ees pendant lequel les entreprises ont pu

´

evoluer + Taux de sondage croissant avec la taille des entreprises =>Ph´enom`ene de ”strata jumpers”

(6)

Les unit´ es de la partie exhaustive

Les unit´es de la partie exhaustive (20% `a 80% de l’´echantillon selon les enquˆetes), ne repr´esentent qu’elles-mˆemes (poids de 1 !), et ne sont donc pas des unit´es atypiques repr´esentatives.

I Les m´ethodes que nous allons voir concernent la partie non-exhaustive de l’´echantillon.

6 / 32

(7)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

Une premi` ere solution

Les unit´es atypiques repr´esentatives ont longtemps ´et´e trait´ees `a l’Insee en ramenant leur poids de sondage `a 1 et en repond´erant les autres unit´es de la strate de tirage.

Facile `a mettre en place, cette solution pose quelques questions :

I Le caract`ere subjectif de la d´etection d’une unit´e : `a partir de quel moment une unit´e est-elle consid´er´ee atypique ?

I le passage syst´ematique du poids `a 1 : pourquoi pas une autre valeur ?

La winsorisation selon la m´ethode de Kokic et Bell apporte une r´eponse ”scientifique” `a ces questions et est donc de plus en plus utilis´ee `a l’Insee.

(8)

Principe

Cadre: sondage stratifi´e `a un degr´e avec sondage al´eatoire simple dans chaque strate

Principe:

I choix d’une variable d’int´erˆet X

I d´efinition de seuils Kh dans chaque strate

I cr´eation d’une variable winsoriz´eeXw obtenue en rabotant les valeurs de X qui d´epassent les seuils dans chaque strate

I deux types de winsorization :

Xw =

X siX < Kh

Type I : Kh siX > Kh

Type II : Nnh

hX + (1− Nnh

h)Kh siX > Kh

8 / 32

(9)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

efinition

La m´ethode de Kokic et Bell

Arbitrage biais variance

Estimateur winsoriz´e: l’estimateur winsoriz´e du total deX est l’estimateur d’Horvitz-Thompson du total de la variable winsoriz´ee

w =

H

X

h=1

Nh nh

X

i∈sh

Xiw

I estimateur biais´e du total de X

I variance plus faible car la variance empirique Sh2(Xw) deXw est plus faible que Sh2(X) dans chaque strate

I ⇒ arbitrage biais - variance

I param`etre central : choix des seuilsKh ⇒ m´ethode de Kokic et Bell

(10)

Principe

R´esultat : Seuils qui minimisent l’erreur quadratique moyenne de l’estimateur winsoriz´e sous

I l’al´ea r´esultant du plan de sondage

I la distribution deX dans chaque strate Hypoth`eses :

I sondage stratifi´e `a un degr´e avec sondage al´eatoire simple dans chaque strate

I variable winsoriz´eeX `a valeurs positives ou nulles

I dans une strate, toutes les valeurs de X sont issues de la mˆeme loi, d’esp´eranceµh

I les seuils Kh sont ind´ependants de l’´echantillon auquel ils sont appliqu´es

10 / 32

(11)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

efinition

La m´ethode de Kokic et Bell

Probl` emes pratiques

En pratique, sauf `a disposer d’une ´edition pr´ec´edente de l’enquˆete, trouver des valeurs deX sur des unit´esind´ependantes de

l’´echantillon dans chaque strate ne va pas de soi...

Une pratique courante `a l’INSEE est de winsoriser le chiffre d’affaires (disponible pour toutes les unit´es de la base de sondage et corr´el´e `a la majorit´e des variables d’int´erˆet) et de transf´erer l’effet de la winsorisation au poids des unit´es selon une r`egle de trois. De cette fa¸con, la winsorisation du chiffre d’affaires

impactera toutes les variables et on conservera les valeurs d´eclar´ees dans le fichier.

wiw =wiXXiw

i puis ˆXw = Pn

i=1 wiwXi

(12)

Retour sur les hypoth` eses

Les seuils de Kokic et Bell sont optimaux sous certaines hypoth`eses :

I le plan de sondage de l’enquˆete doit ˆetre al´eatoire simple stratifi´e

I le param`etre doit ˆetre le total d’une variable.

Dans des cas plus complexes, deux solutions sont envisageables :

I proposer des adaptations de la m´ethode de Kokic et Bell ;

I utiliser les m´ethodes de biais conditionnel (Beaumont et al., 2013) et (Favre-Martinoz et al., 2016) qui s’appliquent `a n’importe quel plan de sondage.

La suite de la pr´esentation concerne deux cas ”plus complexes”.

12 / 32

(13)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

Cadre Simulations esultats

Contexte

ECMOSS : Enquˆete sur le Coˆut de la Main d’Oeuvre et la Structure des Salaires.

I salaires horaires moyens : comparaison entre les diff´erents pays europ´eens dans un ensemble de domaines d’int´erˆet (secteurs d’activit´e, r´egions,. . .)

Demande de mise en place de m´ethode de traitement des valeurs influentes, mais le cadre n’est pas celui de Kokic et Bell :

I Plan de sondage en deux phases

I Param`etre d’int´erˆet est un Ratio et pas un total

(14)

Adaptations propos´ ees

Plan de sondage en 2 phases : on fait comme si l’´echantillon de salari´e ´etait directement tir´e selon un SAS stratifi´e

I Les ´ecarts de poids au sein d’une mˆeme pseudo-strate sont donc n´eglig´es.

Ratio : on winsorise la variable lin´earis´ee

I Pour ´eviter les valeurs n´egatives, on effectue une translation : utk =uk+|min(ui)|

I On winsorise ensuite utk puis on transf`ere au poids wkw =wkuktw

ukt

14 / 32

(15)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

Cadre Simulations esultats

Simulations

Salaires et nombre d’heures de travail issus des DADS (disponibles pour tout le champ).

1000 r´eplications de tirage

Comparaison avec des m´ethodes de Biais conditionnel qui n´ecessitent des hypoth`eses moins fortes :

I plan de sondage assimil´e `a du poissonien

I pas de translation `a r´ealiser sur la variable lin´earis´ee

(16)

Ratio des MSE par section

16 / 32

(17)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

Cadre Simulations esultats

R´ esultats

I Am´elioration des MSE par rapport `a une situation sans traitement des valeurs influentes pour la quasi-totalit´e des domaines de diffusion

I Des r´esultats avec Kokic et Bell tr`es proches de ceux obtenus avec les biais conditionnels

(18)

Cadre et probl` eme

Cadre

Probl´ematique actuelle de statistique d’entreprises : Passage des unit´es l´egales aux entreprises... Plus d’´el´ements dans la

pr´esentation Le traitement des changements de contours des entreprises par partage des poids`a 10h30 !

Probl`eme (ici)

Appliquer une m´ethode de traitement des valeurs influentes apr`es un partage des poids...

...Mais dont l’´echantillon initial est un SAS stratifi´e !

18 / 32

(19)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

Cadre Simulations esultats

Adaptations de KB envisag´ ees I

1 : Winsoriser l’´echantillon original et effectuer ensuite le partage des poids `a partir des poids winsoris´es

I D´etection des unit´es dont l’influence serait amplifi´ee par le partage des poids ?

2 : Faire comme si l’´echantillon apr`es partage des poids ´etait issu d’un SAS stratifi´e et appliqu´e ”directement” la winsorisation

I Conditions de calcul des seuils de Kokic et Bell ne sont pas v´erifi´ees...

(20)

Adaptations de KB envisag´ ees II

3 : Winsoriser l’´echantillon original avec la variable Z ,

transformation judicieuse de la variableY qui permet de retrouver l’estimateur du total de la variableY apr`es partage de poids, `a partir de l’estimateur du total de la variableZ avec les poids issus de l’´echantillon original.

On ”profite” alors des propri´et´es du plan de sondage de l’´echantillon original.

I Est-ce que winsoriser la variableZ permet de d´etecter les unit´es influentes pour la variableY ?

20 / 32

(21)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

Cadre Simulations esultats

Simulations

50 000 replications du plan de sondage.

Comparaison des estimateurs du total de variables fiscales

(disponibles dans la base de sondage) pour les trois sc´enarios, avec un estimateur sans traitement des valeurs influentes.

Indicateur : rapport entre le CV de l’estimateur ´etudi´e et le CV de l’estimateur sans traitement des valeurs influentes.

(22)

RCV pour l’estimation du Chiffre d’affaires par activit´e (200 modalit´es)

22 / 32

(23)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

Cadre Simulations esultats

R´ esultats

I Les trois sc´enarios conduisent `a une am´elioration des CV (rapports inf´erieurs `a 1) dans toutes les modalit´es d’activit´e (ou quasiment toutes lorsqu’il s’agit d’autres variables que le Chiffre d’affaires, r´esultats non pr´esent´es ici)

I Le sc´enario 3 parait le meilleur d’un point de vue pr´ecision, mais est plus complexe `a mettre en place.

I ´etude `a finaliser : rˆole de la non-r´eponse, discussions avec le service en charge de l’enquˆete...

(24)

Les ´ etudes sur lesquelles se base cette pr´ esentation

Adaptation de la winsorisation `a un plan de sondage qui n’est pas un SAS stratifi´e et un param`etre d’int´erˆet qui est un Ratio

I ECMOSS : Article de Thomas Deroyon et Cyril

Favre-Martinoz dans un Techniques d’enquˆete `a paraˆıtre.

Adaptation de la winsorisation `a un partage de poids

I ESA en EP : ´etude non finalis´ee,nous contacter.

Adaptation de la winsorisation `a un tirage stratifi´e de grappes

I ESA en UL : Papier d’Arnaud Fizzala pr´esent´e auxJMS 2018 Extension de la m´ethode de Kokic et Bell au cas d’un plan de sondage poissonien

I Pr´esentation `a 10h30 dans la session Estimation de variance et Robustesse

24 / 32

(25)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

Merci pour votre attention

Contact

thomas.deroyon@insee.fr cyril.favre-martinoz@insee.fr

arnaud.fizzala@insee.fr

(26)

Bibliographie I

I Beaumont J-F, Haziza D, Ruiz-Gazen A, A unified approach to robust estimation in finite population sampling. Biometrika 100 (3), 555-569

I Brion, P. et Guggemos, F. (2010). Du bon usage de la winsorisation. . . ou comment traiter les entreprises atypiques dans les enquˆetes sectorielles annuelles. Lettre du SSE n. 65.

I Gros, E. (2012) : Assessment and improvement of the

selective editing process in Esane. Work Session on Statistical Data Editing.

I Guggemos, F. et Sautory, O. (2012), La coordination

d’´echantillons d’enquˆetes aupr`es des entreprises mise en place

`

a l’Insee, 11e Journ´ees de m´ethodologie statistique de l’Insee.

26 / 32

(27)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

Bibliographie II

I Kokic P.N., Bell P.A. (1994),Optimal winsorizing cut-offs for a stratified finite population estimator. Journal of Official Statistics, vol. 10, n. 4 : 419-435.

I Deroyon T. (2015).Traitement des valeurs atypiques d’une enquˆete par winsorization - application aux enquˆetes sectorielles annuelles. Acte des Journ´ees de M´ethodologie Statistique.

I Deroyon T. Favre-Martinoz (`a paraˆıtre).?Techniques d’enquˆete.

I Favre-Martinoz C., Haziza D. et Beaumont J-F. (2016) Robust Inference in Two-phase Sampling Designs with Application to Unit Non-response. Scandinavian journal of statistics vol. 43 :1019-1034.

(28)

Bibliographie III

I Fizzala A. (2018)Comment redresser un ´echantillon d’unit´es l´egales tir´ees via leurs entreprises ?Acte des Journ´ees de M´ethodologie Statistique.

I Di Zio M., Guarnera U. (2013),A contamination model for selective editing, Journal of Official Statistics, Vol. 29, n. 4, pp. 539–555.

28 / 32

(29)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

Mise en place de Kokic et Bell I

⇒Calcul des seuils qui minimisent l’erreur quadratique moyenne de l’estimateur winsoriz´e sous

I l’al´ea r´esultant du plan de sondage

I la distribution deX dans chaque strate r´esultats :

I `a l’optimum

I et asymptotiquement (quandNh→+∞ etnh→+∞)

I les seuils Kh et le biais de l’estimateur winsoriz´e B v´erifient : Kh = µh − B

Nh

nh −1

(30)

Mise en place de Kokic et Bell II

I Kh+∞quand Nnh

h 1

I Kh est proche deµh quand le taux de sondage est tr`es faible r´esultats :

I le biais de l’estimateur winsoriz´e B est le point o`u la fonction F s’annule avec :

F(B) = −B[1 +

H

X

h=1

nhEh(Jh)] −

H

X

h=1

nhEh(XhJh) avec

I Eh esp´erance sous la loi deX dans la strateh

I Xh = (Nnh

h 1)(Xhµh)

I Jh indicatrice que l’unit´e est winsoriz´ee (X > Kh), aussi ´egale

`

a l’indicatrice queXh epasse−B

30 / 32

(31)

Introduction La winsorization - principe et m´ethode de Kokic et Bell Ecmoss Enquˆete sectorielle annuelle en entreprises profil´ees Bibliographie Annexes

Mise en place de Kokic et Bell III

I Eh(Jh) probabilit´e qu’une unit´e de la strate soit winsoriz´ee

I Eh(JhXh) moyenne de la variable ´egale `aXh sur les unit´es winsoriz´ees et 0 ailleurs

(32)

Mise en place Kokic et Bell, en pratique

(Nouvelle) Hypoth`ese: nous disposons d’observations ˜X de X dans chaque strateind´ependantes de l’´echantillon winsoriz´e

I estimation deµhdans chaque strate par la moyenne empirique des ˜X dans la strate

I calcul des ˜Xh

I pour chaque valeur possible du biais B, estimation deEh(Jh) par la part des valeurs de ˜X sup´erieure `a −B dans la strate

I pour chaque valeur possible du biais B, estimation de Eh(XhJh) par la moyenne de la variable ´egale `a ˜Xh si X˜h >−B et 0 sinon

I estimation du z´ero de la fonctionF ⇒ estimation du biais optimal B

I estimation des seuils optimaux Kh par Kh = ˆµhNhBˆ

nh−1

32 / 32

Références

Documents relatifs

pour être à l’abri de l’erreur; la vérité des formules de Lijphart &amp;#x26; Gibberd ne peut être entièrement assurée que si elles reçoivent une démonstration

que la méthode de Kokic et Bell est cependant sensible aux données utilisées pour calculer les seuils ; si ces données ne sont pas générées suivant le même modèle que les

Pour obtenir un état enchevêtré dans l'expérience, il est important que la phase entre les états |V V i et |HHi de l'état EPR soit bien dénie.. Pour ce faire, on compense

Mathieu Boussard, Dinh Thai Bui, Richard Douville, Nicolas Le Sauze, Ludovic Noirie, Pierre Peloso, Rémi Varloot, Martin Vigoureux, The Majord'Home: a SDN Approach to Let ISPs

– Define methodology / tools to identify the physical interfaces from existing connected object description + the data flows generated by these interfaces. – Define solutions

– L’expression de B k trouvée en (ii) et les calculs menés lors de la démonstration de ce dernier point montrent que R est en fait égal à

caractère dichotomique, on montre que l’analyse statistique de ces caractères rentre dans le cadre de la théorie du modèle linéaire généralisé de Mc Cullagh et

In this thesis, we study traveling wave solutions to Richards equation in dif- fusive form which describes wetting fronts in vertical infiltration of water into