• Aucun résultat trouvé

Utilisation d’une approche conditionnelle pour traiter les outliers

N/A
N/A
Protected

Academic year: 2022

Partager "Utilisation d’une approche conditionnelle pour traiter les outliers"

Copied!
23
0
0

Texte intégral

(1)

Utilisation d’une approche conditionnelle pour traiter les outliers

Éric Lesage

Laboratoire de statistique d’enquête Crest-Ensai

6 novembre 2012

7e Colloque Francophone sur les Sondages Ensai, Bruz

en collaboration avec François Coquet, Crest-Ensai et Irmar

(2)

Plan de l’exposé

1 Détection d’outlier dans la distribution de la variable d’intérêt y

2 Information auxiliaire complète et inférence conditionnelle

3 Construction d’un estimateur conditionnellement sans biais

4 Calcul des probabilités d’inclusion conditionnellesπϕk

5 Exemple avec des données simulées

(3)

Détection d’outlier

Outlier pour la variable d’intérêt y

Le plan de sondage est noté P(s)

S est l’ensemble des échantillons possibles a priori (au moment de l’échantillonnage)

Ik(s)l’indicatrice d’appartenance de l’unitékà l’échantillons La probabilité d’inclusion de l’uniték(a priori)

πk =P([ks]) =E(Ik(s)) dk= π1

k le poids d’échantillonnage L’outlier

La variable d’intérêty est par exemple le chiffre d’affaire de l’annéen Dans l’échantillons0 enquêté, l’unité1 possède une valeur extrême :

y1= 11 695

(4)

Détection d’outlier

Outlier pour la variable d’intérêt y

(5)

Détection d’outlier

Le problème causé par la présence d’un outlier

Pour un sondage aléatoire simple de fraction f = 0.2, le poids de l’outlier estd1 = 5.

I.e. que l’outlier représente 4 autres unités semblables

Le praticien a le sentimentque son estimateur HT est entaché d’une forte erreur d’échantillonnage et il souhaiteraitréduire le poids de l’outlier

La variance de l’estimateur Horvitz-Thompson de la moyenneµy est importante

L’outlier a une influence très forte sur l’estimateur Horvitz-Thompson de la moyenneµy (Haziza et al., 2011)

(6)

Détection d’outlier

Les solutions pour traiter la présence d’un outlier

1 Traiter l’outlier commeune unité non-substituableet imposer un poids de1 (méthode empirique)

2 Winsorizer les poids : on diminue le poids de façon à réduire l’influence de l’outlier

3 Utiliser une information auxiliaire sensible à la présence de l’outlier dans le cadre d’une approche conditionnelle...

C’est ce que nous allons voir

(7)

Information auxiliaire complète et inférence conditionnelle

Une information auxiliaire complète liée à la variable d’intérêt

Une variable auxiliaire xk est connue pourtoutes les unités de la base de sondage après l’échantillonnage

Par exemple, les effectifs de l’entreprise ou son chiffre d’affaire de l’année n-1

L’unité1 est également un outlier pour la variablex

On connaît parfaitement la distribution (Monte Carlo) de la statistique φ(s) = ˆµx,π

sous le plan de sondage

(8)

Information auxiliaire complète et inférence conditionnelle

La distribution de µ ˆ

x,π

fournit une information importante

sur l’hétérogénéité de l’ensemble S

(9)

Information auxiliaire complète et inférence conditionnelle

Un sous-ensemble S

ϕ

adapté à l’inférence

A chaque intervalle[ϕ1, ϕ2]de valeurs de µˆx,π correspond un sous-ensemble deS

Sϕ ={s∈ S; ˆµx,HT(s)∈[ϕ1, ϕ2]}

On ne peut pas ignorer au moment de l’estimation la valeur µˆx,π(s0) qui caractérise notre échantillon enquêtés0

On réduit alors l’inférence au sous-ensemble “adapté” Sϕ (Rao, 1985) correspondant à un intervalle contenant µˆx,π(s0)

On utilise une inférence conditionnelle àSϕ

(on regarde la distribution de notre estimateur pour des échantillons similaires à s0)

(10)

Information auxiliaire complète et inférence conditionnelle

Un exemple pour se convaincre...

On réalise un sondage Bernoullien fraction de sondagef

Au moment de l’estimation on utilise la taille de l’échantillonnet on réduit l’inférence à l’ensemble des échantillons de taillen

Les poids des unités échantillonnées ne sont plus 1/f maisN/n

(11)

Construction d’un estimateur pondéré conditionnel

Poids conditionnels

Laprobabilité d’inclusion conditionnelle de l’uniték πϕk =P([k∈s]| Sϕ) =E(Ik(s)| Sϕ)

On obtient un nouveau jeu depoids conditionnelspour les unités de l’échantillon

wk = 1 πkϕ

L’estimateur pondéré conditionnel (Tillé, 1998 et 1999) qui est un estimateur HT conditionnel

ˆ

µy,CHT = 1 N

X

k∈s

1 πϕkyk

(12)

Construction d’un estimateur pondéré conditionnel

Estimateur conditionnellement sans biais

ˆ

µy,CHT est conditionnellement sans biais

∀y E(ˆµy,CHT |µˆx,HT) =µy, (Si ∀k∈ U,πkϕ6= 0)

Pour la variance, on a

V(ˆµy,CHT) =E(V(ˆµy,CHT |µˆx,HT)) + 0

Et on prend comme estimateur de variance, l’estimateur de la variance conditionnelle :

v(ˆµy,CHT) = X 1 πϕ

yk

πϕ yl

πϕk,lϕ −πϕkπlϕ)

(13)

Calcul des probabilités d’inclusion conditionnellesπkϕ

Calcul des probabilités d’inclusion conditionnelles π

kϕ

Différentes approches :

1 Approximation par des lois normalesdes distributions conditionnelles et non-conditionnelle de µˆx,HT (Tillé, 1999)

Estimateur conditionnel équivalent à l’estimateur par la régression (estimateur linéaire optimal)

2 Calcul directlorsqu’on connaît la loi P(s| Sϕ)(ou une méthode de calcul de πkϕ)

SAS + conditionnement sur les tailles des sous-échantillonsnh dans les strates

Estimateur post-stratifié

Tirage poissionnien conditionnel + conditionnement sur les tailles des sous-échantillonsnh dans les strates

Estimateur HT d’un tirage Poissionnien stratifié

3 Estimation desπϕk parméthodes Monte-Carlo (Thompson(2008) et Fattorini(2006)) : ˆπϕ

(14)

Calcul des probabilités d’inclusion conditionnellesπkϕ

L’estimateur conditionnel Monte Carlo

Estimateur ponctuel ˆ

µy,M C(s) = 1 N

X

k∈s

yk ˆ πkϕ(s)

oùπˆϕk(s) est estimé parK = 106 itérations du mécanisme d’échantillonnage

ˆ

πϕk(s) = nb d’échant. qui appartiennent à Sϕ et qui contiennent k nombre d’échantillons qui appartiennent à Sϕ Estimateur de variance

v(ˆµ ) = X 1 yk yl ˆ

πϕ −ˆπϕˆπϕ

(15)

Exemple avec des données simulées

Un exemple sur données simulées

Une populationU de taille N = 100

La variable auxiliaire est connue au moment de l’estimation Pourk6= 1

xk ∼ N(8 000,(2 000)2) Pour l’uniték= 1

x1= 50 000

La variable d’intérêtyk est liée à xk

yk = 1000 + 0.2 xk + uk, où uk ∼ N(0,(500)2)

(16)

Exemple avec des données simulées

Plan de sondage

Sondage aléatoire simple sans remise de taillen= 20 La probabilité d’inclusion initiale vaut

πk= 0.2 et dk= 5

L’échantillon tiré s0 contient l’uniték= 1 (outlier) On obtient

ˆ

µx,HT(s0) = 9 970,

ce qui représente17%de plus que la vraie valeur µx= 8 531

(17)
(18)

Exemple avec des données simulées

Choix de S

ϕ

On passe à l’estimateur pondéré conditionnel...

L’ensemble des échantillons "réalistes" dans notre approche conditionnelle est :

Sϕ={s∈ S, µˆx,HT ∈[9 793,10 110]}

Ce sous-ensemble d’échantillons est assez important

P([ˆµx,HT ∈[9 793,10 110]]) =α= 5%

(19)

Exemple avec des données simulées

Probabilités d’inclusion conditionnelles estimées π ˆ

kϕ

On réalise K = 106 échantillonnagespour estimer les probabilités d’inclusion ˆπϕk

49 782 (4.98%) échantillons simulés tombent dansSϕ Poids conditionnel de l’unité 1 (outlier)

Parmi eux,49 767échantillons contiennent l’outlier, ce qui donne une probabilité d’inclusion estimée de l’outlier de

ˆ

πϕ1 = 0.9997

Le poids de l’unité1 passe ded1=0.21 = 5àdˆϕ1 = 1.0003

Les poids conditionnels des autres unités de s0 sont plus comparables à leurs poids initiauxdk= 5 (voir le graphique)

(20)

10000 20000 30000 40000 50000

0.20.40.60.81.01.21.4

Sampling Weights Corrections

dˆϕk dk

(21)

Exemple avec des données simulées

Estimateur pondéré conditionnel

L’estimateur conditionnel Monte Carlo deµy donne une meilleure estimation deµy = 2 695 :

ˆ

µy,M C(s0) = 2 671 à comparer ൈy,HT(s0) = 3 039

(22)

Bibliographie

Fattorini L. (2006). Applying the Horvitz-Thompson criterion in complexe designs : A computer-intensive perspective for estimating inclusion probabilities. Biometrika, 93, 269-278.

Beaumont, J.-F., Haziza, D. and Ruiz-Gazen, A. (2011). A unified approach to robust estimation in finite population sampling. In revision for Biometrika.

Rao, J.N.K. (1985). Conditional inference in survey sampling. Survey Methodology, 11, 15-31.

Thompson M., E. and Wu C. (2008). Simulation-based Randomized Systematic PPS Sampling Under Substitution of Units. Survey Methodology, 34, 3-10.

Tillé, Y. (1998). Estimation in surveys using conditional inclusion

(23)

Références

Merci de votre attention.

Références

Documents relatifs

Devine ce que le programme ci-dessous va afficher … for i in range(Nombre_répétition) :. Instruction1

Sont écrites en rouge les parties hors programme, en violet les parties traitées en TD (résultats à connaître pour sa culture).. 1

Pour effectuer une tâche , il est parfois nécessaire d’exécu- ter plusieurs fois de suite les mêmes instructions mais le nombre de fois n’est pas déterminé à l’avance :

Le joueur doit toucher le chat pour qu'il ralentisse puis qu'il s'arrête.. Ici on baisse de 1 la vitesse Scratchy lorsque le joueur le touche avec

Tenant compte de l’heure à laquelle celle-ci termine son travail, Pierre pense qu’elle a 30% de chance d’arriver par le train de 17h, 50% de chance d’arriver par celui de 18h

L’ex´ecuter plusieurs fois (en saisissant des valeurs pertinentes), puis ´ecrire une phrase expliquant ce que fait ce programme.1. print(”La valeur absolue de %f est %f

On définit d'abord le style que l'on désire appliquer à la cellule si celle-ci remplit la condition, pour cela il faut cliquer sur « style et formatage » (raccourci F11).. À

On définit d'abord le style que l'on désire appliquer à la cellule si celle-ci remplit la condition, pour cela il faut cliquer sur « style et formatage » (raccourci F11).. À