Utilisation d’une approche conditionnelle pour traiter les outliers

(1)

Utilisation d’une approche conditionnelle pour traiter les outliers

Éric Lesage

Laboratoire de statistique d’enquête Crest-Ensai

6 novembre 2012

7^e Colloque Francophone sur les Sondages Ensai, Bruz

en collaboration avec François Coquet, Crest-Ensai et Irmar

(2)

Plan de l’exposé

1 Détection d’outlier dans la distribution de la variable d’intérêt y

2 Information auxiliaire complète et inférence conditionnelle

3 Construction d’un estimateur conditionnellement sans biais

4 Calcul des probabilités d’inclusion conditionnellesπ^ϕ_k

5 Exemple avec des données simulées

(3)

Détection d’outlier

Outlier pour la variable d’intérêt y

Le plan de sondage est noté P(s)

S est l’ensemble des échantillons possibles a priori (au moment de l’échantillonnage)

Ik(s)l’indicatrice d’appartenance de l’unitékà l’échantillons La probabilité d’inclusion de l’uniték(a priori)

πk =P([k∈s]) =E(Ik(s)) dk= _π¹

k le poids d’échantillonnage L’outlier

La variable d’intérêty est par exemple le chiffre d’affaire de l’annéen Dans l’échantillons0 enquêté, l’unité1 possède une valeur extrême :

y1= 11 695

(4)

Outlier pour la variable d’intérêt y

(5)

Le problème causé par la présence d’un outlier

Pour un sondage aléatoire simple de fraction f = 0.2, le poids de l’outlier estd1 = 5.

I.e. que l’outlier représente 4 autres unités semblables

Le praticien a le sentimentque son estimateur HT est entaché d’une forte erreur d’échantillonnage et il souhaiteraitréduire le poids de l’outlier

La variance de l’estimateur Horvitz-Thompson de la moyenneµ_y est importante

L’outlier a une influence très forte sur l’estimateur Horvitz-Thompson de la moyenneµy (Haziza et al., 2011)

(6)

Les solutions pour traiter la présence d’un outlier

1 Traiter l’outlier commeune unité non-substituableet imposer un poids de1 (méthode empirique)

2 Winsorizer les poids : on diminue le poids de façon à réduire l’influence de l’outlier

3 Utiliser une information auxiliaire sensible à la présence de l’outlier dans le cadre d’une approche conditionnelle...

C’est ce que nous allons voir

(7)

Information auxiliaire complète et inférence conditionnelle

Une information auxiliaire complète liée à la variable d’intérêt

Une variable auxiliaire x_k est connue pourtoutes les unités de la base de sondage après l’échantillonnage

Par exemple, les effectifs de l’entreprise ou son chiffre d’affaire de l’année n-1

L’unité1 est également un outlier pour la variablex

On connaît parfaitement la distribution (Monte Carlo) de la statistique φ(s) = ˆµ_x,π

sous le plan de sondage

(8)

La distribution de µ ˆ

_x,π

fournit une information importante

sur l’hétérogénéité de l’ensemble S

(9)

Un sous-ensemble S

_ϕ

adapté à l’inférence

A chaque intervalle[ϕ1, ϕ2]de valeurs de µˆx,π correspond un sous-ensemble deS

S_ϕ ={s∈ S; ˆµ_x,HT(s)∈[ϕ₁, ϕ₂]}

On ne peut pas ignorer au moment de l’estimation la valeur µˆx,π(s0) qui caractérise notre échantillon enquêtés₀

On réduit alors l’inférence au sous-ensemble “adapté” S_ϕ (Rao, 1985) correspondant à un intervalle contenant µˆ_x,π(s₀)

On utilise une inférence conditionnelle àS_ϕ

(on regarde la distribution de notre estimateur pour des échantillons similaires à s0)

(10)

Un exemple pour se convaincre...

On réalise un sondage Bernoullien fraction de sondagef

Au moment de l’estimation on utilise la taille de l’échantillonnet on réduit l’inférence à l’ensemble des échantillons de taillen

Les poids des unités échantillonnées ne sont plus 1/f maisN/n

(11)

Construction d’un estimateur pondéré conditionnel

Poids conditionnels

Laprobabilité d’inclusion conditionnelle de l’uniték π^ϕ_k =P([k∈s]| S_ϕ) =E(Ik(s)| S_ϕ)

On obtient un nouveau jeu depoids conditionnelspour les unités de l’échantillon

wk = 1 π_k^ϕ

L’estimateur pondéré conditionnel (Tillé, 1998 et 1999) qui est un estimateur HT conditionnel

ˆ

µy,CHT = 1 N

X

k∈s

1 π^ϕ_kyk

(12)

Construction d’un estimateur pondéré conditionnel

Estimateur conditionnellement sans biais

ˆ

µy,CHT est conditionnellement sans biais

∀y E(ˆµ_y,CHT |µˆ_x,HT) =µ_y, (Si ∀k∈ U,π_k^ϕ6= 0)

Pour la variance, on a

V(ˆµ_y,CHT) =E(V(ˆµ_y,CHT |µˆ_x,HT)) + 0

Et on prend comme estimateur de variance, l’estimateur de la variance conditionnelle :

v(ˆµy,CHT) = X 1 π^ϕ

yk

π^ϕ yl

π^ϕ(π_k,l^ϕ −π^ϕ_kπ_l^ϕ)

(13)

Calcul des probabilités d’inclusion conditionnellesπ_k^ϕ

Calcul des probabilités d’inclusion conditionnelles π

_k^ϕ

Différentes approches :

1 Approximation par des lois normalesdes distributions conditionnelles et non-conditionnelle de µˆ_x,HT (Tillé, 1999)

Estimateur conditionnel équivalent à l’estimateur par la régression (estimateur linéaire optimal)

2 Calcul directlorsqu’on connaît la loi P(s| S_ϕ)(ou une méthode de calcul de π_k^ϕ)

SAS + conditionnement sur les tailles des sous-échantillonsn_h dans les strates

Estimateur post-stratifié

Tirage poissionnien conditionnel + conditionnement sur les tailles des sous-échantillonsnh dans les strates

Estimateur HT d’un tirage Poissionnien stratifié

3 Estimation desπ^ϕ_k parméthodes Monte-Carlo (Thompson(2008) et Fattorini(2006)) : ˆπ^ϕ

(14)

Calcul des probabilités d’inclusion conditionnellesπ_k^ϕ

L’estimateur conditionnel Monte Carlo

Estimateur ponctuel ˆ

µ_{y,M C}(s) = 1 N

X

k∈s

y_k ˆ π_k^ϕ(s)

oùπˆ^ϕ_k(s) est estimé parK = 10⁶ itérations du mécanisme d’échantillonnage

ˆ

π^ϕ_k(s) = nb d’échant. qui appartiennent à S_ϕ et qui contiennent k nombre d’échantillons qui appartiennent à S_ϕ Estimateur de variance

v(ˆµ ) = X 1 y_k y_l ˆ

π^ϕ −ˆπ^ϕˆπ^ϕ

(15)

Exemple avec des données simulées

Un exemple sur données simulées

Une populationU de taille N = 100

La variable auxiliaire est connue au moment de l’estimation Pourk6= 1

xk ∼ N(8 000,(2 000)²) Pour l’uniték= 1

x1= 50 000

La variable d’intérêtyk est liée à xk

y_k = 1000 + 0.2 x_k + u_k, où u_k ∼ N(0,(500)²)

(16)

Plan de sondage

Sondage aléatoire simple sans remise de taillen= 20 La probabilité d’inclusion initiale vaut

π_k= 0.2 et dk= 5

L’échantillon tiré s₀ contient l’uniték= 1 (outlier) On obtient

ˆ

µx,HT(s0) = 9 970,

ce qui représente17%de plus que la vraie valeur µx= 8 531

(17)

(18)

Choix de S

_ϕ

On passe à l’estimateur pondéré conditionnel...

L’ensemble des échantillons "réalistes" dans notre approche conditionnelle est :

S_ϕ={s∈ S, µˆ_x,HT ∈[9 793,10 110]}

Ce sous-ensemble d’échantillons est assez important

P([ˆµx,HT ∈[9 793,10 110]]) =α= 5%

(19)

Probabilités d’inclusion conditionnelles estimées π ˆ

_k^ϕ

On réalise K = 10⁶ échantillonnagespour estimer les probabilités d’inclusion ˆπ^ϕ_k

49 782 (4.98%) échantillons simulés tombent dansS_ϕ Poids conditionnel de l’unité 1 (outlier)

Parmi eux,49 767échantillons contiennent l’outlier, ce qui donne une probabilité d’inclusion estimée de l’outlier de

ˆ

π^ϕ₁ = 0.9997

Le poids de l’unité1 passe ded₁=_0.2¹ = 5àdˆ^ϕ₁ = 1.0003

Les poids conditionnels des autres unités de s₀ sont plus comparables à leurs poids initiauxd_k= 5 (voir le graphique)

(20)

10000 20000 30000 40000 50000

0.20.40.60.81.01.21.4

Sampling Weights Corrections

dˆ^ϕ_k d_k

(21)

Estimateur pondéré conditionnel

L’estimateur conditionnel Monte Carlo deµ_y donne une meilleure estimation deµ_y = 2 695 :

ˆ

µ_{y,M C}(s₀) = 2 671 à comparer àµˆ_y,HT(s₀) = 3 039

(22)

Bibliographie

Fattorini L. (2006). Applying the Horvitz-Thompson criterion in complexe designs : A computer-intensive perspective for estimating inclusion probabilities. Biometrika, 93, 269-278.

Beaumont, J.-F., Haziza, D. and Ruiz-Gazen, A. (2011). A unified approach to robust estimation in finite population sampling. In revision for Biometrika.

Rao, J.N.K. (1985). Conditional inference in survey sampling. Survey Methodology, 11, 15-31.

Thompson M., E. and Wu C. (2008). Simulation-based Randomized Systematic PPS Sampling Under Substitution of Units. Survey Methodology, 34, 3-10.

Tillé, Y. (1998). Estimation in surveys using conditional inclusion

(23)

Références

Merci de votre attention.