• Aucun résultat trouvé

Biais conditionnel pour une approche sous le plan 34

2.10 Les méthodes d'estimation robuste

2.10.3 Le biais conditionnel comme mesure d'inuence

2.10.3.1 Biais conditionnel pour une approche sous le plan 34

Soit U = (1, ..., k, ..., N) une population nie, p(S) un plan de sondage déni sur U et Y la variable d'intérêt à observer sur la population. Soit θ le paramètre d'intérêt et θˆun estimateur de θ .

Le biais conditionnel d'une unité échantillonnée i associé à l'estimateur θˆest déni par :

Biθˆ(Ii = 1) =EP θˆ|Ii = 1EP θˆ,

Ii est la variable indicatrice d'appartenance à l'échantillon qui prend la valeur 1 si l'unité i est dans l'échantillon et 0 sinon. De façon similaire, on dénit le

biais conditionnel d'une unité i non échantillonnée associé à l'estimateur θˆpar : Biθˆ(Ii = 0) =EP ˆ θ|Ii = 0 EP ˆ θ .

Le biais conditionnel est une mesure d'une inuence car il permet d'observer l'impact moyen engendré sur l'estimateur par le fait de contraindre l'unité i à appartenir ou non à l'échantillon.

Proposition 2.1.

Biθˆ(Ii = 0) =− πi

1−πi

Biθˆ(Ii = 1).

Démonstration. Il sut d'utiliser la propriété de l'espérance conditionnelle. On a

EP ˆ θ=EP nEP θˆ|Iio. Or, EP n EP ˆ θ|IioiEP θˆ|Ii = 1+ (1−πi)EP θˆ|Ii = 0. On a alors : πiEPθˆ+ (1−πi)EP θˆ = πiEPθˆ|Ii = 1+ (1−πi)EP θˆ|Ii = 0.

Après réarrangement des termes, on obtient :

Biθˆ(Ii = 0) =− πi

1−πiB

ˆ θ

i(Ii = 1).

L'inuence d'une unité sur un estimateur sera quantiée à l'aide du biais condi-tionnel de cet unité. On va calculer explicitement cette inuence sur l'estimateur de Horvitz-Thompson.

Proposition 2.2. Le biais conditionnel d'une unité échantillonnée pour l'estima-teur de Horvitz-Thompson est donné par :

BiHT(Ii = 1) = Ep ˆt|Ii = 1−ty = X j∈U πij πiπj −1 yj. (2.10.1)

Démonstration. Ep(ˆt|Ii = 1) =Ep X j∈U yjIj πj |Ii = 1 ! =X j∈U yj πj Ep(Ij|Ii = 1) =X j∈U yj πj 1 X l=0 lP(Ij =l, Ii = 1) P(Ii = 1) =X j∈U yj πj πij πi =X j∈U πij πiπj yj. On a donc BiHT(Ii = 1) =X j∈U πij πiπj −1 yj.

Nous allons maintenant calculer le biais conditionnel pour deux tirages clas-siques : le tirage poissonien et le tirage aléatoire simple stratié sans remise.

Exemple 2.1. Pour un tirage poissonien, le biais conditionnel associé à l'estima-teur de Horvitz-Thompson pour les unités échantillonnées est donné par :

BiHT(Ii = 1) = (di−1)yi,

oùdi désigne l'inverse de la probabilité d'inclusion associée à l'unité i, di 1.

Dans le cas poissonien, on aπij =πiπj sii6=j etπij =πi sii=j. L'expression (2.10.1) se simplie pour donner

BiHT(Ii = 1) = 1 πi −1 yi = (di−1)yi. (2.10.2)

Exemple 2.2. Pour un sondage aléatoire simple sans remise, le biais conditionnel associé à l'estimateur de Horvitz-Thompson pour les unités échantillonnées est donné par : BiHT(Ii = 1) = N N −1 N n −1 (yi−y¯U). (2.10.3) Ce résultat se démontre en remplaçant les probabilités d'inclusion générales dans l'expression (2.10.1) par les probabilités d'inclusion du plan aléatoire simple sans remise données par l'égalité (2.5.2) .

Exemple 2.3. Pour un tirage aléatoire simple stratié sans remise, le biais condi-tionnel associé à l'estimateur de Horvitz-Thompson pour les unités échantillonnées dans la strateh est donné par :

BiHT(Ii = 1) = Nh Nh−1 Nh nh −1 (yhi−y¯Uh)

oùNhest la taille de la populationUh de la strateh,nh est la taille de l'échantillon

Sh tiré dans la stratehety¯Uh est la moyenne dans la strate h :y¯Uh =Nh1 X

j∈Uh

yhj.

Exemple 2.4. Pour les plans à grande entropie, une approximation du biais conditionnel associé à l'estimateur de Horvitz-Thompson est fournie dans l'article de Beaumont et al. (2013) :

BiHT(Ii = 1) '(di−1)1 +D1πi(1−πi) yi−φπi,

oùD=P

l∈Uπl(1−πl)et φ=D1P

j∈U(1−πj)yj.

Proposition 2.3. Quel que soit le plan de sondagep(.), on a la relation suivante :

V arp(ˆt) =X j∈U X k∈U yjyk πjπkkl = X i∈U BiHT(Ii = 1)yi. (2.10.4)

La variance de l'estimateur de Horvitz-Thompson est donc directement reliée au biais conditionnel et on constate qu'une unité ayant un fort biais conditionnel contribuera fortement à la variance. De plus, elle contribuera d'autant plus fort à la variance que la valeur de la variable d'intérêt yi sera élevée.

Proposition 2.4. L'erreur d'échantillonnage de l'estimateur Horvitz-Thompson

ˆ

t−ty peut se décomposer de la façon suivante

ˆ t−ty =X i∈S BiHT(Ii = 1) + X i∈U\S BiHT(Ii = 0) (2.10.5) si X i∈U (Ii−πi)ai = 0, (2.10.6) ai = (1−πi)1 BHT i (Ii = 1)−(di−1)yi .

Remark 2.5. On peut montrer que la condition (2.10.6) est vériée si le coecient

ai ne dépend pas dei,en remarquant queP

i∈U(Ii −πi) = 0pour un plan de taille xe.

Remarque 2.6. On peut également montrer que la décomposition (2.10.5) est va-lable pour un plan de sondage poissonien et qu'elle est approximativement respec-tée pour un plan de sondage stratié aléatoire sans remise ou un plan de sondage à grand entropie de taille xe.

Dans le cas où la décomposition (2.10.5) est valable, le biais conditionnel peut être vu comme la contibution de l'unité i a l'erreur d'échantillonnage.

Le concept de conguration est une notion centrale dans la mesure où une unité est inuente dans une conguration donnée ; c'est-à-dire qu'une unité est inuente pour un plan, un paramètre et un estimateur donnés ou pour un modèle (m), un paramètre et un estimateur donnés. Nous allons donner dans la suite quelques exemples de conguration pour une approche sous le plan et mettre en évidence

des exemples d'unités inuentes caractérisées à l'aide du biais conditionnel. Voici quelques exemples classiques de conguration auxquels on peut être confronté lors de la phase d'estimation dans une enquête :

C1 : (Chire d'aaire, Chire d'aaire total, sondage aléatoire simple sans remise, estimateur de Horvitz-Thompson)

C2 : (Chire d'aaire, Chire d'aaire total, Tirage poissonien, estimateur de Horvitz-Thompson)

C3 : (Chire d'aaire, Chire d'aaire total, sondage aléatoire simple sans remise, estimateur par le ratio)

C4 : (Chire d'aaire et nombre d'employés, quotient du chire d'aaire par le nombre d'employés, sondage aléatoire simple sans remise, estimateur par sub-stitution)

Considérons une population de taille 5000pour laquelle on observe les chires d'aaires ctifs en milliers d'eurosy, rangés par ordre croissant :

y1 = 0, y2 = 500, y3 =...=y4999 = 500ety5000 = 2000

Dans ce cas, la moyenne dans la population U est égale à500.2.

Supposons que l'on se trouve dans une des deux congurations suivantes :

C1 : (Chire d'aaire, Chire d'aaire total, sondage aléatoire simple sans remise, estimateur de Horvitz-Thompson)

C2: (Chire d'aaire, Chire d'aaire total, Tirage poissonien avec probabilités égales πk= Nn, k∈U, estimateur de Horvitz-Thompson)

An de faire le lien entre le biais conditionnel et l'instabilité des estimateurs, nous rappelons dans le tableau 2.10.1, le biais conditionnel associé à une unité sélectionnée et les formules de variance pour l'estimateur Horvitz-Thompson.

Formule de variance Biais conditionnel de l'unité i Sondage aléatoire simple

V arp(ˆtSASW R) =N2 (1−n N)

n S2

yU BHTi (Ii= 1) = NN1(Nn −1)(yi−yU¯ )

sans remise

Tirage Poissonien V arp(ˆtP OISS) =P

k∈U

(1−πk)y2 k

πk BiHT(Ii= 1) = (di−1)yi

Table 2.10.1: Résumé des formules de variance et du biais conditionnel pour l'estimateur de Horvitz-Thompson

Dans le cas d'un sondage aléatoire simple sans remise, la première unité dont le chire d'aaire est égale à0contribue fortement à la variance de l'estimateur de Horvitz-Thompson si elle est sélectionnée, alors que dans le cas poissonien, la pre-mière unité ne contribue pas à la variance de l'estimateur de Horvitz-Thompson. Ainsi, l'inuence d'une unité dépend fortement du plan utilisé. On peut le voir directement pour chaque unité à l'aide du biais conditionnel : dans le premier cas, le biais conditionnel est très élevé puisque la valeur 0 est très éloignée de la moyenne U = 500,2. Alors que dans le cas du tirage poissonien à probabilités égales πk = Nn, k ∈U, le biais conditionnel est nul, car y1 = 0et donc l'inuence de la première unité est très faible dans la deuxième conguration. Ce résultat, un peu contre-intuitif, donne du crédit à l'utilisation du biais conditionnel. En-n, l'unité ayant pour valeur y5000 = 2000, est inuente pour les deux plans de sondage.

2.10.3.2 Biais conditionnel pour une approche modèle

Dénition 2.13. Soient Y1, ..., Yn un n−échantillon de variables aléatoires et

y1, .., yn une réalisation du n−échantillon, soit θ le paramètre d'intérêt et θˆ un estimateur de θ, le biais conditionnel associé à l'estimateur θˆpour l'observation i

est déni par :

Dans le cas d'un modèle linéaire simple donnée par l'expression (2.9.2), Beau-mont et al. (2013) ont Beau-montré que le biais conditionnel associé à l'estimateur BLUP donné par la formule (2.9.3) du total ty =P

j∈UYj est : BiˆtBLU P = ( (wi−1)(yi−x>i β) , i∈s −(yi−x>i β), i∈U\s wi = 1 + xi σ2 i X i∈S xix>i σ2 i !−1 X i∈U\S xi .

L'erreur de prédiction de l'estimateur BLUP se décompose comme la somme des biais conditionnels :

ˆ

tBLU P −ty =X

i∈U

BiTˆBLU P.

Ainsi le biais conditionnel dans le cas d'une approche modèle peut s'interpré-ter comme la contribution de chacune des unités i de la population à l'erreur de prédiction de l'estimateur BLUP. Beaumont et Rivest (2009) ont montré que ce type de décomposition de l'erreur de prédiction était valable pour tout estimateur calé vériant une équation de calage de la forme P

i∈Swixi =P i∈Uxi.

Il est aussi important de noter que la variance de cette erreur de prédiction est fonction du carré des biais conditionnels :

V arm ˆtBLU P −ty =Em X i∈U BˆtBLU P 2 i |IN, Yi =yi !

Ainsi, le fait de réduire le biais conditionnel d'une unité i aura pour consé-quence une réduction de la variance de l'erreur de précision.

2.11 Une revue des estimateurs robustes présents

Documents relatifs