• Aucun résultat trouvé

Mise en évidence du biais

2.2.1 Fonctions à variation lente et biais

L’introduction de la fonction à variation lente (dé…nie dans l’annexe 2.B.2) n’est pas simplement un jouet mathématique, qui rendrait les aspects techniques plus compliqués (et donc plus attractifs) aux chercheurs. Des fonctions à variation lente peuvent apparaître très naturellement lorsqu’on modélise par exemple des phénomènes agrégés ou que l’on considère

des mélanges de populations ayant des risques di¤érents. Pour mieux comprendre, l’e¤et de la fonction à variation lente, considérons l’exemple suivant qui correspond à un mélange de deux lois de Pareto. En termes d’évaluation des risques et dans le contexte qui nous intéresse, cela signi…e qu’il y a en fait deux populations distinctes ayant des risques d’exposition di¤érents, ce qui, en soi, est une situation réaliste dans le cadre des risques alimentaires.

On considère X la variable aléatoire suivante

X = X1 avec la probabilité p ; X1 P areto(C1; 1)

X2 avec la probabilité 1 p; X2 P areto(C2; 2) ; 1 > 2; alors la fonction de survie de X est donnée par

Pr(X > x) = p Pr(X1 > x) + (1 p) Pr(X2 > x) = pC1x 1= 1 + (1 p)C2x 1= 2

et donc

Pr(X > x) = Cx 1= 1 + Dx ; avec C = pC1; = 1; D = (1 p)C2=pC1 et = 1= 2 1= 1 > 0:

La variable aléatoire X; décrivant le phénomène pour l’ensemble des deux sous-populations, suit donc une loi de Pareto perturbée par une fonction à variation lente de la forme L(x) = 1 + Dx : Cette classe de fonctions à variation lente est connue sous le nom de famille de Hall (cf. Feuerverger & Hall, 1999).

On notera également que c’est l’indice de risque le plus grand qui domine dans le mélange. Toutefois si les i; i = 1; 2 sont proches (dans ce cas est proche de 0) les deux sous-populations seront di¢ cilement distinguables. Le calcul de l’estimateur de Hill omet cette fonction à variation lente, ce qui introduit un biais dans l’estimation de : Notamment, un choix de k(n) trop grand risque d’inclure des individus de la seconde population et donc de perturber l’estimation de : De plus, si les données sont issues d’un mélange de lois de Pareto (ce qui sera l’hypothèse faite sur les expositions aux contaminants), on estimera l’indice de risque comme l’indice de risque maximum de la population. Nous mettrons en évidence empiriquement ce résultat dans la section 2.2.2.

Les résultats asymptotiques précédents dépendent du nombre de points utilisés k(n) pour l’estimation sur une population totale de taille n. Quelle valeur choisir pour k(n) ? On peut évoquer deux types de résultats. Les premiers concernent les ordres de grandeur de k(n) à retenir pour une fonction à variation lente donnée. Les seconds concernent le compétition entre le biais et la variance.

Haeusler & Teugels (1985) ont démontré que le choix d’un k(n) optimal dépendait de la spéci…cation de la fonction à variation lente L(:): Pour les deux cas qui nous concernent dans la suite de ce rapport, les résultats obtenus par les auteurs sont résumés dans le tableau ci-dessous.

Fonction à variation lente L(:) kopt(n) 1 + D:x + o(x ) o n2 +1=2

(log x) o (log(n)2) Alors on a q

pour ces deux cas particuliers.

Plus généralement, le choix du ”meilleur”k(n) provient de la compétition entre le biais et la variance. D’un côté, la tendance naturelle serait, à n …xé, d’accroître k(n) pour diminuer la variance. Mais d’un autre côté, il faut tenir compte du biais des estimateurs évoqués au dessus. L’arbitrage entre les deux e¤ets contraires se fait usuellement en calculant l’écart quadratique de l’estimateur (dépendant de k) puis en le minimisant en k. On pourra se référer à l’article de Haan & de Peng (1998) pour des résultats généraux. Au-delà des di¢ cultés pratiques posées par ce problème, ce dernier constitue un vrai enjeu pour le praticien comme nous le verrons par la suite dans les applications.

2.2.2 Quelques simulations

Nous allons dans cette section comparer les di¤érents estimateurs proposés dans ce cha-pitre. Ces simulations comme l’ensemble des implémentations réalisées ont été e¤ectuées sous GAUSS (Aptech Systems Inc., http ://www.aptech.com/). A ces …ns, nous pouvons simuler des données d’exposition à un contaminant de diverses manières. On considère en particulier que celles-ci sont respectivement données par

1. une loi de Pareto exacte

F (x) = Cx 1= =) F (y) = (1 y) avec = 0; 3:

2. un mélange de lois de Pareto, équivalent à une loi de Pareto perturbée par une fonction à VL en puissance.

On génère deux lois de Pareto vraies de paramètres 1 et 2en proportions égales.( 1 = 0; 3 ; 2 = 0; 1)

3. une loi de Pareto avec fonction à variation lente logarithmique (VL en log)

F (x) = x 1 (log x) =) F (y) = (1 y) ( log(1 y)) ; avec ( = 0; 3 ; = 1) :

Après avoir réalisé des simulations de 5000 valeurs pour ces diverses lois, nous avons calculé pour les estimateurs de Hill, de Pickands et des moments.

Les graphiques des Figures 2.8, 2.10 et 2.12 présentent les variations de chaque estimateur selon le nombre k de valeurs extrêmes retenues pour le calcul. Pour une meilleure lisibilité des graphiques, nous ne traçons pas ici les intervalles de con…ance qui pourraient être calculés grâce aux lois asymptotiques présentées précédemment.

Nous observons que le choix de k est crucial en particulier pour l’estimateur de Pickands qui est très instable. Les Figures 2.9, 2.11 et 2.13 ne comportent que les estimateurs de Hill et des moments pour mieux observer les variations de ces estimateurs plus stables.

Pour une loi de Pareto exacte (Figures 2.8 et 2.9), on constate que l’estimateur de Hill est moins biaisé que celui des moments : il est proche de la vraie valeur du paramètre pour k grand. Ce qui se comprend aisément : l’estimateur de Hill revient à calculer une pente qui est exactement dans ce cas.

Fig. 2.8 – Comparaison de trois estima-teurs de selon k pour la simulation d’une vraie loi de Pareto

Fig. 2.9 – Comparaison de deux estima-teurs de selon k pour la simulation d’une vraie loi de Pareto

Fig. 2.10 – Comparaison de trois estima-teurs de selon k pour la simulation d’un mélange de lois de Pareto

Fig. 2.11 –Comparaison de deux estima-teurs de selon k pour la simulation d’un mélange de lois de Pareto

Fig. 2.12 –Comparaison des trois estima-teurs de selon k pour la simulation d’une loi de Pareto perturbée par une fonction à variation lente en logarithme

Fig. 2.13 –Comparaison des deux estima-teurs de selon k pour la simulation d’une loi de Pareto perturbée par une fonction à variation lente en logarithme

Pour un mélange de lois de Pareto (Figures 2.10 et 2.11), l’estimateur de Hill est proche de 1 pour k petit puis décroît vers une valeur intermédiaire entre 1 et 2 pour k grand.

L’estimateur des moments semble moins a¤ecté par le mélange.

Pour une loi de Pareto perturbée par une fonction à variation lente en log (Figure 2.12 et 2.13), le biais entre l’estimateur de Hill et la vraie valeur augmente avec k, l’estimateur des moments est plus stable. On retiendra pour la suite la forme particulière des estimateurs de Hill, Hk;n lorsque k varie, selon le type de simulation : ceci nous donnera une intuition sur la forme de la fonction à variation lente qui régit nos données.

Comme nous l’avons vu dans la section précédente, l’estimateur de Hill présente un biais dû principalement à la fonction à variation lente (le second cas étant équivalent à une perturbation du type 1+Dx ; > 0). Nous allons nous intéresser dans la suite au problème de la correction de ce biais, qui va permettre de déterminer une valeur de k optimale.