• Aucun résultat trouvé

La loi des excès

L’approche basée sur la GEV a été critiquée dans la mesure où l’utilisation d’un seul maxima conduit à une perte d’information contenue dans les autres grandes valeurs de l’échantillon. Pour pallier ce problème, la méthode POT (Peaks-over-Threshold) ou méthode des excès au-delà d’un seuil élevé a été introduite dans Pickands [71].

1.6.1 Principe

La méthode des excès au-delà d’un seuil (ou Peak Over Threshold, POT) repose sur le comportement des valeurs observées au-delà d’un seuil donné.

Plus précisément, elle consiste à observer non pas le maximum ou les plus grandes valeurs mais toutes les valeurs des réalisations qui excèdent un cer-tain seuil élevé. L’idée de base de cette approche consiste à choisir un seuil suffisamment élevé et à étudier les excès au-delà de ce seuil.

Soit X une variable aléatoire de fdrF etu un réel suffisamment grand appelé seuil. Notons par

Nu = card{i : i = 1, ..., n, Xi > u}

le nombre de dépassements du seuil par les Xi≤n et les Yj≤Nu tels que Yj = Xiu

sont les excès correspondants. On cherche à partir de la loi F de X à dééfinir une loi conditionnelle Fu par rapport au seuil u pour les variables aléatoires dépassant ce seuil. On définit alors la loi conditionnelle des excès Fu par:

Fu(x) = P(Xuy|X > u) = F(u+y)−F(u)

1−F(u) , y ≥ 0. (1.23) La méthode POT s’appuie sur le Théorème de Pickands-Balkema-de Haan (Balkema and de Haan [3], 1974 ; Pickands [71], 1975),(voir Embrechts et al.

[33, Théorème 3.4.5], 1997). Ce Théorème démontre que lorsque le seuil u est proche du point terminal xF, la distribution conditionnelle des excès est asymptotiquement une Distribution de Pareto Généralisé (GPD: Generalised Pareto Distribution) de fonction de répartition:

Hγ(x) =

1−(1 +γx)γ1 , si γ 6= 0

1−exp (−x), si γ = 0 (1.24)

Hγ est appelée Distribution de Pareto Génééralisée standard. On peut obtenir une forme plus générale de Hγ(x) en introduisant des paramètres d’échelle σ > 0 et de position µ ∈ R, respectivement:

Hγ,µ,σ(x) = Hγ

xµ σ

!

Le cas γ = 0 peut être vu comme le cas limite lorsque que γ −→ 0, on retrouve une loi exponentielle. Le paramètre de forme γ apparaissant dans Hγ,σ est le même que celui découlant de la distribution généralisée des valeurs extrêmes. La fdr Hγ,0,σ joue un rôle important dans la partie suivante. On la note par:

1.6.2 Théorème de Pickands-Balkema-de Haan

Le Théorème suivant représente le lien entre Hγ,σ et Gγ, Embrechts et al. [33, Théorème 3.4.13(b)].

Théorème 1.6.1 (Pickands, Balkema, de Haan). Pour chaque γ ∈ R on a:

F ∈ MDA(Gγ) ⇐⇒ ∃σ(u) > 0 : limu−→x

F sup

0≤y≤xF−u

|Fu(y)−Hγ,σ(u)| = 0 (1.26) Ce théorème signifie que si F vérifie le théorème de Fisher et Tippet 1.3.5, i.e si F appartient au domaine d’attraction MDA(Gγ) alors il existe une fonction σ(.) positive et un réel γ tels que la loi des excès Fu peut être uniformément approchée par une distribution de Pareto généralisée (GPD) Hγ,σ. En résumant:

GEV GPD

Gγ, γ ∈ R Hγ,σ, γ ∈ R, σ > 0

Décrit la limite normalisé Apparaît comme la distribution limite des distributions de maxima. des excès au-delà des seuils élevés.

ESTIMATION DE L’INDICE DE QUEUE

2.1 Introduction

S

oit X1, X2, ..., Xn une suite de variables aléatoires i.i.d. ayant pour fonction de répartition F et notons X1,n, X2,n, ..., Xn,n les statistiques d’ordre associés à cet échantillon. Dans le Chapitre 1, nous avons connu que le comportement asymptotique des maximum Xn,n (après renormalisation) est bien connu et peut être modélisé par la distribution des valeurs extrêmes ayant pour paramètre γ. Ce paramètre clé est appelé indice de valeurs extrêmes ou indice de queue. Il mesure le poids de la queue droite de la fdr sous-jacent F, ce qui nous permet de comprendre et de décrire le comportement des valeurs extrêmes d’une population. Selon son signe, trois domaines d’attraction sont possible pour F: Fréchet (γ > 0), Gumbel(γ = 0) et Weibull (γ < 0). Donc, l’estimation de ce paramètre constitue une tâche importante dans la théorie de valeurs extrêmes(L’estimation de l’indice de queue est importante pour de nombreux aspects), puisqu’elle est un point de départ pour l’inférence statistique sur les valeurs extrêmes d’une popu-lation. Avec son estimation, il est possible d’estimer d’autres paramètres d’événements extrêmes comme le point terminal à droite xF de la fdr sous-jacent F, les quantiles extrêmes, la période de retour et la probabilité de dépassement d’un niveau élevé ainsi que l’existence des moments.

En fonction de l’importance, il ya une vaste littérature sur l’estimation de l’indice de queue. La connaissance de γ est donc nécessaire pour résoudre un certain nombre de problèmes dans l’analyse de valeur extrême, comme l’estimation des quantiles extrêmes deX, ce qui a fait de son estimation un su-jet central dans la littérature. Les deux premiers estimateurs de ce paramètre

30

ont été proposés en 1975 par Hill [47] et Pickands [71]. Puis d’autres estima-teurs ont été suggérés, comme l’estimateur du maximum de vraisemblance ou l’estimateur des moments (de Haan and Ferreira [21]). Drees and Kauf-mann [32] a montré que les estimateurs de γ sont, en général, des fonctions régulières des grandes statistiques d’ordre. Ces estimateurs sont qualifiés d’estimateurs semi-paramétriques. Le terme semi-paramétrique réflète le fait que nous faisons seulement des hypothèses partielles sur la fdr F inconnue.

La plupart des méthodes classiques précédentes consistent à utiliser les k

statistiques d’ordre supérieursXn−k,n, ..., Xn,n. Cela semble naturel car l’information de la queue est seulement contenue dans la partie extrême supérieure de

l’échantillon. Le choix de k dépend de n, donc k = kn et doit vérifier les conditions suivantes

k = kn −→ ∞ lorsque n −→ ∞ (2.1)

kn

n −→ 0 lorsque n −→ ∞ (2.2)

La condition (2.1) est exigée afin d’utiliser un nombre assez grand de données pour l’estimation. La condition (2.2) vise à assurer que l’estimation est effec-tuée à partir de données qui appartiennent à la queue de la fdr. La statistique Xn−k,n est alors dite statistique d’ordre intermédiare.

Une suite d’entiers kn est dite intermédiaire si elle satisfait (2.1) et (2.2). Par conséquent, les statistiques d’ordre Xn−k:n, avec k satisfaisant (2.1) et (2.2) sont appelées statistiques d’ordre intermédiaire.