HAL Id: inria-00494684
https://hal.inria.fr/inria-00494684
Submitted on 24 Jun 2010
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de
Estimation de courbes de niveaux extrêmes pour des lois à queues lourdes
Abdelaati Daouia, Laurent Gardes, Stéphane Girard, Alexandre Lekina
To cite this version:
Abdelaati Daouia, Laurent Gardes, Stéphane Girard, Alexandre Lekina. Estimation de courbes de
niveaux extrêmes pour des lois à queues lourdes. 42èmes Journées de Statistique, Société Française
de Statistique, May 2010, Marseille, France. �inria-00494684�
Estimation de courbes de niveaux extrˆ emes pour des lois ` a queues lourdes
Abdelaati Daouia
1, Laurent Gardes
2, St´ephane Girard
2& Alexandre Lekina
21
GREMAQ, Universit´e de Toulouse, Aile J.J. Laffont 21 all´ee de Brienne, 31000 Toulouse, France.
2
Equipe Mistis, INRIA Rhˆone-Alpes & Laboratoire Jean Kuntzmann ´ Inovall´ee, 655, av. de l’Europe, Montbonnot, 38334 Saint-Ismier cedex, France.
R´ esum´ e
Le probl`eme d’estimation des courbes de niveaux extrˆemes est ´equivalent `a l’´etude des quantiles conditionnels quand l’ordre du quantile converges vers un.
Nous montrons que sous certaines conditions, il est possible d’estimer de telles courbes au moyen d’un estimateur `a noyau de la fonction de survie conditionnelle.
En cons´equence, ce r´esultat nous permet d’introduire deux versions lisses de l’esti- mateur de l’indice de queue conditionnel indispensable lorsque l’on veut extrapoler.
Nous ´etablissons la loi limite des estimateurs ainsi construits. Pour conclure, une illustration sur donn´ees simul´ees est pr´esent´ee.
Mots-cl´ es : Extrˆemes, quantile conditionnel, estimateur `a noyau.
Abstract
The problem of estimating extreme level curves is equivalent to studying the conditional quantiles when the order of the quantile converges to one as the sample size increases. We show that under some conditions, it is possible to estimate these curves using a kernel estimator of the conditional survival function. As a conse- quence, this result allows us to introduce two smooth versions of the conditional tail index estimator necessary to extrapolate. Asymptotic distributions of these es- timators are established. To conclude, an illustration on simulated data is presented.
Keywords : Extreme-values, conditionnal quantile, kernel estimator.
1 Introduction
Soient {(X
i, Y
i), i = 1, . . . , n} des copies ind´ependantes du couple al´eatoire (X, Y ) ∈ R
d× R o` u Y est une variable d’int´erˆet associ´ee `a une covariable X. Pour tout x ∈ R
det pour toute suite r´eelle α
n→ 0, on se propose d’estimer les courbes de niveaux extrˆemes d´efinies comme les graphes de fonctions x ∈ R
d7→ q(α
n|x) ∈ R v´erifiant
P (Y > q(α
n|x)|X = x) = α
n,
lorsque la fonction de r´epartition conditionnelle de Y sachant X = x est `a queue lourde. De fa¸con plus pr´ecise, ceci signifie que pour tout y > 0,
F ¯ (y|x)
def= 1 − F (y|x) = y
−1/γ(x)`(y|x),
avec γ(.) une fonction inconnue et positive de la covariable x que l’on appelle indice de queue conditionnel et `(.|x) une fonction `a variations lentes `a l’infini que l’on supposera normalis´ee, c’est-`a-dire qu’elle peut se r´e´ecrire sous la forme
`(y|x) = c(x) exp µZ
y1
ε(u|x) u du
¶ ,
avec c(.) une fonction positive et ε(y|x) → 0 quand y → ∞.
Le lecteur pourra se r´ef´erer `a Bingham, Goldie et Teugels (1987) pour une pr´esentation plus d´etaill´ee de la th´eorie des fonctions `a variations lentes.
2 D´ efinition de nos estimateurs
Un estimateur naturel de la fonction x ∈ R
d7→ q(α
n|x) appel´ee quantile condi- tionnel est donn´e par
ˆ
q
n(α
n|x)
def= ˆ¯ F
n←(α
n|x) = inf n
t, F ˆ¯
n(t|x) ≤ α
no
. (1)
Afin d’estimer la fonction de survie conditionnelle, on se propose d’utiliser un esti- mateur `a noyau introduit par Collomb (1976). Il est d´efini par
F ˆ¯
n(y|x) = 1 nh
dnX
n i=1K
µ x − X
ih
n¶
1
{Yi≥y}, 1 nh
dnX
n i=1K
µ x − X
ih
n¶ ,
o` u la fonction K(.) appel´ee noyau est une fonction positive, born´ee, int´egrable et `a support compact S ⊆ R
det h
nest une suite non al´eatoire telle que h
n→ 0 quand n → ∞ appel´ee param`etre de lissage. Le d´enominateur de la fonction de survie conditionnelle est l’estimateur `a noyau classique de la densit´e g(.) de X.
Dans cet article, nous nous int´eressons `a l’estimation du r´eel q (α
n|x) lorsque α
n→ 0.
Nous parlons de quantile extrˆeme lorsque α
n→ 0 quand n → ∞. Deux situations sont alors envisag´ees en fonction de la vitesse de convergence de α
nvers z´ero.
(a) Dans la premi`ere situation, la suite α
nconverge lentement vers z´ero en ce sens que nh
dnα
n→ ∞. Autrement dit, ceci revient `a supposer que le quantile q (α
n|x) ne tend pas trop vite vers l’infini quand n → ∞. Dans une telle situation, l’estimation du quantile extrˆeme conditionnel requiert d’interpoler
`a l’int´erieur de l’ensemble des donn´ees car il y a presque sˆ urement un point
de l’´echantillon dans la r´egion B(x, h
n) × (q (α
n|x), ∞) de R
d+1o` u B(x, h
n)
est une boule centr´ee en x de rayon h
n(voir lemme 1). On se propose alors
d’estimer le quantile extrˆeme conditionnel par (1).
(b) Dans la deuxi`eme situation, on autorise la suite α
n`a converger vers z´ero plus vite que dans la situation (a), c’est-`a-dire que l’on ne suppose plus que nh
dnα
n→ ∞. On dit alors que α
nconverge rapidement vers z´ero. De fa¸con
´equivalente, il est suppos´e ici que le quantile q (α
n|x) tend vite vers l’infini quand n → ∞. Dans une telle situation, l’estimation du quantile condition- nel peut n´ecessiter d’extrapoler au-del`a des observations. On propose donc d’adapter l’estimateur de Weissman (1978) au cas conditionnel. On estime alors q (α
n|x) par
ˆ
q
nW(α
n|x) = ˆ q
n(β
n|x) (α
n/β
n)
−ˆγn(x),
o` u β
nest telle que nh
dnβ
n→ ∞. ˆ γ
n(x) est un estimateur de l’indice de queue conditionnel dont nous donnons deux exemples.
3 Lois asymptotiques
Il convient tout d’abord de donner quelques conditions et r´esultats utiles pour
´etablir la loi asymptotique de nos estimateurs. La d´emonstration des r´esultats in- troduits dans cette partie peut ˆetre consult´ee dans Daouia, Gardes, Girard et Le- kina (2010). Dans tout ce qui suit, on d´esigne par d(x, x
0) la distance entre deux points (x, x
0) ∈ R
d× R
det on fait les trois hypoth`eses suivantes dites de r´egularit´e.
(L.1) : Il existe c
γ> 0 tel que
¯ ¯
¯ ¯ 1
γ (x) − 1 γ(x
0)
¯ ¯
¯ ¯ ≤ c
γd(x, x
0).
(L.2) : Il existe c
`> 0 et y
0> 1 tel que sup
y≥y0
¯ ¯
¯ ¯ log `(y|x)
log y − log `(y|x
0) log y
¯ ¯
¯ ¯ ≤ c
`d(x, x
0).
(L.3) : Il existe c
g> 0 tel que ¯
¯ g(x) − g(x
0) ¯
¯ ≤ c
gd(x, x
0).
Dans le but de contrˆoler le comportement de la fonction de survie conditionnelle par rapport `a sa premi`ere variable, on introduit la condition suivante sur le terme de biais ε(.|x).
(F) : La fonction |ε(.|x)| est asymptotiquement d´ecroissante.
Le contrˆole de ce terme est d’une importance capitale quand on cherche `a ´etablir des r´esultats sur la normalit´e asymptotique des estimateurs de l’indice de queue conditionnel.
Le lemme suivant donne une interpr´etation g´eom´etrique de la condition nh
dnα
n→ ∞ introduite pr´ec´edemment.
Lemme 1 Supposons les conditions (L.1), (L.2) et (L.3) satisfaites. Consid´erons
la r´egion de R
d+1d´efinie par R
n(x) = B(x, h
n) × (q (α
n|x), ∞) o`u x ∈ R
dest tel que
g(x) > 0. Si h
nlog q (α
n|x) → 0 quand n → ∞, alors P(∃i ∈ {1, . . . , n}, (X
i, Y
i) ∈
R
n(x)) → 1 quand n → ∞ si et seulement si, nh
dnα
n→ ∞.
Le th´eor`eme suivant ´etablit la normalit´e asymptotique de l’estimateur ˆ q
n(.|x).
Th´ eor` eme 1 Supposons les conditions (L.1), (L.2) et (L.3) satisfaites. Soit {τ
j, j = 1, . . . , J } une suite strictement positive et d´ecroissante. On pose α
n,j= τ
jα
n. Si α
n→ 0, nh
dnα
n→ ∞ et nh
d+2nα
nlog
2(α
n) → 0 quand n → ∞, alors, pour tout x ∈ R
dtel que g(x) > 0, on a
½q nh
dnα
nµ q ˆ
n(α
n,j|x) q(α
n,j|x) − 1
¶¾
{j=1,...,J}
−→ N
Lµ
0
RJ, γ
2(x) kK k
22g(x) Σ
¶ ,
o`u Σ
j,j0(x) = 1/τ
j∧j0pour (j, j
0) ∈ {1, . . . , J }
2.
Dans la situation (a), la variance asymptotique ´etant inversement proportionnelle
`a nh
dnα
n, l’estimation des courbes de niveaux extrˆemes est d’autant plus stable que l’on s’´eloigne de la fronti`ere de l’ensemble des donn´ees. Aussi, comme cette variance est proportionnelle `a γ
2(x), ceci implique que l’estimation de q (α
n|x) est plus dif- ficile pour des grandes valeurs de l’indice de queue conditionnel.
De ce th´eor`eme, on d´eduit deux estimateurs de l’indice de queue conditionnel.
L’int´erˆet de construire de tels estimateurs est double. D’une part il nous permet de construire des intervalles de confiance du quantile extrˆeme conditionnel q (α
n|x) et d’autre part de pouvoir extrapoler au-del`a des observations. Le premier estima- teur de γ(x) que nous proposons est de type Pickands (1975) et il est donn´e par
ˆ
γ
nP(x) = 1 log 2 log
µ q ˆ
n(α
n|x) − q ˆ
n(2α
n|x) ˆ
q
n(2α
n|x) − q ˆ
n(4α
n|x)
¶ .
Notre second estimateur est de type Hill (1975). Il est d´efini pour tout J > 1 par ˆ
γ
Hn(x) = X
J j=1log (ˆ q
n(α
n,j|x)/ q ˆ
n(α
n,1|x)) ,
JX
j=1
log (τ
1/τ
j) .
Corollaire 1 Supposons la condition (F) v´erifi´ee. Sous les hypoth`eses du Th´eor`eme 1 : (i) Si p
nh
dnα
nε (q (2α
n|x)|x) → 0 quand n → ∞, alors q
nh
dnα
n¡ ˆ
γ
nP(x) − γ(x) ¢
L−→ N Ã
0, kKk
22g(x)
γ
2(x)(2
2γ(x)+1+ 1)
24(log 2)
2(2
γ(x)− 1)
2! . (ii) Si p
nh
dnα
nε(q (α
n,1|x)|x) → 0 quand n → ∞, alors q
nh
dnα
n¡ ˆ
γ
nH(x) − γ(x) ¢
L−→ N µ
0, V
JkKk
22g(x) γ
2(x)
¶ ,
o`u V
J= ³P
Jj=1 2(J−j)+1
τj
− J
2´ Á³P
Jj=1
log (τ
1/τ
j)
´
2.
Par comparaison, la variance asymptotique de l’estimateur γ
nP(.) (resp. γ
nH(.)) est
`a un facteur d’´echelle kKk
22/g(x) (resp. V
JkKk
22/g(x)) pr`es identique `a celle de l’estimateur classique de Pickands (resp. de Hill) dans le cas non conditionnel.
Th´ eor` eme 2 Supposons les conditions (L.1), (L.2) et (L.3) satisfaites. Soit β
nune suite positive tendant vers z´ero telle que nh
dnβ
n→ ∞ et nh
d+2nβ
nlog
2(β
n) → 0 quand n → ∞. Soit γ ˆ
n(x) un estimateur de l’indice de queue tel que
q
nh
dnβ
n(ˆ γ
n(x) − γ (x)) −→ N
L¡
0, v
2(x) ¢
avec v(x) > 0. (2) Si α
n/β
n→ 0 alors, pour tout x ∈ R
d, on a
p nh
dnβ
nlog (β
n/α
n)
µ q ˆ
nW(α
n|x) ˆ
q
n(α
n|x) − 1
¶
−→ N
L¡
0, v
2(x) ¢ .
La loi asymptotique de ˆ q
nW(.|x) d´epend du comportement de ˆ γ
n(.). Si l’estimateur ˆ
γ
n(.) converge moins vite que dans (2), alors la loi limite de ˆ q
Wn(.|x) peut d´ependre du comportement de ˆ q
n(.|x). Pour un exemple d’une telle situation, on pourra se r´ef´erer `a Gardes, Girard et Lekina (2010). Aussi, remarquons que l’estimateur ˆ
q
nW(.|x) peut ˆetre utilis´e dans les deux situations (a) et (b).
4 Illustration num´ erique
On g´en`ere un ´echantillon {(X
i, Y
i), i = 1, ..., n} de taille n = 1000 suivant la loi du couple (X, Y ) ∈ R × R o` u X est une covariable de loi uniforme standard et dont le quantile conditionnel de Y sachant X = x est donn´e par la loi de Fr´echet
q(α|x) = { − log (1 − α)}
−γ(x). La fonction indice de queue conditionnel est d´efinie par
x ∈ [0, 1] 7→ γ(x) = 1 2
µ 1
10 + sin (πx)
¶ µ 11 10 − 1
2 exp
³
−64 (x − 1/2)
2´¶
.
Pour cette illustration, on utilise un noyau bi-quadratique d’expression K(x) = 15
16
¡ 1 − x
2¢
21
{|x|≤1}.
On choisit le param`etre de lissage par validation crois´ee suivant le crit`ere de Yao (1999) h
cv= arg min
hn
X
n i=1X
n j=1n
1
{Yi≥Yj}− F ˆ¯
n,−i(Y
j|X
i) o
2,
o` u ˆ¯ F
n,−iest l’estimateur de ¯ F calcul´e `a partir de l’´echantillon {(X
k, Y
k), k = 1, . . . , n}
priv´e de sa i`eme observation (X
i, Y
i). On obtient h
cv= 0.164. ` A la suite de quoi, on
* * *
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
* *
* *
**
*
*
*
*
* *
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
* *
*
* *
* *
*
*
* *
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
* *
*
*
* *
*
*
*
*
*
*
*
* *
*
*
*
* *
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
* * * *
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
* *
*
*
*
*
* *
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
* *
* *
*
*
*
*
*
* *
*
*
* **
*
*
*
* *
*
* * *
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
* *
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* * *
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
* *
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
* * *
*
*
*
*
* *
*
*
*
*
**
*
*
*
* *
* *
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
* * *
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
* *
*
*
* *
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
* *
*
*
*
*
* *
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
* *
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
* *
*
*
* *
*
*
* * *
*
*
*
*
*
*
* * *
*
*
**
*
*
*
*
*
* *
*
* *
*
*
* *
*
*
*
*
*
*
*
*
*
* *
*
* * *
* *
*
*
*
* *
* *
*
*
* * *
*
* *
*
*
*
*
*
**
*
*
*
*
* *
*
*
*
*
* *
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
* *
*
*
*
*
* *
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
* *
* *
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
* *
*
* *
*
*
*
*
0.0 0.2 0.4 0.6 0.8 1.0
−1012
covariable
log−quantile
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.6
covariable
indice de queue conditionnel