• Aucun résultat trouvé

Inf´erence du mod`ele GEV

Dans le document ´ECOLE NATIONALE DES PONTS ET CHAUSS´EES (Page 127-132)

VI.3 Inf´erence

VI.3.1 Inf´erence du mod`ele GEV

Le mod`ele GEV n’est pas r´egulier : le support de la distribution d´epend de la valeur des param`etres : µ−σ/ξ est une borne sup´erieure de la distribution si ξ < 0 et une borne inf´erieure si ξ >0. Du fait de cette violation des conditions de r´egularit´e, les propri´et´es des estimateurs du maximum de vraisemblance (existence, convergence, normalit´e asymptotique) ne sont pas automatiquement garanties. Smith [9] a ´etudi´e ce probl`eme de th´eorie en d´etail et formule les conclusions suivantes :

– siξ >−0.5, alors les estimateurs du maximum de vraisemblance poss`edent les propri´et´es asymptotiques ordinaires,

– si −1< ξ <−0.5, alors on peut g´en´eralement calculer les estimateurs du maximum de vraisemblance, mais ils ne poss`edent pas les propri´et´es asymptotiques classiques, – si ξ < −1, il peut mˆeme ˆetre impossible de calculer les estimateurs du maximum de

vraisemblance.

Les cas ennuyeux, ξ < −0.5, correspondent en pratique `a des distributions avec une queue tr`es courte born´ee `a droite qui ne sont que rarement rencontr´ees dans la pratique, ce qui fait que ces limites th´eoriques sont moins strictes qu’elles ne le paraissent de prime abord. Par contre la normalit´e des estimateurs est une propri´et´e asymptotique, qui peut n’ˆetre obtenue que pour un nombre tr`es important de donn´ees, condition irr´ealiste quand on travaille avec des ´ev´enements rares. De ce fait la th´eorie proposera souvent des intervalles de confiance sym´etriques (alors que l’on s’attend `a plus d’incertitudes `a droite qu’`a gauche) et trop optimistes (le th´eor`eme de Cramer-Rao donne la borne inf´erieure th´eoriquement atteignable en situation asymptotique).

Le mod`ele de GEV par maximum de vraisemblance

Rappelons que la vraisemblance d’un mod`ele al´eatoire est la densit´e de sa loi de proba-bilit´e. La vraisemblance du mod`ele g´en´eralis´e des extrˆemes, pourj= 1...mann´ees d’enregis-trements y= (y1, ...yj, ...ym) suppos´ees ind´ependantes s’´ecrit donc :

On travaille g´en´eralement avec la log-vraisemblance, souvent plus maniable, L(y;µ, σ, ξ) = log(l(y;µ, σ, ξ)), not´ee abusivement par la suiteL(µ, σ, ξ) :

Un algorithme d’optimisation num´erique est indispensable pour trouver le maximum de L(µ, σ, ξ) sous les m contraintes 1 +ξy

j−µ σ

>0.

Le cas ξ = 0 requiert un traitement s´epar´e. En posant ρ = 1/σ et log(λ) = µ/σ, la vraisemblance se pr´esente sous la forme

L(µ, σ, ξ) =−mlog (λρ)−ρ

Exemple VI.7. Prenons comme exemple illustratif le niveau journalier de la mer `a Port Pirie (Australie). Cet exemple est tir´e de [3]. Les donn´ees couvrent la p´eriode 1923-1987 et peuvent ˆetre obtenues sur le site :

http ://www.maths.bris.ac.uk/~masgc/ismev/summary.html.

La figure VI.4 montre le profil du maximum annuel et le graphe des niveaux de retour. La variabilit´e du signal semble stationnaire et il est donc raisonnable de postuler que les maxima sont iid.

VI.3. INF ´ERENCE 119

1920 1930 1940 1950 1960 1970 1980 1990

3.5 4 4.5 5

Hauteur (m)

Maximum annuel du niveau journalier de la mer à Port Pirie

10-2 10-1 100

3.8 4 4.2 4.4 4.6 4.8 5

xp zp(m)

Fig.VI.4 – Chronique des maxima annuels et graphe des niveaux de retour

Appelons (ˆµ,σ,ˆ ξ) l’estimateur du maximum de vraisemblance trouv´e par ´evaluationˆ num´erique. On trouve ici (ˆµ ≃ 3.9,σˆ ≃ 0.2,ξˆ ≃ −0.05). La th´eorie fournit aussi les in-tervalles de cr´edibilit´e apr`es calcul de la matrice de variance-covariance V (inverse de la matrice d’information de Fisher), voir la remarque II.15.

V =



∂µ2L2∂µ∂σ2L∂µ∂ξ2L

∂µ∂σ2L∂σ2L2∂σ∂ξ2L

∂µ∂ξ2L∂σ∂ξ2L∂ξ2L2



1

soit

V ≃

0.00078 0.000197 −0.00107 0.000197 0.00041 −0.00078

−0.00107 −0.00078 0.00965

Prenant la racine carr´ee de la diagonale, on obtient que les ´ecart-types pour ˆµ,σˆ et ˆξ sont respectivement sont 0.028,0.020 et 0.098. L’approximation normale fournit les intervalles de confiance correspondants pourµ, σ, ξ (pour un niveau de 95% approximativement±2 ´ecart-types autour de l’estimation). On constate en particulier que celui correspondant `a ξ est [−0.24,0.14],ce qui contient la valeur 0 et n’exclut pas le mod`ele plus simple de Gumbel. Le choix d’une distribution `a support born´e pour repr´esenter les donn´ees ne va donc pas de soi.

Inf´erence des quantiles de la GEV par maximum de vraisemblance confiance, car la variance dezp peut se calculer par :

Var(zp)≃(∇zp)V (∇zp), l’intervalle de confiance `a 95% ainsi calcul´e est [4.38,5].

On peut reprendre ces mˆemes calculs avec un mod`ele de Gumbel `a deux param`etres (puisqueξ = 0).On trouve ˆµ≃ 3.87,σˆ ≃0.195 avec des ´ecart-types associ´es 0.03 et 0.019.

L’estimation de la hauteur centennale est l´eg`erement plus forte que pr´ec´edemment, ˆz0.01 ≃ 4.77, mais l’intervalle de confiance beaucoup plus ´etroit, ce qui repr´esente le fait qu’une grosse part de l’incertitude est port´ee parξ, qui traduit le comportement des queues de distribution.

V´erification du mod`ele

En rangeant les donn´ees yj , j = 1..m par ordre croissant on obtient un ´echantillon ordonn´ey(i) , i = 1..m. La distribution empirique ´evalu´ee en y(i) peut ˆetre ´evalu´ee par un estimateur non-param´etrique :

e(y(i)) = i m+ 1

(on notera la pr´esence dem+ 1 et non m au d´enominateur pour autoriser la possibilit´e de d´epasser la plus grande donn´ee enregistr´ee).

En rempla¸cant les valeurs inconnues par leur estimation dans la distribution th´eorique, il vient : 1..m. ) des probabilit´es (probability plot) ne doit pas s’´eloigner de la premi`ere diagonale.

Il en va de mˆeme si on regarde le graphe des quantiles (qq plot) , c’est-`a-dire le graphe (

VI.3. INF ´ERENCE 121 Le mod`ele de Gumbel (ξ= 0) par ajustement lin´eaire

La technique du qq plot pr´ec´edent sugg`ere une heuristique d’estimation des param`etres d’un mod`ele de Gumbel fond´ee sur la r´epartition empirique : en effet, en papier de Gumbel, c’est `a dire apr`es avoir effectu´e la transformationy7−→log(−log(y)) , les quantiles empiriques Gˆ−1mv

i m+1

et les donn´ees associ´ees s’alignent sur une droite de pente 1σ et d’ordonn´ee `a l’origine µσ.

Sur l’exemple des niveaux de la mer `a Port-Pirie, on obtient les estimateurs ˆµ= 3.9,σˆ = 0.2,zˆ0.01= 4.8. Malheureusement cette technique simple ne fournit pas d’intervalle de confi-ance des r´esultats qu’elle produit (il faut avoir recours `a des m´ethodes plus ´elabor´ees de type bootstrap), mais ce calcul peut ˆetre utile pour procurer des valeurs initiales int´eressantes en entr´ee d’un algorithme de recherche du maximum de vraisemblance de la GEV.

Autres estimateurs que ceux du maximum de vraisemblance

Dans la litt´erature des extrˆemes, d’autres estimateurs que ceux du maximum de vrai-semblance ont ´et´e propos´es pour ´evaluer les param`etres inconnus (µ, σ, ξ). En particulier, l’estimation du coefficient ξ qui gouverne la forme de la queue de distribution est cruciale.

Ces estimateurs sont tous bas´es sur la statistique d’ordre Y(1) < Y(2) < ...Y(k) < ...Y(n), et on montre leur convergence en consid´erant les ´ecarts dek(n) valeurs ordonn´ees cons´ecutives.

Pour montrer la convergence en probabilit´e de ces estimateurs vers ξ quand k(n) tend vers l’infini avec n, on se place dans les circonstances o`u k(n)n −→

n−→∞0 pour que la proportion du nombre de termes consid´er´es dans l’estimateur n’explose pas de fa¸con asymptotique.

Estimateur de Pickands L’estimateur de Pickands ([8]) s’exprime comme : ξˆk= 1

log(2)log

Y(nk)−Y(n2k) Y(n2k)−Y(n4k)

.

Il est valable quelque soit le signe deξ . La preuve de la convergence est donn´ee `a la page 332 de [4]. En pratique on est `a nfix´e et on trace le graphique de cet estimateur en fonction du nombre k d’observations consid´er´ees, mais le comportement est tr`es volatil au d´epart, ce qui nuit `a la lisibilit´e du graphique. De plus, l’estimateur est m´ecaniquement tr`es sensible `a la taille de l’´echantillon sur lequel on travaille, ce qui le rend peu robuste.

Estimateur de Hill L’estimateur de Hill ([5]) ne fonctionne que pour le domaine d’attrac-tion de Fr´echet (ξ >0). Il est donn´e par

ξˆk= 1 k

Xk j=1

log Y(nj+1)

−log(Y(nk)).

Il s’interpr`ete comme la pente d’unqqplot sur une zone de fortes valeurs (recherche de la pente `a l’infini). Ses conditions d’applications sont sujettes `a de nombreuses discussions dans la communaut´e statistique. Pour la preuve de la convergence, on consultera [4], page 334.

Dans le document ´ECOLE NATIONALE DES PONTS ET CHAUSS´EES (Page 127-132)