• Aucun résultat trouvé

On suppose ici qu’on est dans le cas des donn´ees longitudinales. C’est-`a-dire, on a des r´ep´etitions ind´ependantes (conditionnellement `a la population) avec des covariables diff´erentes. L’observation Y est m-dimensionnelle (si on a m r´ep´etitions) et on a m cova-riables. Le mod`ele est donn´e dans ce cas par

E (Y |X, Z) = K X k=1 ωkm j=1g(hβk, Xji + hγk, Zji + bk).

On a alors l’identifiabilit´e sous l’hypoth`ese faible (H2) d`es que l’on a au moins 3 r´ep´etitions.

Th´eor`eme 4.3.0.1 On suppose m ≥ 3. Sous les hypoth`eses (H1), (H2), (H3) et (H4),

le mod`ele est identifiable : la connaissance de Pg,ω,β,γ,b permet de retrouver K, g, ω, β, γ et b.

Preuve du Th´eor`eme 4.3.0.1.

Si l’on connait la loi de Y , alors, pour tout z, on connait la fonction H de (Rd)m dans (0, 1)m donn´ee par H(x1, . . . , xm) = K X k=1 ωkm j=1g(hβk, xji + ˜bk(z))

avec ˜bk(z) = bk+ hγk, zii. Montrons tout d’abord que pour tout z, les fonctions g(hβk, ·i + ˜bk(z)) sont lin´eairement ind´ependantes. En effet, si α1, . . . , αK sont des r´eels tels que pour tout x ∈ Rd,

K

X

k=1

αkg(hβk, xi + ˜bk(z)) = 0,

alors par d´erivation pour tout x ∈ Rd,

K

X

k=1

αkg0(hβk, xi + ˜bk(z))βk= 0.

En prenant V ∈ hβki tel que V /∈ hβji, j 6= k, ce qui est possible sous (H2), puis x = tV et t tend vers l’infini, on obtient que αkg0(˜bk(z))βk= 0, et donc αk = 0.

Par la m´ethode spectrale analogue `a celle permettant de montrer l’identifiabilit´e des m´elanges multidimensionnels non param´etriques, on voit que la connaissance de H permet de retrouver K, et, pour tout z, les ωk et fonctions g(hβk, ·i + ˜bk(z)).

Si l’on connait la fonction x 7→ g(λkk, xi + ˜bk(z)) on retrouve µk par d´erivation, puis g, puis les ˜bk(z)) comme pour le Th´eor`eme 4.2.1.2 puis les γk et les bk comme pour le Th´eor`eme 4.2.2.1.

Chapitre 5

M´elange de valeurs extrˆemes en

pr´esence de censure

Sommaire

5.1 Introduction . . . 108 5.2 Mod`ele de m´elange et valeurs extrˆemes . . . 110 5.3 Estimation des param`etres . . . 111 5.3.1 Vraisemblance en dessous du seuil u . . . 111 5.3.2 Vraisemblance au dessus du seuil u . . . 112 5.3.3 Estimation . . . 113 5.4 Estimation des quantiles extrˆemes . . . 115 5.4.1 Par la fonction de r´epartition du mod`ele extrˆeme . . . 115 5.4.2 Par la m´ethode de reparam´etrisation . . . 116 5.5 Etude de simulation . . . .´ 116 5.5.1 Pour un seuil u fix´e . . . 117 5.5.2 Pour un seuil u inconnu . . . 119 5.5.3 Conclusion . . . 121 5.6 Discussion & conclusion . . . 122

R´esum´e

La th´eorie des valeurs extrˆemes appel´ee “Extreme value theory” EVT en anglais, est une vaste th´eorie dont le but est d’´etudier les ´ev´enements rares. C’est-`a-dire, les ´

ev´enements dont la probabilit´e d’apparition est faible. Par exemple les intemp´eries, les inondations, les catastrophes naturelles,. . . . Il est donc important de pouvoir d´eterminer un seuil suffisamment grand au dessus duquel les donn´ees sont consid´er´ees extrˆemes.

Dans ce chapitre, on observe un m´elange `a deux composantes : (1) une composante en

dessous du seuil, appel´e “bulk” mod`ele et (2) une composante au dessus du seuil appel´e “tail” mod`ele. Dans ce chapitre, nous consid´erons qu’en dessous du seuil, on a un mod`ele

param´etrique (exemple Weibull) et une GPD (Generalized Pareto Distribution) au dessus

du seuil. De plus, on suppose que les donn´ees au dessus du seuil ne sont pas compl`etement observ´ees. Elles sont censur´ees al´eatoirement `a droite par une variable de loi extrˆeme.

Cependant, il faut noter que la vraisemblance de ce mod`ele ne peut pas pleinement

tirer profit de l’algorithme EM, qui est couramment utilis´e dans l’´etude des mod`eles de m´elange. En effet, le seuil u est un param`etre commun aux deux composantes et poids du m´elange. De ce fait des m´ethodes bay´esiennes param´etriques et non-param´etriques sont souvent utilis´ees pour estimer les param`etres des m´elanges de valeurs extrˆemes.

Pour stabiliser l’estimation par maximum de vraisemblance, nous proposons ici une

m´ethode d’estimation en deux ´etapes : (1) on estime d’abord par maximum de

vraisem-blance les param`etres du mod`ele en fixant la valeur du seuil u. Ensuite (2) on r´ep`ete la proc´edure (1) sur une grille de valeurs de u pour en s´electionner celle qui correspond `a la

plus grande vraisemblance. Avec cette m´ethode d’estimation, nous montrons par

simula-tion que l’augmentasimula-tion de la censure diminue la qualit´e de l’estimation des param`etres au dessus du seuil. Ainsi, en cas de forte censure, il faut suffisamment de donn´ees pour bien estimer les param`etres par le maximum de vraisemblance.

Mots cl´es : Censure al´eatoire, Maximum de vraisemblance, M´elange de valeurs

Abstract

Extreme Value Theory (EVT) is used to develop models for studing rare events, that are events with low probability of occurence. For example : bad weather, floods natural disasters, . . . . So, it is important to be able to determine a threshold sufficiently large above of which the data are considered extreme. In this case, we observe a mixture with two components : (1) a component below the threshold, called “bulk” model and (2) a component above the threshold called “tail” model. In this chapter, we considered that below the threshold we have a parametric model (example Weibull ) and a GPD (Generalized Pareto Distribution) beyond the threshold. Moreover, we assume that the data above the threshold are not completely observed. They are randomly censored on the right by a variable with an extreme law.

However, it should be noted that the likelihood of this model can not fully benefit from the EM algorithm, which is commonly used in the study of mixing models. Indeed, the threshold u is a parameter common to both components and weights of the mixture. Therefore, parametric and non-parametric Bayesian methods are often used to study this type of model.

To stabilize the maximum likelihood estimation, we propose here a two-step estimation method : (1) we first estimate the model parameters using maximum likelihood by setting the threshold value u. Next (2) repeat the procedure (1) for several values of u to select the value with corresponds to the highest likelihood. With this estimation method, we show by simulation that the increase of the censoring decreases the quality of the parameters estimation above the threshold. Thus, in case of strong censorship, more data is needed to properly estimate the parameters.

Keywords : Extreme value mixture, Extreme value theory, Maximum likelihood, Random censoring.

5.1 Introduction

La th´eorie des valeurs extrˆemes appel´ee “Extreme value theory” EVT en anglais, est une vaste th´eorie dont le but est d’´etudier les ´ev´enements rares ([41]). C’est-`a-dire, les ´

ev´enements dont la probabilit´e d’apparition est faible. Par exemple les intemp´eries, les inondations, les catastrophes naturelles,. . . .

L’un des d´efis pour les mod`eles des valeurs extrˆemes est de d´eterminer un seuil suffi-samment ´elev´e, au dessus duquel les donn´ees peuvent ˆetre consid´er´ees comme extrˆemes. Dans ce cas, le mod`ele est vu comme un m´elange compos´e de deux sous-mod`eles : (1) un sous-mod`ele en dessous du seuil, appel´e “bulk” mod`ele et (2) un autre au dessus du seuil appel´e “tail” mod`ele. Le mod`ele r´esultant est appel´e mod`ele de m´elange de valeurs extrˆemes (”Extreme value mixture model” en anglais, voir Figure 5.1). Dans le pass´e, des choix de seuil ´etaient faits en utilisant des outils graphiques. Aujourd’hui le challenge est de consid´erer le seuil comme un param`etre du mod`ele `a estimer.

Figure 5.1 – Exemple de mod`ele de m´elange de valeurs extrˆemes. La ligne pointill´ee repr´esente le seuil u.

Plusieurs auteurs sont r´ecemment all´es dans dans ce sens en utilisant diff´erentes m´ethodes d’estimation. En 2002, Frigessi et al.([80]) ont utilis´e un mod`ele dynamique pond´er´e en combinant une loi de Weibull pour le bulk mod`ele avec une loi de Pareto g´en´eralis´ee (GPD) pour le tail mod`ele. Ils ont consid´er´e les poids du m´elange comme fonction de la fonction de r´epartition d’une loi de Cauchy, ce qui augmente le nombre de param`etre `a estimer. Hu ([51]) montre dans sa th`ese que si le param`etre d’´echelle de la loi de Cauchy est proche de 0, la qualit´e de l’estimation diminue. D’autres auteurs ont essay´e d’utiliser la distribution en dessous du seuil pour d´efinir les poids du m´elange. C’est le cas de Behrens et al. ([81]) et de Mendes et Lopes ([82]) (qui utilisent deux bulk mod`eles en mˆeme temps, c’est-`a-dire deux seuils u1 et u2 pour d´efinir deux mod`eles extrˆemes). En 2006, Trancedi et al.([83]) ont essay´e de construire le mod`ele en consid´erant que les poids du m´elange ne d´ependent que de la probabilit´e de d´epasser le seuil. Mais ils ont utilis´e une m´ethode non-param´etrique en dessous du seuil pour estimer les param`etres. Par la suite plusieurs auteurs ont essay´e d’aller dans la mˆeme direction en utilisant une m´ethode bay´esienne pour estimer les param`etres (MacDonald et al. ([57]), Zhao et al.([84]), Zhao et al. ([85])). En 2012, Lee et al. ([86]) utilisent un mod`ele exponentiel en dessous du

seuil avec une GPD pour le tail mod`ele en en utilisant une m´ethode dite ”Peaks-over

pa-ram`etres extrˆemes. Un peu plus tˆot, en 2011, Nasciemento et al. ([87]) ont combin´e une m´ethode semi-param´etrique et la m´ethode bay´esienne mais en utilisant en dessous du seuil un m´elange de distributions gamma. L’un des probl`emes du mod`ele de m´elange extrˆeme est la r´egularit´e au point u. Carreau et Bengio ([88, 89] ) ont commenc´e par ajouter des contraintes de continuit´e de la densit´e et de ses d´eriv´ees au point u. Comme pr´ecis´e dans MacDonald et al. ([57]), la forme param´etrique est la plus simple des mod`eles de m´elanges extrˆemes (Frigessi et al. (2002, [80]), Behrens et al. (2004, [81]) et Zhao et al. (2010, [84])). Cependant, il faut noter que la vraisemblance de ce mod`ele ne peut pas pleinement tirer profit de l’algorithme EM, qui est couramment utilis´e dans l’´etude des mod`eles de m´elange. En effet, le seuil u est un param`etre commun aux deux composantes et poids du m´elange. Ce qui fait que la m´ethode bay´esienne est souvent utilis´ee dans le cadre de l’estimation des param`etres extrˆemes (Coles et al. [90, 91]).

Dans ce chapitre, nous consid´erons qu’en dessous du seuil, on a un mod`ele

pa-ram´etrique (exemple Weibull) et une GPD au dessus du seuil. De plus, on suppose que

les donn´ees au dessus du seuil ne sont pas compl`etement observ´ees. Elles sont censur´ees al´eatoirement `a droite par une variable de loi extrˆeme.

Nous proposons dans ce chapitre une m´ethode d’estimation en deux ´etapes : (1) on

estime d’abord par maximum de vraisemblance les param`etres du mod`ele en fixant la

valeur du seuil u. Ensuite (2) on r´ep`ete la proc´edure (1) sur une grille de valeurs de u pour s´electionner celle qui correspond `a la plus grande vraisemblance.

Ce chapitre est organis´e comme suit. La section 5.2 pr´esente le mod`ele ´etudi´e en d´etail. Les sections 5.3 et 5.4 pr´esentent la m´ethode d’estimation de param`etres et des quantiles extrˆemes respectivement. La section 5.5 pr´esente des r´esultats de simulation qui illustrent l’estimation des param`etres. Une discussion est donn´ee `a la section 5.6.