Contributions to stochastic algorithm for Big Data and multivariate extreme value theory.

(1)

HAL Id: tel-02129200

https://tel.archives-ouvertes.fr/tel-02129200

Submitted on 14 May 2019

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires

Zhen Wai Olivier Ho

To cite this version:

Zhen Wai Olivier Ho. Contributions to stochastic algorithm for Big Data and multivariate extreme value theory.. Statistics [math.ST]. Université Bourgogne Franche-Comté, 2018. English. �NNT : 2018UBFCD025�. �tel-02129200�

(2)

pr´esent´ee par Zhen Wai Olivier HO

en vue de l’obtention du grade de

Docteur de l’Universit´ e Bourgogne Franche-Comt´ e Sp´ ecialit´ e Math´ ematiques et Applications

Contributions aux algorithmes

stochastiques pour le Big Data et ` a la th´ eorie des valeurs extrˆ emes

multivari´ ees.

Th`ese soutenue le 04 octobre 2018, devant le jury compos´e de :

Yacouba Boubacar-Mainassara Univ. Franche-Comt´ e Examinateur St´ ephane Chr´ etien NPL Directeur de th` ese

Cl´ ement Dombry Univ. Franche-Comt´ e Directeur de th` ese

Laurent Gardes Univ. Strasbourg Rapporteur et Pr´ esident du jury Anne Sabourin T´ el´ ecom ParisTech Examinatrice

Joseph Salmon Univ. Montpellier Rapporteur

(3)

(4)

(5)

(6)

Je souhaite remercier mes directeurs de th` ese Cl´ ement Dombry et St´ ephane Chr´ etien pour leurs encadrements. C’´ etait un grand plaisir de travailler avec eux. Leurs conseils et sup- ports m’ont permis de mener ` a bien ces travaux. Je remercie Joseph Salmon et Laurent Gardes pour avoir accept´ e de rapporter ma th` ese. Leurs conseils et suggestions m’ont permis d’am´ eliorer ma th` ese. Parall` element, je souhaite aussi remercier Anne Sabourin et Yacouba Boubacar Mainassara pour avoir accept´ e de faire partie de mon jury.

Je dois ma gratitude au Laboratoire de Math´ ematique de Besan¸con qui a fourni un cadre de travail agr´ eable le long de ma th` ese. Je tiens ` a remercier toute l’´ equipe de probabilit´ es et statistiques, et en particulier Yacouba pour son support. Merci ´ egalement ` a Ulrich Razafison et Rolland Julien Yves pour les pause-caf´ es o` u j’ai beaucoup appris.

Mercis ` a toute l’´ equipe de doctorants. Je tiens ` a remercier en particulier Johann Cuenin, Quentin Richard, Ohtman Kadmiri, Aline Moufleh et Tianxiang Gou pour les bons moments qu’on a pass´ e ensemble comme les soir´ ees jeux ou restaurants (avec Julien).

Sans plus d’explications, je remercie mes parents Henri et Pauline ainsi que mon fr` ere

Christian. Finalement, je tiens ` a exprimer ma gratitude ` a ceux qui d’une mani` ere ou d’une

autre m’ont pouss´ e ` a aller plus loin et ont fait de moi ce que je suis.

(7)

1 Introduction g´ en´ erale 1

1.1 G´ en´ eralit´ es sur la th´ eorie des valeurs extrˆ emes . . . . 1

1.1.1 Th´ eorie des valeurs extrˆ emes univari´ ee . . . . 1

1.1.2 Th´ eorie des valeurs extrˆ emes multivari´ ee . . . . 4

1.2 R´ esultats obtenus dans la partie I . . . . 6

1.2.1 Chapitre 2: Simple models for multivariate regular variations . . . . . 6

1.2.2 Chapitre 3: On the H¨ usler-Reiss Pareto distribution . . . . 9

1.2.3 Chapitre 4: Numerical study . . . . 14

1.3 G´ en´ eralit´ es sur le machine learning . . . . 15

1.3.1 Algorithmes de descente de gradient . . . . 18

1.3.2 G´ en´ eralit´ es sur les algorithmes de gradient stochastique . . . . 18

1.3.3 G´ en´ eralit´ es sur l’acquisition comprim´ ee . . . . 24

1.4 R´ esultats obtenus dans la partie II . . . . 29

1.4.1 Chapitre 5: Feature selection in weakly coherent matrices . . . . 29

1.4.2 Chapitre 6: Small coherence implies the weak Null Space Property . . 32

1.4.3 Chapitre 7: Incoherent submatrix selection via approximate indepen- dence sets in scalar product graphs . . . . 33

1.4.4 Chapitre 8: Average performance analysis of the projected gradient method for online PCA . . . . 35

I Partie 1 38 2 Simple models for multivariate regular variations 39 2.1 Introduction . . . . 39

2.2 A simple model for multivariate regular variations . . . . 40

2.2.1 Preliminaries on multivariate regular variations . . . . 40

2.2.2 A multivariate version of Breiman Lemma . . . . 42

2.2.3 A copula point of view . . . . 44

2.2.4 Examples . . . . 45

2.2.5 Non standard regular variation . . . . 51

(8)

3 On the H¨ usler-Reiss Pareto distribution 52

3.1 Introduction . . . . 52

3.2 The H¨ usler-Reiss Pareto model . . . . 52

3.2.1 Definition and transformation properties . . . . 52

3.2.2 Exponential family properties . . . . 55

3.2.3 Simulation of HR-Pareto random vectors . . . . 59

3.2.4 Maximum likelihood inference . . . . 60

3.3 The generalised H¨ usler-Reiss Pareto model . . . . 64

3.3.1 Definition and transformation properties . . . . 64

3.3.2 Maximum likelihood inference . . . . 66

3.3.3 Optimising the likelihood . . . . 70

3.3.4 A likelihood ratio test for α

₁

= · · · = α

_d

. . . . 72

Appendices 3.A Lemmas . . . . 74

3.B Argmax theorem . . . . 75

4 Numerical study 76 4.1 Introduction . . . . 76

4.2 Numerical simulation: bias and variance in the exact simulation case . . . . 76

4.3 Numerical simulation: bias and variance in the domain of attraction simulation case . . . . 78

II Partie 2 81 5 Feature selection in weakly coherent matrices 82 5.1 Introduction . . . . 82

5.1.1 Background on singular value perturbation . . . . 82

5.1.2 Previous approaches to column selection . . . . 82

5.1.3 Coherence . . . . 83

5.1.4 Contribution of the paper . . . . 83

5.2 Main results . . . . 84

5.2.1 Appending one vector: perturbation of the smallest non zero eigenvalue 84 5.2.2 Successive perturbations . . . . 86

5.3 A greedy algorithm for column selection . . . . 86

5.4 Numerical experiments . . . . 86

5.4.1 Extracting representative time series . . . . 86

5.4.2 Extracting representative images from a dataset . . . . 88

5.4.3 Comparison with CUR . . . . 89

5.5 Conclusion and perspectives . . . . 89

Appendices

5.A Interlacing and the characteristic polynomial . . . . 91

(9)

5.B Proof of Corollary 5.2 . . . . 91

6 Small coherence implies the weak Null Space Property 94 6.1 Introduction . . . . 94

6.1.1 Motivation . . . . 94

6.1.2 Goal of the paper . . . . 95

6.1.3 Additional notation . . . . 96

6.2 Background . . . . 96

6.2.1 Weak NSP and weak RIP . . . . 96

6.2.2 On the relationship between RIP and NSP . . . . 97

6.2.3 On the relationship between the Coherence and weak-RIP . . . . 97

6.2.4 The Gershgorin bound . . . . 98

6.3 Main results: small coherence implies weak-NSP . . . . 98

6.4 Conclusion . . . . 101

Appendices 6.A Technical lemmæ . . . . 102

6.A.1 Some perturbation results . . . . 102

6.A.2 Appending one vector: perturbation of the smallest non zero eigenvalue 102 6.A.3 Appending one vector: perturbation of the largest eigenvalue . . . . . 104

6.A.4 Successive perturbations . . . . 105

6.A.5 Bounding scalar products . . . . 108

7 Incoherent submatrix selection via approximate independence sets in scalar product graphs 109 7.1 Introduction . . . . 109

7.2 Incoherent submatrix extraction as an approximate independent set computation110 7.3 Relaxing on the sphere: a new extraction approach . . . . 110

7.3.1 The spectral estimator . . . . 110

7.3.2 Theoretical guarantees . . . . 111

7.4 Conclusion and future works . . . . 113

Appendices 7.A Minimising quadratic functionals on the sphere . . . . 114

7.A.1 A semi-explicit solution . . . . 114

7.A.2 Bounds on µ . . . . 115

7.A.3 `

∞

perturbation of the linear term . . . . 116

7.A.4 Neuberger’s theorem . . . . 118

8 Average performance analysis of the projected gradient method for online PCA 119 8.1 Introduction . . . . 119

8.1.1 Background . . . . 119

8.1.2 Our contribution . . . . 120

(10)

8.1.3 Organisation of the paper . . . . 120

8.2 Main results . . . . 120

8.2.1 Presentation of the problem and prior result . . . . 120

8.2.2 The stochastic projected gradient algorithm . . . . 121

8.2.3 Main theorem . . . . 122

8.3 Proof of the Theorem 8.9 . . . . 122

8.4 Implementation . . . . 124

8.4.1 Choosing the learning rate . . . . 124

8.4.2 Numerical experiment . . . . 126

8.5 Conclusion . . . . 126

Appendices 8.A Technical lemmæ . . . . 127

9 Perspectives 131 9.1 Perspectives suivant les travaux rencontr´ es dans la partie I . . . . 131

9.2 Perspectives suivant les travaux pr´ esent´ es dans la partie II . . . . 132

Liste des publications 133

Bibliographie 134

(11)

Introduction g´ en´ erale

1.1 G´ en´ eralit´ es sur la th´ eorie des valeurs extrˆ emes

Le probl` eme d’estimation de la fr´ equence d’´ ev´ enements extrˆ emes est un probl` eme qui a de nombreuses applications. Ainsi pour mettre en contexte ce probl` eme, dans une ` ere o` u le climat est plus que jamais affect´ e par les activit´ es de l’homme, on consid` ere en exemple l’estimation de la fr´ equence d’´ ev´ enements m´ et´ eorologiques extrˆ emes comme les s´ echeresses en Afrique, les ouragans aux ´ Etats-Unis et les typhons en Asie qui ont des r´ ealit´ es ´ economiques mais aussi humaines.

1.1.1 Th´ eorie des valeurs extrˆ emes univari´ ee

Historiquement, l’approche de la th´ eorie des valeurs extrˆ eme s’orientait vers le comporte- ment du maximum de variables al´ eatoires ind´ ependantes et identiquement distribu´ ees (i.i.d.).

Ainsi, Fisher et Tippett [85] ont ´ etabli les premiers r´ esultats fondateurs sur la loi limite des maximums. Gnedenko [91] a ensuite ´ etendu ces r´ esultats avec le th´ eor` eme de Gnedenko- Fisher-Tippett qui donne les lois limites non-d´ eg´ en´ er´ ees possibles pour les maximums.

Theorem 1.1 (Gnedenko-Fisher-Tippett). Soit X

₁

, . . . , X

_n

variables al´ eatoires i.i.d. avec fonction de r´ epartition commune F et M

n

= max(X

1

, . . . , X

n

). Supposons qu’il existe des suites (a

_n

)

_n

, (b

_n

)

_n

avec a

_n

> 0 et b

_n

∈ R telles que

n→∞

lim P

(M

_n

− b

_n

) a

n

≤ x

= lim

n→∞

(F (a

_n

x + b

_n

))

ⁿ

= G(x) (1.1) o` u G est non-d´ eg´ en´ er´ e. Alors, ` a une constante de position et d’´ echelle pr` es, G est de type de l’une des trois classes suivantes :

• Fr´ echet de param` etre α > 0 avec une fonction de r´ epartition de la forme

Φ

_α

(x) := exp(−x

^−α

)1

x≥0

;

(12)

• Gumbel avec une fonction de r´ epartition de la forme Λ(x) := exp(−e

^−x

);

• Weibull n´ egative de param` etre α > 0 avec une fonction de r´ epartition de la forme Ψ

_α

(x) :=

( exp(−(−x)

^α

) , x < 0

1 , x ≥ 0.

Les lois limites ont ´ et´ e param´ etr´ ees par Jenkinson [112] en une seule famille, appel´ ee

“Generalised Extreme Value” (GEV), donn´ ee par la densit´ e G(z) = exp

"

−

1 + γ

z − µ σ

−1/γ

#

(1.2) d´ efinie sur {z ∈ R : 1 + γ(z − µ)/σ > 0} avec −∞ < µ < ∞, σ > 0 et −∞ < η < ∞.

Le param` etre γ est appel´ e indice de valeur extrˆ eme. La loi limite est de type Fr´ echet pour γ > 0, de type Weibull n´ egative pour γ < 0 et de type Gumbell pour γ = 0. Lorsque (1.1) a lieu avec la fonction limite

G

_γ

(z) = exp(−(1 + γz)

^−1/γ

)

on dit que F est dans le domaine d’attraction de G

_γ

et on note F ∈ M DA(G

_γ

).

Le probl` eme de trouver les hypoth` eses de r´ egularit´ e sur les queues de distribution pour avoir une telle convergence est r´ esolu par les travaux de Gnedenko [91] qui donnent les domaines d’attraction pour les lois GEV avec γ 6= 0. On citera aussi de Haan [97] pour la caract´ erisation du domaine d’attraction de la loi Gumbel ainsi que ses reformulations des conditions d’appartenance au domaine d’attraction des lois GEV en terme de variations r´ eguli` eres ´ etendues.

Theorem 1.2 (de Haan). Pour γ ∈ R , F ∈ M DA(G

_γ

), si et seulement si

t→∞

lim

U (tx) − U (t)

a(t) = x

^γ

− 1

γ , x > 0, (1.3)

o` u U est l’inverse continue ` a gauche de 1/(1 − F ) ( U = (1/(1 − F ))

^←

) et a est une fonction positive. Lorsque γ = 0, le terme de droite est interpr´ et´ e comme log x.

On notera tout particuli` erement le domaine d’attraction de la loi de Fr´ echet

Φ

_α

(z) = exp(−z

^−α

)1

_z>0

, (1.4)

que l’on peut formuler simplement comme une condition de variation r´ eguli` ere : 1 − F doit varier r´ eguli` erement en ∞ avec indice −α, c’est-` a-dire

u→∞

lim

1 − F (ux)

1 − F (u) = x

^−α

, x > 0.

(13)

D’un autre cˆ ot´ e, plus r´ ecemment, la th´ eorie s’int´ eresse aux comportements des exc` es au- dessus d’un seuil. Les travaux fondateurs sont dus ` a Balkema et De Haan[7], Pickands [137].

Le th´ eor` eme de Pickands-Balkema-de Haan donne alors la loi limite non-d´ eg´ en´ er´ ee des exc` es au-dessus d’un seuil comme ´ etant les lois “Generalised Pareto” (GP). La d´ efinition suivante met au clair la notion d’exc` es.

Definition 1.1. Soit X une variable al´ eatoire avec fonction de r´ epartition F et x

F

le sup fini ou infini du support de X. Alors, pour u < x

_F

, la fonction

F

_u

(x) = P (X − u ≤ x|X > u), x ≥ 0, est la fonction de r´ epartition des exc` es de X au dessus de u.

Ainsi d´ efini, le th´ eor` eme suivant donne la limite en loi des exc` es au dessus d’un seuil pour des distributions appartenant au domaine d’attraction d’une loi GEV.

Theorem 1.3 (Pickands-Balkema-de Haan). Soit X une variable al´ eatoire avec fonction de r´ epartition F . Et soit γ ∈ R alors F ∈ M DA(G

γ

) si et seulement si

u→x

lim

_F

sup

0<x<xF−u

|F

_u

(x) − H

_γ,β(u)

(x)| = 0 (1.5)

avec β une fonction positive et H

_γ,β

est la fonction de r´ epartition de la loi Pareto g´ en´ eralis´ ee H

_γ,β

(x) = 1 −

1 + γ x β

−1/γ

, 1 + γx/β > 0.

Par ailleurs, la construction du point de vue des processus ponctuels a ´ et´ e introduite par Dwass [78] et Lamperti [119] sous la notion de processus extr´ emal. D’un point de vue plus appliqu´ e, l’approche des maximums par bloc (BM) profite de la th´ eorie construite sur la distribution limite des maximums afin de mod´ eliser les ´ ev´ enements extrˆ emes. L’id´ ee ´ etant que la distribution des observations dans le bloc appartient au domaine d’attraction d’une loi GEV de sorte que le maximum du bloc suit approximativement une loi GEV dont on pourra estimer les param` etres. D’un point de vue statistique, plusieurs estimateurs ont ´ et´ e propos´ es comme l’estimateur du maximum de vraisemblance (MLE) et les estimateurs des moments pond´ er´ es par probabilit´ e (PWM) [104]. Sous des conditions du second ordre, de Haan et Ferreira [84] ont obtenu la normalit´ e asymptotique des estimateurs PWM (avec γ < 1/2).

Sous des conditions similaires, Dombry et Ferreira [70] ont obtenu la normalit´ e asymptotique pour les estimateurs MLE (avec γ > −1/2). Ainsi, dans le cas de l’estimateur MLE, soit F ∈ M DA(G

_γ

) avec γ > −1/2, ce qui est ´ equivalent ` a la convergence des fonctions inverses

t→∞

lim

V (tx) − V (t)

a(t) = G

^←_γ

= x

^γ

− 1

γ , x > 0,

avec V = −(1/ log F )

^←

et a une fonction positive. Si de plus, on admet une condition sur la vitesse de convergence, c.-` a-d. que pour une fonction A satisfaisant lim

t→∞

A(t) = 0, on a

t→∞

lim

V(tx)−V(t)

a(t)

−

^x^γ_γ⁻¹

A(t) =

Z

x 1

s

^γ−1

Z

s

1

u

^ρ−1

duds = H

_γ,ρ

(x), x > 0, ρ ≤ 0 (1.6)

alors, on a le th´ eor` eme suivant sur la normalit´ e asymptotique de l’estimateur MLE:

(14)

Theorem 1.4 (Dombry-Ferreira). Soit X

1

, X

2

, . . . i.i.d. avec fonction de r´ epartition com- mune F ∈ M DA(G

_γ

), γ > −1/2 et satisfaisant la condition du second ordre (1.6). Soit k = k

_n

→ ∞ le nombre de block et m = m

_n

→ ∞ la taille des blocks de sorte que

√

kA(m) → λ ∈ R . Alors il existe une suite d’estimateurs θ ˆ

n

= (ˆ γ

n

, µ ˆ

n

, σ ˆ

n

), n ≥ 1, telle que

n→∞

lim P

h θ ˆ

_n

est un MLE i

= 1 (1.7)

et

√ k

ˆ

γ

n

− γ, µ ˆ

_n

− b

_m

a

_m

, σ ˆ

_n

a

_m

− 1

→ N

d

(λI

_θ⁻¹₀

b, I

_θ⁻¹₀

) (1.8) avec I

θ0

la matrice d’information de Fisher, a

n

et b

n

les suites normalisantes des maximums partiels et b = b(γ, ρ) un facteur de biais qui d´ epend de la condition du second ordre.

Gardes et Girard [89] ont montr´ e que les estimateurs type Pickands pour l’indice de valeur extrˆ eme sont asymptotiquement normaux dans le cas γ < −1/2 et asymptotiquement GEV distribu´ es dans le cas γ > −1/2.

Une autre approche possible, plus r´ ecente, est la mod´ elisation des exc` es au dessus d’un seuil (PoT). L’id´ ee est simple. Les ´ ev´ enements extrˆ emes sont tellement diff´ erents des ´ ev´ enements journaliers de sorte que seuls les autres ´ ev´ enements extrˆ emes apportent de l’information. Cette approche repose sur la th´ eorie des exc` es au dessus d’un seuil. Les es- timateurs MLE et PWM ont ´ et´ e propos´ es et largement ´ etudi´ es dans la litt´ erature. Ainsi, la normalit´ e asymptotique pour l’estimateur MLE est donn´ ee par Drees et al. [76]. Pour compl´ eter le tableau, la normalit´ e asymptotique dans le cas PWM peut ˆ etre trouv´ ee dans de Haan et Ferreira [84]. Des comparaisons num´ eriques ont ´ et´ e faites pour contraster les approches BM/PoT et PWM/MLE (Dombry et Ferreira [70], Ferreira et de Haan [84], etc).

Un certain consensus se dresse sur le sujet avec la m´ ethode PoT qui semble plus efficace que la m´ ethode BM mˆ eme si la m´ ethode PoT requiert en moyenne plus d’observations. La com- binaison MLE/PoT obtient la meilleure erreur quadratique moyenne optimale asymptotique.

On se r´ ef´ erera ` a Beirlant [18] pour une revue plus pouss´ ee sur l’approche statistique.

1.1.2 Th´ eorie des valeurs extrˆ emes multivari´ ee

Les motivations pour une extension multivari´ ee de la th´ eorie des valeurs extrˆ emes sont diverses et vari´ ees. Par exemple, on peut s’int´ eresser ` a l’´ etude spatiale d’´ ev´ enements m´ et´ eorologiques extrˆ emes. Ou encore, en finance, une question naturelle concerne la d´ ependance entre les retours extrˆ emes de produits financiers. Ainsi Tiago de Oliveira [169][170][167], Geffroy [90], Sibuya [156] se sont rapidement int´ eress´ es au cas bivari´ e.

L’extension au cadre multivari´ e n’est pas une simple transposition de la th´ eorie univari´ ee.

Ainsi, de nombreux probl` emes sont propres au cadre multivari´ e. L’obstacle qui apparaˆıt

imm´ ediatement revient dans la d´ efinition mˆ eme d’extrˆ eme vu qu’il n’y a pas de mani` ere

naturelle d’ordonner des observations multivari´ ees (Barnett [15]). Par la suite, on d´ efinit

(15)

le maximum dans le cas multivari´ e comme ´ etant le maximum composante par composante, c-` a-d que pour x, y ∈ R

^d

x ∨ y := (x

₁

∨ y

₁

, . . . , x

_d

∨ y

_d

). (1.9) La notion de d´ ependance apparaˆıt naturellement dans le cadre multivari´ e. L’approche na- turelle consiste ` a traiter les marginales puis, apr` es une normalisation des marginales, ` a ´ etudier la d´ ependance. Ainsi, de Haan et Resnick [98] ont obtenu, en supposant sans perte de g´ en´ eralit´ e que les marginales soient Fr´ echet distribu´ ees, une caract´ erisation des lois extrˆ emes multivari´ ees sous le terme de repr´ esentation spectrale. Ce r´ esultat utilise le fait que la classe des lois extrˆ emes multivari´ ees co¨ıncide avec la classe des distributions max-stable multi- vari´ ees, qui est une sous classe des lois max-infiniment-divisible [8], ce qui donne alors une autre caract´ erisation en terme de mesure exponentielle. Le th´ eor` eme est le suivant :

Theorem 1.5 (de Haan-Resnick). Soit G une loi extrˆ eme multivari´ ee ` a marginales Fr´ echet unitaire. Alors il existe une mesure µ sur [0, ∞)

^d

\ {0} homog` ene d’ordre −1, c-` a-d telle que

µ(uA) = u

⁻¹

µ(A), A ⊂ [0, ∞)

^d

\ {0} Bor´ elien, de sorte que

G(x) = exp (−µ(x)) , x ∈ (0, ∞)

^d

, (1.10) avec µ la fonction de survie de µ d´ efinie par

µ(x) = µ([0, x]

^c

) < ∞, x ∈ (0, ∞)

^d

.

Une autre caract´ erisation est donn´ ee par Huang [105] qui introduit le terme de fonction de d´ ependance de queue stable (stable tail dependence function).

Finalement, une autre repr´ esentation populaire est celle des copules qui ont ´ et´ e intro- duites pour d´ ecrire la structure de d´ ependance de lois multivari´ es par Sklar [158]. Ce choix correspond au cas o` u les marginales sont uniform´ ement distribu´ ees.

Definition 1.2. Une copule C est la fonction de r´ epartition d’un vecteur multivari´ e Z ∈ [0, 1]

^d

` a marginales de loi uniformes sur [0, 1].

Theorem 1.6 (Sklar). Toute fonction de r´ epartition F sur R

^d

avec marginales F

₁

, . . . , F

_d

peut ˆ etre d´ ecompos´ ee en

F (x) = C(F

₁

(x

₁

), . . . , F

_d

(x

_d

)), x ∈ R

^d

(1.11) o` u C est une copule. Si F est continue alors C est unique. La copule C

_F

associ´ ee ` a F est donn´ ee par

C

_F

(u) = F F

₁⁻¹

(u

₁

), . . . , F

_d⁻¹

(u

_d

)

, u ∈ (0, 1)

^d

(1.12)

Deheuvels [63][64] a donn´ e la caract´ erisation des domaines d’attraction sous le point de

vue copule.

(16)

Theorem 1.7 (Deheuvels). Une loi multivari´ ee F avec marginales F

1

, . . . , F

d

appartient au domaine d’attraction de la loi GEV multivari´ ee G avec marginales G

₁

, . . . , G

_d

si et seulement si

• F

_i

∈ M DA(G

_i

), i = 1, . . . , d (cf Th´ eor` eme 1.1).

• la copule associ´ ee ` a F est dans le domaine d’attraction de la copule associ´ ee ` a G dans le sens

n→∞

lim C

_Fⁿ

(u

^1/n₁

, . . . , u

^1/n_d

) = C

_G

(u

₁

, . . . , u

_d

), u ∈ (0, 1)

^d

. (1.13) Marshall et Olkin [126] pr´ esentent des analogues au Th´ eor` eme de Gnedenko dans le cas multivari´ e sur la caract´ erisation des domaines d’attraction.

Plus r´ ecemment, Coles et Tawn [58], Rootz´ en et Tajvidi [148] ont r´ eintroduit l’approche des exc` es au dessus d’un seuil.

Du point de vue de la mod´ elisation, de nombreux mod` eles param´ etriques ont ´ et´ e pr´ esent´ es par Gumbel [95], H¨ usler et Reiss [109], Coles et Tawn [58], Brown et Resnick [30], etc. Toute une litt´ erature a ´ et´ e ´ ecrite dans ce sens, mais on citera en particulier Tawn [164][159][165][166]

pour ses travaux.

Dombry, Engelke et Oesting donnent des algorithmes pour la simulation exacte de pro- cessus max-stable multivari´ es [69] et donnent des conditions sur l’existence d’un estimateur du maximum de vraisemblance local asymptotiquement normal et efficace [67]. Par ailleurs, les r´ ecents travaux de Rootz´ en, Wadsworth et Segers [147][146] se concentrent sur l’aspect statistique et mod´ elisation des lois Pareto g´ en´ eralis´ ees multivari´ ees.

1.2 R´ esultats obtenus dans la partie I

La premi` ere partie regroupe les travaux effectu´ es sous la direction de Cl´ ement Dombry. Ces chapitres sont issus d’un article soumis pour publication ` a Journal of Multivariate Analysis [103] et une premi` ere r´ evision est en cours.

Notation vectorielle pour la premi` ere partie: on note k · k

∞

norme max sur R

^d

et k · k une norme arbitraire, 1

_d

= (1, . . . , 1) est le vecteur avec toute les composantes ´ egales

`

a 1. Les op´ erations sur les vecteurs sont, sauf mention du contraire, prises composantes par composantes. Le maximum composante par composante de vecteur est not´ e max(x

₁

, x

₂

) = x

₁

∨ x

₂

, la comparaison entre les vecteurs x

₁

≤ x

₂

est ` a prendre composante par composante de sorte que x

1

6≤ x

2

signifie que certaines composantes de x

1

sont plus grandes que les composantes associ´ ees de x

₂

. Pour x ∈ [0, ∞)

^d

, on note [0, x] le cube [0, x

₁

] × · · · × [0, x

_d

] et [0, x]

^c

= [0, ∞)

^d

\ [0, x].

1.2.1 Chapitre 2: Simple models for multivariate regular varia- tions

Dans ce chapitre, on donne une construction de vecteurs al´ eatoires ` a variations r´ eguli` eres qui

nous permet de retrouver les mod` eles classiques max-stable multivari´ es rencontr´ es dans la

(17)

litt´ erature.

On rappelle la notion de fonction ` a variations r´ eguli` eres en +∞ qui sert de base pour construire la notion de variable al´ eatoire variant r´ eguli` erement.

Definition 1.3. Une fonction mesurable f : R

⁺

→ R

⁺

est dite ` a variation r´ eguli` ere en ∞ avec indice α et not´ ee f ∈ RV

_α

si

t→∞

lim f (tx)

f (t) = x

^α

, x > 0. (1.14)

On dira alors qu’une variable al´ eatoire positive X varie r´ eguli` erement si sa queue de distribution 1 − F est ` a variation r´ eguli` ere, c’est-` a-dire

t→∞

lim

1 − F (tx)

1 − F (t) = x

^α

, α ∈ R . (1.15)

Etant donn´ ´ e l’espace M

₀

( R

^d

) des mesures bor´ eliennes µ sur R

^d

\ {0} tel que µ( R

^d

\ O) est finie pour tout voisinage ouvert O de 0, une suite µ

_n

∈ M

₀

( R

^d

) converge vers µ ∈ M

₀

( R

^d

) si R

fdµ

_n

−→ R

fdµ pour toute fonction f continue, born´ ee et s’annulant dans un voisinage de 0. On d´ efinit alors la notion de variation r´ eguli` ere multivari´ ee d’un vecteur al´ eatoire X comme ´ etant la convergence

n P (X/a

n

∈ ·) −→

^M⁰

Λ, n → ∞ (1.16)

pour une suite a

_n

→ +∞ et mesure limite non-d´ eg´ en´ er´ ee Λ ∈ M

₀

( R

^d

). Une telle mesure limite Λ a la propri´ et´ e d’ˆ etre homog` ene, c’est-` a-dire qu’il existe un r´ eel α > 0 tel que

Λ(uA) = u

^−α

Λ(A) u > 0, A ⊂ R

^d

\ {0} Bor´ elien. (1.17) Dans le cas de vecteur al´ eatoires ` a composantes positives X, la notion de variation r´ eguli` ere sur [0, ∞)

^d

est caract´ eris´ ee par la variation r´ eguli` ere de la fonction de survie multivari´ ee.

C’est-` a-dire que pour F la fonction de r´ epartition de X, on a

u→+∞

lim

1 − F (ux)

1 − F (u1

_d

) = V (x), x ∈ [0, ∞)

^d

\ {0}, (1.18) o` u la fonction limite V est donn´ ee par la mesure du compl´ ementaire du pav´ e [0, x]

^d

qu’on notera Λ([0, x]

^c

) et 1

d

= (1, . . . , 1) ∈ R

^d

.

Pour construire des vecteurs al´ eatoires variant r´ eguli` erement sur R

^d

\ {0}, une possibilit´ e est de consid´ erer le produit X = RZ entre une variable al´ eatoire R positive et ` a variation r´ eguli` ere d’indice α > 0 et un vecteur al´ eatoire Z suffisamment int´ egrable, par exemple α + ε int´ egrable avec ε > 0. Cette construction est donn´ ee par la proposition suivante

Proposition 1.1. Soit R une variable al´ eatoire positive et Z un vecteur d-dimensionnel

ind´ ependant de R. Alors, si l’une des deux hypoth` eses suivantes est v´ erifi´ ee

(18)

• la queue de distribution 1 − F de R varie r´ eguli` erement en +∞ avec indice −α < 0 et E [kZk

^α+ε

] < ∞ pour ε > 0;

• 1 − F (x) ∼ Cx

^−α

lorsque x → ∞ avec C > 0 et E [kZk

^α

] < ∞,

le produit X = RZ d´ efinit un vecteur al´ eatoire variant r´ eguli` erement sur [−∞, ∞]

^d

\ {0} avec indice α. C’est-` a-dire

n P (a

⁻¹_n

X ∈ ·) −→

^M⁰

Λ(·) dans M

₀

( R

^d

) lorsque n → ∞, (1.19) o` u a

_n

est le quantile d’ordre 1 − 1/n de R et la mesure limite Λ est donn´ ee par

Λ(A) = Z

∞

0

P (uZ ∈ A)αu

^−α−1

du, A ⊂ R

^d

\ {0} Bor´ elien. (1.20) Par ailleurs, si Z est positif, alors le support de Λ est donn´ e par [0, ∞)

^d

\ {0} et la fonction limite V est caract´ eris´ ee par

V (x) := Λ([0, x]

^c

) = E

"

_d

_

i=1

Z

_i

x

i

α

#

, x ∈ [0, +∞) \ {0}. (1.21) Cette construction peut ˆ etre vue dans le cadre plus g´ en´ eral de la th´ eorie des valeurs extrˆ emes multivari´ ees comme le produit entre une composante radiale et une composante angulaire, R ´ etant alors la composante radiale. La preuve de la proposition illustre bien ce point de vue, l’id´ ee ´ etant que sur les ensembles de la forme

A =

z ∈ R

^d

: kzk > x, z/kzk ∈ B , B ⊂ S

^d−1

Bor´ elien , x > 0

qui forment une classe d´ eterminant la convergence, on peut appliquer le lemme de Breiman univari´ e 2.1 pour obtenir la convergence M

₀

et la caract´ erisation de la mesure limite Λ.

D’un point de vue copule, on trouve une interpr´ etation de la proposition pr´ ec´ edente. On consid` ere le mod` ele de convolution avec un seul facteur commun [117]

X = αE1

d

+ Y (1.22)

o` u α > 0, E suivant une loi exponentielle et Y un vecteur d−dimensionnel avec E [e

^αYⁱ

] <

∞, i = 1, . . . , d. On a alors:

Proposition 1.2. Soit C

_X

la copule associ´ ee au vecteur al´ eatoire X d´ efini par l’´ equation (1.22). Alors

C

_Xⁿ

(u

^1/n₁

, . . . , u

^1/n_d

) → C

_V

(u

₁

, . . . , u

_d

), (u

₁

, . . . , u

_d

) ∈ [0, 1]

^d

, (1.23) o` u

C

_V

(u

₁

, . . . , u

_n

) = exp(−V (σ

₁

(− log u

₁

)

^1/α

, . . . , σ

_d

(− log u

_d

)

^1/α

)) et

σ

^α_i

= E [e

^αYⁱ

] et V (x) = E

"

_d

_

i=1

e

^αYⁱ

x

^α_i

#

.

(19)

L’id´ ee de la preuve est de remarquer qu’en prenant l’exponentielle de X, on retrouve le produit de exp(αE) et exp Y . Par hypoth` ese sur Y et par le fait que exp(αE) suit une loi α-Pareto alors le produit forme un vecteur positif variant r´ eguli` erement. Puis finalement, il faut remarquer que comme l’exponentielle agit composante par composante, la copule de exp(X) est C

_X

et C

_X

(u

^1/n₁

, . . . , u

^1/n_d

) est la copule du maximum normalis´ e de n copies de X ind´ ependantes. Finalement, C

_V

est la copule du vecteur α-Fr´ echet limite.

Une question naturelle se pose sur la caract´ erisation de la mesure limite lorsque la com- posante angulaire Z est ` a densit´ e f

_Z

. D’o` u la proposition suivante

Proposition 1.3. Si Z a une densit´ e f

_Z

, alors la mesure limite Λ a aussi une densit´ e λ donn´ ee par

λ(z) = Z

∞

0

f

_z

(z/u)αu

^{−d−α−1}

du. (1.24)

Il devient alors naturel d’´ etudier la forme de la densit´ e pour des lois classiques multivari´ ees

`

a densit´ e. On retrouve alors des mod` eles connus comme le mod` ele max-stable t-extr´ emal lorsque Z ∼ N (0, Σ) avec

λ(z) = α

(2π)

^d/2

|Σ|

^1/2

Γ

α + d 2

z

^>

Σ

⁻¹

z 2

^−(α+d)/2

, z ∈ R

^d

\ {0}, (1.25) le mod` ele max-stable H¨ usler-Reiss lorsque lnZ ∼ N (m, Σ) avec

λ(z) = Cexp

− 1

2 log z

^>

Q log z + l log z

d

Y

i=1

z

_i⁻¹

, z ∈ (0, ∞)

^d

(1.26) o` u

C = α

(2π)

^(d−1)/2

|Σ|

^1/2

p 1

d>

Σ

⁻¹

1

d

exp

− 1

2 m

^>

Σ

⁻¹

m + 1 2

(m

^>

Σ

⁻¹

1

_d

− α)

²

1

_d^>

Σ

⁻¹

1

_d

,

Q = Σ

⁻¹

− Σ

⁻¹

1

_d

1

_d^>

Σ

⁻¹

1

_d^>

Σ

⁻¹

1

_d

, (1.27)

l =

m

^>

− α + m

^>

Σ

⁻¹

1

_d

1

_d^>

Σ

⁻¹

1

_d

1

_d^>

Σ

⁻¹

. (1.28)

ainsi que d’autres mod` eles max-stable.

1.2.2 Chapitre 3: On the H¨ usler-Reiss Pareto distribution

Sous le cadre donn´ e pr´ ec´ edemment, on retrouve le mod` ele de Pareto associ´ e au mod` ele H¨ usler-Reiss comme la limite en loi des exc` es au dessus d’un seuil a ∈ R

^d

u→∞

lim P [u

⁻¹

X x|X ua] = V (x ∨ a)

V (a) , x ∈ [0, ∞)

^d

\ [0, a] (1.29)

(20)

avec X dans le domaine d’attraction d’un mod` ele max-stable H¨ usler-Reiss. Partant de la caract´ erisation de la densit´ e de la loi limite donn´ ee pr´ ec´ edemment, on retrouve la densit´ e associ´ ee qui d´ efinit ainsi le mod` ele de H¨ usler-Reiss-Pareto.

Definition 1.4. Soient d ≥ 2, Q ∈ R

^d×d

une matrice sym´ etrique semi-d´ efinie positive telle que Ker(Q) = vect(1

_d

), l ∈ R

^d

v´ erifiant l

^>

1

_d

< 0, et a = (a

₁

, . . . , a

_d

) ∈ (0, ∞)

^d

le seuil. Le mod` ele H¨ usler-Reiss-Pareto sur [0, ∞)

^d

\ [0, a] param´ etr´ e par (Q, l) est d´ efini par la densit´ e

f

_a

(z; Q, l) = 1

C

a

(Q, l) exp

− 1

2 log z

^>

Q log z + l

^>

log z

^d

Y

i=1

z

⁻¹_i

!

1

_{za}

, z ∈ (0, ∞)

^d

(1.30) avec C

_a

(Q, l) la constante de normalisation. On note alors Z HRPar

_a

(Q, l) si le vecteur al´ eatoire Z a pour densit´ e f

_a

.

Le cadre donn´ e pr´ ec´ edemment permet de relier les param` etres de mod` ele H¨ usler-Reiss

`

a l’indice de variation r´ eguli` ere et aux param` etres de la loi log-normale qui composent le vecteur ` a variation r´ eguli` ere, par exemple l

^T

1

_d

est ´ egal ` a −α. De la mˆ eme fa¸con que la loi log-normale, la loi H¨ usler-Reiss Pareto est invariant par changement d’´ echelle, c’est-` a-dire Proposition 1.4. Soit Z HRPar

_a

(Q, l). Alors

• pour tout u ∈ (0, ∞)

^d

, uZ HRPar

_ua

(Q, l + log u), et

• pour tout β > 0, Z

^β

HRPar

_a^β

(β

⁻²

Q, β

⁻¹

l).

Ainsi sous r´ eserve de reparam´ etrisation, il est toujours possible de se ramener au cas a = 1

d

. Par la suite, on consid` ere donc a = 1

d

. Le bon cadre qui permet l’´ etude du mod` ele de H¨ usler-Reiss Pareto est le cadre des familles exponentielles. Ainsi, le r´ esultat principal place le mod` ele H¨ usler-Reiss Pareto dans ce cadre avec le th´ eor` eme suivant

Theorem 1.8. Soit E l’espace euclidien d(d + 1)/2-dimensionnel d´ efini par E =

(A, b) ∈ R

^d×d

× R

^d

: A

^>

= A, A1

_d

= 0 muni du produit scalaire

h(A, a), (A

⁰

, a

⁰

)i = X

1≤i,j≤d

A

_i,j

A

⁰_i,j

+ X

1≤k≤d

a

_k

a

⁰_k

. Soit Θ le sous-ensemble de E d´ efini par

Θ =

(Q, l) ∈ E : Q semi d´ efinie positive, Ker(Q) = vect(1

_d

), l

^>

1

_d

< 0 .

Pour tout a ∈ (0, ∞)

^d

, les lois H¨ usler-Reiss Pareto f

_a

(z; θ)

θ∈Θ

forment une famille expo- nentielle compl` ete canonique param´ etr´ ee par θ = (Q, l) ∈ Θ et ayant comme statistique suffisante

T (z) =

− 1

2 (log z − log z)(log z − log z)

^>

, log z

, o` u log z = d

⁻¹

(1

d>

log z)1

d

.

(21)

L’id´ ee de la preuve est de remarquer que comme 1

d

appartient au noyau de Q, un change- ment de variable accompagn´ e du th´ eor` eme de Fubini nous permet de s´ eparer l’int´ egrale en deux parties o` u chacune des deux parties donne les conditions recherch´ ees. Sous le cadre de la th´ eorie des familles exponentielles [14], le calcul du terme de normalisation est important car il nous permet de calculer les moments de la statistique naturelle. Les calculs du terme de normalisation nous permettent aussi d’obtenir une m´ ethode de simulation exacte. Puis, on s’int´ eresse ` a l’inf´ erence par l’estimateur du maximum de vraisemblance. Notre princi- pal th´ eor` eme est le suivant concernant l’existence, l’unicit´ e et la normalit´ e asymptotique du maximum de vraisemblance

Theorem 1.9. Soient a ∈ (0, ∞)

^d

et n ≥ 1.

(i) (existence et unicit´ e) Pour des observations z

⁽¹⁾

, . . . , z

⁽ⁿ⁾

∈ [0, a]

^c

, la log-vraisemblance (Q, l) 7→ L

_n

(Q, l; z

⁽¹⁾

, . . . , z

⁽ⁿ⁾

) est strictement concave sur Θ. Un estimateur du maxi- mum de vraisemblance existe si et seulement si

V

_n

= 1 n

n

X

i=1

log z

⁽ⁱ⁾

log z

^(i)T

− 1 n

n

X

i=1

log z

⁽ⁱ⁾

! 1 n

n

X

i=1

log z

⁽ⁱ⁾

!

>

est conditionnellement d´ efinie positive dans le sens o` u v

^>

V

_n

v > 0 pour tout v ∈ R

^d

\{0}

tel que v

^>

1

_d

= 0. S’il existe, le maximum de vraisemblance θ ˆ

_n^mle

est l’unique solution de l’´ equation du score

∂ log C

_a

∂θ (θ) = T

_n

, θ ∈ Θ. (1.31)

(ii) (normalit´ e asymptotique) Soit θ = (Q, l) ∈ Θ et supposons que Z

⁽¹⁾

, . . . , Z

⁽ⁿ⁾

soient g´ en´ er´ es suivant la loi HRPar

_a

(Q, l). Alors, pour n ≥ d − 1, il existe presque sˆ urement un unique estimateur du maximum de vraisemblance θ ˆ

^mle_n

qui est asymptotiquement normal et efficace, c’est-` a-dire

√ n(ˆ θ

_n^mle

− θ) −→ N

^d

(0, I(θ)

⁻¹

), lorsque n → ∞, o` u I(θ) est la matrice d’information de Fisher

I(θ) = − ∂

²

log C

_a

∂θ∂θ

^>

(θ).

L’id´ ee de la preuve repose sur la th´ eorie g´ en´ erale des familles exponentielles [14] qui donne une caract´ erisation de l’existence et l’unicit´ e du maximum de vraisemblance par l’appartenance de la statistique suffisante T

_n

` a l’int´ erieur de la fermeture convexe du support de la statistique T . Ainsi, on d´ etermine int(conv(S)) et on montre T

n

∈ int(conv(S)) si et seulement si V

_n

est conditionnellement d´ efinie positive. La seconde partie du th´ eor` eme est un r´ esultat g´ en´ eral pour les familles exponentielles compl` etes.

Finalement, on s’int´ eresse ` a l’extension du mod` ele H¨ usler-Pareto aux variations r´ eguli` eres

non-standard. Cette notion qui avait ´ et´ e introduite par Resnick [141] correspond au cas o` u

les marginales ont des indices de queues diff´ erents. On d´ efinit alors le mod` ele H¨ usler-Reiss

Pareto par

(22)

Definition 1.5. Soit d ≥ 2 et Θ l’ensemble d´ efini par Θ =

(α, Q, l) ∈ (0, ∞)

^d

× R

^d×d

× R

^d

: Q sym´ etrique semi-d´ efinie positive , KerQ = vect(1

_d

) et l

^>

1

_d

= −1

Alors pour le seuil a ∈ (0, ∞)

^d

, le mod` ele H¨ usler-Reiss Pareto g´ en´ eralis´ e sur [0, ∞)

^d

\ [0, a]

param´ etr´ e par θ = (α, Q, l) est d´ efinie par la densit´ e f

_a

(z; θ) = 1

C

_a

(θ) exp

− 1

2 log z

^>

D

_α

QD

_α

log z + l

^>

D

_α

log z

^d

Y

i=1

z

_i⁻¹

! 1

_{za}

o` u C

_a

(θ) est la constante de normalisation et D

_α

la matrice diagonale ayant pour diagonale α.

On remarquera la condition suppl´ ementaire l

^>

1

_d

= −1 que l’on pose pour identifier le mod` ele. En effet pour λ > 0, la densit´ e est invariante par rapport au changement de variable (α, Q, l) 7→ (λα, λ

^−1/2

Q, λ

⁻¹

l). Dans le cas o` u tous les indices de variations r´ eguli` eres α

_i

sont ´ egaux alors on retrouve le mod` ele H¨ usler-Reiss Pareto. Par ailleurs, comme le mod` ele H¨ usler-Reiss Pareto, le mod` ele dit g´ en´ eralis´ e est aussi stable par changement d’´ echelle. Cette propri´ et´ e sera revisit´ ee plus loin lorsqu’on abordera les proc´ edures d’optimisation dans le cadre d’inf´ erence par le maximum de vraisemblance. Les arguments qui ont permis l’´ etude de l’estimateur de vraisemblance dans le cas non g´ en´ eralis´ e ne peuvent pas ˆ etre utilis´ es dans le cas g´ en´ eralis´ e. En effet, la famille des distributions H¨ usler-Reiss Pareto g´ en´ eralis´ ee forme une famille exponentielle courb´ ee avec statistique minimale suffisante T donn´ ee par

T (z) = (log z log z

^>

, log z)

et l’ensemble Θ des param` etres n’est pas strictement inclus dans l’int´ erieur de l’espace na- turel des param` etres associ´ e ` a cette famille. N´ eanmoins, en montrant la diff´ erentiabilit´ e en moyenne quadratique du mod` ele statistique {f

₁_d

(θ; z), θ ∈ Θ} et en utilisant une expan- sion uniforme du processus de vraisemblance au voisinage du param` etre θ

0

combin´ ee avec le th´ eor` eme Argmax ([176], Corollaire 5.58, voir Appendice 3.B), nous parvenons ` a ´ etudier les propri´ et´ es asymptotiques de l’estimateur du maximum de vraisemblance. D’o` u le r´ esultat suivant

Theorem 1.10. Soient θ

₀

∈ Θ avec I

_θ₀

d´ efinie positive et Z

⁽¹⁾

, Z

⁽²⁾

, . . . i.i.d suivant une loi HRPar

_a

(θ

₀

). Alors, il existe un estimateur du maximum de vraisemblance θ ˆ

_n^mle

qui est asymptotiquement normal et efficace, c’est-` a-dire

√ n(ˆ θ

_n^mle

− θ

0

) −→ N

^d

(0, I

_θ⁻¹

0

) lorsque n → ∞.

L’id´ ee de la preuve est que sous r´ eserve que I

θ0

soit d´ efinie positive, le d´ eveloppement

de Taylor d’ordre 2 sur voisinage compact de θ

₀

implique la concavit´ e stricte du processus

de vraisemblance local avec forte probabilit´ e. Puis, en montrant que la suite des maximums

ˆ h

n

du processus de vraisemblance est tendue, on applique le th´ eor` eme Argmax [176] qui

(23)

nous donne le r´ esultat. N´ eanmoins, on a montr´ e que la log-vraisemblance est strictement concave sur un voisinage de θ

₀

et non pas globalement. On remarquera par contre que la log-vraisemblance est biconcave, c’est-` a-dire que les fonctions partielles α 7→ L

_n

(α, Q, l) et (Q, l) 7→ L

n

(α, Q, l) sont concaves. On propose alors un estimateur des moments pour initialiser une routine d’optimisation de la log-vraisemblance. En utilisant la loi forte des grands nombres, on montre la consistance forte de cet estimateur puis le th´ eor` eme central limite combin´ e avec la delta m´ ethode implique la normalit´ e asymptotique que l’on r´ esume dans la proposition suivante

Theorem 1.11. Soient θ = (α, Q, l) ∈ Θ et Z

⁽¹⁾

, Z

⁽²⁾

, . . . i.i.d suivant une loi HRPar

_a

(θ).

Pour j = 1, . . . , d, on d´ efinit N

_n,j

= 1

n

X

i=1

1

_Z⁽ⁱ⁾

j >1

et O

_n,j

= 1 n

n

X

i=1

1

_Z⁽ⁱ⁾

j >1

log Z

_j⁽ⁱ⁾

. Alors l’estimateur θ ˆ

₀

= ( α ˆ

₀

, Q ˆ

₀

, ˆ l

_n

) d´ efini par

ˆ

α

0

= (N

n,j

/O

n,j

)

1≤j≤d

et ( ˆ Q

0

, ˆ l

0

) = argmax

_Q,l

L

n

( α ˆ

0

, Q, l) est fortement consistant et asymptotiquement normal.

Finalement, on montre que la suite d’estimateurs obtenus par une routine de maximisation altern´ ee initialis´ ee par l’estimateur des moments converge presque sˆ urement vers l’unique maximiseur de la log-vraisemblance dans le voisinage du vrai param` etre. En effet, le th´ eor` eme de Prohorov implique que l’estimateur des moments ˆ θ

₀

appartient avec forte probabilit´ e ` a un voisinage de θ. En utilisant la propri´ et´ e de biconcavit´ e de la log-vraisemblance, on obtient que chaque it´ er´ e de l’algorithme de maximisation altern´ ee reste dans le voisinage de θ. Pour terminer, on propose un test du rapport de vraisemblance pour l’hypoth` ese H

₀

: α

₁

= · · · = α

d

. Encore une fois, on utilise un d´ eveloppement du processus de vraisemblance local pour obtenir le r´ esultat suivant :

Theorem 1.12. Soit θ

₀

= (α, Q, l) ∈ Θ avec α = (α

₁

, . . . , α

_d

). Soit Z

⁽¹⁾

, . . . , Z

⁽ⁿ⁾

i.i.d. de loi HRPar(θ

₀

). On note θ ˆ

_n

l’estimateur du maximum de vraisemblance pour le mod` ele H¨ usler- Reiss Pareto g´ en´ eralis´ e et θ ˆ

₀

l’estimateur du maximum de vraisemblance dans le mod` ele H¨ usler-Reiss Pareto. On d´ efinit alors la diff´ erence des log-vraisemblance par

∆

_n

= L

_n

(ˆ θ

_n

) − L

_n

(ˆ θ

₀

).

Alors, sous l’hypoth` ese nulle α

₁

= · · · = α

_d

, 2∆

_n

converge en loi vers une loi du khi-deux ` a d − 1 degr´ es de libert´ e, c’est-` a-dire

2(L

_n

(ˆ θ

_n

) − L

_n

(ˆ θ

₀

)) →

^d

χ

²

(d − 1).

(24)

1.2.3 Chapitre 4: Numerical study

Dans ce chapitre, on illustre les r´ esultats donn´ es dans le chapitre pr´ ec´ edent par des ´ etudes de simulations. On ´ etudie ainsi les propri´ et´ es de l’estimateur du maximum de vraisemblance dans diff´ erents cadres de simulations. L’un des cadres propos´ es est le cas de la simulation exacte. Plusieurs ´ etudes sont possibles comme l’´ etude de l’effet de la dimension d sur les estimateurs. Comme le nombre de param` etre du mod` ele est ´ egal ` a d(d + 1)/2, on choisit de comparer les estimateurs pour α = − P

l

_i

et Q

₁₁

= 1 − P

i>1

Q

₁_i

et on impose une structure

“sym´ etrique” aux param` etres. Ainsi on fixe les param` etres Q = I

_d

−1

_d

1

_d^>

/d et l = −α/d1

_d

. Dans ce cas, puisque les l

_i

sont fix´ es et d´ ependent uniquement de α, on ´ etudie aussi l’effet de α sur l’estimation. Puis, comme les r´ esultats sur l’estimateur du maximum de vraisemblance sont asymptotiques, on fait varier la taille de l’´ echantillon n pour observer le comportement de l’estimateur sur des ´ echantillons finis. Finalement, on r´ ep` ete l’exp´ erience 1000 fois pour obtenir un ´ echantillon Monte-Carlo qui nous donne les r´ esultats suivants

α

= 0.5

α

= 1.0

α

= 1.2

ˆ

α Q

ˆ

11 α

ˆ

Q

ˆ

11 α

ˆ

Q

ˆ

11

d=2

n=10 -65 39 -161 121 -120 143 -133 66 -136 195 -126 52

n=50 -10 5 -25 8 -22 20 -21 6 -37 29 -24 6

n=100 -7 3 -13 4 -13 10 -8 3 -19 14 -12 3

n=1000 -1 1 -2 1 -1 1 -1 1 -2 1 -1 1

d=3

n=10 -54 36 -505 560 -123 138 -379 232 -123 138 -379 232 n=50 -11 5 -140 24 -15 20 -100 16 -15 20 -100 16

n=100 1 3 -103 11 3 9 -66 7 3 10 -66 7

n=1000 3 1 -79 1 10 1 -50 1 10 1 -50 1

d=4

n=10 -54 35 -993 1350 -112 133 -697 739 -112 183 620 726

n=50 -5 5 -238 35 8 16 -170 24 -5 27 -148 21

n=100 3 3 -188 15 17 8 -122 10 23 12 -104 8

n=1000 7 1 -149 1 24 1 -91 1 29 1 -74 1

d=5

n=10 -53 46 -1555 4064 -91 138 -1170 3367 -90 157 -1010 1839

n=50 3 5 -327 66 11 16 -223 43 17 24 -192 40

n=100 6 2 -255 26 25 8 -163 18 33 11 -149 15

n=1000 11 2 -201 2 38 1 -127 1 48 1 -103 1

Table 1.1: Bias and variance: figures where multiplied by 1000

Sans surprise, la qualit´ e des r´ esultats s’am´ eliore avec la taille de l’´ echantillon. Les r´ esultats plus surprenants concernent l’effet de α. Les valeurs plus grandes de α produisent des r´ esultats plus mauvais sur l mais meilleurs sur Q. Pour l’effet de la dimension d, on re- marque que la variance de l’estimateur ˆ α est stable par rapport ` a d alors que le biais et la variance de ˆ Q

₁₁

augmentent avec la dimension. Comme ˆ Q

₁₁

est obtenu a partir des ˆ Q

_1i

, on peut justifier l’augmentation du biais et de la variance comme cons´ equence de l’augmentation du nombre de param` etres. Finalement, on remarque aussi que l’estimateur Q

₁₁

a un biais n´ egatif et donc par construction, les ˆ Q

_1i

sont en moyenne positivement biais´ es.

Les autres cadres ´ etudi´ es sont:

(25)

• Dans le cas dimension deux, pour un ´ echantillon HRPar

1_d

(Q, l) distribu´ e, on consid` ere une structure asym´ etrique sur l, c’est-` a-dire l

₁

= −α/2 + ε et l

₂

= −α/2 − ε.

• Pour un ´ echantillon dans le domaine d’attraction d’une loi H¨ usler-Reiss Pareto, on

´

etudie le biais et la variance de l’estimateur du maximum de vraisemblance.

1.3 G´ en´ eralit´ es sur le machine learning

Historiquement, la notion de “machine pensante” a ´ et´ e d´ ecrite par Turing [175] dans son tra- vail s´ eminal o` u il pr´ esente un c´ el` ebre test pour l’intelligence artificielle. Depuis, les avanc´ ees dans le domaine de l’intelligence artificielle ont fait d’´ enormes progr` es, dus en particulier aux d´ eveloppements des capacit´ es de calculs. Ainsi, en 1997, Deep Blue a battu Kasparov, alors champion du monde d’´ echecs. En 2016, Alpha Go, une combinaison entre r´ eseaux de neu- rones profonds, entraˆın´ es par apprentissage supervis´ e et apprentissage renforc´ e, et d’arbres de recherche [157] a vaincu Lee Sedol, un des meilleurs joueurs du monde de Go. Jusqu’alors le jeu du Go ´ etait consid´ er´ e comme trop complexe pour que les m´ ethodes brutes surpassent les meilleurs joueurs de Go [102].

D’un autre cˆ ot´ e, le monde est plus connect´ e que jamais depuis l’av` enement d’internet (facebook, twitter), et des volumes massifs d’information sont recueillis tout les jours. De- vant ce ph´ enom` ene, de nouveaux probl` emes se posent. Des contraintes de temps et de m´ emoire poussent aux d´ eveloppement de nouvelles m´ ethodes/algorithmes plus rapides pou- vant donner en temps limit´ e des solutions partielles. Par exemple, dans le contexte du probl` eme d’estimation de l’inverse parcimonieuse de la matrice de convariance pour des mod` eles graphiques Gaussien, l’algorithme Graphical-Alternating Minimisation Algorithm (G-AMA), d´ evelopp´ e par Dalal et Rajaratnam [59] et bas´ e sur l’estimation par maximum de vraisemblance avec une p´ enalit´ e `

¹

, propose de maintenir la parcimonie des it´ er´ es. Ceci est utile lorsque des contraintes de temps et/ou de dimensions forcent un arrˆ et pr´ ematur´ e des calculs.

Dans un contexte d’explosion de l’information et des capacit´ es de calcul, l’apprentissage statistique donne une classe d’outils puissants pour le traitement des donn´ ees massives. Les applications sont nombreuses et diverses et comprennent les syst` emes de recommandation [23], la reconnaissance vocale et des formes [83][92], la classification de textes [3], la traduction automatique, etc.