Proof of Theorem 2.4.2 - THÈSE THÈSE

2.7 Proofs

2.7.2 Proof of Theorem 2.4.2

Thanks to the link established in Equation (2.2) between the classical and the Bregman superquantile, we can prove Theorem 2.4.2 by using Theorem 1.2.1 of the Chapter 1.

First, we apply Theorem 1.2.1 to the sample (Z₁, . . . , Z_n) where Z_i :=γ^′(X_i). Then we conclude by applying the continuous mapping theorem with γ^′−¹ which is continuous thanks to assumption H3 for the consistency, and by applying the delta-method (see for example [101]), with the functionγ^′−¹ which is diﬀerentiable thanks to assumptionH4and of positive derivative sinceγ is strictly convex.

2.8 Conclusion

In this chapter, we have introduced a new coherent measure of risk with the help of the Bregman divergence associated to a strictly convex function γ. They are rich tools because of the diversity of the functionsγ that can be chosen according to the problem we study. We shown throught different examples that a judicious choice for the function γ can make the Bregman superquantile a more interesting measure of risk than the classical superquantile (Bregman superquantile can be finite even in infinite mean model, it is continuous in more cases, more robust etc...). Moreover, we have introduced a Monte Carlo estimator of the Bregman superquantile which is statistically powerful thanks to the strictly convex (and so settling) function γ.

The theoretical properties obtained in this paper are conﬁrmed on several numerical test cases. More precisely, geometrical and harmonic superquantiles are more robust than the classical superquantile. This robustness is particularly important in in ﬁnance and risk assessment studies. For instance, in risk assessment, when dealing with real data, geometrical and harmonic statistics have been proved to be more relevant than classical statistics. For example [25] prove the usefulness of the geometrical mean and variance for the analysis of air quality measurements. As an illustration, we have applied the geometrical and harmonic superquantiles on real data coming from a radiological impact code used in the nuclear industry.

Further studies will try to apply these criteria in probabilistic assessment of physical com-ponents reliability using numerical simulation codes [37]. However, Monte Carlo estimators are no longer applicable in this context and eﬃcient estimators have to be developed. Ideas involving response surface technique should be developed (see for example [21] for quantile estimation and [9] for rare event probability estimation).

Finally those Bregman superquantiles are interesting because they can be linked with several previous works in economy. There is for example a strong link between capital al-locations and Bregman superquantile. It would be interesting to apply our results on this economic theory in a future work.

Conclusion

Dans cette première partie, nous avons traité de l’estimation empirique du quantile et du superquantile dans des codes numériques non coûteux. Nous avons d’abord rappelé les théorèmes concernant le comportement asymptotique de l’estimateur empirique du quan-tile. Ensuite, nous avons proposé un théorème avec des hypothèses minimales, claires et simples à vérifier en pratique, résumant le comportement asymptotique de l’estimateur em-pirique du superquantile. Enfin, après avoir mis en avant une faiblesse de ce dernier (il n’est très performant d’un point de vue statistique pour certaines lois à lourde queue de distribu-tion), nous avons introduit une nouvelle mesure de risque, le superquantile. Cette nouvelle quantité à l’avantage d’être finie pour de plus nombreuses lois et son estimateur empirique se comporte mieux dans un cadre général.

Comme nous l’avons déjà mentionné dans l’Introduction de cette thèse, tous les résultats de cette partie peuvent facilement s’appliquer au modèle de code stochastique non coûteux.

Il suffit pour cela de remplacer toutes les sorties Y par des sorties Y(x) pour une entrée x quelconque. Cependant, cette méthode d’estimation nécessite la création d’un échantillon d’inférence différents pour toutes les entrées x. Même si le code que nous considérons n’est pas coûteux, ce n’est peut-être pas la méthode la plus adaptée aux codes stochastiques. Dans la suite, nous allons donc chercher une méthode d’estimation plus adaptée aux codes stochas-tiques. Une telle méthode devra permettre, pour chaque entréex fixée mais quelconque, de donner une bonne estimation du quantile conditionnel correspondant, mais en utilisant un échantillon d’inférence commun à toutes ces entrées.

En pratique, nous l’avons déjà vu, la plupart des codes qui sont utilisés sont en réalité très coûteux. La méthode que nous avons présentée n’est pas une méthode intéressante dans ce contexte, si nous n’en connaissons que des résultats asymptotiques. Pour obtenir des résultats non-asymptotiques, plus informatifs dans ce contexte de codes coûteux, nous avons déjà vu qu’il semble plus pertinent de travailler sur des méthodes d’estimation séquentielles.

Bien que les estimateurs empiriques puissent s’écrire de manière séquentielle, ce ne sont pas les estimateurs pour lesquels il est le plus aisé d’obtenir des résultats non-asymptotiques. En revanche, parmi la classe des estimateurs séquentiels, il existe une sous-catégorie d’estimateurs pour lesquels la recherche de résultats non-asymptotiques est en pleine expansion. Il s’agit des algorithmes stochastiques, dont nous allons parler dans la deuxième partie de cette thèse.

Part II

Estimation séquentielle par

algorithme stochastique

Introduction

Dans cette partie, nous souhaitons estimer le quantile et le superquantile de la sortie de codes numériques ou stochastiques coûteux. Aﬁn de gérer au mieux notre budget d’appels au code, nous souhaitons développer une estimation séquentielle à un pas et en étudier le comportement non-asymptotique. Pour cela, nous faisons appel à la théorie des algorithmes stochastiques de Robbins-Monro. Ces algorithmes, introduits pour la première fois dans [80], ont pour but d’estimer le zéro d’une fonction dépendant d’une variable aléatoire inconnue.

Ils sont alors tout indiqués pour estimer un quantile q ou un superquantile Q de niveau α d’une loi inconnueY. En eﬀet lorsque la loi Y est continue, le quantile est bien le zéro de la fonctionF_Y(.)−α. De même, puisque le superquantile est déﬁni (à une constante près que nous négligeons dans toute cette partie) comme l’espérance de la loi tronquée au delà de son quantile, il est bien le zéro de la fonctionE(Y1Y >q−.)². Ainsi, en prenant (γ_n^q)net (γ_n^Q)n

deux suites de pas déterministes, positives et décroissante, on peut construire les algorithmes ( q₀∈R

qn+1=qn−γ_n+1^q 1Yn+1>qn−α (2.6)

et ₍

Q₀∈R

Q_n+1=Q_n+γ_n+1^Q Y_n+11Yn+1>qα−Q_n (2.7) qui produisent de bons estimateurs de q et de Q. Dans cette thèse et comme dans la majorité de la littérature, nous considérons des pas de descente de gradient de la forme γ_n=C_γn⁻^γ avec γ ∈]0,1]. La théorie des algorithmes stochastiques de type Robbins-Monro permet de montrer que si l’on choisit bien les pas, ces deux algorithmes produisent des estima-teurs qui sont fortement consistants et asymptotiquement normaux, comme nous le verrons dans les Chapitres 3 et 4. On pourra par ailleurs noter que lorsqu’on prend un pasγ_n^Q=n⁻¹, on obtientQ_n=Z_n pourZ =Y1Y >q, c’est à dire l’estimateur empirique de la moyenne. La loi forte des grands nombres et le théorème de la limite centrale classiques permettent donc de conclure directement quand au comportement asymptotique de cet estimateur.

Concernant le précédent estimateur du superquantile, il y a tout de même un problème.

L’algorithme introduit précédemment nécessite la connaissance de la valeur du quantile q.

Mais en pratique, lorsque l’on cherche à estimer le superquantile d’une loi inconnue, on ne connaît pas son quantile. Pour résoudre ce problème, on peut alors avoir l’idée (voir [8]) d’utiliser un double algorithme, qui permet d’estimer de manière simultanée le quantile par l’algorithme (2.6) et le superquantile par l’algorithme (2.7) dans lequel on remplacerait à chaque étape,q par son estiméq_n. Cela donne



(q0, Q₀)∈R²

q_n+1=q_n−γ^q_n+1 1_Y_n+1_>q_n−α (2.8)

INTRODUCTION

Cet algorithme est un double algorithme dans le sens où, à chaque étapen+1, connaissant seulement la tribu Fn := σ(Y₁, . . . , Y_n) et donc q_n et Q_n, lorsqu’on observe Y_n+1, on peut calculer de manière simultanée les nouveaux estimateurs q_n+1 et Q_n+1. On peut en fait le voir comme un algorithme bi-dimensionnel en considérant le couple (qn, Qn). En se référant à [8], nous proposerons, dans le Chapitre 4, une discussion sur le comportement asymptotique de cet algorithme. Nous verrons à cette occasion, comment le fait de remplacer q par son estimer qn impacte la précision de l’algorithme (2.8) par rapport à l’algorithme (2.7).

Grâce à ces outils et en considérant queY est la sortie d’un code numérique, nous obtenons des estimateurs du quantile et du superquantile performants d’un point de vue asymptotique.

Lorsqu’on se place sous l’hypothèse d’un code coûteux, nous avons déjà vu que nous cherchons des garanties non-asymptotiques sur le risque quadratique des estimateurs. La recherche de tels résultats est en plein essor. On peut en eﬀet trouver plusieurs travaux traitant de résultats non-asymptotiques pour les algorithmes de type Robins-Monro (par exemple [72], [43], [91], [22], . . . ). Nous verrons cependant dans le Chapitre 3 qu’il n’existe pour le moment aucun papier ne donnant de résultats non-asymptotiques sous des hypothèses s’appliquant au cas du quantile. Nous proposerons alors une étude non-asymptotique complète dans le cas où la densité de Y est minorée par une constante strictement positive sur son support. Nous donnerons ensuite des pistes pour traiter du cas général. Nous mettrons alors en avant les diﬃcultés techniques qui nous ont empêché de sortir du cadre compact.

Concernant l’estimateur du superquantile, nous n’avons trouvé aucune référence traitant de ce genre de double algorithme d’un point de vue non-asymptotique. Il est clair que le risque quadratique de Q_n dépend entièrement du comportement de q_n. Dans le Chapitre 4, nous proposerons alors une étude non-asymptotique du risque quadratique deQndans le cas où nous connaissons bien le comportement de q_n c’est-à-dire dans le cas où Y a une densité minorée. Nous comparerons à nouveau les résultats avec le cas simple où q est connu pour bien comprendre ce que nous perdons en précision lorsque nous ne le connaissons pas.

Les Chapitre 3 et 4 de cette thèse sont consacrés à l’étude asymptotique et non-asymptotique d’algorithmes stochastiques pour estimer le quantile et le superquantile de la sortie d’un code numérique coûteux. On peut alors se demander comment procéder lorsque l’on souhaite es-timer ces quantités d’intérêt pour la sortie d’un code stochastique. On rappelle que le but, dans ce contexte, est de trouver pour toute entréex, un algorithme qui permette d’estimer le quantile ou le superquantile de la loi deY^x =g(x, ǫ). Nous avons déjà vu précédemment qu’il est hors de question de construire un échantillon de Y^x pour tout x. Nous souhaitons donc construire un estimateur basé sur les algorithmes stochastiques de type Robbins-Monro mais qui utilise le même échantillon indépendant (X_i, Y_i)_i de (X, Y) pour toute entréex. Évidem-ment, pour que cela soit possible, il faut trouver un moyen de localiser les algorithmes, c’est-à-dire de faire en sorte que pour un x ﬁxé, seuls les éléments (Xi, Yi) qui auront un comportementproche de (x, Y^x) ne comptent réellement. Pour mettre cela en pratique, nous avons décidé d’une part de ne considérer que des codes continus c’est à dire tels que les réponses qu’ils fournissent à deux entrées proches ne peuvent être trop éloignées, (nous ver-rons dans le Chapitre 4 comment traduire cela proprement d’un point de vue mathématique) et d’autre part, nous avons voulu utiliser la théorie des k-plus proches voisins. L’algorithme que nous proposons pour l’estimation du quantile est alors





q₀(x)∈R

qn+1(x) =qn(x)−γ_n+1^q 1_Y_n+1_>q_n_(x)−α1_X_n+1_∈_{kN N}_n+1_(x) (2.9) oùkN Nn+1(x) est l’ensemble deskn(kn∈N^∗) plus proches voisins dexparmi (X1, . . . , Xn+1)

INTRODUCTION

pour la norme euclidienne. Il s’agit d’une adaptation de l’algorithme (2.6) dans laquelle on ne fait la mise à jour que lorsque la nouvelle entréeX_n+1 est assez proche dex. En ajoutant cette notion dek-plus proches voisins pour gérer le côté stochastique du code, on fait appa-raître un second paramètre à régler. En eﬀet, dans l’algorithme (2.9), il faut choisir d’une part un bon pas de descente de gradient γ_n et d’autre part un bon nombre de voisins k_n. Nous étudierons des pas de descente de gradient de la forme γ_n =n⁻^γ avec γ ∈]0,1] et des nombres de voisins kn de la forme kn = ⌊n^β⌋ avec β ∈]0,1]. Dans le Chapitre 5 de cette thèse, nous proposerons des conditions sur ces deux paramètres pour que l’algorithme soit fortement consistant. Nous proposons de plus, sous certaines conditions (classiques pour la théorie des k-plus proches voisins) sur le modèle, une inégalité non asymptotique sur le risque quadratique de l’algorithme. Nous verrons que cette dernière nous permet d’exhiber les paramètres à fournir à l’algorithme pour que ce dernier converge en moyenne quadratique avec la plus grande vitesse. Pendant toute l’étude, nous tâcherons de bien mettre en avant l’erreur commise par lalocalisation pour bien comprendre ce qui change par rapport au cadre non-conditionnel. Tous nos résultats seront illustrés par des simulations numériques.

Pour terminer cette partie, nous proposons dans le Chapitre 6 de montrer la consistance forte et de faire l’étude non-asymptotique de l’algorithme











(q₀(x), Q₀(x))∈R²

qn+1(x) =qn(x)−γ_n+1^q 1_Y_n+1_>q_n_(x)−α1_X_n+1_∈_{kN N}^q

n+1(x)

Q_n+1(x) =Q_n(x) +γ_n+1^Q Y_n+11_Y_n+1_>q_n_(x)−Q_n(x)1_X

n+1∈kN N_n+1^Q (x)

(2.10)

version conditionnelle de l’algorithme (2.8) pour estimer simultanément le quantile et le superquantile de la sortie d’un code stochastique. Pour faire tourner cet algorithme, il faut cette fois régler quatre paramètres : les deux pas de descente de gradient et les deux nombres de voisins. Une grande partie du Chapitre 6 est consacrée à une discussion sur le choix de ces paramètres. Encore une fois, nous tâcherons de bien séparer les termes d’erreur dûs à la localisation et les termes d’erreur dûs à l’approximation deq par q_n. Nous illustrerons à nouveau nos propos par des simulations numériques.

Chapter 3 Estimation de quantile dans les codes numériques

Dans ce chapitre, nous souhaitons estimer le quantileq de niveau ﬁxé α de la sortieY d’un code numérique par l’algorithme stochastique

( q₀ ∈R

qn+1 =qn−γn+1 1Yn+1≤qn−α. (3.1) où (Yi)i=1,...,n est un échantillon indépendant de Y, (γn)n est une suite déterministe décroissante positive, appelée pas de la descente de gradient. Le but de ce chapitre est l’étude de cet algorithme en fonction du choix des pas (γ_n). Pour cela, nous allons dans un premier temps, faire le point sur les résultats de la littérature concernant son comportement asymptotique. Nous verrons que ces premiers résultats montrent qu’il est plus intéressant de choisir des pas déterministes de l’ordre n⁻¹. En eﬀet, avec ces pas et sous certaines conditions sur le modèle, l’algorithme (3.1) est normalement asymptotique à vitesse√n, qui est la vitesse optimale. Pour traiter des codes coûteux, nous proposerons dans un second temps, des pistes concernant l’étude non-asymptotique de cet algorithme. D’abord, nous verrons que les résultats généraux connus sur les algorithmes de type Robbins Monro ne peuvent s’appliquer à notre cas. Nous écrirons alors une inégalité non-asymptotique sur son risque quadratique dans le cas d’une loiY à densité minorée par une constanteD >0, pour bien comprendre ce qu’il se passe. Ensuite, nous proposerons des pistes pour généraliser notre résultat. Nous verrons que cela comporte certaines diﬃcultés techniques que nous n’avons, actuellement, pas réussi à lever.

Dans le document THÈSE THÈSE (Page 90-99)