Annexe : sur la piste des inégalités de déviation

Dans cette partie, nous présentons les calculs que nous avons eﬀectué pour tenter de montrer l’inégalité de déviation calculs s’adaptent complètement dans l’autre cas. Pour commencer, nous introduisons la décomposition classique "martingale-reste" (on peut trouver ce genre de décomposition dans [40] ou [22]).

Nous voulons alors montrer que P Introduisons d’abord un lemme technique.

CHAPTER 3. ESTIMATION DE QUANTILE DANS LES CODES NUMÉRIQUES

Lemma 3.4.1. Avec les notations précédentes, il existe une constante C telle que β_n

Proof. Les comparaisons séries-intégrales permettent de dire que Yn

Remarque 3.4.2. Nous omettrons les constantes commeC. Nous nous concentrerons plutôt sur l’ordre en n des termes, qui est bien plus important. On comprendra donc les inégalités par la suite comme vraie à une constante près.

Le premier terme de la somme est déterministe. Le lemme précédent donne la majoration P

qui est égal à 0 pour nsuﬃsamment grand (mais ce rang est déterministe).

Traitons maintenant le cas du terme martingale. On notera ici que nous sommes obligés d’aller chercher une inégalité de Markov exponentielle pour conclure, alors que l’inégalité de Tchebychev suﬃt dans le cas des pas γ_n=n⁻^γ avec γ <1. Commençons donc par calculer

où nous avons utilisé l’inégalité de Jensen avec la fonction convexe exponentielle. Sachant que∀n, |ξ_n| ≤1,pourZ une variable aléatoire de Rademacher, nous avons grâce à l’inégalité de Hoeﬀding Nous avons maintenant besoin du lemme suivant.

Lemma 3.4.3. Avec les notations suivantes, nous avons Xn

k=1

∆²_k≤ 1 n. Proof. Grâce au Lemme 3.4.1, nous avons

CHAPTER 3. ESTIMATION DE QUANTILE DANS LES CODES NUMÉRIQUES

Finalement, la transformée de Laplace vériﬁe

E(exp(λβnS_n))≤exp λ² 4n

! ,

et l’inégalité de Markov exponentielle nous permet de conclure que ∀λ >0, P En optimisant enλ, il vient

Pour conclure, il resterait donc seulement à gérer le terme de reste, c’est à dire à montrer que

C’est le point de blocage. La seule chose que nous pouvons dire sur ce reste est que

|δ_k| ≤ q²_k

2||f^′||∞.

Ainsi, nous avons essayé d’utiliser l’inégalité de Tchebychev. Le moment d’ordre 2 est E

Nous voyons apparaître ici le moment d’ordre 4 de l’algorithme. Ainsi, pour conclure, il faudrait avoir un résultat sur le moment d’ordre 4. Mais dans un premier temps, imaginons simplement que ce que nous cherchons à démontrer soit vrai. Dans ce cas, on aurait

E(q⁴_n)≤ 1 n². Ainsi, les calculs habituels nous donneraient

E[T1]≤ 1 n.

Malheureusement, cela ne suﬃt pas puisque lorsque nous allons utiliser l’inégalité de Tchebychev, nous aurons seulement

qui est loin d’être inférieur à (nln(n))⁻². On notera que l’inégalité de Tchebychev ne suﬃt pas non plus à conclure dans le cas des autres pas. L’idée naturelle qui vient par la suite serait d’utiliser une inégalité de Markov exponentielle. Écrire cette inégalité demande de faire des calculs très poussés. Nous ne les présenterons donc pas ici parce qu’ils n’ont que peu d’intérêt. Il ne permettent en eﬀet pas de conclure. Nous pensons que le problème vient du fait que, même en écrivant cette inégalité, nous perdons trop d’informations lorsque nous

CHAPTER 3. ESTIMATION DE QUANTILE DANS LES CODES NUMÉRIQUES

δ_k≤ q²_k

2||f^′||∞ etξ_k ≤1.

Malheureusement, nous ne voyons pas comment aﬃner ces majorations.

118

Chapter 4 Estimation de superquantile dans les codes numériques

Dans ce chapitre, nous souhaitons estimer séquentiellement le superquantileQde la sortieY d’un code numérique coûteux. Nous considérons donc, dans la suite, une variable aléatoireY telle queY✶Y >0 soit intégrable. Puisque que le superquantile est fortement relié au quantile du même niveau, nous avons vu dans l’introduction de cette deuxième partie, qu’il était pertinent d’estimer le superquantile en utilisant une estimation du quantile de la manière

suivante _









q₀∈R Q₀∈R

qn+1=qn−γ_n+1^q ✶Yn+1≤qn−α

Q_n+1=Q_n+γ^Q_n+1 Y_n+1✶Yn+1>qn−Q_n,

(4.1)

où (Yi)i=1,...,n est toujours un échantillon indépendant de Y et γ_n^q et γ_n^Q sont les pas de descente de gradient que l’on considérera toujours de la formen⁻^γ^q et n⁻^γ^Q avec γ^q etγ^Q deux éléments de ]0,1].

Dans le chapitre précédent, nous avons déjà étudié les comportements asymptotique et non-asymptotique de la première coordonnée de cet algorithme (c’est-à-dire de (q_n)). Nous souhaitons maintenant étudier le comportement de la seconde coordonnée (c’est-à-dire (Qn)).

PuisqueQnest lié àqn, nous utiliserons les résultats du Chapitre 3. Une question intéressante est de savoir si les deux paramètres de descente de gradient doivent ou non être choisis de la même manière. Même si le fait de les choisir égaux pourrait apporter des simplifications techniques, il semble que ce ne soit pas justifié d’un point de vue théorique. L’intuition pousse même à chercher des pas optimaux différents, puisque la suite (q_n) peut être construite sans la suite (Qn). Nous reviendrons sur cette question.

Ce chapitre est composé de deux parties. Nous commencerons par discuter du ment asymptotique de l’algorithme (4.7). Ensuite, nous nous pencherons sur son comporte-ment non-asymptotique. Dans tous les cas, nous discuterons de la manière de calibrer nos deux paramètres de descente de gradient.

CHAPTER 4. ESTIMATION DE SUPERQUANTILE DANS LES CODES NUMÉRIQUES

4.1 Etat de l’art sur l’étude asymptotique de l’algorithme (4.7)

Théorème 4.1.1. Soit une variable Y telle que Y✶Y≥0 admette un moment d’ordre 2.

Lorsque les paramètres γ^q etγ^Q sont des éléments de ]1/2,1]alors, (qn, Q_n)−→^p.s (q, Q).

Esquisse de Preuve :

La convergence presque-sûre de (qn) sous ces hypothèses a déjà été mentionnée dans le Chapitre 3. Nous en avions même donné une esquisse de preuve. La convergence presque sûre de la seconde coordonnée s’établit selon le même plan. L’hypothèse supplémentaire sur le moment d’ordre 2 intervient pour que l’incrément de martingaleξ_n soit uniformément borné dansL², ce qui était trivialement vrai pour (qn) puisque dans ce cas, l’incrément était bornée presque-sûrement par 1. On pourra se reporter à [8] pour une preuve détaillée.

Concernant l’étude de la normalité asymptotique, le travail est plus technique, si nous souhaitons un théorème de la limite centrale joint pour le couple (qn, Q_n). Outre la diﬃculté de passer en dimension 2, le problème est compliqué puisque nous souhaitons établir un résultat pour des pas non nécessairement égaux. Pour cela, le lecteur pourra se référer au travaux existant sur la normalité asymptotique de tels doubles algorithmes, dits two time-scale stochastic approximation algorithms, comme [71], [66] ou [15]. L’objet de ce chapitre étant plutôt une étude non-asymptotique, nous n’entrerons pas plus dans les détails. On notera par ailleurs que Bardou et al. proposent, toujours dans leur article [8], un théorème de la limite centrale à vitesse √

npour la version modiﬁée et simpliﬁée de l’algorithme (4.7).

Ils étudient en eﬀet la version moyennée, dont nous avons déjà parlé, pour éviter le problème de la constanteC_γà calibrer, et prennent des pas de descente de gradient égaux àγ ∈]1/2,1[, pour pouvoir utiliser le théorème de la limite centrale bidimensionnel classique.

Dans le document THÈSE THÈSE (Page 115-120)