• Aucun résultat trouvé

Annexe : sur la piste des inégalités de déviation

Dans le document THÈSE THÈSE (Page 115-120)

Dans cette partie, nous présentons les calculs que nous avons effectué pour tenter de montrer l’inégalité de déviation calculs s’adaptent complètement dans l’autre cas. Pour commencer, nous introduisons la décomposition classique "martingale-reste" (on peut trouver ce genre de décomposition dans [40] ou [22]).

Nous voulons alors montrer que P Introduisons d’abord un lemme technique.

CHAPTER 3. ESTIMATION DE QUANTILE DANS LES CODES NUMÉRIQUES

Lemma 3.4.1. Avec les notations précédentes, il existe une constante C telle que βn

Proof. Les comparaisons séries-intégrales permettent de dire que Yn

Remarque 3.4.2. Nous omettrons les constantes commeC. Nous nous concentrerons plutôt sur l’ordre en n des termes, qui est bien plus important. On comprendra donc les inégalités par la suite comme vraie à une constante près.

Le premier terme de la somme est déterministe. Le lemme précédent donne la majoration P

qui est égal à 0 pour nsuffisamment grand (mais ce rang est déterministe).

Traitons maintenant le cas du terme martingale. On notera ici que nous sommes obligés d’aller chercher une inégalité de Markov exponentielle pour conclure, alors que l’inégalité de Tchebychev suffit dans le cas des pas γn=nγ avec γ <1. Commençons donc par calculer

où nous avons utilisé l’inégalité de Jensen avec la fonction convexe exponentielle. Sachant que∀n, |ξn| ≤1,pourZ une variable aléatoire de Rademacher, nous avons grâce à l’inégalité de Hoeffding Nous avons maintenant besoin du lemme suivant.

Lemma 3.4.3. Avec les notations suivantes, nous avons Xn

k=1

2k≤ 1 n. Proof. Grâce au Lemme 3.4.1, nous avons

Xn

CHAPTER 3. ESTIMATION DE QUANTILE DANS LES CODES NUMÉRIQUES

Finalement, la transformée de Laplace vérifie

E(exp(λβnSn))≤exp λ2 4n

! ,

et l’inégalité de Markov exponentielle nous permet de conclure que ∀λ >0, P En optimisant enλ, il vient

P

Pour conclure, il resterait donc seulement à gérer le terme de reste, c’est à dire à montrer que

C’est le point de blocage. La seule chose que nous pouvons dire sur ce reste est que

|δk| ≤ q2k

2||f||.

Ainsi, nous avons essayé d’utiliser l’inégalité de Tchebychev. Le moment d’ordre 2 est E

Nous voyons apparaître ici le moment d’ordre 4 de l’algorithme. Ainsi, pour conclure, il faudrait avoir un résultat sur le moment d’ordre 4. Mais dans un premier temps, imaginons simplement que ce que nous cherchons à démontrer soit vrai. Dans ce cas, on aurait

E(q4n)≤ 1 n2. Ainsi, les calculs habituels nous donneraient

E[T1]≤ 1 n.

Malheureusement, cela ne suffit pas puisque lorsque nous allons utiliser l’inégalité de Tchebychev, nous aurons seulement

qui est loin d’être inférieur à (nln(n))2. On notera que l’inégalité de Tchebychev ne suffit pas non plus à conclure dans le cas des autres pas. L’idée naturelle qui vient par la suite serait d’utiliser une inégalité de Markov exponentielle. Écrire cette inégalité demande de faire des calculs très poussés. Nous ne les présenterons donc pas ici parce qu’ils n’ont que peu d’intérêt. Il ne permettent en effet pas de conclure. Nous pensons que le problème vient du fait que, même en écrivant cette inégalité, nous perdons trop d’informations lorsque nous

CHAPTER 3. ESTIMATION DE QUANTILE DANS LES CODES NUMÉRIQUES

δkq2k

2||f|| etξk ≤1.

Malheureusement, nous ne voyons pas comment affiner ces majorations.

118

Chapter 4

Estimation de superquantile dans les codes numériques

Dans ce chapitre, nous souhaitons estimer séquentiellement le superquantileQde la sortieY d’un code numérique coûteux. Nous considérons donc, dans la suite, une variable aléatoireY telle queYY >0 soit intégrable. Puisque que le superquantile est fortement relié au quantile du même niveau, nous avons vu dans l’introduction de cette deuxième partie, qu’il était pertinent d’estimer le superquantile en utilisant une estimation du quantile de la manière

suivante

q0∈R Q0∈R

qn+1=qnγn+1qYn+1qnα

Qn+1=Qn+γQn+1 Yn+1Yn+1>qnQn,

(4.1)

où (Yi)i=1,...,n est toujours un échantillon indépendant de Y et γnq et γnQ sont les pas de descente de gradient que l’on considérera toujours de la formenγq et nγQ avec γq etγQ deux éléments de ]0,1].

Dans le chapitre précédent, nous avons déjà étudié les comportements asymptotique et non-asymptotique de la première coordonnée de cet algorithme (c’est-à-dire de (qn)). Nous souhaitons maintenant étudier le comportement de la seconde coordonnée (c’est-à-dire (Qn)).

PuisqueQnest lié àqn, nous utiliserons les résultats du Chapitre 3. Une question intéressante est de savoir si les deux paramètres de descente de gradient doivent ou non être choisis de la même manière. Même si le fait de les choisir égaux pourrait apporter des simplifications techniques, il semble que ce ne soit pas justifié d’un point de vue théorique. L’intuition pousse même à chercher des pas optimaux différents, puisque la suite (qn) peut être construite sans la suite (Qn). Nous reviendrons sur cette question.

Ce chapitre est composé de deux parties. Nous commencerons par discuter du ment asymptotique de l’algorithme (4.7). Ensuite, nous nous pencherons sur son comporte-ment non-asymptotique. Dans tous les cas, nous discuterons de la manière de calibrer nos deux paramètres de descente de gradient.

CHAPTER 4. ESTIMATION DE SUPERQUANTILE DANS LES CODES NUMÉRIQUES

4.1 Etat de l’art sur l’étude asymptotique de l’algorithme (4.7)

Théorème 4.1.1. Soit une variable Y telle que YY0 admette un moment d’ordre 2.

Lorsque les paramètres γq etγQ sont des éléments de ]1/2,1]alors, (qn, Qn)−→p.s (q, Q).

Esquisse de Preuve :

La convergence presque-sûre de (qn) sous ces hypothèses a déjà été mentionnée dans le Chapitre 3. Nous en avions même donné une esquisse de preuve. La convergence presque sûre de la seconde coordonnée s’établit selon le même plan. L’hypothèse supplémentaire sur le moment d’ordre 2 intervient pour que l’incrément de martingaleξn soit uniformément borné dansL2, ce qui était trivialement vrai pour (qn) puisque dans ce cas, l’incrément était bornée presque-sûrement par 1. On pourra se reporter à [8] pour une preuve détaillée.

Concernant l’étude de la normalité asymptotique, le travail est plus technique, si nous souhaitons un théorème de la limite centrale joint pour le couple (qn, Qn). Outre la difficulté de passer en dimension 2, le problème est compliqué puisque nous souhaitons établir un résultat pour des pas non nécessairement égaux. Pour cela, le lecteur pourra se référer au travaux existant sur la normalité asymptotique de tels doubles algorithmes, dits two time-scale stochastic approximation algorithms, comme [71], [66] ou [15]. L’objet de ce chapitre étant plutôt une étude non-asymptotique, nous n’entrerons pas plus dans les détails. On notera par ailleurs que Bardou et al. proposent, toujours dans leur article [8], un théorème de la limite centrale à vitesse √

npour la version modifiée et simplifiée de l’algorithme (4.7).

Ils étudient en effet la version moyennée, dont nous avons déjà parlé, pour éviter le problème de la constanteCγà calibrer, et prennent des pas de descente de gradient égaux àγ ∈]1/2,1[, pour pouvoir utiliser le théorème de la limite centrale bidimensionnel classique.

Dans le document THÈSE THÈSE (Page 115-120)