6.6 Preuves
6.6.2 Preuves des théorèmes sur le risque quadratiques
Proof. Pour la même raison que dans le Chapitre 5, nous devons introduire
bn(x) =E(Qn−Qα)2✶Pn>ǫn
où ǫn= (n+ 1)−ǫ avec 1> ǫ >1−β (on noterabn(x) la quantité avec l’événement complé-mentaire dans l’indicatrice). Nous avons donc, pour n≥N0,
an(x) =bn(x) +bn(x)≤bn(x) +D1exp −3n1−ǫ 8
! ,
d’après le Lemme 5.5.4 (et donc l’hypothèseA2) . Ainsi, nous allons chercher une inégalité de récurrence sur bn(x) de la forme habituelle
bn+1(x)≤(1−cn+1)bn(x) +dn+1.
Commebn+1(x)≤an+1(x), nous commençons par développer le carré suivant (Qn+1(x)−Q)2 = (Qn(x)−Q)2−2γn+1Q Qn(x)−Yn+1✶Yn+1<qn(x)
(Qn(x)−Q)✶Xn+1∈kN Nn+1(x)
+γn+1Q 2Qn(x)−Yn+1✶Yn+1>qn(x)
2
✶Xn+1∈kN Nn+1(x).
Comme il n’y a pas ambiguïté, pour simplifier les notations, nous omettrons dans la suite les indices Q et les fonctions de (x). En prenant l’espérance conditionnelle de l’expression précédente et en appliquant la formule de Bayes, nos obtenons
E(Qn+1−Q)2|Fn
= (Qn−Q)2−2γn+1(Qn−Q)PnhQn−GkN Nn+1(x)(qn)i+γn+1)2RnPn, où l’on a noté
Rn=Eh(Qn−Yn+1✶Yn+1>qn)2|Fn∩Xn+1 ∈kN Nn+1(x)i.
Il est alors intéressant de comparer cette équation avec ce que nous obtenions dans le cas non-conditionnel. Dans le Chapitre 4, nous avions fait la même manipulation. Mais le terme de double produit faisait directement apparaître (Qn−Q)2 parce qu’il n’y avait pas l’indicatrice. On voit ici très bien en quoi la nécessité de localiser, dans le cas conditionnel, va compliquer les choses. Par ailleurs, pour gérer le terme de reste, dans le cas non-conditionnel, nous allions chercher la variance de la loi tronquée. Ici, nos hypothèses de supports compacts nous permettent de faire une majoration plus rapide, qui permet au final, d’aboutir à la même conclusion. En effet, nous savons que Qn reste presque-sûrement dans l’intervalle [LY, UY]. Nous savons aussi que L(Y✶Y >qn|X ∈ kN Nn(x)) a un support inclus dans le compact [min(0, LY),max(UY,0)]. Presque-sûrement, nous avons donc, sachant que X ∈ kN Nn+1(x),
(Qn−Y✶Y >qn)2 ≤D2 := max(LY −max(0, UY))2,(UY −min(LY,0))2. Ainsi, nous avons, presque-sûrement,Rn≤D2.Nous obtenons alors
E(Qn+1−Q)2|Fn
≤(Qn−Q)2−2γn+1(Qn−Q)PnEhQn−GkN Nn+1(x)(qn)|Fn
i+D2γn+12 .
180
CHAPTER 6. ESTIMATION DE SUPERQUANTILE DANS LES CODES STOCHASTIQUES Nous allons maintenant étudier le double produit pour faire apparaître nos différents termes d’erreurs. Pour cela, nous écrivons que
(Qn−GkN Nn+1(x)) = (Qn−Q) + (Gx(q)−Gx(qn)) + (Gx(qn)−GkN Nn+1(x)(qn)).
Cette décomposition fait apparaître les trois erreurs suivantes
1) La première est simplement l’erreur commise en approximantQpar l’algorithme stochas-tique de manière générale. C’est ce terme qui va faire apparaître le terme cn = Pnγn dans l’équation de récurrence puisque le double produit sur cette erreur donne
−2γn+1Pn(Qn−Qα)2.
2) Le second terme représente l’erreur que nous faisons en approchantq parqn. Toujours par le même raisonnement, on a
−2γn+1Pn(Qn−Qα) (Gx(qα)−Gx(qn))≤2γn+1PnpD1|E(Y(✶Y >qα−✶Y >qn)|X =x)|
≤2γn+1Pn
pD1|max(qn, q)|||fx||∞|qn−qα|
≤≤2γn+1PnpD1D3||fx||∞|qn−qα|, avec D3 := max(|Uqn|,|Lqn|).
3) Enfin, le dernier terme correspond à l’erreur de localisation. C’est à dire celle que l’on fait en approximant la loi cible de Yx par la loi de Y|X ∈kN Nn(x). L’hypothèse A1 va (par le raisonnement que nous avons vu plusieurs fois) permettre d’écrire
−2γn+1PnGx(qn)−GkN Nn+1(x)(qn)(Qn−Qα)≤ | −2γn+1PnGx(qn)−GkN Nn+1(x)(Qn−Qα)|
≤2γn+1Pn
pD1|Gx(qn)−GkN Nn+1(x)(qn)|
≤2γn+1PnpD1|UY|M(x)||X−x||(kn+1,n). Ce terme interviendra dans le reste dn de l’inégalité que nous cherchons à écrire.
Finalement, en prenant l’espérance et en reportant les précédentes expressions, on trouve E (Qn−Q)2
≤E (Qn−Q)2
−2γn+1E Pn(Qn−Q)2+ 2γn+1||fx||∞p
D1D3E(Pn|qn−q|)) + 2γn+1
pD1|UY|M(x)E Pn||X−x||(kn+1,n)+D2γn+12 E(Pn).
On peut alors déduire une inégalité récursive sur bn(x) de la manière suivante bn+1(x)≤an+1(x)
≤E(Qn−)2(✶Pn>ǫn+✶Pn≤ǫn)−2γn+1EPn(Qn−Q)2✶Pn>ǫn
+ 2γn+1||fx||∞pD1D3E(Pn|qn−q|)) + 2γn+1pD1|UY|M(x)EPn||X−x||(kn,n)
+D2γ2n+1E(Pn)
≤bn(x) (1−2γn+1ǫn) +D1exp −3n1−ǫ 8
!
+ 2γn+1
pD1|UY|M(x)EPn||X−x||(kn+1,n)
+ 2γn+1||fx||∞
pD1D3E(Pn|qn−q|)) +D2γn+12 E(Pn).
Nous venons donc d’établir une inégalité de récurrence sur b (x). Pour que la forme
CHAPTER 6. ESTIMATION DE SUPERQUANTILE DANS LES CODES STOCHASTIQUES
précédent pour majorer les espérances de la précédente inégalité. Les lemmes 5.5.6 et 5.5.1 permettent en effet d’obtenir
On peut donc conclure, en raisonnant par récurrence, que pourn≥N0+ 1,
an(x)≤D1exp C’est la conclusion de la Proposition 6.2.3.
Preuve du Corollaire 6.2.4
Proof. On constate facilement que nous connaissons tous les ordres enndes éléments du reste dn sauf celui qui dépend du risque quadratique de qn. Dans la suite, on notera à nouveau an(q) etqn(Q) les deux risques quadratiques. Malheureusement, nous ne savons pas comment sont corrélés Pn et qn (c’est d’ailleurs ce qui nous a forcé à travailler avec bn(x) plutôt que an(x)). Il va donc nous falloir appliquer l’inégalité de Cauchy-Schwarz sur le produitPn fois
|qn−q|. Nous avons vu que cela nous fait perdre une précision qui n’est pas négligeable.
L’inégalité de Cauchy-Schwartz donne donc
E(Pn|qn−qα|)≤qE(Pn2)E((qn−qα)2).
Le moment d’ordre 2 de Pn est donné par le Lemme 5.5.1. En fait, il vérifie pour tout n≥N0,
E(Pn2−1)≤D13kn
n ≤2D13(n−1)β−1.
Concernant le risque quadratique de qn, on reprend notre résultat final du Chapitre 5, à savoir que pourn≥N4(x, α, d), il existe une constanteC9(x, α, d) telle que
E(qn−q)2≤ C9(x, α, d) n1+d1 −η
, pourη = ηdβ −ηǫ etηǫ=ǫ−(1−β).
En utilisant notre récurrence habituelle, on peut donc montrer que pourn≥N3+ 2,
182
CHAPTER 6. ESTIMATION DE SUPERQUANTILE DANS LES CODES
Pour traiter du termeTn2, il nous faut maintenant chercher dans quelle zone sera dominant quel terme dedk. Pour simplifier les notations, nous allons noter, pour n≥N3,
2γn+1pD1|UY|M D(x)C3(d)kn On remarque qu’à la constante près, les termesR1 etR2 sont les mêmes que dans l’étude du Chapitre 5. Ainsi, nous savons déjà que lorsque β ≥1−dγ,R2 domine sur R1. C’est le
La Figure résume les zones précédemment définie avec leur type dans le cas particulier oùd= 1.
Figure 6.10: Zones et termes dominants
CHAPTER 6. ESTIMATION DE SUPERQUANTILE DANS LES CODES
Ainsi, lorsque nous sommes en zone A, on peut développer les calculs comme dans les chapitres précédents. On a terme et celui du reste provenant de l’inégalité de déviation Tn0 seront donc négligeables. Il reste alors le terme
Tn4 =dn= D4(x, d, α)
(n−1)1/2−β/2+1/2(1+d)−η/2+γ.
qui converge plus vite que le terme le plus important Tn2. Pour gérer ce terme, nous allons comme d’habitude devoir découper la somme en deux parties et donc s’assurer que n≥M1(x, d, α) le rang à partie duquel on a
⌊n
2⌋ ≥N4(x, d, α) + 1.
Nous allons aussi devoir utiliser le rangM2à partir duquel on peut faire notre comparaison série-intégrale habituelle, c’est à dire le rang à partir duquel
⌊n
Finalement, en posant M3(x, d, α) le rang à partir duquel 184
CHAPTER 6. ESTIMATION DE SUPERQUANTILE DANS LES CODES STOCHASTIQUES
Tn0+Tn1+Tn3+S1 ≤ D10(x, d, α) 2
1
n1−β2 +2(1+d)1 −η2−ǫ , on obtient le résultat pour la zone A.
Les calculs sont exactement les mêmes pour les deux autres zones. Nous ne les détaillerons donc pas à nouveau.
Preuve du Corollaire 6.2.5
On peut alors faire l’optimisation des trois zones. Dans la zone A par exemple, on a montré que
an≤ D10(x, α, d) n1/2−β/2+1/2(1+d)−η/2−ǫ.
Pour que la décroissance soit la plus rapide possible, il faut choisir un ǫ le plus petit possible pour avoir une vitesse la plus rapide possible. On choisit donc ǫ = 1−β +ηǫ où ηǫ>0 est aussi petit que possible. La vitesse est alors enn−2(1+d)1 +η2+1−β2 +ηǫ. On choisit donc βle plus rand possible, ce qui signifie, dans cette zoneβ = 1−(1+d)(1+2/d)1 . La vitesse est alors en n−
1 (1+d)(2+d)−ηǫ−η
2 quelque soitγ dans le segment [(1+d)(2+d)1 −η/(2 +d); 1− (1+d)(1+2/d)1 ].
Dans la zoneA, on trouve donc que les couples de paramètres optimaux sont les points du segment vertical servant de frontière entre la zone A et la zone C. Avec ces paramètres, on sait de plus que
an(x) =O
n−(1+d)(2+d)1 +ηǫ+η2
.
De la même manière, on étudie ce qu’il se passe dans les deux autres zones. On conclut que ce segment frontière est le segment des paramètres optimaux globaux avec la vitesse précédem-ment annoncée. La Figure 6.11 résume le comporteprécédem-ment que nous venons de décrire. Con-cernant la constanteD10(x, α, d), il suffit de prendre min (D7(x, α, d), D8(x, α, d), D9(x, α, d)) lorsque l’on calcule ces constantes avec les paramètres du segment optimal qui les rendent les plus petites.