• Aucun résultat trouvé

Etude du comportement asymptotique de l’algorithme ()

Dans le document THÈSE THÈSE (Page 99-102)

Dans la littérature, il est très souvent considéré des pas de la formeγn=Cγnγavecγ ∈]0,1]

etCγ>0. Ce sera aussi le cas dans cette thèse. Dans cette partie nous cherchons donc des conditions sur les pasγn pour que l’algorithme ait un bon comportement asymptotique.

Pour commencer, les conditions de forte consistance de l’estimateur (3.1) sont résumées dans le théorème de Robbins-Monro suivant (voir par exemple Théorème 1.4.26 de [40]).

Théorème 3.1.1. Si la densité deY ne s’annule pas en q et si la suite de pas déterministesn)n vérifie

Xγ =∞ (3.2)

CHAPTER 3. ESTIMATION DE QUANTILE DANS LES CODES NUMÉRIQUES X

n0

γn2 <∞ (3.3)

alors l’algorithme (3.1) converge presque sûrement vers q.

Pour avoir une preuve détaillée de ce théorème (dans le cas particulier du quantile), on pourra aussi se reporter à [14]. Pour bien comprendre le rôle de hypothèses, nous allons tout de même donner une heuristique de la preuve. Le schéma de cette preuve est très classique, il sera repris plusieurs fois dans cette deuxième partie.

1) Pour la filtrationFn:=σ(Y1, . . . , Yn), et en posant h(qn) =E 1Yn+1qnα|Fn=F(qn)−α

ξn+1 =E 1Yn+1qnα|Fn

h(qn) =1Yn+1qnF(qn), on construit la martingale

Tn=qnXn j=1

γj+1h(qj) = Xn j=1

γj+1ξj+1.

Comme l’incrément de martingale ξn est borné presque sûrement par 1, et grâce à l’hypothèse (3.2), la martingaleTnest bornée dansL2, donc converge presque-sûrement.

2) La convergence de (Tn) implique celle de (qn) dès lors que l’on a montré que cette suite ne divergeait pas vers +∞ ou −∞. Cela est vrai grâce à l’hypothèse (3.3). En effet, pour fixer les idées, sous cette hypothèse, si les itérations de l”algorithme deviennent très grandes (en comparaison du quantile), il vérifiera pour un certain N0, qN0YN0+1. Ainsi, par définition, qN0+1 = QN0 −(1−α)γN0+1. L’algorithme reculera de cette manière avec des pas (1−α)γi tant que qiYi pour iN0+ 1. L’hypothèse (3.3) implique qu’il existe alors presque-sûrement unipour lequelqi aura assez reculer pour vérifier qiYi+1 et donc que l’algorithme ne peut diverger vers +∞.

Concernant la normalité asymptotique, on peut noter deux comportements différents suivant les valeurs de γ. En fait, lorsque γ ∈]12,1[, on peut montrer (voir par exemple le Théorème 13 de [11]) que l’algorithme produit un estimateur normalement asymptotique à vitesse √

nγ (et ce quelque soit la valeur de la constante Cγ). Ainsi, plus on va prendre un γ proche de 1 et meilleure sera la vitesse de convergence. Il est alors naturel de chercher ce qu’il se passe lorsque γ = 1. Ce cas limite est assez particulier. On peut résumer les comportements asymptotiques associés à ce cas dans le théorème suivant (voir Théorème 2.2.12 de [40]).

Théorème 3.1.2. Supposons que la densitéf de la loi deY soit de classeC1 et quef(q)>0, alors pour des pas de la forme γn = n1, l’algorithme (3.1) vérifie un des comportements asymptotiques suivants

1) Si f(q)> 12, alors

n(qnq)−→ NL

0, α(1α) 2f(q)−1

. 2) Si f(q) = 12,

s n

ln(n)(qnq)−→ NL (0, α(1−α)).

100

CHAPTER 3. ESTIMATION DE QUANTILE DANS LES CODES NUMÉRIQUES

3) Si f(q)< 12,

nf(q)(qnq)−→p.s Z, Z est une variable aléatoire.

On remarque alors que le cas des pas γn = n1 est bien différent des autres. Dans cette thèse, nous n’entrerons pas dans les détails de la preuve de ces théorèmes. L’idée est cependant la même que pour la convergence presque-sûre ; il faut faire apparaître une martingale et utiliser les théorèmes de convergence relatifs aux martingales pour conclure, en re-normalisant correctement. Les difficultés sont donc d’ordre technique. Néanmoins, il est important de comprendre ce qui change entre le casγ <1 et le casγ = 1. Tout repose sur le fait que, lorsqueγ <1, la somme partielle de la série deγnreste de l’ordre d’une puissance de n. En revanche, pour le cas γ = 1, la somme est de l’ordre de ln(n). Cela modifie beaucoup de choses dans les calculs et change complètement les résultats, comme nous pouvons le voir dans le précédent théorème. Nous reviendrons plus en détail sur cette différence lorsque nous établirons des inégalités non-asymptotiques pour cet algorithme.

Lorsque f(q) > 1/2, la comparaison des résultats montre qu’il est plus intéressant de choisir des pas γn =n1. En effet, dans ce cas, les vitesses sont en nγ/2 pour tout choix de γ ∈]1/2,1]. Nous atteignons donc la vitesse optimale en √

npour le pas γn=n1. Lorsque f(q) = 1/2, c’est toujours le cas γ = 1 le plus intéressant mais l’écart de vitesse se réduit.

Enfin, le cas f(q) > 1/2 est un peu à part. Lorsque γ = 1, nous avons une convergence presque-sûre qui est donc plus forte que la convergence en loi obtenue dans l’autre cas. Mais la limite est inconnue et la vitesse est plus lente. L’idéal est donc de se retrouver dans le premier cas et de faire tourner l’algorithme avec des pas enγn=n1. Malheureusement, si on souhaite estimer un quantile extrême (αest plutôt proche de 1), on risque fortement de se retrouver dans le troisième cas. Il faut donc trouver un moyen de modifier l’algorithme pour basculer systématiquement dans le premier cas. C’est en fait le rôle de la constante Cγ qui est considérée égale à 1 dans le Théorème 3.1.2. En effet, si on prend une constanteCγ 6= 1, alors notre algorithme devient

qn+1 =qnCγ

n+ 1 1Yn+1qnα=qn− 1

n+ 1 Cγ1Yn+1qnCγα.

Comme le quantile est aussi le zéro de la fonctionh:t7→CγFY(t)−Cγα, on ne change pas de cible. En revanche, si on applique la précédente étude théorique à ce nouvel algorithme, on doit cette fois distinguer les cas suivant la valeur de h(q) = Cγf(q) par rapport à 1/2.

Ainsi, on prenant par exempleCγ = 1/f(q), on est toujours dans le premier cas du théorème précédent. Cette solution théorique est cependant problématique en pratique puisque pour connaître la valeur intéressante deCγ, il faut connaîtref(q). Souvent, pour résoudre ce prob-lème, on commence par faire une première approximation grossière de f(q) (par estimation empirique par exemple) avant de lancer l’algorithme avec debonsparamètres de descente de gradient. Ce n’est évidement pas une solution miracle mais elle fonctionne assez bien.

Remarque 3.1.3. Il est tout de même important de souligner, à ce stade, que la précédente solution ne satisfait pas vraiment la communauté statisticienne. Ainsi, pour éviter ce prob-lème de paramétrage de constante, Polyak et al. proposent dans [78], un algorithme modifié.

Cet algorithme construit la suite(qn) de la même manière que dans notre cas, mais considère plutôt l’estimateur(qn) définit par récurrence de la manière suivante

CHAPTER 3. ESTIMATION DE QUANTILE DANS LES CODES NUMÉRIQUES

q0=q0 qn= 1

n

nX1 k=0

qk. (3.4)

On comprend aisément pourquoi ce nouvel algorithme porte le nom d’algorithme stochas-tique moyenné. Lorsque (qn) est construite avec des pas γn =Cγnγ pour n’importe quelle constante C > 0 et pour tout 0 < γ < 1, on peut montrer (voir [78]) que l’algorithme est fortement consistant. Mieux encore, il est normalement asymptotique à vitesse √n. Cet algorithme est donc très puissant puisqu’il atteint la vitesse optimale de l’algorithme (3.1) pour n’importe quel choix de constante et de pas (du moment que γ < 1). On trouve de plus en plus de travaux sur cet algorithme (voir par exemple [78, 68] pour le comportement asymptotique, et [72, 23] et leur références pour l’étude non-asymptotique). Cependant, dans cette thèse, nous ne nous attarderons pas plus sur cet algorithme moyenné. C’est plutôt la difficulté créée par la singularité en γ = 1 dans l’algorithme (3.1) qui nous intéresse.

En conclusion, l’étude asymptotique de l’algorithme (3.1) montre qu’il est plus intéressant, en théorie, de choisir des pas de la forme γn =Cγn1 avec une constanteCγ > 1/2f(q). Il est cependant difficile en pratique de calibrer cette constante donc la valeur optimale dépend du paramètre d’intérêt. L’importance de cette constante dans le cas où γ = 1 est un point central de ce chapitre. Nous en profitons pour rappeler que lorsque les pas sont choisis avec γ < 1, la constante Cγ n’a aucune influence sur le comportement de l’algorithme. Nous reparlerons de cette constante lorsque nous discuterons du comportement non-asymptotique.

3.2 Etude du comportement non-asymptotique de l’algorithme

Dans le document THÈSE THÈSE (Page 99-102)