AntoineGodichon-Baggioni Algorithmesstochastiques

(1)

Algorithmes stochastiques

Antoine Godichon-Baggioni

(2)

(3)

1 Introduction 5

1.1 Cadre . . . . 5

1.1.1 Fonctions fortement convexes . . . . 5

1.1.2 Fonctions strictement convexes . . . . 6

1.2 M-estimateurs . . . . 8

1.2.1 Définition et exemples . . . . 8

1.2.2 Un résultat de convergence . . . . 11

1.3 Estimation en ligne . . . . 12

1.4 Algorithmes de gradient stochastiques . . . . 12

1.4.1 Algorithmes de gradient stochastiques . . . . 13

1.4.2 Approche non-asymptotique . . . . 14

1.4.3 Exemple : regression lineaire . . . . 16

2 Martingales 19 2.1 Martingales réelles . . . . 19

2.1.1 Définitions . . . . 19

2.1.2 Théorème de Robbins-Siegmund . . . . 20

2.1.3 Lois des grands nombres . . . . 22

2.1.4 Théorème limite centrale . . . . 28

2.2 Martingales vectorielles . . . . 31

2.2.1 Définition . . . . 31

2.2.2 Vitesses de convergence des martingales vectorielles . . . . 32

2.2.3 Théorème Central Limite . . . . 33

3 Vitesses de convergence des algorithmes de gradient stochastiques 35 3.1 Convergence presque sûre . . . . 35

3.1.1 Approche directe . . . . 35

3.1.2 Approche via le développement de Taylor de la fonction G . . . . 37

3.1.3 Approche Lyapunov . . . . 38

3.1.4 Application au modèle linéaire . . . . 39

3.1.5 Application à la régréssion logistique . . . . 40

3

(4)

3.2 Vitesses de convergence presque sûre . . . . 41

3.2.1 Cadre . . . . 41

3.2.2 Vitesses de convergence . . . . 42

3.2.3 Application au modèle linéaire . . . . 45

3.2.4 Application à la régression logistique . . . . 47

3.2.5 Remarques . . . . 49

4 Accélération des méthodes de gradient stochastiques 51 4.1 Algorithmes de gradient stochastiques moyennés . . . . 51

4.1.1 Vitesse de convergence presque sûre . . . . 52

4.1.2 Normalité asymptotique . . . . 57

4.1.3 Application au modèle linéaire . . . . 59

4.1.4 Application à la régression logistique . . . . 63

4.1.5 Remarques . . . . 65

4.2 Algorithme de Newton stochastique . . . . 65

4.2.1 Idée de l’algorithme de Newton stochastique . . . . 65

4.2.2 L’algorithme de Newton stochastique . . . . 67

4.2.3 Vitesses de convergence . . . . 70

4.2.4 Normalité asymptotique . . . . 73

4.2.5 Application au modèle linéaire . . . . 75

4.2.6 Application à la régression logistique . . . . 79

Bibliographie 85

(5)

Introduction

1.1 Cadre

Dans ce cours, on s’intéresse à l’estimation du minimiseur m d’une fonction convexe G : R

^d

−→ _R définie pour tout h ∈ _R

^d

par

G ( h ) : = _E [ g ( X, h )]

avec g : X × _R

^d

−→ _{R, et} X un espace mesurable. On peut par exemple considérer X = _R ou X = _R

^d⁰

. Dans ce cours, on se concentrera sur deux catégories de fonctions : fortement convexes et strictement convexes.

1.1.1 Fonctions fortement convexes

Moyenne d’une variable aléatoire : Soit X une variable aléatoire à valeurs dans R

^d

. On peut voir la moyenne m de X comme le minimiseur de la fonction G définie pour tout h ∈ _R

^d

par

G ( h ) = ¹ 2 E h

k X − h k

²

− k X k

²

ⁱ

A noter que le terme k X k

²

dans la définition de la fonction G permet de ne pas avoir à faire d’hypothèse sur l’existence du moment d’ordre 2 de X. De plus, on a

∇ G ( h ) = − _E [ X − h ]

et donc m = _E [ X ] est l’unique zéro du gradient de la fonction G. Enfin, on a

∇

²

G ( h ) = I

_d

et la Hessienne est donc définie positive et uniformément minorée sur R

^d

. Ainsi, la fonction G est fortement convexe et la moyenne m est bien son unique minimiseur.

Régression linéaire : Soit ( X, Y ) un couple de variables aléatoires à valeurs dans X = _R

^d

× R tel

(6)

que

Y = θ

^T

X + e, (1.1)

où θ ∈ _R

^d

et e est une variable aléatoire indépendante de X vérifiant E [ e ] = 0. On admet que X et e admettent des moments d’ordre 2 et que la matrice E

XX

^T

est définie positive. Alors le paramètre θ est l’unique minimum de la fonction G : R

^d

−→ _R

+

définie pour tout h ∈ _R

^d

par

G ( h ) = ¹ 2 E

Y − h

^T

X

2

.

En effet, comme X et e admettent un moment d’ordre 2, la fonction G est différentiable et

∇ G ( h ) = − _E ^h Y − h

^T

X X i En particulier, on a

∇ G ( θ ) = − _E ^h Y − θ

^T

X X i

= − _E [ eX ] = − _E [ _E [ e | X ] X ] = 0.

De plus, comme X admet un moment d’ordre 2, la fonction G est deux fois différentiable et pour tout h ∈ _R

^d

,

∇

²

G ( h ) = _E ^h XX

^T

i .

Cette matrice étant (supposée) définie positive, la Hessienne est uniformément minorée sur R

^d

et la fonction G est donc fortement convexe, ce qui fait de θ son unique minimiseur.

Remarque 1.1.1. Bien que la matrice XX

^T

soit au plus de rang 1, la matrice E XX

^T

peut être définie positive. En effet, si considère un vecteur aléatoire gaussien Z ∼ N ( 0, I

_d

) , sa matrice de variance-covariance

E h ZZ

^T

i

= Var [ Z ] = I

_d

est définie positive.

1.1.2 Fonctions strictement convexes

Régression logistique : On considère un couple de variables aléatoires ( X, Y ) à valeurs dans R

^d

× { 0, 1 } tel que

L( Y | X ) = B π

θ

^T

X

, (1.2)

avec π ( x ) =

^exp⁽^x⁾

1+exp(x)

. On peut voir le paramètre θ comme un minimiseur de la fonction G : R

^d

−→

R définie pour tout h ∈ _R

^d

par

G ( h ) = _E ^h log

1 + exp

h

^T

X

− h

^T

XY i

.

(7)

En effet, si la variable aléatoire X admet un moment d’ordre 2, la fonction G est différentiable et pour tout h ∈ _R

^d

,

∇ G ( h ) = _E

"

exp h

^T

X

1 + exp ( h

^T

X ) ^X − XY

#

= _E ^h π

h

^T

X

X − XY i . En particulier, comme E [ Y | X ] = π θ

^T

X

, on a

∇ G ( θ ) = _E ^h π

θ

^T

X

− Y X i

= _E ^h _E ^h π

θ

^T

X

− Y X | X ii

= _E ^h π

θ

^T

X

− _E [ Y | X ] X i

= 0.

De plus, comme X admet un moment d’ordre 2, la fonction G est deux fois différentiable et

∇

²

G ( h ) = _E ^h π

h

^T

X 1 − π

h

^T

X XX

^T

i

qui est au moins semi-définie positive. On supposera par la suite que la Hessienne en θ est définie positive, et donc que la fonction G est strictement convexe et que θ est son unique minimiseur.

Médiane d’une variable aléatoire : Soit X ∈ _R une variable aléatoire et on suppose que sa fonction de répartition est strictement croissante et continue au voisinage de sa médiane notée m. Celle ci est alors le minimiseur de la fonction G : R −→ _R définie pour tout h ∈ _R par

G ( h ) = _E [| X − h |] .

En effet, on rappelle que pour toute variable aléatoire X, grâce au théorème de Fubini-Tonelli, Z

₊_∞

0

P [ Z ≥ t ] dt =

Z

₊_∞

0

E [ 1

_Z≥t

] dt = _E _Z

₊_∞

0

1

_t≤Z

dt

= _E _Z

_Z

0

1dt

= _E [ Z ] . Ainsi, on peut réécrire, pour tout h ∈ _R

G ( h ) =

Z

₊_∞

0

P [| X − h | ≥ t ] dt =

Z

₊_∞

0

P [ X ≥ t + h ] dt +

Z

₊_∞

0

P [ X ≤ h − t ] dt Z

₊_∞

h

( 1 − F ( t )) dt +

Z

_h

−_∞

F ( t ) dt Ainsi on a pour tout h dans un voisinage de m, G

⁰

( h ) = 2F ( h ) − 1 et donc m est bien l’unique

minimiseur de la fonction G. A noter que pour ne pas avoir à faire d’hypothèse sur l’existence du moment d’ordre 1 de | X | , on peut réécrire la fonction G comme

G ( h ) = _E [| X − h | − | X |] .

Médiane géométrique : On considère une variable aléatoire X à valeurs dans R

^d

. La médiane géométrique de X est un minimum de la fonction G : R

^d

−→ _R définie pour tout h ∈ _R

^d

par

G ( h ) : = _E [k X − h k − k X k] ,

(8)

où k . k est la norme euclidienne de R

^d

. A noter que la fonction G est différentiable avec pour tout h ∈ _R

^d

,

∇ G ( h ) = − _E

X − h k X − h k

.

Sous certaines hypothèses, la fonction G est deux fois continûment différentiable avec pour tout h ∈ _R

^d

,

∇

²

G ( h ) = _E

"

1 k X − h k ^I

^d

− ( X − h )( X − h )

^T

k X − h k

²

!#

.

La Hessienne de G est donc au moins semi-définie positive. On supposera par la suite qu’elle est strictement positive en m, et donc que la fonction G est strictement convexe.

1.2 M-estimateurs

1.2.1 Définition et exemples

On rappelle que l’objectif est d’estimer le minimisieur m de la fonction G définie pour tout h ∈ _R

^d

par

G ( h ) = _E [ g ( X, h )] .

Comme on ne sait généralement pas calculer explicitement G (ou son gradient), on ne peut géné- ralement pas calculer (ou approcher) directement la solution. Pour pallier ce problème, on consi- dère maintenant des variables aléatoires indépendantes et identiquement distribuées X

₁

, . . . , X

_n

. Une possibilité pour estimer m est alors de considérer la fonction empirique G

n

définie pour tout h ∈ _R

^d

par

G

n

( _h ) = ¹ n

∑

n k=1

g ( X

_k

, h )

A noter que par la loi des grands nombres, si g ( X, h ) admet un moment d’ordre 1 (ce qui est la condition sine qua none pour que la fonction G soit bien définie en h),

G

_n

( h ) −−−−→

^p.s

n→+_∞

G ( h ) .

Un M-estimateur de m est un minimiseur ˆ m

n

de la fonction empirique G

n

. A noter que ˆ m

n

n’est pas toujours explicite, mais il existe tout de même quelques exemples où on sait le calculer.

Exemple 1 : estimation de la moyenne. Dans le cas de l’estimation de la moyenne, la fonction empirique est définie pour tout h ∈ _R

^d

par

G

_n

( h ) = ¹ 2n

∑

n k=1

k X

_k

− h k

²

− k X

_k

k

²

,

(9)

et on obtient donc ˆ m

_n

= X

_n

. A noter que si X admet un moment d’ordre 2, le TLC nous donne

√ n X

n

− m

L

−−−−→

n→+_∞

N ( 0, Var ( X )) . Remarque 1.2.1. En notant que H : = ∇

²

G ( m ) = I

_d

et que

Σ : = _E ^h ∇

_h

g ( X, m ) ∇

_h

g ( X, m )

^T

i

= _E ^h ( X − m )( X − m )

^T

ⁱ = Var ( X ) ,

où ∇

_h

g ( X, h ) est le gradient de g par rapport à la deuxième variable, on peut réécrire le TLC précédent comme

√ n ( m ˆ

_n

− m ) −−−−→

^L

n→+_∞

N 0, H

⁻¹

Σ H

⁻¹

.

Exemple 2 : la régression linéaire. Dans le cas de l’estimation du paramètre de la régression linéaire, on a

G

_n

( h ) = ¹ 2n

∑

n k=1

X

_k^T

h − Y

_k

2

.

Si la matrice X = ( X

₁

, . . . X

_n

)

^T

est de rang plein, on rappelle que le minimiseur de la fonction G

_n

est l’estimateur des moindres carrés est défini par

θ ˆ

n

= XX

^T

−1

X

^T

Y

avec Y = ( Y

₁

, . . . , Y

_n

)

^T

.

Remarque 1.2.2. Sous certaines hypothèses, on peut montrer que si la matrice Hessienne H : = _E XX

^T

est définie positive (et donc inversible), on a la normalité asymptotique

√ n θ ˆ

_n

− θ

L

−−−−→

n→+_∞

N 0, Var [ e ] H

⁻¹

. De plus, en remarquant que

Σ : = _E ^h ∇

_h

g ( X, θ ) ∇

_h

g ( X, θ )

^T

ⁱ = _E ^h Y − X

^T

θ

XX

^T

Y − X

^T

θ i

= _E ^h e

²

XX

^T

i

= _E ^h _E e

²

| X XX

^T

i

= Var [ e ] H, on peut réécrire la normalité asymptotique comme

√ n θ ˆ

_n

− θ

L

−−−−→

n→+_∞

N 0, H

⁻¹

ΣH

⁻¹

.

Exemple 3 : médiane d’une variable aléatoire réelle. Dans le cas de l’estimation de la médiane

(10)

d’une variable aléatoire X, la fonction empirique s’écrit G

_n

( h ) = ¹

n

∑

n k=1

| X

_k

− h | − | X

_k

| ,

et on rappelle qu’un minimiseur de G

_n

est la médiane empirique ˆ m

_n

= X (d

ⁿ₂

e) ^.

Cependant, dans une grande majorité des cas tels que l’estimation de la médiane géométrique ou l’estimation des paramètres de la régression logistique, on ne sait pas calculer explicitement le minimum de la fonction G

_n

. On peut néanmoins utiliser les méthodes d’optimisation déterministes usuelles pour approcher ˆ m

n

.

Exemple 1 : la régression logistique. Dans le cadre de la régression logistique, on a G

_n

( h ) = ¹

n

∑

n i=1

log

1 + _exp h

^T

X

_i

− h

^T

X

_i

Y

_i

,

et il n’existe pas de solution explicite. Cependant, on peut, par exemple, utiliser un algorithme de gradient pour approcher ˆ m

n

. Celui-ci est défini de manière itérative pour tout t ≥ 0 par

m

_n,t+1

= m

_n,t

− η

_t

∇ G

_n

( m

_n,t

)

où η

t

est une suite de pas positifs (cf cours d’optimisation pour plus de précisions).

Exemple 2 : estimation de la médiane géométrique. Dans le cas de la médiane géométrique, la fonction empirique est définie pour tout h ∈ _R

^d

par

G

_n

( h ) = ¹ n

∑

n k=1

k X

_k

− h k − k X

_k

k

et un minimiseur de G

_n

est donc un zéro du gradient de G

_n

, i.e 0 = − ¹

n

∑

n k=1

X

_k

− m ˆ

_n

k X

_k

− m ˆ

_n

k ^.

Là encore, il n’existe pas de solution explicite, mais on peut réécrire l’égalité précédente comme

ˆ m

_n

= ^∑

nk=1 X_k kXk−mˆnk

∑

ⁿk=1 1 kXk−mˆnk

et on peut donc approcher ˆ m

n

à l’aide d’un algorithme de point fixe, conduisant à l’algorithme itératif suivant (algorithme de Weiszfeld [Wei37])

m

_n,t+1

= ^∑

nk=1 X_k kXk−mn,tk

∑

ⁿk=1 1 kX_k−mn,tk

(11)

Remarque 1.2.3. A noter que l’on peut réécrire l’algorithme de Weiszfeld comme m

_n,t+1

= m

_n,t

+ ⁿ

∑

1 n

∑

n k=1

X

_k

− m

_n,t

k X

_k

− m

_n,t

k = m

_n,t

− ⁿ

∑

∇ G

_n

( m

_n,t

)

et l’on peut donc voir l’algorithme de Weiszfeld comme un algorithme de gradient avec

η

_t

= ⁿ

∑

ⁿk=1 1 kXk−mn,tk

.

1.2.2 Un résultat de convergence

Le théorème suivant généralise les résultats donnés dans les remarques 1.2.1 et 1.2.2. A noter que les hypothèses présentées ne sont pas minimales mais rendent la preuve plus accessible.

Théorème 1.2.1. On suppose que les hypothèses suivantes sont vérifiées :

• m ˆ

_n

converge en probabilité vers m.

• Pour presque tout x, la fonction g ( x, . ) est deux fois continûment différentiable.

• Pour presque tout x, la Hessienne ∇

²_h

g ( x, . ) est L ( x ) -lipschitz, i.e pour tout h, h

⁰

∈ _R

^d

,

∇

²_h

g ( x, h ) − ∇

²_h

g x, h

⁰

op

≤ L ( x ) h − h

⁰

où k . k

_op

est la norme spectrale.

• L ( X ) et ∇

²_h

g ( X, m ) admettent des moments d’ordre 1.

• La Hessienne de G en m est inversible.

Alors

√ n ( m ˆ

n

− m ) −−−−→

^L

n→+_∞

N 0, H

⁻¹

ΣH

⁻¹

avec

H = ∇

²

G ( m ) et Σ = _E ^h ∇

_h

g ( X, m ) ∇

_h

g ( X, m )

^T

ⁱ .

Ainsi, sous une certaine forme de régularité du modèle, on a une certaine forme d’efficacité asymptotique, i.e un résultat optimal "bornant" les résultats possibles pour les estimateurs. De plus, lorsque l’on ne sait pas calculer explicitement ˆ m

_n

et que l’on doit donc l’approcher via m

_n,t

, si m

n,t

converge vers ˆ m

n

, on obtient la convergence en loi

n→+

lim

_∞

lim

t→+_∞

√ n ( m

_n,t

− m ) = N 0, H

⁻¹

Σ H

⁻¹

Ainsi les méthodes itératives sont particulièrement efficaces, mais sous une certaine forme de ré-

gularité du modèle, on ne pourra pas avoir de meilleurs résultats que la normalité asymptotique,

problème que l’on rencontrera quel que soit le type d’estimateur choisi. Cependant, pour les mé-

thodes itératives, un gros problème peut être rencontré si l’on doit traiter des données en ligne : si

on a déjà traité 1000 données (avec le temps de calcul que cela implique), que devons-nous faire

si 1000 nouvelles données arrivent ? Une option serait de tout reprendre depuis le début, ce qui

(12)

nécessite fatalement plus de calculs. S’intéresser aux estimateurs en ligne permet entre autre de régler ce problème.

1.3 Estimation en ligne

Dans ce qui suit, on considère des variables aléatoires X

₁

, . . . , X

n

, X

_n+1

, . . . arrivant de manière sé- quentielle. L’objectif est de mettre en place des algorithmes permettant de mettre facilement à jours les estimateurs. Un exemple simple est celui de la moyenne. Considérant que l’on a calculé X

_n

et qu’une nouvelle donnée arrive. Comment obtenir X

_n+1

en faisant le moins de calculs possibles ? Une version brutale serait de repasser sur toutes les données afin de calculer X

_n+1

, ce qui repré- senterait O (( n + 1 ) d ) nouvelles opérations. Une version plus subtile est de calculer X

_n+1

comme suit :

X

_n+1

= X

_n

+ ¹

n + 1 X

_n+1

− X

_n

,

ce qui, quand n est grand, représente bien évidemment beaucoup moins de calculs (O ( d ) ). Pour l’estimateur de la variance S

²_n

, il faut se casser un peu plus la tête. Il faut d’abord remarquer que celui-ci peut s’écrire

S

²_n

= ⁿ

n − 1 Σ

²_n

− ⁿ

n − 1 X

_n

X

^T_n

et Σ

²_n

= ¹ n

∑

n k=1

X

_k

X

_k^T

Ainsi, on peut construire S

²_n

de manière récursive comme suit X

_n+1

= X

n

+ ¹

n + 1 X

_n+1

− X

n

Σ

²_n+1

= _Σ

²_n

+ ¹

n + 1

X

_n+1

X

_n^T₊₁

− _Σ

²_n

S

²_n₊₁

= ⁿ + 1

n Σ

n+1

− ⁿ + 1

n X

_n+1

X

_n^T₊₁

.

A noter qu’en plus du fait que le temps de calcul pour mettre à jours les estimateurs est réduit, l’estimation en ligne permet de ne pas avoir à garder en mémoire toutes les données, i.e on peut

"jeter" les données dès qu’elles ont été traitées, ce qui peut permettre de réduire les coûts en terme de mémoire. Même si dans de nombreux cas, il n’est pas possible ou évident de construire des estimateurs en ligne, dans le cas de la minimisation de la fonction G, on peut souvent construire ce type d’estimateurs à l’aide d’algorithmes de gradient stochastiques.

1.4 Algorithmes de gradient stochastiques

On rappelle que l’on s’intéresse à l’estimation du minimiseur de la fonction G : R

^d

−→ _R définie pour tout h ∈ _R

^d

_par

G ( h ) = _E [ g ( X, h )] .

(13)

et on considère des variables aléatoires indépendantes et identiquement distribuées X

₁

, . . . , X

_n

, X

_n+1

, . . . arrivant de manière séquentielle. On rappelle qu’un algorithme de gradient pour approcher m aurait été de la forme

m

_t+1

= m

_t

− η

_t

∇ G ( m

_t

) .

Cependant, ici, on n’a pas accès au gradient de G (car sous forme d’espérance). Pour régler ce problème, on a vu précédemment que l’on peut remplacer ∇ G par le gradient de la fonction empirique, ce qui représente O ( nd ) opérations à chaque itération, et en notant T ce nombres d’itéra- tions, on arrive donc à O ( ndT ) opérations. De plus, on a vu que ces méthodes ne permettent pas de traiter les données en ligne. Pour pallier ces problèmes, on s’intéresse à l’algorithme de gradient stochastique, qui permet de traiter les données en lignes, et ce, avec seulement O ( nd ) opérations.

1.4.1 Algorithmes de gradient stochastiques

L’algorithme de gradient stochastique, introduit par [RM51], est défini de manière récursive pour tout n ≥ 0 par

m

n+₁

= m

n

− γ

n+₁

∇

_h

g ( X

n+₁

, m

n

) avec m

₀

borné et ( γ

_n

) est une suite de pas positifs vérifiant

n

∑

≥1

γ

n

= + _∞ et ∑

n≥1

γ

²_n

< + _∞. (1.3)

A noter que l’on peut réécrire l’algorithme de gradient stochastique comme

m

_n+1

= m

_n

− γ

_n+1

∇ G ( m

_n

) + γ

_n+1

ξ

_n+1

(1.4) avec ξ

_n+1

= ∇ G ( m

n

) − ∇

_h

g ( X

_n+1

, m

n

) . De plus, en considérant la filtration (notion que l’on dé- finira par la suite) (F

_n

) engendrée par l’échantillon, i.e F

_n

= σ ( X

₁

, . . . , X

_n

) , ( ξ

_n+1

) est une suite de différences de martingale adaptée à la filtration (F

_n

) , i.e comme m

_n

est F

_n

-mesurable, et par indépendance,

E [ ξ

_n+1

|F

_n

] = ∇ G ( m

_n

) − _E [∇

_h

g ( X

_n+1

, m

_m

) |F

_n

] = 0.

On peut donc voir l’algorithme comme un algorithme de gradient bruité (par γ

_n+1

ξ

_n+1

).

Exemple 1 : la régression linéaire. On se place dans le cadre de la régression linéaire et on consi- dère des couples de variables aléatoires i.i.d ( X

₁

, Y

₁

) , . . . , ( X

_n

, Y

_n

) , ( X

_n+1

, Y

_n+1

) , . . . à valeurs dans R

^d

× R. L’algorithme de gradient stochastique est alors défini récursivement pour tout n ≥ 0 par

θ

_n+1

= θ

_n

+ γ

_n+1

Y

_n+1

− θ

^T_n

X

_n+1

X

_n+1

. (1.5)

Exemple 2 : la régression logistique. On se place dans le cadre de la régression logistique et on

considère des couples de variables aléatoires i.i.d ( X

₁

, Y

₁

) , . . . , ( X

_n

, Y

_n

) , ( X

_n+1

, Y

_n+1

) , . . . à valeurs

dans R

^d

× { 0, 1 } . L’algorithme de gradient stochastique est alors défini de manière récursive pour

(14)

tout n ≥ 0 par

θ

_n+1

= θ

n

− γ

_n+1

π

θ

^T_n

X

_n+1

− Y

_n+1

X

_n+1

(1.6)

avec π ( x ) =

^exp⁽^x⁾

1+exp(x)

.

Exemples 3 : la médiane géométrique. On considère des variables aléatoires i.i.d X

₁

, . . . , X

n

, X

n+₁

, . . . à valeurs dans R

^d

. L’algorithme de gradient stochastique est défini de manière récursive pour tout n ≥ 0 par

m

_n+1

= m

_n

+ γ

_n+1

X

_n+1

− m

_n

k X

n+₁

− m

n

k ^.

1.4.2 Approche non-asymptotique

On suppose à partir de maintenant que la suite de pas γ

n

est de la forme γ

n

= c

γ

n

⁻^α

avec c

γ

> 0 et α ∈ ( _{1/2, 1} ) . On voit bien que cette suite de pas vérifie la condition (1.3). Le théorème suivant nous donne la vitesse de convergence en moyenne quadratique des estimateurs obtenus à l’aide de l’algorithme de gradient stochastique dans le cas où la fonction G est fortement convexe.

Théorème 1.4.1. On suppose que les hypothèses suivantes sont vérifiées : 1. Il existe un minimiseur m de la fonction G.

2. La fonction G est µ-fortement convexe : pour tout h ∈ _R

^d

,

h∇ G ( h ) , h − m i ≥ µ k h − m k

²

. De plus, on suppose que l’hypothèse suivante est vérifiée :

(PS0) Il existe une constante positive C telle que pour tout h ∈ _R

^d

, E h

k∇

_h

g ( X, h )k

²

ⁱ ≤ C

1 + k h − m k

²

Alors pour tout n ≥ 1,

E h

k m

n

− m k

²

ⁱ ≤ 2 exp

C

⁰

c

²_γ

2α 2α − 1

exp

− ^µc

^γ

4 n

¹⁻^α

E h

k m

₀

− m k

²

ⁱ + 1

+ ^2c

^γ

^C µn

^α

avec C

⁰

= max

C, 2µ

²

.

En d’autres termes, les estimateurs convergent en moyenne quadratique à la vitesse

_n¹α

.

Démonstration. On a

k m

_n+1

− m k

²

= k m

_n

− m k

²

− 2γ

_n+1

h∇

_h

g ( X

_n+1

, m

_n

) , m

_n

− m i + γ

_n²₊₁

k∇

_h

g ( X

_n+1

, m

_n

)k

²

.

(15)

En passant à l’espérance conditionnelle et par linéarité, on obtient donc, comme m

_n

est F

_n

-mesurable, E h

k m

_n+1

− m k

²

|F

_n

ⁱ = k m

n

− m k

²

− 2γ

_n+1

h _E [∇

_h

g ( X

_n+1

, m

n

) |F

_n

] , m

n

− m i + γ

²_n₊₁

E h

k∇

_h

g ( X

_n+1

, m

n

)k

²

|F

_n

ⁱ

≤ k m

_n

− m k

²

− 2γ

_n+1

h∇ G ( m

_n

) , m

_n

− m i + γ

²_n₊₁

E h

k∇

_h

g ( X

_n+1

, m

_n

)k

²

|F

_n

ⁱ Grâce à l’hypothèse (PS0), il vient

E h

k m

_n+1

− m k

²

|F

_n

ⁱ ≤ 1 + Cγ

²_n₊₁

k m

_n

− m k

²

− 2γ

_n+1

h∇ G ( m

_n

) , m

_n

− m i + Cγ

²_n₊₁

. Par forte convexité, on obtient donc

E h

k m

n+1

− m k

²

|F

_n

ⁱ ≤ 1 − 2µγ

n+1

+ _Cγ

²_n₊₁

k m

n

− m k

²

+ _Cγ

²_n₊₁

_. En passant à l’espérance, on a

E h

k m

_n+1

− m k

²

ⁱ ≤ 1 − 2µγ

_n+1

+ Cγ

²_n₊₁

E h

k m

n

− m k

²

ⁱ + Cγ

²_n₊₁

, et on conclut la preuve à l’aide du lemme suivant [BM13]

Lemma 1.4.1. Soit ( δ

_n

) une suite positive vérifiant

δ

_n+1

≤ 1 − 2µγ

_n+1

+ 2L

²

γ

²_n₊₁

δ

n

+ 2σ

²

γ

²_n₊₁

avec γ

_n

= c

_γ

n

⁻^α

, c

_γ

, L ≥ µ > 0, σ

²

≥ ₀ et α ∈ ( _{1/2, 1} ) . Alors pour tout n ≥ 1,

δ

n

≤ 2 exp

− ^µ 4 n

¹⁻^α

exp

2L

²

c

²_γ

1 − n

¹⁻^2α

2α − 1 δ

0

+ ^σ

2

L

²

+ ^4c

^γ

^σ

2

µn

^α

On admettra ce lemme. En prenant C

⁰

= max

C, 2µ

²

, il suffit de vérifier que √

C

⁰

/2 ≥ µ et que l’on a également

E h

k m

n+₁

− m k

²

ⁱ ≤ 1 − 2µγ

n+₁

+ C

⁰

γ

²_n₊₁

E h

k m

n

− m k

²

ⁱ + Cγ

²_n₊₁

, et les hypothèses du lemme sont donc vérifiées.

Afin de simplifier les preuves par la suite, on donne maintenant une proposition (admise) que l’on peut voir comme une généralisation du lemme précédent.

Proposition 1.4.1. Soit δ

n

, γ

n

deux suites positives telles que

• γ

n

= c

γ

n

⁻^α

avec c

γ

> 0 et α ∈ ( 1/2, 1 ) .

• Il existe un rang n

0

, une constante c

0

∈ 0, γ

_n⁻₀¹

et une suite positive v

n

telle que pour tout n ≥ n

0

,

δ

_n+1

≤ ( 1 − c

₀

γ

_n+1

) δ

_n

+ γ

_n+1

v

_n+1

.

(16)

Alors pour tout n ≥ 2n

₀

,

δ

n

≤ exp

− ^c

⁰

^c

^γ

4 n

¹⁻^α

δ

n₀

+

n/2−1 k

∑

=n0

γ

_k+1

v

_k+1

!

+ max

n/2≤k+1≤n−1

v

_k+1

En paritculier, si v

_n

= C

_v

( ln n )

^β

n

^v

avec β ≥ 0 et v ∈ _{R0, alors} δ

n

= O ( v

n

) .

1.4.3 Exemple : regression lineaire

On se place dans le cadre du modèle linéaire défini par (1.1) et on rappelle que sous certaines hypothèses, θ est l’unique minimiseur de la fonction G : R

^d

−→ _R

₊

définie pour tout h ∈ _R

^d

par

G ( h ) = ¹ 2 E

Y − X

^T

h

2

.

Théorème 1.4.2. On suppose que e admet un moment d’ordre 2 et que X admet un moment d’ordre 4. De plus, on suppose que la matrice E

XX

^T

est définie positive et on note µ sa plus petite valeur propre. La suite d’estimateurs du gradient ( θ

_n

) définie par (1.5) vérifie pour tout n ≥ 0,

E h

k θ

n

− θ k

²

ⁱ ≤ 2 exp

Cc

²_γ

2α 2α − 1

exp

− ^µc

^γ

4 n

¹⁻^α

E h

k m

0

− m k

²

ⁱ + 1

+ ^2c

^γ

^C µn

^α

avec C = max n

2E h

k e k

²

ⁱ _E ^h k X k

²

ⁱ _{, 2E} ^h k X k

⁴

^io .

On admettra ce théorème. Dans la Figure 1.1, on s’intéresse à l’évolution de l’erreur quadratique moyenne des estimateurs (obtenus à l’aide d’algorithmes de gradient stochastiques) du paramètre de la régression linéaire en fonction de la taille d’échantillon n. Pour cela, on considère le modèle

θ = (− 4, − 3, − 2, − 1, 0, 1, 2, 3, 4, 5 )

^T

∈ _R

¹⁰

, X ∼ N ( 0, I

₁₀

) , e ∼ N ( 0, 1 ) .

De plus, on choisit c

_γ

= 1 et α = 0.75. Enfin, on a calculé l’erreur quadratique moyenne des

estimateurs en générant 50 échantillons de taille n = 1000. On voit bien que l’on a une décroissance

assez rapide de l’erreur quadratique moyenne, et lorsque l’on prend l’échelle logarithmique, une

heuristique de pente nous donne que pour n ≥ 100, on a bien une pente proche de − α = − 0.75.

(17)

0 200 400 600 800 1000

0123

Sample size

Quadratic mean errror

1 5 10 50 500

0.050.201.00

Sample size

Quadratic mean errror (logaritmic scale)

F

IGURE

1.1 – Evolution de l’erreur quadratique moyenne de θ

_n

en fonction de la taille d’échantillon

n dans le cadre de la régression linéaire.

(18)

(19)

Martingales

On a vu que l’on peut considérer l’algorithme de gradient stochastique comme un algorithme de gradient bruité par le terme γ

_n+1

ξ

_n+1

, où ( ξ

_n

) est une suite de différences de martingale par rapport à une filtration (F

_n

) . L’objectif de ce chapitre est donc, dans un premier temps, de définir les notions de filtration et de martingale. Dans un deuxième temps, on donnera des résultats de convergence type loi des grands nombres et TLC pour les martingales, qu’elles soient réelles ou vectorielles.

2.1 Martingales réelles

Cette section s’inspire très largement de [BC07] et [Duf90].

2.1.1 Définitions

Dans ce qui suit, on considère un espace probabilisé ( _Ω , A , P ) .

Definition 2.1.1. On appelle filtration (F

_n

)

_n_≥₀

de ( _Ω, A , P ) une suite croissante de sous-tribus de A , i.e une suite de tribus telle que

F

₀

⊂ F

₁

⊂ ... ⊂ A .

On dit qu’une suite de variables aléatoires ( X

n

)

_n_≥₀

est adaptée à la filtration (F

_n

)

_n_≥₀

si pour tout n, X

n

est F

_n

-mesurable.

En considérant une suite de variables aléatoires ( X

_n

)

_n_≥₁

, un exemple classique de filtration est de considérer la suite des tribus engendrée par les X

_i

. Plus précisément, pour tout n, on consi- dère la plus petite tribu rendant ( X

₁

, . . . , X

_n

) mesurable et on la note F

_n

= σ ( X

₁

. . . , X

_n

) . Alors, F = (F

_n

) est une filtration. Rappelons également au passage que par définition de l’espérance conditionnelle, E [ X

_n+1

|F

_n

] est F

_n

-mesurable.

Definition 2.1.2. Soit M = ( M

_n

)

_n_≥₀

une suite de variables aléatoires adaptée à une filtration F = (F

_n

) .

(20)

On dit que M est une martingale par rapport à la filtration F si pour tout n ≥ 0, M

_n

est intégrable et E [ M

_n+1

|F

_n

] = M

n

.

Exemple : On considère une suite de variables aléatoires indépendantes ( X

_n

)

_n_≥₁

et on note M

n

=

∑

n k=1

X

_k

− _E [ X

_k

] .

Alors M

_n

est une martingale par rapport à la filtration engendrée par les X

_i

.

2.1.2 Théorème de Robbins-Siegmund

Le théorème de Robbins-Siegmund suivant est crucial pour démontrer la consistance des estimateurs obtenus à l’aides d’algorithmes stochastiques, et particulièrement pour les algorithmes de gradient

Théorème 2.1.1 (Robbins-Siegmund). Soit ( V

n

) , ( A

n

) , ( B

n

) , ( C

n

) trois suites de variables réelles positives adaptées à une filtration F . On suppose que

E [ V

_n+1

|F

_n

] ≤ ( 1 + A

_n

) V

_n

+ B

_n

− C

_n

et que les suites ( A

n

) , ( B

n

) vérifient

n

∑

≥0

A

_n

< + _∞ p.s et ∑

n≥0

B

_n

< + _∞ p.s.

Alors V

n

converge presque sûrement vers une variable aléatoire V

_∞

finie et

n

∑

≥0

C

_n

< + _∞ p.s.

On admettra ce théorème mais sa preuve est disponible dans [Duf90] ou [BC07].

Exemple : estimation en ligne des quantiles. Soit X

₁

, . . . , X

_n+1

, . . . des variables aléatoires indé- pendantes et identiquement distribuées. Soit p ∈ ( 0, 1 ) , et on s’intéresse à l’estimation en ligne du quantile d’ordre p, que l’on notera m. Pour cela, on considère l’estimateur obtenu à l’aide de l’algorithme de Robbins-Monro, défini de manière récursive pour tout n ≥ 0 par

m

_n+1

= m

n

− γ

_n+1

1

X_n+1≤mn

− p . avec

n

∑

≥0

γ

_n+1

= + _∞ et ∑

n≥0

γ

²_n₊₁

< + _∞.

(21)

On pose alors V

_n

= ( m

_n+1

− m )

²

, et on a

V

_n+1

= V

n

− 2γ

_n+1

( m

n

− m ) 1

_X_n₊₁≤mn

− p

+ γ

²_n₊₁

1

_X_n₊₁≤mn

− p

2

≤ V

n

− 2γ

_n+1

( m

n

− m ) 1

_X_n₊₁≤mn

− p

+ γ

²_n₊₁

On considère la filtration (F

_n

) engendrée par l’échantillon, i.e définie pour tout n ≥ 1 par F

_n

= σ ( X

₁

, . . . , X

n

) . Comme l’estimateur m

n

ne dépend que de X

₁

, . . . , X

n

, il est F

_n

-mesurable, et on a donc, en notant F

_X

la fonction de répartition de X

₁

, et en remarquant que p = F

_X

( m ) ,

E [ V

_n+1

|F

_n

] ≤ V

_n

− 2γ

_n+1

( m

_n

− m ) _E 1

_X_n₊₁≤mn

|F

_n

− p

+ γ

²_n₊₁

= V

_n

− 2γ

_n+1

( m

_n

− m ) ( F

_X

( m

_n

) − F

_X

( m ))

| {z }

=:An

+ γ

²_n₊₁

Comme la fonction de répartition est croissante, on a A

n

≥ 0 et comme ∑

n≥0

γ

²_n₊₁

< + _{∞, le} théorème de Robbins-Siegmund nous donne que V

_n

converge presque sûrement vers une variable aléatoire finie et que

n

∑

≥0

A

n

< + _∞ p.s.

Or , comme la somme des γ

_n

diverge, cela implique que lim inf

_n

( m

_n

− m ) ( F

_X

( m

_n

) − F ( m )) = 0.

Si on suppose que la fonction F est strictement croissante sur un voisinage de F, on obtient lim inf

n

| m

_n

− m | = 0,

et comme | m

_n

− m | converge vers une variable aléatoire finie, cela implique que | m

_n

− m | converge presque sûrement vers 0, i.e que l’estimateur est fortement consistant.

Exemple : estimation des quantiles de la loi exponentielle. On considère X ∼ E ( 1 ) et on s’inté-

resse à l’estimation des quantiles d’ordre 0.25 et 0.5. Figure 2.1, on voit que dans les deux cas les

estimateurs convergent assez rapidement vers le quantile.

(22)

0 200 400 600 800 1000

0.20.40.60.81.01.21.4

n mn

0 200 400 600 800 1000

0.00.20.40.60.8

n mn

F

IGURE

2.1 – Evolution de l’estimation des quantiles d’ordre 0.25 (à gauche) et 0.5 à droite pour la loi exponentielle de paramètre 1.

2.1.3 Lois des grands nombres

Dans ce qui suit, on dit qu’une martingale ( M

_n

) est de carré intégrable si pour tout n ≥ 0, E

M

²_n

< + _∞.

Definition 2.1.3. Soit ( M

_n

) une martingale de carré intégrable. On appelle processus croissant associé à ( M

n

) la suite (h M i

_n

)

_n

définie par h M i

₀

= 0 et pour tout n ≥ 0 par

h M i

_n₊₁

= h M i

_n

+ _E ^h ( M

_n+1

− M

_n

)

²

|F

_n

ⁱ .

En d’autres termes, si pour tout k ≥ 0 on note ξ

_k+1

= M

_k+1

− M

_k

la différence de martingale, on a pour tout n ≥ 1

h M i

_n

=

∑

n k=1

E

ξ

²_k

|F

_k₋₁

.

Ainsi, on peut voir le processus croissant comme la somme des variance des différences de martingales. On peut maintenant introduire les lois des grands nombres pour les martingales de carré intégrable.

Théorème 2.1.2 (Première loi des grands nombres). Soit ( M

_n

) une martingale de carré intégrable.

1. Si lim

n→+_∞

h M i

_n

< + _∞ presque sûrement, alors la suite ( M

_n

) converge presque sûrement vers une variable aléatoire M

_∞

.

2. Si lim

n→+_∞

h M i

_n

= + _∞ presque sûrement, alors la suite

Mn

hMi_n

converge presque sûrement vers

0.

(23)

En d’autres termes, si le processus croissant converge presque sûrement, alors ( M

_n

) = O ( 1 ) presque sûrement, et si il diverge, alors

| M

_n

| = o (h M i

_n

) p.s.

On ademmtra ce résultat. La preuve est disponible dans la version longue ainsi que dans [BC07]

et [Duf97].

Exemple : Si on considère la martingale M

_n

= _∑

ⁿ_k₌₁

ξ

_k

avec ( ξ

_k

) une suite de différences de martingales telle qu’il existe C vérifiant E

ξ

²_k

|F

_k₋₁

≤ C pour tout k. Alors h M i

_n

≤ Cn . Donc soit la limite du processus croissant est finie et dans ce cas M

_n

converge presque sûrement vers une variable aléatoire M

_∞

, soit elle est infinie et on a alors n

⁻¹

M

_n

qui converge presque sûrement vers 0.

On peut remarquer que la différence avec la loi des grands nombres pour des variables aléatoires i.i.d est que l’on se passe des hypothèses d’indépendance et d’identique distribution, mais le prix à payer est que l’on doit faire des hypothèses sur le comportement du crochet h M i

_n

. A noter éga- lement que dans l’exemple précédent, on aurait pu s’attendre à obtenir une meilleure vitesse de convergence, ce que nous donne la deuxième loi des grands nombres suivante.

Théorème 2.1.3 (Deuxième loi des grands nombres). Soit ( M

n

) une martingale de carré intégrable.

1. Si h M i

_n

−−−−→

^p.s

n→+_∞

+ _{∞, alors}

M

²_n

= o (h M i

_n

ln (h M i

_n

))

¹⁺^δ

p.s.

2. De plus, si il existe des constantes a > 2 et b > 0 telles que E

| M

_n+1

− M

_n

|

^a

|F

_n

≤ b E h

( M

_n+1

− M

_n

)

²

|F

_n

ⁱ

^a/2

p.s alors

M

²_n

= O (h M i

_n

ln (h M i

_n

)) p.s.

On admettra ce résultat. La preuve est disponible dans la version longue ainsi que dans [BC07] et [Duf97]. A noter que les hypothèses (notamment pour la deuxième partie du théorème) peuvent sembler indigestes, mais on peut voir dans l’exemple suivant qu’elles sont généralement "facilement" vérifiables.

Exemple : Soit M

_n

= _∑

ⁿ_k₌₁

ξ

_k

avec E [ ξ

_k

|F

_k₋₁

] = 0. Si il existe une constante C telle que pour tout k, E

ξ

²_k

|F

_k₋₁

≤ C, alors pour tout δ > 0, M

²_n

= o

n ( ln n )

¹⁺^δ

p.s

(24)

ce que l’on peut réécrire comme 1 n

∑

n k=1

ξ

_k

2

= o

( ln n )

¹⁺^δ

n

p.s.

Si il existe des constantes a > 2 et C

_a

≥ 0 telles que E

| ξ

_k

|

^a

|F

_k₋₁

≤ C

_a

presque sûrement, alors, la loi des grands nombres nous donne

1 n

∑

n k=1

ξ

_k

2

= O ln n

n

p.s.

Remarque 2.1.1. A noter que l’on aurait pu retrouver directement le premier point de cet exemple avec une application directe du théorème de Robbins-Siegmund. En effet, pour tout δ > 0, on peut considérer la variabe aléatoire V

_n

=

¹

n(lnn)¹⁺^δ

| M

_n

|

²

=

₍ ⁿ

lnn)¹⁺^δ

¹

n

M

_n

2

. Comme M

_n

est F

_n

-mesurable et par linéarité, on a

E h

| M

_n+1

|

²

|F

_n

ⁱ = M

²_n

+ 2 E [ ξ

_n+1

|F

_n

] M

_n

+ _E ^h | ξ

_n+1

|

²

|F

_n

ⁱ

= | M

n

|

²

+ _E ^h | ξ

_n+1

|

²

|F

_n

ⁱ Ainsi, on obtient

E [ V

_n+1

|F

_n

] = ¹

( n + 1 )( ln ( n + 1 ))

¹⁺^δ

| M

n

|

²

+ ¹

( n + 1 )( ln ( n + 1 ))

¹⁺^δ

^E

h | ξ

_n+1

|

²

|F

_n

ⁱ

= ⁿ ( ln n )

¹⁺^δ

( n + 1 )( ln ( n + 1 ))

¹⁺^δ

^V

ⁿ

+ ¹

( n + 1 )( ln ( n + 1 ))

¹⁺^δ

^E

h | ξ

_n+1

|

²

|F

_n

ⁱ

≤ V

_n

+ ¹

( n + ₁ )( _ln ( n + ₁ ))

¹⁺^δ

^C.

En appliquant le théorème de Robbins-Siegmund, on a donc V

_n

qui converge presque sûrement vers une variable aléatoire finie, ce que l’on peut réécrire comme

1 n M

n

2

= O

n ( ln n )

¹⁺^δ

a.s.

A noter que pour cet exemple, avec des hypothèses un peu plus restrictives, on peut trouver une meilleure vitesse grâce à la loi du log-itéré pour les martingales. Celle-ci est disponible dans la verson longue ainsi que dans [DST90] et [Duf90] (page 31).

Estimation en ligne des quantiles : On considère l’estimateur en ligne du quantile d’ordre p (noté m) défini de manière récursive pour tout n ≥ 0 par

m

n+1

= _m

_n

− γ

_n+1

1

X_n+1≥mn

− p

On a déjà vu que m

_n

est une estimateur fortement consistant de m. On note F la fonction de répar-

(25)

tition de X

₁

, et on peut réécrire

m

_n+1

− m = m

n

− m − γ

_n+1

( F ( m

n

) − F ( m )) + γ

_n+1

ξ

_n+1

avec ξ

_n+1

= F ( m

_n

) − ₁

_X_n₊₁_≤_m_n

. Si on note F = (F

_n

) avec F

_n

= σ ( X

₁

, . . . , X

_n

) la filtration en- gendrée par l’échantillon, on a que ( ξ

_n

) est une suite de différences de martingales. On suppose maintenant que F est dérivable en m. On note f sa dérivée et on a alors pour tout x ∈ _R,

F ( x ) − F ( m ) = ( f ( m ) + r ( x )) ( x − m )

avec r continue en m et r ( m ) = 0. On suppose également que f ( m ) > 0 et on peut réécrire m

_n+1

comme

m

_n+1

− m = ( 1 − γ

_n+1

f ( m )) ( m

_n

− m ) + γ

_n+1

ξ

_n+1

+ γ

_n+1

r ( m

_n

) ( m

_n

− m )

Dans tout ce qui suit, pour simplifier un peu les calculs, on supposera que c

γ

f ( m ) < 1. A l’aide d’une récurrence, on a

m

_n

− m = β

_n,0

( m

₀

− m ) +

n−1 k

∑

=0

β

_n,k+1

γ

_k+1

ξ

_k+1

| {z }

=:Mn

+

n−1 k

∑

=0

β

_n,k+1

γ

_k+1

r ( m

_k

) ( m

_k

− m )

| {z }

=:Rn

(2.1)

avec β

_n,k

= _∏

ⁿ_j₌_k₊₁

1 − γ

_j

f ( m ) et β

_n,n

= 1. En effet, pour n = 0, il est clair que cette égalité est vérifiée et en supposant qu’elle est vérifiée pour n, on a, comme β

_n,n

= 1,

m

n+₁

− m = ( 1 − γ

_n+₁

f ( m )) ( m

n

− m ) + γ

_n+₁

ξ

_n+₁

+ γ

_n+₁

r ( m

n

) ( m

n

− m )

= ( 1 − γ

_n+₁

f ( m )) β

_n,0

( m

0

− m ) +

n−1 k

∑

=0

β

_n,k₊₁

γ

_k₊₁

ξ

_k₊₁

+

n−1 k

∑

=0

β

_n,k₊₁

γ

_k₊₁

r ( m

_k

) ( m

_k

− m )

!

+ β

_n+1,n+1

γ

_n+1

ξ

_n+1

+ β

_n+1,n+1

γ

_n+1

r ( m

_n

) ( m

_n

− m )

= β

_n+1,0

( m

₀

− m ) +

∑

n k=0

β

_n+1,k+1

γ

_k+1

ξ

_k+1

+

∑

n k=0

β

_n,k+1

γ

_k+1

r ( m

_k

) ( m

_k

− m )

On va donc maintenant donner les vitesses de convergence de chacun des termes à droite de l’éga- lité (2.1).

Vitesse de convergence de β

_n,0

( m

₀

− m ) _. Remarquons d’abord que comme on a supposé c

_γ

f ( m ) <

1, β

_n,k

> 0. De plus, comme pour tout x on a 1 + x ≤ exp ( x ) , il vient

β

_n,0

≤

∏

n j=1

exp − γ

_j

f ( m ) = exp − f ( m )

∑

n j=1

γ

_j

!

(26)

et à l’aide d’une comparaison série-intégrale, on obtient c

γ

1 − α

( n + 1 )

¹⁻^α

− 1

=

Z

_n₊₁

1

c

γ

t

^α

dt ≤

∑

n j=1

γ

_j

≤ γ

₁

+

Z

_n₊₁

1

c

γ

t

^α

dt ≤ c

_γ

+ ^c

^γ

1 − α

( n + 1 )

¹⁻^α

− 1 et β

_n,0

converge donc à vitesse exponentielle, i.e

β

n,0

≤ exp

− f ( m ) ^c

^γ

1 − α

( n + 1 )

¹⁻^α

− 1

(2.2)

Vitesse de convergence de M

_n

. Remarquons d’abord que l’on peut réécrire M

_n

comme M

_n

= β

_n,0

n−1 k

∑

=0

β

⁻_k₊¹_1,0

ξ

_k+1

= : β

_n,0

M ˜

_n

et on remarque que ˜ M

_n

est une martingale. En appliquant la loi du log-itéré, on peut montrer que (on l’admettra, mais la preuve est dans la version longue)

M

²_n

= O ln n

n

^α

p.s. (2.3)

Vitesse de convergence de R

_n

. Remarquons d’abord que l’on a les relations de récurrence R

_n+1

= ( 1 − γ

_n+1

f ( m )) R

_n

+ γ

_n+1

r ( m

_n

) ( m

_n

− m )

| R

_n+1

| ≤ ( 1 − γ

_n+1

f ( m )) | R

_n

| + γ

_n+1

| r ( m

_n

)| | m

_n

− m | . De plus, comme

| m

_n

− m | ≤ β

_n,0

| m

₀

− m | + | M

_n

| + | R

_n

| on peut réécrire l’inégalité précédente comme

| R

_n+1

| ≤ ( 1 − γ

_n+1

f ( m )) | R

_n

| + γ

_n+1

| r ( m

_n

)| ( β

_n,0

| m

₀

− m | + | M

_n

|) + γ

_n+1

| r ( m

_n

)| | R

_n

| De plus, comme m

_n

converge presque sûrement vers m, par continuité de r en m, on a r ( m

_n

) qui converge presque sûrement vers 0. Ainsi, on peut réécrire grossièrement l’inégalité précédente comme

| R

_n+1

| ≤ ( 1 − γ

_n+1

f ( m ) + o ( γ

_n+1

)) | R

n

| + o ( γ

_n+1

( β

_n,0

| m

₀

− m | + | M

n

|)) p.s.

et comme

β

_n,0

| m

₀

− m | + | M

_n

| = O

√ ln n n

^α/2

!

p.s

AntoineGodichon-Baggioni Algorithmesstochastiques

Algorithmes stochastiques