• Aucun résultat trouvé

AntoineGodichon-Baggioni Algorithmesstochastiques

N/A
N/A
Protected

Academic year: 2022

Partager "AntoineGodichon-Baggioni Algorithmesstochastiques"

Copied!
122
0
0

Texte intégral

(1)

Algorithmes stochastiques

Antoine Godichon-Baggioni

(2)
(3)

1 Introduction 5

1.1 Cadre . . . . 5

1.1.1 Fonctions fortement convexes . . . . 5

1.1.2 Fonctions strictement convexes . . . . 6

1.2 M-estimateurs . . . . 8

1.2.1 Définition et exemples . . . . 8

1.2.2 Un résultat de convergence . . . . 11

1.3 Estimation en ligne . . . . 13

1.4 Algorithmes de gradient stochastiques . . . . 14

1.4.1 Algorithmes de gradient stochastiques . . . . 14

1.4.2 Approche non-asymptotique . . . . 15

1.4.3 Exemple : regression lineaire . . . . 21

2 Martingales 23 2.1 Martingales réelles . . . . 23

2.1.1 Définitions . . . . 23

2.1.2 Théorème de Doob . . . . 24

2.1.3 Théorème de Robbins-Siegmund . . . . 26

2.1.4 Lois des grands nombres . . . . 32

2.1.5 Théorème limite centrale . . . . 42

2.2 Martingales vectorielles . . . . 46

2.2.1 Définition . . . . 46

2.2.2 Vitesses de convergence des martingales vectorielles . . . . 46

2.2.3 Théorème Central Limite . . . . 53

3 Vitesses de convergence des algorithmes de gradient stochastiques 55 3.1 Convergence presque sûre . . . . 55

3.1.1 Approche directe . . . . 55

3.1.2 Approche via le développement de Taylor de la fonction G . . . . 57

3.1.3 Approche Lyapunov . . . . 58

3.1.4 Application au modèle linéaire . . . . 59

3

(4)

3.1.5 Application à la régréssion logistique . . . . 60

3.2 Vitesses de convergence presque sûre . . . . 61

3.2.1 Cadre . . . . 61

3.2.2 Vitesses de convergence (gradient borné) . . . . 62

3.2.3 Vitesses de convergence (cas général) . . . . 69

3.2.4 Application au modèle linéaire . . . . 75

3.2.5 Application à la régression logistique . . . . 77

3.2.6 Remarques . . . . 79

4 Accélération des méthodes de gradient stochastiques 81 4.1 Algorithmes de gradient stochastiques moyennés . . . . 81

4.1.1 Vitesse de convergence presque sûre . . . . 82

4.1.2 Normalité asymptotique . . . . 87

4.1.3 Application au modèle linéaire . . . . 89

4.1.4 Application à la régression logistique . . . . 93

4.1.5 Remarques . . . . 97

4.2 Algorithme de Newton stochastique . . . . 97

4.2.1 Idée de l’algorithme de Newton stochastique . . . . 97

4.2.2 L’algorithme de Newton stochastique . . . . 98

4.2.3 Vitesses de convergence . . . 102

4.2.4 Normalité asymptotique . . . 105

4.2.5 Application au modèle linéaire . . . 108

4.2.6 Application à la régression logistique . . . 114

Bibliographie 121

(5)

Introduction

1.1 Cadre

Dans ce cours, on s’intéresse à l’estimation du minimiseur m d’une fonction convexe G : R

d

−→ R définie pour tout h ∈ R

d

par

G ( h ) : = E [ g ( X, h )]

avec g : X × R

d

−→ R, et X un espace mesurable. On peut par exemple considérer X = R ou X = R

d0

. Dans ce cours, on se concentrera sur deux catégories de fonctions : fortement convexes et strictement convexes.

1.1.1 Fonctions fortement convexes

Moyenne d’une variable aléatoire : Soit X une variable aléatoire à valeurs dans R

d

. On peut voir la moyenne m de X comme le minimiseur de la fonction G définie pour tout h ∈ R

d

par

G ( h ) = 1 2 E h

k X − h k

2

− k X k

2

i

A noter que le terme k X k

2

dans la définition de la fonction G permet de ne pas avoir à faire d’hypothèse sur l’existence du moment d’ordre 2 de X. De plus, on a

∇ G ( h ) = − E [ X − h ]

et donc m = E [ X ] est l’unique zéro du gradient de la fonction G. Enfin, on a

2

G ( h ) = I

d

et la Hessienne est donc définie positive et uniformément minorée sur R

d

. Ainsi, la fonction G est fortement convexe et la moyenne m est bien son unique minimiseur.

Régression linéaire : Soit ( X, Y ) un couple de variables aléatoires à valeurs dans X = R

d

× R tel

(6)

que

Y = θ

T

X + e, (1.1)

θR

d

et e est une variable aléatoire indépendante de X vérifiant E [ e ] = 0. On admet que X et e admettent des moments d’ordre 2 et que la matrice E

XX

T

est définie positive. Alors le paramètre θ est l’unique minimum de la fonction G : R

d

−→ R

+

définie pour tout h ∈ R

d

par

G ( h ) = 1 2 E

Y − h

T

X

2

.

En effet, comme X et e admettent un moment d’ordre 2, la fonction G est différentiable et

∇ G ( h ) = − E h Y − h

T

X X i En particulier, on a

∇ G ( θ ) = − E h Y − θ

T

X X i

= − E [ eX ] = − E [ E [ e | X ] X ] = 0.

De plus, comme X admet un moment d’ordre 2, la fonction G est deux fois différentiable et pour tout h ∈ R

d

,

2

G ( h ) = E h XX

T

i .

Cette matrice étant (supposée) définie positive, la Hessienne est uniformément minorée sur R

d

et la fonction G est donc fortement convexe, ce qui fait de θ son unique minimiseur.

Remarque 1.1.1. Bien que la matrice XX

T

soit au plus de rang 1, la matrice E XX

T

peut être définie po- sitive. En effet, si considère un vecteur aléatoire gaussien Z ∼ N ( 0, I

d

) , sa matrice de variance-covariance

E h ZZ

T

i

= Var [ Z ] = I

d

est définie positive.

1.1.2 Fonctions strictement convexes

Régression logistique : On considère un couple de variables aléatoires ( X, Y ) à valeurs dans R

d

× { 0, 1 } tel que

L( Y | X ) = B π

θ

T

X

, (1.2)

avec π ( x ) =

exp(x)

1+exp(x)

. On peut voir le paramètre θ comme un minimiseur de la fonction G : R

d

−→

R définie pour tout h ∈ R

d

par

G ( h ) = E h log

1 + exp

h

T

X

− h

T

XY i

.

(7)

En effet, si la variable aléatoire X admet un moment d’ordre 2, la fonction G est différentiable et pour tout h ∈ R

d

,

∇ G ( h ) = E

"

exp h

T

X

1 + exp ( h

T

X ) X − XY

#

= E h π

h

T

X

X − XY i . En particulier, comme E [ Y | X ] = π θ

T

X

, on a

∇ G ( θ ) = E h π

θ

T

X

− Y X i

= E h E h π

θ

T

X

− Y X | X ii

= E h π

θ

T

X

E [ Y | X ] X i

= 0.

De plus, comme X admet un moment d’ordre 2, la fonction G est deux fois différentiable et

2

G ( h ) = E h π

h

T

X 1 − π

h

T

X XX

T

i

qui est au moins semi-définie positive. On supposera par la suite que la Hessienne en θ est définie positive, et donc que la fonction G est strictement convexe et que θ est son unique minimiseur.

Médiane d’une variable aléatoire : Soit X ∈ R une variable aléatoire et on suppose que sa fonction de répartition est strictement croissante et continue au voisinage de sa médiane notée m. Celle ci est alors le minimiseur de la fonction G : R −→ R définie pour tout h ∈ R par

G ( h ) = E [| X − h |] .

En effet, on rappelle que pour toute variable aléatoire X, grâce au théorème de Fubini-Tonelli, Z

+

0

P [ Z ≥ t ] dt =

Z

+

0

E [ 1

Z≥t

] dt = E Z

+

0

1

t≤Z

dt

= E Z

Z

0

1dt

= E [ Z ] . Ainsi, on peut réécrire, pour tout h ∈ R

G ( h ) =

Z

+

0

P [| X − h | ≥ t ] dt =

Z

+

0

P [ X ≥ t + h ] dt +

Z

+

0

P [ X ≤ h − t ] dt Z

+

h

( 1 − F ( t )) dt +

Z

h

F ( t ) dt Ainsi on a pour tout h dans un voisinage de m, G

0

( h ) = 2F ( h ) − 1 et donc m est bien l’unique

minimiseur de la fonction G. A noter que pour ne pas avoir à faire d’hypothèse sur l’existence du moment d’ordre 1 de | X | , on peut réécrire la fonction G comme

G ( h ) = E [| X − h | − | X |] .

Médiane géométrique : On considère une variable aléatoire X à valeurs dans R

d

. La médiane géométrique de X est un minimum de la fonction G : R

d

−→ R définie pour tout h ∈ R

d

par

G ( h ) : = E [k X − h k − k X k] ,

(8)

où k . k est la norme euclidienne de R

d

. A noter que la fonction G est différentiable avec pour tout h ∈ R

d

,

∇ G ( h ) = − E

X − h k X − h k

.

Sous certaines hypothèses, la fonction G est deux fois continûment différentiable avec pour tout h ∈ R

d

,

2

G ( h ) = E

"

1

k X − h k I

d

− ( X − h )( X − h )

T

k X − h k

2

!#

.

La Hessienne de G est donc au moins semi-définie positive. On supposera par la suite qu’elle est strictement positive en m, et donc que la fonction G est strictement convexe.

1.2 M-estimateurs

1.2.1 Définition et exemples

On rappelle que l’objectif est d’estimer le minimisieur m de la fonction G définie pour tout h ∈ R

d

par

G ( h ) = E [ g ( X, h )] .

Comme on ne sait généralement pas calculer explicitement G (ou son gradient), on ne peut géné- ralement pas calculer (ou approcher) directement la solution. Pour pallier ce problème, on consi- dère maintenant des variables aléatoires indépendantes et identiquement distribuées X

1

, . . . , X

n

. Une possibilité pour estimer m est alors de considérer la fonction empirique G

n

définie pour tout h ∈ R

d

par

G

n

( h ) = 1 n

n k=1

g ( X

k

, h )

A noter que par la loi des grands nombres, si g ( X, h ) admet un moment d’ordre 1 (ce qui est la condition sine qua none pour que la fonction G soit bien définie en h),

G

n

( h ) −−−−→

p.s

n→+

G ( h ) .

Un M-estimateur de m est un minimiseur ˆ m

n

de la fonction empirique G

n

. A noter que ˆ m

n

n’est pas toujours explicite, mais il existe tout de même quelques exemples où on sait le calculer.

Exemple 1 : estimation de la moyenne. Dans le cas de l’estimation de la moyenne, la fonction empirique est définie pour tout h ∈ R

d

par

G

n

( h ) = 1 2n

n k=1

k X

k

− h k

2

− k X

k

k

2

,

(9)

et on obtient donc ˆ m

n

= X

n

. A noter que si X admet un moment d’ordre 2, le TLC nous donne

√ n X

n

− m

L

−−−−→

n→+

N ( 0, Var ( X )) . Remarque 1.2.1. En notant que H : = ∇

2

G ( m ) = I

d

et que

Σ : = E h

h

g ( X, m ) ∇

h

g ( X, m )

T

i

= E h ( X − m )( X − m )

T

i = Var ( X ) ,

où ∇

h

g ( X, h ) est le gradient de g par rapport à la deuxième variable, on peut réécrire le TLC précédent comme

√ n ( m ˆ

n

− m ) −−−−→

L

n→+

N 0, H

1

Σ H

1

.

Exemple 2 : la régression linéaire. Dans le cas de l’estimation du paramètre de la régression linéaire, on a

G

n

( h ) = 1 2n

n k=1

X

kT

h − Y

k

2

.

Si la matrice X = ( X

1

, . . . X

n

)

T

est de rang plein, on rappelle que le minimiseur de la fonction G

n

est l’estimateur des moindres carrés est défini par

θ ˆ

n

= XX

T

−1

X

T

Y

avec Y = ( Y

1

, . . . , Y

n

)

T

.

Remarque 1.2.2. Sous certaines hypothèses, on peut montrer que si la matrice Hessienne H : = E XX

T

est définie positive (et donc inversible), on a la normalité asymptotique

√ n θ ˆ

n

θ

L

−−−−→

n→+

N 0, Var [ e ] H

1

. De plus, en remarquant que

Σ : = E h

h

g ( X, θ ) ∇

h

g ( X, θ )

T

i = E h Y − X

T

θ

XX

T

Y − X

T

θ i

= E h e

2

XX

T

i

= E h E e

2

| X XX

T

i

= Var [ e ] H, on peut réécrire la normalité asymptotique comme

√ n θ ˆ

n

θ

L

−−−−→

n→+

N 0, H

1

ΣH

1

.

Exemple 3 : médiane d’une variable aléatoire réelle. Dans le cas de l’estimation de la médiane

(10)

d’une variable aléatoire X, la fonction empirique s’écrit G

n

( h ) = 1

n

n k=1

| X

k

− h | − | X

k

| ,

et on rappelle qu’un minimiseur de G

n

est la médiane empirique ˆ m

n

= X (d

n2

e) .

Cependant, dans une grande majorité des cas tels que l’estimation de la médiane géométrique ou l’estimation des paramètres de la régression logistique, on ne sait pas calculer explicitement le minimum de la fonction G

n

. On peut néanmoins utiliser les méthodes d’optimisation déterministes usuelles pour approcher ˆ m

n

.

Exemple 1 : la régression logistique. Dans le cadre de la régression logistique, on a G

n

( h ) = 1

n

n i=1

log

1 + exp h

T

X

i

− h

T

X

i

Y

i

,

et il n’existe pas de solution explicite. Cependant, on peut, par exemple, utiliser un algorithme de gradient pour approcher ˆ m

n

. Celui-ci est défini de manière itérative pour tout t ≥ 0 par

m

n,t+1

= m

n,t

η

t

∇ G

n

( m

n,t

)

η

t

est une suite de pas positifs (cf cours d’optimisation pour plus de précisions).

Exemple 2 : estimation de la médiane géométrique. Dans le cas de la médiane géométrique, la fonction empirique est définie pour tout h ∈ R

d

par

G

n

( h ) = 1 n

n k=1

k X

k

− h k − k X

k

k

et un minimiseur de G

n

est donc un zéro du gradient de G

n

, i.e 0 = − 1

n

n k=1

X

k

− m ˆ

n

k X

k

− m ˆ

n

k .

Là encore, il n’existe pas de solution explicite, mais on peut réécrire l’égalité précédente comme

ˆ m

n

=

nk=1 Xk kXk−mˆnk

nk=1 1 kXk−mˆnk

et on peut donc approcher ˆ m

n

à l’aide d’un algorithme de point fixe, conduisant à l’algorithme itératif suivant (algorithme de Weiszfeld [Wei37])

m

n,t+1

=

nk=1 Xk kXk−mn,tk

nk=1 1 kXk−mn,tk

(11)

Remarque 1.2.3. A noter que l’on peut réécrire l’algorithme de Weiszfeld comme m

n,t+1

= m

n,t

+ n

nk=1 1 kXk−mn,tk

1 n

n k=1

X

k

− m

n,t

k X

k

− m

n,t

k = m

n,t

n

nk=1 1 kXk−mn,tk

∇ G

n

( m

n,t

)

et l’on peut donc voir l’algorithme de Weiszfeld comme un algorithme de gradient avec η

t

= n

nk=1 1 kXk−mn,tk

.

1.2.2 Un résultat de convergence

Le théorème suivant généralise les résultats donnés dans les remarques 1.2.1 et 1.2.2. A noter que les hypothèses présentées ne sont pas minimales mais rendent la preuve accessible.

Théorème 1.2.1. On suppose que les hypothèses suivantes sont vérifiées :

• m ˆ

n

converge en probabilité vers m.

• Pour presque tout x, la fonction g ( x, . ) est deux fois continûment différentiable.

• Pour presque tout x, la Hessienne ∇

2h

g ( x, . ) est L ( x ) -lipschitz, i.e pour tout h, h

0

R

d

,

2h

g ( x, h ) − ∇

2h

g x, h

0

op

≤ L ( x ) h − h

0

où k . k

op

est la norme spectrale.

• L ( X ) et ∇

2h

g ( X, m ) admettent des moments d’ordre 1.

• La Hessienne de G en m est inversible.

Alors

√ n ( m ˆ

n

− m ) −−−−→

L

n→+

N 0, H

1

ΣH

1

avec

H = ∇

2

G ( m ) et Σ = E h

h

g ( X, m ) ∇

h

g ( X, m )

T

i . Démonstration. Comme ˆ m

n

est un minimiseur local de G

n

, on a

0 = 1 n

n k=1

h

g ( X

k

, ˆ m

n

) .

Comme pour presque tout x, la fonction g ( x, . ) est deux fois continûment différentiable, à l’aide d’un développement de Taylor, on a presque sûrement

0 = 1 n

n k=1

h

g ( X

k

, ˆ m

n

) − 1 n

n k=1

h

g ( X

k

, m ) + 1 n

n k=1

h

g ( X

k

, m )

= 1 n

n k=1

h

g ( X

k

, m ) + 1 n

n k=1

Z

1

0

2h

g ( X

k

, m + t ( m ˆ

n

− m )) ( m ˆ

n

− m ) dt

(12)

On peut donc réécrire l’égalité précédente comme

1 n

n k=1

h

g ( X

k

, m ) = H

n

( m ˆ

n

− m ) avec

H

n

= 1 n

n k=1

Z

1

0

2h

g ( X

k

, m + t ( m ˆ

n

− m )) ( m ˆ

n

− m ) dt

= 1 n

n k=1

2h

g ( X

k

, m ) +

Z

1

0

2h

g ( X

k

, m + t ( m ˆ

n

− m )) − ∇

2h

g ( X

k

, m ) dt

Comme ∇

h

g ( X, m ) admet un moment d’ordre 2 et comme E [∇

h

g ( X, m )] = ∇ G ( m ) = 0, on obtient à l’aide d’un TLC

√ 1 n

n k=1

h

g ( X

k

, m ) −−−−→

L

n→+

N ( 0, Σ ) avec Σ : = Var [∇

h

g ( X, h )] = E h

h

g ( X

k

, m ) ∇

h

g ( X

k

, m )

T

i , et donc

√ nH

n

( m ˆ

n

− m ) −−−−→

L

n→+

N ( 0, Σ ) . De plus, comme ˆ m

n

converge en probabilité vers m, on a

1 n

n k=1

Z

1

0

2h

g ( X

k

, m + t ( m ˆ

n

− m )) − ∇

2h

g ( X

k

, m ) dt

op

1 n

n k=1

Z

1

0

2h

g ( X

k

, m + t ( m ˆ

n

− m )) − ∇

2h

g ( X

k

, m )

op

dt ≤ 1

2 k m ˆ

n

− m k 1 n

n k=1

L ( X

k

) −−−−→

P

n→+

0.

De plus, par la loi des grands nombres, 1 n

n k=1

2h

g ( X

k

, m ) −−−−→

P

n→+

2

G ( m ) ,

et donc H

n

converge en probabilité vers H = ∇

2

G ( m ) . Comme H est positive, l’application M 7−→

M

1

est continue en H, et par continuité, H

n1

converge en probabilité vers H

1

(même si H

n1

n’est pas nécessairement définie). Ainsi, par le lemme de Slutsky,

√ n ( m ˆ

n

− m ) −−−−→

L

n→+

N 0, H

1

ΣH

1

.

Ainsi, sous une certaine forme de régularité du modèle, on a une certaine forme d’efficacité asymp-

totique, i.e un résultat optimal "bornant" les résultats possibles pour les estimateurs. De plus,

lorsque l’on ne sait pas calculer explicitement ˆ m

n

et que l’on doit donc l’approcher via m

n,t

, si

(13)

m

n,t

converge vers ˆ m

n

, on obtient la convergence en loi

n→+

lim

lim

t→+

√ n ( m

n,t

− m ) = N 0, H

1

ΣH

1

Ainsi les méthodes itératives sont particulièrement efficaces, mais sous une certaine forme de ré- gularité du modèle, on ne pourra pas avoir de meilleurs résultats que la normalité asymptotique, problème que l’on rencontrera quel que soit le type d’estimateur choisi. Cependant, pour les mé- thodes itératives, un gros problème peut être rencontré si l’on doit traiter des données en ligne : si on a déjà traité 1000 données (avec le temps de calcul que cela implique), que devons-nous faire si 1000 nouvelles données arrivent ? Une option serait de tout reprendre depuis le début, ce qui nécessite fatalement plus de calculs. S’intéresser aux estimateurs en ligne permet entre autre de régler ce problème.

1.3 Estimation en ligne

Dans ce qui suit, on considère des variables aléatoires X

1

, . . . , X

n

, X

n+1

, . . . arrivant de manière sé- quentielle. L’objectif est de mettre en place des algorithmes permettant de mettre facilement à jours les estimateurs. Un exemple simple est celui de la moyenne. Considérant que l’on a calculé X

n

et qu’une nouvelle donnée arrive. Comment obtenir X

n+1

en faisant le moins de calculs possibles ? Une version brutale serait de repasser sur toutes les données afin de calculer X

n+1

, ce qui repré- senterait O (( n + 1 ) d ) nouvelles opérations. Une version plus subtile est de calculer X

n+1

comme suit :

X

n+1

= X

n

+ 1

n + 1 X

n+1

− X

n

,

ce qui, quand n est grand, représente bien évidemment beaucoup moins de calculs (O ( d ) ). Pour l’estimateur de la variance S

2n

, il faut se casser un peu plus la tête. Il faut d’abord remarquer que celui-ci peut s’écrire

S

2n

= n

n − 1 Σ

2n

n

n − 1 X

n

X

Tn

et Σ

2n

= 1 n

n k=1

X

k

X

kT

Ainsi, on peut construire S

2n

de manière récursive comme suit X

n+1

= X

n

+ 1

n + 1 X

n+1

− X

n

Σ

2n+1

= Σ

2n

+ 1

n + 1

X

n+1

X

nT+1

Σ

2n

S

2n+1

= n + 1

n Σ

n+1

n + 1

n X

n+1

X

nT+1

.

A noter qu’en plus du fait que le temps de calcul pour mettre à jours les estimateurs est réduit, l’estimation en ligne permet de ne pas avoir à garder en mémoire toutes les données, i.e on peut

"jeter" les données dès qu’elles ont été traitées, ce qui peut permettre de réduire les coûts en terme

(14)

de mémoire. Même si dans de nombreux cas, il n’est pas possible ou évident de construire des estimateurs en ligne, dans le cas de la minimisation de la fonction G, on peut souvent construire ce type d’estimateurs à l’aide d’algorithmes de gradient stochastiques.

1.4 Algorithmes de gradient stochastiques

On rappelle que l’on s’intéresse à l’estimation du minimiseur de la fonction G : R

d

−→ R définie pour tout h ∈ R

d

par

G ( h ) = E [ g ( X, h )] .

et on considère des variables aléatoires indépendantes et identiquement distribuées X

1

, . . . , X

n

, X

n+1

, . . . arrivant de manière séquentielle. On rappelle qu’un algorithme de gradient pour approcher m au- rait été de la forme

m

t+1

= m

t

η

t

∇ G ( m

t

) .

Cependant, ici, on n’a pas accès au gradient de G (car sous forme d’espérance). Pour régler ce problème, on a vu précédemment que l’on peut remplacer ∇ G par le gradient de la fonction em- pirique, ce qui représente O ( nd ) opérations à chaque itération, et en notant T ce nombres d’itéra- tions, on arrive donc à O ( ndT ) opérations. De plus, on a vu que ces méthodes ne permettent pas de traiter les données en ligne. Pour pallier ces problèmes, on s’intéresse à l’algorithme de gradient stochastique, qui permet de traiter les données en lignes, et ce, avec seulement O ( nd ) opérations.

1.4.1 Algorithmes de gradient stochastiques

L’algorithme de gradient stochastique, introduit par [RM51], est défini de manière récursive pour tout n ≥ 0 par

m

n+1

= m

n

γ

n+1

h

g ( X

n+1

, m

n

) avec m

0

borné et ( γ

n

) est une suite de pas positifs vérifiant

n

≥1

γ

n

= + et

n≥1

γ

2n

< + ∞. (1.3)

A noter que l’on peut réécrire l’algorithme de gradient stochastique comme

m

n+1

= m

n

γ

n+1

∇ G ( m

n

) + γ

n+1

ξ

n+1

(1.4) avec ξ

n+1

= ∇ G ( m

n

) − ∇

h

g ( X

n+1

, m

n

) . De plus, en considérant la filtration (notion que l’on dé- finira par la suite) (F

n

) engendrée par l’échantillon, i.e F

n

= σ ( X

1

, . . . , X

n

) , ( ξ

n+1

) est une suite de différences de martingale adaptée à la filtration (F

n

) , i.e comme m

n

est F

n

-mesurable, et par indépendance,

E [ ξ

n+1

|F

n

] = ∇ G ( m

n

) − E [∇

h

g ( X

n+1

, m

m

) |F

n

] = 0.

(15)

On peut donc voir l’algorithme comme un algorithme de gradient bruité (par γ

n+1

ξ

n+1

).

Exemple 1 : la régression linéaire. On se place dans le cadre de la régression linéaire et on consi- dère des couples de variables aléatoires i.i.d ( X

1

, Y

1

) , . . . , ( X

n

, Y

n

) , ( X

n+1

, Y

n+1

) , . . . à valeurs dans R

d

× R. L’algorithme de gradient stochastique est alors défini récursivement pour tout n ≥ 0 par

θ

n+1

= θ

n

+ γ

n+1

Y

n+1

θ

Tn

X

n+1

X

n+1

. (1.5)

Exemple 2 : la régression logistique. On se place dans le cadre de la régression logistique et on considère des couples de variables aléatoires i.i.d ( X

1

, Y

1

) , . . . , ( X

n

, Y

n

) , ( X

n+1

, Y

n+1

) , . . . à valeurs dans R

d

× { 0, 1 } . L’algorithme de gradient stochastique est alors défini de manière récursive pour tout n ≥ 0 par

θ

n+1

= θ

n

γ

n+1

π

θ

Tn

X

n+1

− Y

n+1

X

n+1

(1.6)

avec π ( x ) =

1+expexp(x()x)

.

Exemples 3 : la médiane géométrique. On considère des variables aléatoires i.i.d X

1

, . . . , X

n

, X

n+1

, . . . à valeurs dans R

d

. L’algorithme de gradient stochastique est défini de manière récursive pour tout n ≥ 0 par

m

n+1

= m

n

+ γ

n+1

X

n+1

− m

n

k X

n+1

− m

n

k . 1.4.2 Approche non-asymptotique

On suppose à partir de maintenant que la suite de pas γ

n

est de la forme γ

n

= c

γ

n

α

avec c

γ

> 0 et α ∈ ( 1/2, 1 ) . On voit bien que cette suite de pas vérifie la condition (1.3). Le théorème suivant nous donne la vitesse de convergence en moyenne quadratique des estimateurs obtenus à l’aide de l’algorithme de gradient stochastique dans le cas où la fonction G est fortement convexe.

Théorème 1.4.1. On suppose que les hypothèses suivantes sont vérifiées : 1. Il existe un minimiseur m de la fonction G.

2. La fonction G est µ-fortement convexe : pour tout hR

d

,

h∇ G ( h ) , h − m i ≥ µ k h − m k

2

. De plus, on suppose que l’hypothèse suivante est vérifiée :

(PS0) Il existe une constante positive C telle que pour tout h ∈ R

d

, E h

k∇

h

g ( X, h )k

2

i ≤ C

1 + k h − m k

2

Alors pour tout n ≥ 1,

E h

k m

n

− m k

2

i ≤ 2 exp

C

0

c

2γ

1 − n

1

2α − 1

exp

µc

γ

4 n

1α

E h

k m

0

− m k

2

i + 1

+ 2c

γ

C

µn

α

(16)

où C

0

= max

C, 2µ

2

.

En d’autres termes, les estimateurs convergent en moyenne quadratique à la vitesse

n1α

. Démonstration. On a

k m

n+1

− m k

2

= k m

n

− m k

2

− 2γ

n+1

h∇

h

g ( X

n+1

, m

n

) , m

n

− m i + γ

n2+1

k∇

h

g ( X

n+1

, m

n

)k

2

. En passant à l’espérance conditionnelle et par linéarité, on obtient donc, comme m

n

est F

n

-mesurable, E h

k m

n+1

− m k

2

|F

n

i = k m

n

− m k

2

− 2γ

n+1

h E [∇

h

g ( X

n+1

, m

n

) |F

n

] , m

n

− m i + γ

2n+1

E h

k∇

h

g ( X

n+1

, m

n

)k

2

|F

n

i

≤ k m

n

− m k

2

− 2γ

n+1

h∇ G ( m

n

) , m

n

− m i + γ

2n+1

E h

k∇

h

g ( X

n+1

, m

n

)k

2

|F

n

i Grâce à l’hypothèse (PS0), il vient

E h

k m

n+1

− m k

2

|F

n

i ≤ 1 + Cγ

2n+1

k m

n

− m k

2

− 2γ

n+1

h∇ G ( m

n

) , m

n

− m i + Cγ

2n+1

. Par forte convexité, on obtient donc

E h

k m

n+1

− m k

2

|F

n

i ≤ 1 − 2µγ

n+1

+ Cγ

2n+1

k m

n

− m k

2

+ Cγ

2n+1

. En passant à l’espérance, on a

E h

k m

n+1

− m k

2

i ≤ 1 − 2µγ

n+1

+ Cγ

2n+1

E h

k m

n

− m k

2

i + Cγ

2n+1

. Afin de conclure, on introduit le lemme suivant [BM13] :

Lemma 1.4.1. Soit ( δ

n

) une suite positive vérifiant

δ

n+1

≤ 1 − 2µγ

n+1

+ 2L

2

γ

2n+1

δ

n

+ 2σ

2

γ

2n+1

avec γ

n

= c

γ

n

α

, c

γ

, L ≥ µ > 0, σ

2

≥ 0 et α ∈ ( 1/2, 1 ) . Alors pour tout n ≥ 1,

δ

n

≤ 2 exp

µ 4 n

1α

exp

2L

2

c

2γ

1 − n

1

2α − 1 δ

0

+ σ

2

L

2

+ 4c

γ

σ

2

µn

α

En prenant C

0

= max

C, 2µ

2

, on obtient √

C

0

/2 ≥ µ et E h

k m

n+1

− m k

2

i12µγ

n+1

+ C

0

γ

2n+1

E h

k m

n

− m k

2

i + Cγ

2n+1

. Les hypothèses du lemme sont donc vérifiées.

Preuve du Lemme 1.4.1. Comme γ

n

est une suite croissante, il existe un rang n

0

tel que pour tout

(17)

n > n

0

, 2L

2

γ

n+1

µ. De plus, par récurrence, on a

δ

n

n j=1

1 − 2µγ

j

+ 2L

2

γ

2j

δ

0

+

n−1 k

=0

n j=k+2

1 − 2µγ

j

+ 2L

2

γ

2j

2

γ

2k+1

| {z }

=:Rn

. (1.7)

avec pour tout n ≥ 0, ∏

nk=n+1

= 1. En effet, cette inégalité est vérifiée pour n = 0 et on a par récurrence

δ

n+1

≤ 1 − 2µγ

n+1

+ 2L

2

γ

2n+1

δ

n

+ 2σ

2

γ

n2+1

≤ 1 − 2µγ

n+1

+ 2L

2

γ

2n+1

n

j=1

1 − 2µγ

j

+ 2L

2

γ

2j

δ

0

+

n−1 k

=0

n j=k+2

1 − 2µγ

j

+ 2L

2

γ

2j

2

γ

2k+1

!

+ 2σ

2

γ

2n+1

n+1

j=1

1 − 2µγ

j

+ 2L

2

γ

2j

δ

0

+

n−1 k

=0

n+1 j=

k+2

1 − 2µγ

j

+ 2L

2

γ

2j

2

γ

2k+1

+ 2σ

2

γ

2n+1

=

n+1

j=1

1 − 2µγ

j

+ 2L

2

γ

2j

δ

0

+

n k=0

n+1 j=

k+2

1 − 2µγ

j

+ 2L

2

γ

2j

2

γ

2k+1

Comme pour tout x ∈ R, 1 + x ≤ exp ( x ) , on a pour tout 0 ≤ k ≤ n − 1,

n j=k+2

1 − 2µγ

j

+ 2L

2

γ

2j

n j=k+2

exp

− 2µγ

j

+ 2L

2

γ

2j

= exp − 2µ

n j=k+2

γ

j

+ 2L

2

n j=k+2

γ

2j

! , et en particulier

n j=1

1 − 2µγ

j

+ 2L

2

γ

2j

δ

0

≤ exp − 2µ

n j=1

γ

j

+ 2L

2

n j=1

γ

2j

!

δ

0

≤ exp − µ

n j=1

γ

j

+ 4L

2

n j=1

γ

2j

! δ

0

De plus, on a R

n

≤ 2σ

2

n0−2 k

=0

n j=k+2

1 − 2µγ

j

+ 2L

2

γ

2j

γ

2k+1

| {z }

=:R1,n0

+ 2σ

2

n−1 k=

n0−1

n j=k+2

1 − 2µγ

j

+ 2L

2

γ

2j

γ

2k+1

| {z }

=:R02,n

De plus, comme pour tout k > n

0

µγ

k

≥ 2L

2

γ

2k

, on a R

1,n0

n0−2 k

=0

n0−1 j=

k+2

1 + 2L

2

γ

2j

γ

2k+1

n j=n0

1 − µγ

j

γ

2k+1

n j=n0

1 − µγ

j

n0−2 k

=0

n0−1 j=

k+2

1 + 2L

2

γ

2j

γ

2k+1

≤ e

µnj=n0γj

n0−2 k

=0

n0−1 j=

k+2

1 + 2L

2

γ

2j

γ

2k+1

(18)

De plus, comme

n0−1 j=

k+1

1 + 2L

2

γ

2j

n0−1 j=

k+2

1 + 2L

2

γ

2j

=

n0−1 j=

k+2

1 + 2L

2

γ

2j

1 + 2L

2

γ

2k+1

− 1

=

n0−1 j=

k+2

1 + 2L

2

γ

2j

2L

2

γ

2k+1

et comme γ

k+2

γ

k+1

, on obtient

R

01,n

≤ e

µnj=n0γj

n0−2 k

=0

1 2L

2

n0−1 j=

k+1

1 + 2L

2

γ

2j

n0−1 j=

k+2

1 + 2L

2

γ

2j

!

= 1

2L

2

e

µnj=n0γj

n0−1

j=1

1 + 2L

2

γ

2j

− 1

!

1

2L

2

e

µnj=n0γj+2L2

n01 j=1 γ2j

.

De plus, comme j ≥ k + 2 ≥ n

0

, µγ

j

≤ 1 et on a pour tout entier n

0

≤ k

0

≤ n − 1, R

02,n

n−1 k=

n0−1

n j=k+2

1 − µγ

j

γ

2k+1

k0−1 k=

n0−1

n j=k+2

1 − µγ

j

γ

2k+1

| {z }

=:R01,n

+

n−1 k

=k0

n j=k+2

1 − µγ

j

γ

2k+1

| {z }

=R002,n

.

On a donc, comme 1 + x ≤ exp ( x ) , R

001,n

n j=k0+1

1 − µγ

j

k0−1 k

=n0

γ

2k+1

≤ exp − µ

n j=k0+1

γ

j

!

k0−1 k

=n0

γ

2k+1

. De plus, on remarque que

n j=k+2

1 − µγ

j

n j=k+1

1 − µγ

j

=

n j=k+2

1 − µγ

j

( 1 − ( 1 − µγ

k+1

)) = µγ

k+1

n j=k+2

1 − µγ

j

. Ainsi, on a

R

002,n

≤ max

k0≤k≤n−1

γ

k+1 n−1 k

=k0

n j=k+2

1 − µγ

j

γ

k+1

= 1 µ max

k0≤k≤n−1

γ

k+1 n−1 k

=k0

n j=k+2

1 − µγ

j

n j=k+1

1 − µγ

j

= 1 µ max

k0≤k≤n−1

γ

k+1

1 −

n j=k0+2

1 − µγ

j

!

1 µ max

k0≤k≤n−1

γ

k+1

(1.8)

(19)

Ainsi, on a pour tout k

0

≥ n

0

, R

n

2

1

2L

2

e

µnj=n0γj+2L2

n01

j=1 γ2j

+ e

µnj=k0+1γj

k0−1 k

=n0

γ

2k+1

+ 1 µ min

k0≤k≤n−1

γ

k+1

1

2L

2

e

µnj=1γj+2L2nj=1γ2j

+ e

µnj=k0γj

k0−1 k=

n0−1

γ

2k+1

+ 1 µ max

k0≤k≤n−1

γ

k+1

On a donc

δ

n

≤ e

µnj=1γj+2L2nj=1γ2j

δ

0

+ σ

2

L

2

+ 2σ

2

e

µnj=k0+1γj

k0−1 k

=n0

γ

2k+1

+

2

µ max

k0≤k≤n−1

γ

k+1

(1.9) A noter que grâce à une comparaison série intégrale, on a

n j=1

γ

2j

≤ c

2γ

+

Z

n+1

1

c

2γ

t

== c

2γ

+ c

2 γ

2α − 1

1 − ( n + 1 )

1

≤ c

2γ

2α 2α − 1 . De plus, en prenant k

0

= n/2, on obtient

n j=n/2

γ

j

≥ c

γ

n j=n/2

( n/2 )

α

1 4 n

1α

. et on a donc

2

e

µnj=n/2γj

n/2−1 k=

n0−1

γ

2j+1

σ

2

L

2

e

µnj=n/2γj

e

2L2nk=01γ2j+1

σ

2

L

2

e

µ4n1α

e

2L2c2γ1

et on obtient donc

δ

n

≤ 2e

µ4n1α

e

2L2c2γ1

δ

0

+ σ

2

L

2

+ 4c

γ

σ

2

µn

α

Afin de simplifier les preuves par la suite, on donne maintenant une proposition que l’on peut voir comme une généralisation du lemme précédent.

Proposition 1.4.1. Soit δ

n

, γ

n

deux suites positives telles que

γ

n

= c

γ

n

α

avec c

γ

> 0 et α ∈ ( 1/2, 1 ) .

• Il existe un rang n

0

, une constante c

0

∈ 0, γ

n01

et une suite positive v

n

telle que pour tout n ≥ n

0

,

δ

n+1

≤ ( 1 − c

0

γ

n+1

) δ

n

+ γ

n+1

v

n+1

.

(20)

Alors pour tout n ≥ 2n

0

,

δ

n

≤ exp

c

0

c

γ

4 n

1α

δ

n0

+

n/2−1 k

=n0

γ

k+1

v

k+1

!

+ max

n/2≤k+1≤n−1

v

k+1

En paritculier, si v

n

= C

v

( ln n )

β

n

v

avec β ≥ 0 et v ∈ R, alors δ

n

= O ( v

n

) .

Démonstration. De manière analogue à la preuve du Lemme 1.4.1, on a

δ

n

n j=n0+1

1 − c

0

γ

j

δ

n0

| {z }

=:R1,n

+

n−1 k

=n0

n j=k+2

1 − c

0

γ

j

γ

k+1

v

k+1

| {z }

=:R2,n

.

Avec des calculs analogues à ceux de l’inégalité (1.8), on a que pour tout k

0

≥ n

0

+ 1, R

2,n

=

k0−1 k

=n0

n j=k+2

1 − c

0

γ

j

γ

k+1

v

k+1

+

n−1 k

=k0

n j=k+2

1 − c

0

γ

j

γ

k+1

v

k+1

≤ exp − c

0

n j=k0+1

γ

j

!

k0−1 k

=n0

γ

k+1

v

k+1

+ 1

c

0

max

k0≤k≤n−1

v

k+1

.

Ainsi en prenant k

0

= n/2, et avec des calculs analogues à ceux de la fin de la preuve du lemme 1.4.1, on obtient

δ

n

n j=n0+1

1 − c

0

γ

j

δ

n0

+ exp − c

0 n/2

j=1

γ

j

!

k0−1 k

=0

γ

k+1

v

k+1

+ max

n/2≤k+1≤n−1

v

k+1

≤ exp

c

0

c

γ

4 n

1α

δ

n0

+

n/2−1 k

=0

γ

k+1

v

k+1

!

+ max

n/2≤k≤n−1

v

k+1

.

De plus, si v

k

= C

v

( ln k )

β

k

v

avec v ∈ R. Alors, à l’aide d’une comparaison série intégrale, on a

n/2−1 k

=0

γ

k+1

v

k+1

≤ C

v

c

γ

( ln n )

β

Z

n/2

1

t

vα

dt =

 

 

Cvcγ

1−α+v

( ln n )

β

n

1α+v

si 1 + v > α C

v

c

γ

( ln n )

1+β

si 1 + v = α C

v

c

γ α−v

α−1−v

( ln n )

β

sinon De même, on a

n/2

max

≤k≤n−1

v

k

=

( C

v

c

γ

( ln n )

β

n

v

si v ≥ 0

C

v

c

γ

2

v

( ln n )

β

n

v

sinon

ce qui conclut la preuve.

(21)

1.4.3 Exemple : regression lineaire

On se place dans le cadre du modèle linéaire défini par (1.1) et on rappelle que sous certaines hypothèses, θ est l’unique minimiseur de la fonction G : R

d

−→ R

+

définie pour tout h ∈ R

d

par

G ( h ) = 1 2 E

Y − X

T

h

2

.

Théorème 1.4.2. On suppose que e admet un moment d’ordre 2 et que X admet un moment d’ordre 4. De plus, on suppose que la matrice E

XX

T

est définie positive et on note µ sa plus petite valeur propre. La suite d’estimateurs du gradient ( θ

n

) définie par (1.5) vérifie pour tout n ≥ 0,

E h

k θ

n

θ k

2

i ≤ 2 exp

Cc

2γ

1 − n

1

2α − 1

exp

µc

γ

4 n

1α

E h

k m

0

− m k

2

i + 1

+ 2c

γ

C µn

α

avec C = max n

2E h

k e k

2

i E h k X k

2

i , 2E h k X k

4

io .

Démonstration. Il suffit de vérifier que les hypothèses du théorème 1.4.1 sont vérifiées. On a vu

∇ G ( θ ) = 0 et que pour tout h ∈ R

d

2

G ( h ) = E h XX

T

i . Comme E

XX

T

est positive, la fonction G est fortement convexe et θ est donc l’unique minimi- seur de G. Comme ∇ G ( θ ) = 0, à l’aide d’un développement de Taylor du gradient, on a pour tout h ∈ R

d

,

∇ G ( h ) =

Z

1

0

2

G ( θ + t ( h − θ )) dt ( h − θ ) = E h XX

T

i

( h − θ ) . En particulier, on a pour tout h ∈ R

d

h∇ G ( h ) , h − θ i = ( h − θ )

T

E h XX

T

i

( h − θ ) ≥ λ

min

E h

XX

T

i

k h − θ k

2

µ k h − θ k

2

. De plus, on a g ( X, Y, h ) =

12

Y − h

T

X

2

et donc

h

g ( X, Y, h ) = Y − X

T

h

X = Y − X

T

θ + X

T

θ − X

T

h X

= eX + X

T

( θ − h ) X On obtient donc

k∇

h

g ( X, Y, h )k ≤ k e k k X k + k h − θ k k X k

2

et donc, comme les variables aléatoires e et X sont indépendantes,

E h

k∇

h

g ( X, Y, h )k

2

i2E h k e k

2

i E h k X k

2

i + 2 k h − θ k

2

E h k X k

4

i .

Références

Documents relatifs

Devoir d’approfondissement sur moyennes et fonctions. I. 2°) Démontrer que l’ordre trouvé est indépendant de x

possibilit´es (la division par 2! correspond au fait que la d´ecomposition en produit de cycles `a supports disjoints est unique modulo l’ordre des cycles, et pour arranger

En utilisant un tableau de signes, étudier le signe de f 0 et donner le tableau de variations de la fonction f sur l’intervalle [0 ; 7].. Compléter le graphique donné par le tracé de

Rappeler les définitions de la convergence en loi, en probabilité, presque sûre et en moyenne quadratique.. Montrer que la convergence en moyenne quadratique implique la convergence

1ere version : Comme la convergence en loi vers une constante implique la convergence en probabilité, il suffit de montrer la convergence en loi de h ( X n ) vers h ( a ).. En

Dans le cadre spécifique des chaînes V -géométriquement ergodiques, on trouvera dans [8], sous des conditions de moment assez fortes, des résultats de vitesse de convergence dans

THEOREME 3 (théorème ergodique presque sous-additf bis). fA converge en norme L1 selon le filtre moyennant vers un element invariant.. Demonstration. - Ce résultat

9/ Quelle est la vitesse moyenne d’Usaïn Bolt sur la course dans le référentiel de la caméra embarquée sur un rail qui suit Usaïn Bolt à la même vitesse?. Document n°1