AntoineGodichon-Baggioni Algorithmesstochastiques

(1)

Algorithmes stochastiques

Antoine Godichon-Baggioni

(2)

(3)

1 Introduction 5

1.1 Cadre . . . . 5

1.1.1 Fonctions fortement convexes . . . . 5

1.1.2 Fonctions strictement convexes . . . . 6

1.2 M-estimateurs . . . . 8

1.2.1 Définition et exemples . . . . 8

1.2.2 Un résultat de convergence . . . . 11

1.3 Estimation en ligne . . . . 13

1.4 Algorithmes de gradient stochastiques . . . . 14

1.4.1 Algorithmes de gradient stochastiques . . . . 14

1.4.2 Approche non-asymptotique . . . . 15

1.4.3 Exemple : regression lineaire . . . . 21

2 Martingales 23 2.1 Martingales réelles . . . . 23

2.1.1 Définitions . . . . 23

2.1.2 Théorème de Doob . . . . 24

2.1.3 Théorème de Robbins-Siegmund . . . . 26

2.1.4 Lois des grands nombres . . . . 32

2.1.5 Théorème limite centrale . . . . 42

2.2 Martingales vectorielles . . . . 46

2.2.1 Définition . . . . 46

2.2.2 Vitesses de convergence des martingales vectorielles . . . . 46

2.2.3 Théorème Central Limite . . . . 53

3 Vitesses de convergence des algorithmes de gradient stochastiques 55 3.1 Convergence presque sûre . . . . 55

3.1.1 Approche directe . . . . 55

3.1.2 Approche via le développement de Taylor de la fonction G . . . . 57

3.1.3 Approche Lyapunov . . . . 58

3.1.4 Application au modèle linéaire . . . . 59

3

(4)

3.1.5 Application à la régréssion logistique . . . . 60

3.2 Vitesses de convergence presque sûre . . . . 61

3.2.1 Cadre . . . . 61

3.2.2 Vitesses de convergence (gradient borné) . . . . 62

3.2.3 Vitesses de convergence (cas général) . . . . 69

3.2.4 Application au modèle linéaire . . . . 75

3.2.5 Application à la régression logistique . . . . 77

3.2.6 Remarques . . . . 79

4 Accélération des méthodes de gradient stochastiques 81 4.1 Algorithmes de gradient stochastiques moyennés . . . . 81

4.1.1 Vitesse de convergence presque sûre . . . . 82

4.1.2 Normalité asymptotique . . . . 87

4.1.3 Application au modèle linéaire . . . . 89

4.1.4 Application à la régression logistique . . . . 93

4.1.5 Remarques . . . . 97

4.2 Algorithme de Newton stochastique . . . . 97

4.2.1 Idée de l’algorithme de Newton stochastique . . . . 97

4.2.2 L’algorithme de Newton stochastique . . . . 98

4.2.3 Vitesses de convergence . . . 102

4.2.4 Normalité asymptotique . . . 105

4.2.5 Application au modèle linéaire . . . 108

4.2.6 Application à la régression logistique . . . 114

Bibliographie 121

(5)

Introduction

1.1 Cadre

Dans ce cours, on s’intéresse à l’estimation du minimiseur m d’une fonction convexe G : R

^d

−→ _R définie pour tout h ∈ _R

^d

par

G ( h ) : = _E [ g ( X, h )]

avec g : X × _R

^d

−→ _{R, et} X un espace mesurable. On peut par exemple considérer X = _R ou X = _R

^d⁰

. Dans ce cours, on se concentrera sur deux catégories de fonctions : fortement convexes et strictement convexes.

1.1.1 Fonctions fortement convexes

Moyenne d’une variable aléatoire : Soit X une variable aléatoire à valeurs dans R

^d

. On peut voir la moyenne m de X comme le minimiseur de la fonction G définie pour tout h ∈ _R

^d

par

G ( h ) = ¹ 2 E h

k X − h k

²

− k X k

²

ⁱ

A noter que le terme k X k

²

dans la définition de la fonction G permet de ne pas avoir à faire d’hypothèse sur l’existence du moment d’ordre 2 de X. De plus, on a

∇ G ( h ) = − _E [ X − h ]

et donc m = _E [ X ] est l’unique zéro du gradient de la fonction G. Enfin, on a

∇

²

G ( h ) = I

_d

et la Hessienne est donc définie positive et uniformément minorée sur R

^d

. Ainsi, la fonction G est fortement convexe et la moyenne m est bien son unique minimiseur.

Régression linéaire : Soit ( X, Y ) un couple de variables aléatoires à valeurs dans X = _R

^d

× R tel

(6)

que

Y = θ

^T

X + e, (1.1)

où θ ∈ _R

^d

et e est une variable aléatoire indépendante de X vérifiant E [ e ] = 0. On admet que X et e admettent des moments d’ordre 2 et que la matrice E

XX

^T

est définie positive. Alors le paramètre θ est l’unique minimum de la fonction G : R

^d

−→ _R

+

définie pour tout h ∈ _R

^d

par

G ( h ) = ¹ 2 E

Y − h

^T

X

2

.

En effet, comme X et e admettent un moment d’ordre 2, la fonction G est différentiable et

∇ G ( h ) = − _E ^h Y − h

^T

X X i En particulier, on a

∇ G ( θ ) = − _E ^h Y − θ

^T

X X i

= − _E [ eX ] = − _E [ _E [ e | X ] X ] = 0.

De plus, comme X admet un moment d’ordre 2, la fonction G est deux fois différentiable et pour tout h ∈ _R

^d

,

∇

²

G ( h ) = _E ^h XX

^T

i .

Cette matrice étant (supposée) définie positive, la Hessienne est uniformément minorée sur R

^d

et la fonction G est donc fortement convexe, ce qui fait de θ son unique minimiseur.

Remarque 1.1.1. Bien que la matrice XX

^T

soit au plus de rang 1, la matrice E XX

^T

peut être définie positive. En effet, si considère un vecteur aléatoire gaussien Z ∼ N ( 0, I

_d

) , sa matrice de variance-covariance

E h ZZ

^T

i

= Var [ Z ] = I

_d

est définie positive.

1.1.2 Fonctions strictement convexes

Régression logistique : On considère un couple de variables aléatoires ( X, Y ) à valeurs dans R

^d

× { 0, 1 } tel que

L( Y | X ) = B π

θ

^T

X

, (1.2)

avec π ( x ) =

^exp⁽^x⁾

1+exp(x)

. On peut voir le paramètre θ comme un minimiseur de la fonction G : R

^d

−→

R définie pour tout h ∈ _R

^d

par

G ( h ) = _E ^h log

1 + exp

h

^T

X

− h

^T

XY i

.

(7)

En effet, si la variable aléatoire X admet un moment d’ordre 2, la fonction G est différentiable et pour tout h ∈ _R

^d

,

∇ G ( h ) = _E

"

exp h

^T

X

1 + exp ( h

^T

X ) ^X − XY

#

= _E ^h π

h

^T

X

X − XY i . En particulier, comme E [ Y | X ] = π θ

^T

X

, on a

∇ G ( θ ) = _E ^h π

θ

^T

X

− Y X i

= _E ^h _E ^h π

θ

^T

X

− Y X | X ii

= _E ^h π

θ

^T

X

− _E [ Y | X ] X i

= 0.

De plus, comme X admet un moment d’ordre 2, la fonction G est deux fois différentiable et

∇

²

G ( h ) = _E ^h π

h

^T

X 1 − π

h

^T

X XX

^T

i

qui est au moins semi-définie positive. On supposera par la suite que la Hessienne en θ est définie positive, et donc que la fonction G est strictement convexe et que θ est son unique minimiseur.

Médiane d’une variable aléatoire : Soit X ∈ _R une variable aléatoire et on suppose que sa fonction de répartition est strictement croissante et continue au voisinage de sa médiane notée m. Celle ci est alors le minimiseur de la fonction G : R −→ _R définie pour tout h ∈ _R par

G ( h ) = _E [| X − h |] .

En effet, on rappelle que pour toute variable aléatoire X, grâce au théorème de Fubini-Tonelli, Z

₊_∞

0

P [ Z ≥ t ] dt =

Z

₊_∞

0

E [ 1

_Z≥t

] dt = _E _Z

₊_∞

0

1

_t≤Z

dt

= _E _Z

_Z

0

1dt

= _E [ Z ] . Ainsi, on peut réécrire, pour tout h ∈ _R

G ( h ) =

Z

₊_∞

0

P [| X − h | ≥ t ] dt =

Z

₊_∞

0

P [ X ≥ t + h ] dt +

Z

₊_∞

0

P [ X ≤ h − t ] dt Z

₊_∞

h

( 1 − F ( t )) dt +

Z

_h

−_∞

F ( t ) dt Ainsi on a pour tout h dans un voisinage de m, G

⁰

( h ) = 2F ( h ) − 1 et donc m est bien l’unique

minimiseur de la fonction G. A noter que pour ne pas avoir à faire d’hypothèse sur l’existence du moment d’ordre 1 de | X | , on peut réécrire la fonction G comme

G ( h ) = _E [| X − h | − | X |] .

Médiane géométrique : On considère une variable aléatoire X à valeurs dans R

^d

. La médiane géométrique de X est un minimum de la fonction G : R

^d

−→ _R définie pour tout h ∈ _R

^d

par

G ( h ) : = _E [k X − h k − k X k] ,

(8)

où k . k est la norme euclidienne de R

^d

. A noter que la fonction G est différentiable avec pour tout h ∈ _R

^d

,

∇ G ( h ) = − _E

X − h k X − h k

.

Sous certaines hypothèses, la fonction G est deux fois continûment différentiable avec pour tout h ∈ _R

^d

,

∇

²

G ( h ) = _E

"

1 k X − h k ^I

^d

− ( X − h )( X − h )

^T

k X − h k

²

!#

.

La Hessienne de G est donc au moins semi-définie positive. On supposera par la suite qu’elle est strictement positive en m, et donc que la fonction G est strictement convexe.

1.2 M-estimateurs

1.2.1 Définition et exemples

On rappelle que l’objectif est d’estimer le minimisieur m de la fonction G définie pour tout h ∈ _R

^d

par

G ( h ) = _E [ g ( X, h )] .

Comme on ne sait généralement pas calculer explicitement G (ou son gradient), on ne peut géné- ralement pas calculer (ou approcher) directement la solution. Pour pallier ce problème, on consi- dère maintenant des variables aléatoires indépendantes et identiquement distribuées X

₁

, . . . , X

_n

. Une possibilité pour estimer m est alors de considérer la fonction empirique G

n

définie pour tout h ∈ _R

^d

par

G

n

( _h ) = ¹ n

∑

n k=1

g ( X

_k

, h )

A noter que par la loi des grands nombres, si g ( X, h ) admet un moment d’ordre 1 (ce qui est la condition sine qua none pour que la fonction G soit bien définie en h),

G

_n

( h ) −−−−→

^p.s

n→+_∞

G ( h ) .

Un M-estimateur de m est un minimiseur ˆ m

n

de la fonction empirique G

n

. A noter que ˆ m

n

n’est pas toujours explicite, mais il existe tout de même quelques exemples où on sait le calculer.

Exemple 1 : estimation de la moyenne. Dans le cas de l’estimation de la moyenne, la fonction empirique est définie pour tout h ∈ _R

^d

par

G

_n

( h ) = ¹ 2n

∑

n k=1

k X

_k

− h k

²

− k X

_k

k

²

,

(9)

et on obtient donc ˆ m

_n

= X

_n

. A noter que si X admet un moment d’ordre 2, le TLC nous donne

√ n X

n

− m

L

−−−−→

n→+_∞

N ( 0, Var ( X )) . Remarque 1.2.1. En notant que H : = ∇

²

G ( m ) = I

_d

et que

Σ : = _E ^h ∇

_h

g ( X, m ) ∇

_h

g ( X, m )

^T

i

= _E ^h ( X − m )( X − m )

^T

ⁱ = Var ( X ) ,

où ∇

_h

g ( X, h ) est le gradient de g par rapport à la deuxième variable, on peut réécrire le TLC précédent comme

√ n ( m ˆ

_n

− m ) −−−−→

^L

n→+_∞

N 0, H

⁻¹

Σ H

⁻¹

.

Exemple 2 : la régression linéaire. Dans le cas de l’estimation du paramètre de la régression linéaire, on a

G

_n

( h ) = ¹ 2n

∑

n k=1

X

_k^T

h − Y

_k

2

.

Si la matrice X = ( X

₁

, . . . X

_n

)

^T

est de rang plein, on rappelle que le minimiseur de la fonction G

_n

est l’estimateur des moindres carrés est défini par

θ ˆ

n

= XX

^T

−1

X

^T

Y

avec Y = ( Y

₁

, . . . , Y

_n

)

^T

.

Remarque 1.2.2. Sous certaines hypothèses, on peut montrer que si la matrice Hessienne H : = _E XX

^T

est définie positive (et donc inversible), on a la normalité asymptotique

√ n θ ˆ

_n

− θ

L

−−−−→

n→+_∞

N 0, Var [ e ] H

⁻¹

. De plus, en remarquant que

Σ : = _E ^h ∇

_h

g ( X, θ ) ∇

_h

g ( X, θ )

^T

ⁱ = _E ^h Y − X

^T

θ

XX

^T

Y − X

^T

θ i

= _E ^h e

²

XX

^T

i

= _E ^h _E e

²

| X XX

^T

i

= Var [ e ] H, on peut réécrire la normalité asymptotique comme

√ n θ ˆ

_n

− θ

L

−−−−→

n→+_∞

N 0, H

⁻¹

ΣH

⁻¹

.

Exemple 3 : médiane d’une variable aléatoire réelle. Dans le cas de l’estimation de la médiane

(10)

d’une variable aléatoire X, la fonction empirique s’écrit G

_n

( h ) = ¹

n

∑

n k=1

| X

_k

− h | − | X

_k

| ,

et on rappelle qu’un minimiseur de G

_n

est la médiane empirique ˆ m

_n

= X (d

ⁿ₂

e) ^.

Cependant, dans une grande majorité des cas tels que l’estimation de la médiane géométrique ou l’estimation des paramètres de la régression logistique, on ne sait pas calculer explicitement le minimum de la fonction G

_n

. On peut néanmoins utiliser les méthodes d’optimisation déterministes usuelles pour approcher ˆ m

n

.

Exemple 1 : la régression logistique. Dans le cadre de la régression logistique, on a G

_n

( h ) = ¹

n

∑

n i=1

log

1 + _exp h

^T

X

_i

− h

^T

X

_i

Y

_i

,

et il n’existe pas de solution explicite. Cependant, on peut, par exemple, utiliser un algorithme de gradient pour approcher ˆ m

n

. Celui-ci est défini de manière itérative pour tout t ≥ 0 par

m

_n,t+1

= m

_n,t

− η

_t

∇ G

_n

( m

_n,t

)

où η

t

est une suite de pas positifs (cf cours d’optimisation pour plus de précisions).

Exemple 2 : estimation de la médiane géométrique. Dans le cas de la médiane géométrique, la fonction empirique est définie pour tout h ∈ _R

^d

par

G

_n

( h ) = ¹ n

∑

n k=1

k X

_k

− h k − k X

_k

k

et un minimiseur de G

_n

est donc un zéro du gradient de G

_n

, i.e 0 = − ¹

n

∑

n k=1

X

_k

− m ˆ

_n

k X

_k

− m ˆ

_n

k ^.

Là encore, il n’existe pas de solution explicite, mais on peut réécrire l’égalité précédente comme

ˆ m

_n

= ^∑

nk=1 X_k kXk−mˆnk

∑

ⁿk=1 1 kXk−mˆnk

et on peut donc approcher ˆ m

n

à l’aide d’un algorithme de point fixe, conduisant à l’algorithme itératif suivant (algorithme de Weiszfeld [Wei37])

m

_n,t+1

= ^∑

nk=1 X_k kXk−mn,tk

∑

ⁿk=1 1 kX_k−mn,tk

(11)

Remarque 1.2.3. A noter que l’on peut réécrire l’algorithme de Weiszfeld comme m

_n,t+1

= m

_n,t

+ ⁿ

∑

1 n

∑

n k=1

X

_k

− m

_n,t

k X

_k

− m

_n,t

k = m

_n,t

− ⁿ

∑

∇ G

_n

( m

_n,t

)

et l’on peut donc voir l’algorithme de Weiszfeld comme un algorithme de gradient avec η

_t

= ⁿ

∑

ⁿk=1 1 kXk−mn,tk

.

1.2.2 Un résultat de convergence

Le théorème suivant généralise les résultats donnés dans les remarques 1.2.1 et 1.2.2. A noter que les hypothèses présentées ne sont pas minimales mais rendent la preuve accessible.

Théorème 1.2.1. On suppose que les hypothèses suivantes sont vérifiées :

• m ˆ

_n

converge en probabilité vers m.

• Pour presque tout x, la fonction g ( x, . ) est deux fois continûment différentiable.

• Pour presque tout x, la Hessienne ∇

²_h

g ( x, . ) est L ( x ) -lipschitz, i.e pour tout h, h

⁰

∈ _R

^d

,

∇

²_h

g ( x, h ) − ∇

²_h

g x, h

⁰

op

≤ L ( x ) h − h

⁰

où k _. k

_op

est la norme spectrale.

• L ( X ) et ∇

²_h

g ( X, m ) admettent des moments d’ordre 1.

• La Hessienne de G en m est inversible.

Alors

√ n ( m ˆ

_n

− m ) −−−−→

^L

n→+_∞

N 0, H

⁻¹

ΣH

⁻¹

avec

H = ∇

²

G ( m ) et Σ = _E ^h ∇

_h

g ( X, m ) ∇

_h

g ( X, m )

^T

ⁱ . Démonstration. Comme ˆ m

n

est un minimiseur local de G

n

, on a

0 = ¹ n

∑

n k=1

∇

_h

g ( X

_k

, ˆ m

n

) .

Comme pour presque tout x, la fonction g ( x, . ) est deux fois continûment différentiable, à l’aide d’un développement de Taylor, on a presque sûrement

0 = ¹ n

∑

n k=1

∇

_h

g ( X

_k

, ˆ m

_n

) − ¹ n

∑

n k=1

∇

_h

g ( X

_k

, m ) + ¹ n

∑

n k=1

∇

_h

g ( X

_k

, m )

= ¹ n

∑

n k=1

∇

_h

g ( X

_k

, m ) + ¹ n

∑

n k=1

Z

₁

0

∇

²_h

g ( X

_k

, m + t ( m ˆ

n

− m )) ( m ˆ

n

− m ) dt

(12)

On peut donc réécrire l’égalité précédente comme

− ¹ n

∑

n k=1

∇

_h

g ( X

_k

, m ) = H

_n

( m ˆ

_n

− m ) avec

H

_n

= ¹ n

∑

n k=1

Z

₁

0

∇

²_h

g ( X

_k

, m + t ( m ˆ

_n

− m )) ( m ˆ

_n

− m ) dt

= ¹ n

∑

n k=1

∇

²_h

g ( X

_k

, m ) +

Z

₁

0

∇

²_h

g ( X

_k

, m + t ( m ˆ

_n

− m )) − ∇

²_h

g ( X

_k

, m ) dt

Comme ∇

_h

g ( X, m ) admet un moment d’ordre 2 et comme E [∇

_h

g ( X, m )] = ∇ G ( m ) = 0, on obtient à l’aide d’un TLC

√ 1 n

∑

n k=₁

∇

_h

g ( X

_k

, m ) −−−−→

^L

n→+_∞

N ( 0, Σ ) avec Σ : = Var [∇

_h

g ( X, h )] = _E ^h ∇

_h

g ( X

_k

, m ) ∇

_h

g ( X

_k

, m )

^T

ⁱ , et donc

√ nH

n

( m ˆ

n

− m ) −−−−→

^L

n→+_∞

N ( 0, Σ ) . De plus, comme ˆ m

_n

converge en probabilité vers m, on a

1 n

∑

n k=1

Z

₁

0

∇

²_h

g ( X

_k

, m + t ( m ˆ

_n

− m )) − ∇

²_h

g ( X

_k

, m ) dt

op

≤ ¹ n

∑

n k=1

Z

₁

0

∇

²_h

g ( X

_k

, m + _t ( m ˆ

n

− m )) − ∇

²_h

g ( X

_k

, m )

op

dt ≤ ¹

2 k m ˆ

n

− m k ¹ n

∑

n k=1

L ( X

_k

) −−−−→

^P

n→+_∞

0. De plus, par la loi des grands nombres, 1 n

∑

n k=1

∇

²_h

g ( X

_k

, m ) −−−−→

^P

n→+_∞

∇

²

G ( m ) ,

et donc H

_n

converge en probabilité vers H = ∇

²

G ( m ) . Comme H est positive, l’application M 7−→

M

⁻¹

est continue en H, et par continuité, H

⁻_n¹

converge en probabilité vers H

⁻¹

(même si H

_n⁻¹

n’est pas nécessairement définie). Ainsi, par le lemme de Slutsky,

√ n ( m ˆ

_n

− m ) −−−−→

^L

n→+_∞

N 0, H

⁻¹

ΣH

⁻¹

.

Ainsi, sous une certaine forme de régularité du modèle, on a une certaine forme d’efficacité asymp-

totique, i.e un résultat optimal "bornant" les résultats possibles pour les estimateurs. De plus,

lorsque l’on ne sait pas calculer explicitement ˆ m

_n

et que l’on doit donc l’approcher via m

_n,t

, si

(13)

m

_n,t

converge vers ˆ m

_n

, on obtient la convergence en loi

n→+

lim

_∞

lim

t→+_∞

√ n ( m

n,t

− m ) = N 0, H

⁻¹

ΣH

⁻¹

Ainsi les méthodes itératives sont particulièrement efficaces, mais sous une certaine forme de ré- gularité du modèle, on ne pourra pas avoir de meilleurs résultats que la normalité asymptotique, problème que l’on rencontrera quel que soit le type d’estimateur choisi. Cependant, pour les mé- thodes itératives, un gros problème peut être rencontré si l’on doit traiter des données en ligne : si on a déjà traité 1000 données (avec le temps de calcul que cela implique), que devons-nous faire si 1000 nouvelles données arrivent ? Une option serait de tout reprendre depuis le début, ce qui nécessite fatalement plus de calculs. S’intéresser aux estimateurs en ligne permet entre autre de régler ce problème.

1.3 Estimation en ligne

Dans ce qui suit, on considère des variables aléatoires X

₁

, . . . , X

_n

, X

_n+1

, . . . arrivant de manière sé- quentielle. L’objectif est de mettre en place des algorithmes permettant de mettre facilement à jours les estimateurs. Un exemple simple est celui de la moyenne. Considérant que l’on a calculé X

_n

et qu’une nouvelle donnée arrive. Comment obtenir X

_n+1

en faisant le moins de calculs possibles ? Une version brutale serait de repasser sur toutes les données afin de calculer X

n+₁

, ce qui repré- senterait O (( n + 1 ) d ) nouvelles opérations. Une version plus subtile est de calculer X

_n+1

comme suit :

X

n+1

= _X

_n

+ ¹

n + 1 X

n+1

− X

n

,

ce qui, quand n est grand, représente bien évidemment beaucoup moins de calculs (O ( d ) ). Pour l’estimateur de la variance S

²_n

, il faut se casser un peu plus la tête. Il faut d’abord remarquer que celui-ci peut s’écrire

S

²_n

= ⁿ

n − 1 Σ

²_n

− ⁿ

n − 1 X

_n

X

^T_n

et Σ

²_n

= ¹ n

∑

n k=1

X

_k

X

_k^T

Ainsi, on peut construire S

²_n

de manière récursive comme suit X

_n+1

= X

_n

+ ¹

n + 1 X

_n+1

− X

_n

Σ

²_n₊₁

= _Σ

²_n

+ ¹

n + 1

X

_n+1

X

_n^T₊₁

− _Σ

²_n

S

²_n₊₁

= ⁿ + 1

n Σ

n+1

− ⁿ + 1

n X

_n+1

X

_n^T₊₁

.

A noter qu’en plus du fait que le temps de calcul pour mettre à jours les estimateurs est réduit, l’estimation en ligne permet de ne pas avoir à garder en mémoire toutes les données, i.e on peut

"jeter" les données dès qu’elles ont été traitées, ce qui peut permettre de réduire les coûts en terme

(14)

de mémoire. Même si dans de nombreux cas, il n’est pas possible ou évident de construire des estimateurs en ligne, dans le cas de la minimisation de la fonction G, on peut souvent construire ce type d’estimateurs à l’aide d’algorithmes de gradient stochastiques.

1.4 Algorithmes de gradient stochastiques

On rappelle que l’on s’intéresse à l’estimation du minimiseur de la fonction G : R

^d

−→ _R définie pour tout h ∈ _R

^d

par

G ( h ) = _E [ g ( X, h )] .

et on considère des variables aléatoires indépendantes et identiquement distribuées X

₁

, . . . , X

_n

, X

_n+1

, . . . arrivant de manière séquentielle. On rappelle qu’un algorithme de gradient pour approcher m au- rait été de la forme

m

_t+1

= m

_t

− η

_t

∇ G ( m

_t

) .

Cependant, ici, on n’a pas accès au gradient de G (car sous forme d’espérance). Pour régler ce problème, on a vu précédemment que l’on peut remplacer ∇ G par le gradient de la fonction empirique, ce qui représente O ( nd ) opérations à chaque itération, et en notant T ce nombres d’itéra- tions, on arrive donc à O ( ndT ) opérations. De plus, on a vu que ces méthodes ne permettent pas de traiter les données en ligne. Pour pallier ces problèmes, on s’intéresse à l’algorithme de gradient stochastique, qui permet de traiter les données en lignes, et ce, avec seulement O ( nd ) opérations.

1.4.1 Algorithmes de gradient stochastiques

L’algorithme de gradient stochastique, introduit par [RM51], est défini de manière récursive pour tout n ≥ 0 par

m

_n+1

= m

_n

− γ

_n+1

∇

_h

g ( X

_n+1

, m

_n

) avec m

₀

borné et ( γ

n

) est une suite de pas positifs vérifiant

n

∑

≥1

γ

_n

= + _∞ _et ∑

n≥1

γ

²_n

< + _∞. _(1.3)

A noter que l’on peut réécrire l’algorithme de gradient stochastique comme

m

_n+1

= m

_n

− γ

_n+1

∇ G ( m

_n

) + γ

_n+1

ξ

_n+1

(1.4) avec ξ

_n+1

= ∇ G ( m

_n

) − ∇

_h

g ( X

_n+1

, m

_n

) . De plus, en considérant la filtration (notion que l’on dé- finira par la suite) (F

_n

) engendrée par l’échantillon, i.e F

_n

= σ ( X

₁

, . . . , X

_n

) , ( ξ

_n+1

) est une suite de différences de martingale adaptée à la filtration (F

_n

) , i.e comme m

n

est F

_n

-mesurable, et par indépendance,

E [ ξ

_n+1

|F

_n

] = ∇ G ( m

_n

) − _E [∇

_h

g ( X

_n+1

, m

_m

) |F

_n

] = 0.

(15)

On peut donc voir l’algorithme comme un algorithme de gradient bruité (par γ

_n+1

ξ

_n+1

).

Exemple 1 : la régression linéaire. On se place dans le cadre de la régression linéaire et on consi- dère des couples de variables aléatoires i.i.d ( X

₁

, Y

₁

) , . . . , ( X

_n

, Y

_n

) , ( X

_n+1

, Y

_n+1

) , . . . à valeurs dans R

^d

× R. L’algorithme de gradient stochastique est alors défini récursivement pour tout n ≥ 0 par

θ

_n+1

= θ

_n

+ γ

_n+1

Y

_n+1

− θ

^T_n

X

_n+1

X

_n+1

. (1.5)

Exemple 2 : la régression logistique. On se place dans le cadre de la régression logistique et on considère des couples de variables aléatoires i.i.d ( X

₁

, Y

₁

) , . . . , ( X

_n

, Y

_n

) , ( X

_n+1

, Y

_n+1

) , . . . à valeurs dans R

^d

× { 0, 1 } . L’algorithme de gradient stochastique est alors défini de manière récursive pour tout n ≥ 0 par

θ

_n+1

= θ

_n

− γ

_n+1

π

θ

^T_n

X

_n+1

− Y

_n+1

X

_n+1

(1.6)

avec π ( x ) =

₁₊^exp_exp⁽^x₍⁾_x₎

.

Exemples 3 : la médiane géométrique. On considère des variables aléatoires i.i.d X

₁

, . . . , X

n

, X

_n+1

, . . . à valeurs dans R

^d

. L’algorithme de gradient stochastique est défini de manière récursive pour tout n ≥ 0 par

m

n+₁

= m

n

+ γ

_n+₁

X

_n+1

− m

_n

k X

_n+1

− m

n

k ^. 1.4.2 Approche non-asymptotique

On suppose à partir de maintenant que la suite de pas γ

_n

est de la forme γ

_n

= c

_γ

n

⁻^α

avec c

_γ

> ₀ et α ∈ ( 1/2, 1 ) . On voit bien que cette suite de pas vérifie la condition (1.3). Le théorème suivant nous donne la vitesse de convergence en moyenne quadratique des estimateurs obtenus à l’aide de l’algorithme de gradient stochastique dans le cas où la fonction G est fortement convexe.

Théorème 1.4.1. On suppose que les hypothèses suivantes sont vérifiées : 1. Il existe un minimiseur m de la fonction G.

2. La fonction G est µ-fortement convexe : pour tout h ∈ _R

^d

,

h∇ G ( h ) , h − m i ≥ µ k h − m k

²

. De plus, on suppose que l’hypothèse suivante est vérifiée :

(PS0) Il existe une constante positive C telle que pour tout h ∈ _R

^d

, E h

k∇

_h

g ( X, h )k

²

ⁱ ≤ C

1 + k h − m k

²

Alors pour tout n ≥ 1,

E h

k m

n

− m k

²

ⁱ ≤ 2 exp

C

⁰

c

²_γ

1 − n

¹⁻^2α

2α − 1

exp

− ^µc

^γ

4 n

¹⁻^α

E h

k m

0

− m k

²

ⁱ + 1

+ ^2c

^γ

^C

µn

^α

(16)

où C

⁰

= max

C, 2µ

²

.

En d’autres termes, les estimateurs convergent en moyenne quadratique à la vitesse

_n¹α

. Démonstration. On a

k m

_n+1

− m k

²

= k m

_n

− m k

²

− 2γ

_n+1

h∇

_h

g ( X

_n+1

, m

_n

) , m

_n

− m i + γ

_n²₊₁

k∇

_h

g ( X

_n+1

, m

_n

)k

²

. En passant à l’espérance conditionnelle et par linéarité, on obtient donc, comme m

n

est F

_n

-mesurable, E h

k m

_n+1

− m k

²

|F

_n

ⁱ = k m

_n

− m k

²

− 2γ

_n+1

h _E [∇

_h

g ( X

_n+1

, m

_n

) |F

_n

] , m

_n

− m i + γ

²_n₊₁

E h

k∇

_h

g ( X

_n+1

, m

_n

)k

²

|F

_n

ⁱ

≤ k m

n

− m k

²

− 2γ

n+₁

h∇ G ( m

n

) , m

n

− m i + γ

²_n₊₁

E h

k∇

_h

g ( X

n+₁

, m

n

)k

²

|F

_n

ⁱ Grâce à l’hypothèse (PS0), il vient

E h

k m

_n+1

− m k

²

|F

_n

ⁱ ≤ 1 + Cγ

²_n₊₁

k m

n

− m k

²

− 2γ

_n+1

h∇ G ( m

n

) , m

n

− m i + Cγ

²_n₊₁

. Par forte convexité, on obtient donc

E h

k m

_n+1

− m k

²

|F

_n

ⁱ ≤ 1 − 2µγ

_n+1

+ Cγ

²_n₊₁

k m

_n

− m k

²

+ Cγ

²_n₊₁

. En passant à l’espérance, on a

E h

k m

_n+1

− m k

²

ⁱ ≤ 1 − 2µγ

_n+1

+ Cγ

²_n₊₁

E h

k m

_n

− m k

²

ⁱ + Cγ

²_n₊₁

. Afin de conclure, on introduit le lemme suivant [BM13] :

Lemma 1.4.1. Soit ( δ

n

) une suite positive vérifiant

δ

_n+1

≤ 1 − 2µγ

_n+1

+ 2L

²

γ

²_n₊₁

δ

_n

+ 2σ

²

γ

²_n₊₁

avec γ

_n

= c

γ

n

⁻^α

, c

γ

, L ≥ µ > 0, σ

²

≥ 0 et α ∈ ( 1/2, 1 ) . Alors pour tout n ≥ 1,

δ

_n

≤ 2 exp

− ^µ 4 n

¹⁻^α

exp

2L

²

c

²_γ

1 − n

¹⁻^2α

2α − 1 δ

₀

+ ^σ

2

L

²

+ ^4c

^γ

^σ

2

µn

^α

En prenant C

⁰

= max

C, 2µ

²

, on obtient √

C

⁰

/2 ≥ µ et E h

k m

_n+1

− m k

²

ⁱ ≤ ₁ − _2µγ

_n₊₁

+ C

⁰

γ

²_n₊₁

E h

k m

_n

− m k

²

ⁱ + Cγ

²_n₊₁

. Les hypothèses du lemme sont donc vérifiées.

Preuve du Lemme 1.4.1. Comme γ

_n

est une suite croissante, il existe un rang n

₀

tel que pour tout

(17)

n > n

₀

, 2L

²

γ

_n+1

≤ µ. De plus, par récurrence, on a

δ

n

≤

∏

n j=₁

1 − 2µγ

_j

+ 2L

²

γ

²_j

δ

₀

+

n−1 k

∑

=0

∏

n j=k+2

1 − 2µγ

_j

+ 2L

²

γ

²_j

2σ

²

γ

²_k₊₁

| {z }

=:Rn

. (1.7)

avec pour tout n ≥ 0, ∏

ⁿ_k=n+1

= 1. En effet, cette inégalité est vérifiée pour n = 0 et on a par récurrence

δ

_n+1

≤ 1 − 2µγ

_n+1

+ 2L

²

γ

²_n₊₁

δ

_n

+ 2σ

²

γ

_n²₊₁

≤ 1 − 2µγ

_n+1

+ 2L

²

γ

²_n₊₁

ⁿ

∏

j=1

1 − 2µγ

_j

+ 2L

²

γ

²_j

δ

₀

+

n−1 k

∑

=0

∏

n j=k+2

1 − 2µγ

_j

+ 2L

²

γ

²_j

2σ

²

γ

²_k₊₁

!

+ 2σ

²

γ

²_n₊₁

≤

n+1

∏

j=1

1 − 2µγ

_j

+ 2L

²

γ

²_j

δ

₀

+

n−1 k

∑

=0

n+1 j=

∏

k+2

1 − 2µγ

_j

+ 2L

²

γ

²_j

2σ

²

γ

²_k₊₁

+ 2σ

²

γ

²_n₊₁

=

n+1

∏

j=1

1 − 2µγ

_j

+ 2L

²

γ

²_j

δ

₀

+

∑

n k=0

n+1 j=

∏

k+2

1 − 2µγ

_j

+ 2L

²

γ

²_j

2σ

²

γ

²_k₊₁

Comme pour tout x ∈ _{R, 1} + x ≤ exp ( x ) , on a pour tout 0 ≤ k ≤ n − 1,

∏

n j=k+2

1 − 2µγ

_j

+ 2L

²

γ

²_j

≤

∏

n j=k+2

exp

− 2µγ

_j

+ 2L

²

γ

²_j

= exp − 2µ

∑

n j=k+2

γ

_j

+ 2L

²

∑

n j=k+2

γ

²_j

! , et en particulier

∏

n j=1

1 − 2µγ

_j

+ 2L

²

γ

²_j

δ

₀

≤ exp − 2µ

∑

n j=1

γ

_j

+ 2L

²

∑

n j=1

γ

²_j

!

δ

₀

≤ exp − µ

∑

n j=1

γ

_j

+ 4L

²

∑

n j=1

γ

²_j

! δ

₀

De plus, on a R

_n

≤ 2σ

²

n0−2 k

∑

=0

∏

n j=k+2

1 − 2µγ

_j

+ 2L

²

γ

²_j

γ

²_k₊₁

| {z }

=:R_1,n⁰

+ 2σ

²

n−1 k=

∑

n0−1

∏

n j=k+2

1 − 2µγ

_j

+ 2L

²

γ

²_j

γ

²_k₊₁

| {z }

=:R⁰_2,n

De plus, comme pour tout k > n

₀

⇔ µγ

_k

≥ 2L

²

γ

²_k

, on a R

_1,n⁰

≤

n0−2 k

∑

=0

n0−1 j=

∏

k+2

1 + 2L

²

γ

²_j

γ

²_k₊₁

∏

n j=n₀

1 − µγ

_j

γ

²_k₊₁

≤

∏

n j=n₀

1 − µγ

_j

n0−2 k

∑

=0

n0−1 j=

∏

k+2

1 + 2L

²

γ

²_j

γ

²_k₊₁

≤ e

⁻^µ^∑ⁿ^j⁼ⁿ⁰^γ^j

n₀−2 k

∑

=₀

n₀−1 j=

∏

k+₂

1 + 2L

²

γ

²_j

γ

²_k₊₁

(18)

De plus, comme

n₀−1 j=

∏

k+1

1 + 2L

²

γ

²_j

−

n₀−1 j=

∏

k+2

1 + 2L

²

γ

²_j

=

n₀−1 j=

∏

k+2

1 + 2L

²

γ

²_j

1 + 2L

²

γ

²_k₊₁

− 1

=

n₀−1 j=

∏

k+2

1 + 2L

²

γ

²_j

2L

²

γ

²_k₊₁

et comme γ

_k₊₂

≤ γ

_k₊₁

, on obtient

R

⁰_1,n

≤ e

n₀−2 k

∑

=0

1 2L

²

n₀−1 j=

∏

k+1

1 + 2L

²

γ

²_j

−

n₀−1 j=

∏

k+2

1 + 2L

²

γ

²_j

!

= ¹

2L

²

e

n0−1

∏

j=1

1 + 2L

²

γ

²_j

− 1

!

≤ ¹

2L

²

e

⁻^µ^∑ⁿ^j⁼ⁿ⁰^γ^j⁺^2L²^∑

n0−1 j=1 γ²_j

.

De plus, comme j ≥ k + 2 ≥ n

0

, µγ

_j

≤ 1 et on a pour tout entier n

0

≤ k

⁰

≤ n − 1, R

⁰_2,n

≤

n−1 k=

∑

n0−1

∏

n j=k+2

1 − µγ

_j

γ

²_k₊₁

≤

k⁰−1 k=

∑

n0−1

∏

n j=k+2

1 − µγ

_j

γ

²_k₊₁

| {z }

=:R⁰_1,n

+

n−1 k

∑

=k⁰

∏

n j=k+2

1 − µγ

_j

γ

²_k₊₁

| {z }

=R⁰⁰_2,n

.

On a donc, comme 1 + x ≤ exp ( x ) , R

⁰⁰_1,n

≤

∏

n j=k⁰+1

1 − µγ

_j

k⁰−1 k

∑

=n0

γ

²_k₊₁

≤ exp − µ

∑

n j=k⁰+1

γ

_j

!

k⁰−1 k

∑

=n0

γ

²_k₊₁

. De plus, on remarque que

∏

n j=k+2

1 − µγ

_j

−

∏

n j=k+1

1 − µγ

_j

=

∏

n j=k+2

1 − µγ

_j

( 1 − ( 1 − µγ

_k+1

)) = µγ

_k+1

∏

n j=k+2

1 − µγ

_j

. Ainsi, on a

R

⁰⁰_2,n

≤ max

k⁰≤k≤n−1

γ

_k+1 n−1 k

∑

=k⁰

∏

n j=k+2

1 − µγ

_j

γ

_k+1

= ¹ µ max

k⁰≤k≤n−1

γ

_k+1 n−1 k

∑

=k⁰

∏

n j=k+2

1 − µγ

_j

−

∏

n j=k+1

1 − µγ

_j

= ¹ µ max

k⁰≤k≤n−1

γ

_k₊₁

1 −

∏

n j=k⁰+2

1 − µγ

_j

!

≤ ¹ µ max

k⁰≤k≤n−1

γ

_k₊₁

(1.8)

(19)

Ainsi, on a pour tout k

⁰

≥ n

₀

, R

_n

2σ

²

≤ ¹

2L

²

e

⁻^µ^∑ⁿ^j⁼ⁿ⁰^γ^j⁺^2L²^∑

n0−1

j=1 γ²_j

+ e

⁻^µ^∑ⁿ^j⁼^k⁰⁺¹^γ^j

k⁰−1 k

∑

=n0

γ

²_k₊₁

+ ¹ µ min

k⁰≤k≤n−1

γ

_k+1

≤ ¹

2L

²

e

⁻^µ^∑ⁿ^j⁼¹^γ^j⁺^2L²^∑ⁿ^j⁼¹^γ²^j

+ e

⁻^µ^∑ⁿ^j⁼^k⁰^γ^j

k⁰−1 k=

∑

n0−1

γ

²_k₊₁

+ ¹ µ max

k⁰≤k≤n−1

γ

_k₊₁

On a donc

δ

n

≤ e

⁻^µ^∑ⁿ^j⁼¹^γ^j⁺^2L²^∑ⁿ^j⁼¹^γ²^j

δ

0

+ ^σ

2

L

²

+ 2σ

²

e

⁻^µ^∑ⁿ^j⁼^k⁰⁺¹^γ^j

k⁰−1 k

∑

=n₀

γ

²_k₊₁

+ ^2σ

2

µ max

k⁰≤k≤n−1

γ

_k+1

(1.9) A noter que grâce à une comparaison série intégrale, on a

∑

n j=1

γ

²_j

≤ c

²_γ

+

Z

_n₊₁

1

c

²_γ

t

⁻^2α

== c

²_γ

+ ^c

2 γ

2α − 1

1 − ( n + 1 )

¹⁻^2α

≤ c

²_γ

2α 2α − 1 . De plus, en prenant k

⁰

= n/2, on obtient

∑

n j=n/2

γ

_j

≥ c

_γ

∑

n j=n/2

( n/2 )

⁻^α

≥ ¹ 4 n

¹⁻^α

. et on a donc

2σ

²

e

⁻^µ^∑ⁿ^j⁼^n/2^γ^j

n/2−1 k=

∑

n0−1

γ

²_j₊₁

≤ ^σ

2

L

²

e

⁻^µ^∑ⁿ^j⁼^n/2^γ^j

e

^2L²^∑ⁿ^k⁼⁻⁰¹^γ²^j⁺¹

≤ ^σ

2

L

²

e

⁻^µ⁴ⁿ¹⁻^α

e

^2L²^c²^γ^2α^2α⁻¹

et on obtient donc

δ

_n

≤ 2e

⁻^µ⁴ⁿ¹⁻^α

e

^2L²^c²^γ^2α^2α⁻¹

δ

₀

+ ^σ

2

L

²

+ ^4c

^γ

^σ

2

µn

^α

Afin de simplifier les preuves par la suite, on donne maintenant une proposition que l’on peut voir comme une généralisation du lemme précédent.

Proposition 1.4.1. Soit δ

_n

, γ

_n

deux suites positives telles que

• γ

n

= c

γ

n

⁻^α

avec c

γ

> 0 et α ∈ ( 1/2, 1 ) .

• Il existe un rang n

0

, une constante c

0

∈ 0, γ

_n⁻₀¹

et une suite positive v

n

telle que pour tout n ≥ n

0

,

δ

_n+1

≤ ( 1 − c

₀

γ

_n+1

) δ

_n

+ γ

_n+1

v

_n+1

.

(20)

Alors pour tout n ≥ 2n

₀

,

δ

n

≤ exp

− ^c

⁰

^c

^γ

4 n

¹⁻^α

δ

n₀

+

n/2−1 k

∑

=n0

γ

_k+1

v

_k+1

!

+ max

n/2≤k+1≤n−1

v

_k+1

En paritculier, si v

_n

= C

_v

( ln n )

^β

n

^v

avec β ≥ 0 et v ∈ _{R, alors} δ

n

= O ( v

n

) .

Démonstration. De manière analogue à la preuve du Lemme 1.4.1, on a

δ

_n

≤

∏

n j=n0+1

1 − c

₀

γ

_j

δ

_n₀

| {z }

=_:R_1,n

+

n−1 k

∑

=n0

∏

n j=k+2

1 − c

₀

γ

_j

γ

_k+1

v

_k+1

| {z }

=:R2,n

.

Avec des calculs analogues à ceux de l’inégalité (1.8), on a que pour tout k

⁰

≥ n

₀

+ 1, R

2,n

=

k⁰−1 k

∑

=n0

∏

n j=k+2

1 − c

₀

γ

_j

γ

_k+1

v

_k+1

+

n−1 k

∑

=k⁰

∏

n j=k+2

1 − c

₀

γ

_j

γ

_k+1

v

_k+1

≤ exp − c

₀

∑

n j=k⁰+1

γ

_j

!

k⁰−1 k

∑

=n0

γ

_k+1

v

_k+1

+ ¹

c

₀

max

k⁰≤k≤n−1

v

_k+1

.

Ainsi en prenant k

⁰

= n/2, et avec des calculs analogues à ceux de la fin de la preuve du lemme 1.4.1, on obtient

δ

n

≤

∏

n j=n0+1

1 − c

0

γ

_j

δ

n0

+ exp − c

0 n/2

∑

j=1

γ

_j

!

k⁰−1 k

∑

=₀

γ

_k+1

v

_k+1

+ max

n/2≤k+₁≤n−1

v

_k+1

≤ exp

− ^c

⁰

^c

^γ

4 n

¹⁻^α

δ

n0

+

n/2−1 k

∑

=₀

γ

_k+1

v

_k+1

!

+ max

n/2≤k≤n−1

v

_k+1

.

De plus, si v

_k

= C

_v

( ln k )

^β

k

^v

avec v ∈ R. Alors, à l’aide d’une comparaison série intégrale, on a

n/2−1 k

∑

=0

γ

_k+1

v

_k+1

≤ C

_v

c

_γ

( ln n )

^β

Z

_n/2

1

t

^v⁻^α

dt =



 

 

Cvcγ

1−α+v

( ln n )

^β

n

¹⁻^α⁺^v

si 1 + v > α C

_v

c

γ

( ln n )

¹⁺^β

si 1 + v = α C

v

c

γ α−v

α−1−v

( ln n )

^β

sinon De même, on a

n/2

max

≤k≤n−1

v

_k

=

( C

_v

c

_γ

( ln n )

^β

n

^v

si v ≥ 0

C

v

c

γ

2

⁻^v

( ln n )

^β

n

^v

sinon

ce qui conclut la preuve.

(21)

1.4.3 Exemple : regression lineaire

On se place dans le cadre du modèle linéaire défini par (1.1) et on rappelle que sous certaines hypothèses, θ est l’unique minimiseur de la fonction G : R

^d

−→ _R

₊

définie pour tout h ∈ _R

^d

par

G ( h ) = ¹ 2 E

Y − X

^T

h

2

.

Théorème 1.4.2. On suppose que e admet un moment d’ordre 2 et que X admet un moment d’ordre 4. De plus, on suppose que la matrice E

XX

^T

est définie positive et on note µ sa plus petite valeur propre. La suite d’estimateurs du gradient ( θ

_n

) définie par (1.5) vérifie pour tout n ≥ 0,

E h

k θ

n

− θ k

²

ⁱ ≤ 2 exp

Cc

²_γ

1 − n

^2α⁻¹

2α − 1

exp

− ^µc

^γ

4 n

¹⁻^α

E h

k m

0

− m k

²

ⁱ + 1

+ ^2c

^γ

^C µn

^α

avec C = max n

2E h

k e k

²

ⁱ _E ^h k X k

²

ⁱ _{, 2E} ^h k X k

⁴

^io .

Démonstration. Il suffit de vérifier que les hypothèses du théorème 1.4.1 sont vérifiées. On a vu

∇ G ( θ ) = 0 et que pour tout h ∈ _R

^d

∇

²

G ( h ) = _E ^h XX

^T

i . Comme E

XX

^T

est positive, la fonction G est fortement convexe et θ est donc l’unique minimiseur de G. Comme ∇ G ( θ ) = 0, à l’aide d’un développement de Taylor du gradient, on a pour tout h ∈ _R

^d

,

∇ G ( h ) =

Z

₁

0

∇

²

G ( θ + t ( h − θ )) dt ( h − θ ) = _E ^h XX

^T

i

( h − θ ) . En particulier, on a pour tout h ∈ _R

^d

h∇ G ( h ) , h − θ i = ( h − θ )

^T

_E ^h XX

^T

i

( h − θ ) ≥ λ

_min

E h

XX

^T

i

k h − θ k

²

≥ µ k h − θ k

²

. De plus, on a g ( X, Y, h ) =

¹₂

Y − h

^T

X

2

et donc

∇

_h

g ( X, Y, h ) = Y − X

^T

h

X = Y − X

^T

θ + X

^T

θ − X

^T

h X

= eX + X

^T

( θ − h ) X On obtient donc

k∇

_h

g ( X, Y, h )k ≤ k e k k X k + k h − θ k k X k

²

et donc, comme les variables aléatoires e et X sont indépendantes,

E h

k∇

_h

g ( X, Y, h )k

²

ⁱ ≤ _2E ^h k e k

²

ⁱ _E ^h k X k

²

ⁱ + 2 k h − θ k

²

_E ^h k X k

⁴

ⁱ .

AntoineGodichon-Baggioni Algorithmesstochastiques

Algorithmes stochastiques