Algorithmes stochastiques
Antoine Godichon-Baggioni
1 Introduction 5
1.1 Cadre . . . . 5
1.1.1 Fonctions fortement convexes . . . . 5
1.1.2 Fonctions strictement convexes . . . . 6
1.2 M-estimateurs . . . . 8
1.2.1 Définition et exemples . . . . 8
1.2.2 Un résultat de convergence . . . . 11
1.3 Estimation en ligne . . . . 13
1.4 Algorithmes de gradient stochastiques . . . . 14
1.4.1 Algorithmes de gradient stochastiques . . . . 14
1.4.2 Approche non-asymptotique . . . . 15
1.4.3 Exemple : regression lineaire . . . . 21
2 Martingales 23 2.1 Martingales réelles . . . . 23
2.1.1 Définitions . . . . 23
2.1.2 Théorème de Doob . . . . 24
2.1.3 Théorème de Robbins-Siegmund . . . . 26
2.1.4 Lois des grands nombres . . . . 32
2.1.5 Théorème limite centrale . . . . 42
2.2 Martingales vectorielles . . . . 46
2.2.1 Définition . . . . 46
2.2.2 Vitesses de convergence des martingales vectorielles . . . . 46
2.2.3 Théorème Central Limite . . . . 53
3 Vitesses de convergence des algorithmes de gradient stochastiques 55 3.1 Convergence presque sûre . . . . 55
3.1.1 Approche directe . . . . 55
3.1.2 Approche via le développement de Taylor de la fonction G . . . . 57
3.1.3 Approche Lyapunov . . . . 58
3.1.4 Application au modèle linéaire . . . . 59
3
3.1.5 Application à la régréssion logistique . . . . 60
3.2 Vitesses de convergence presque sûre . . . . 61
3.2.1 Cadre . . . . 61
3.2.2 Vitesses de convergence (gradient borné) . . . . 62
3.2.3 Vitesses de convergence (cas général) . . . . 69
3.2.4 Application au modèle linéaire . . . . 75
3.2.5 Application à la régression logistique . . . . 77
3.2.6 Remarques . . . . 79
4 Accélération des méthodes de gradient stochastiques 81 4.1 Algorithmes de gradient stochastiques moyennés . . . . 81
4.1.1 Vitesse de convergence presque sûre . . . . 82
4.1.2 Normalité asymptotique . . . . 87
4.1.3 Application au modèle linéaire . . . . 89
4.1.4 Application à la régression logistique . . . . 93
4.1.5 Remarques . . . . 97
4.2 Algorithme de Newton stochastique . . . . 97
4.2.1 Idée de l’algorithme de Newton stochastique . . . . 97
4.2.2 L’algorithme de Newton stochastique . . . . 98
4.2.3 Vitesses de convergence . . . 102
4.2.4 Normalité asymptotique . . . 105
4.2.5 Application au modèle linéaire . . . 108
4.2.6 Application à la régression logistique . . . 114
Bibliographie 121
Introduction
1.1 Cadre
Dans ce cours, on s’intéresse à l’estimation du minimiseur m d’une fonction convexe G : R
d−→ R définie pour tout h ∈ R
dpar
G ( h ) : = E [ g ( X, h )]
avec g : X × R
d−→ R, et X un espace mesurable. On peut par exemple considérer X = R ou X = R
d0. Dans ce cours, on se concentrera sur deux catégories de fonctions : fortement convexes et strictement convexes.
1.1.1 Fonctions fortement convexes
Moyenne d’une variable aléatoire : Soit X une variable aléatoire à valeurs dans R
d. On peut voir la moyenne m de X comme le minimiseur de la fonction G définie pour tout h ∈ R
dpar
G ( h ) = 1 2 E h
k X − h k
2− k X k
2i
A noter que le terme k X k
2dans la définition de la fonction G permet de ne pas avoir à faire d’hypothèse sur l’existence du moment d’ordre 2 de X. De plus, on a
∇ G ( h ) = − E [ X − h ]
et donc m = E [ X ] est l’unique zéro du gradient de la fonction G. Enfin, on a
∇
2G ( h ) = I
det la Hessienne est donc définie positive et uniformément minorée sur R
d. Ainsi, la fonction G est fortement convexe et la moyenne m est bien son unique minimiseur.
Régression linéaire : Soit ( X, Y ) un couple de variables aléatoires à valeurs dans X = R
d× R tel
que
Y = θ
TX + e, (1.1)
où θ ∈ R
det e est une variable aléatoire indépendante de X vérifiant E [ e ] = 0. On admet que X et e admettent des moments d’ordre 2 et que la matrice E
XX
Test définie positive. Alors le paramètre θ est l’unique minimum de la fonction G : R
d−→ R
+définie pour tout h ∈ R
dpar
G ( h ) = 1 2 E
Y − h
TX
2.
En effet, comme X et e admettent un moment d’ordre 2, la fonction G est différentiable et
∇ G ( h ) = − E h Y − h
TX X i En particulier, on a
∇ G ( θ ) = − E h Y − θ
TX X i
= − E [ eX ] = − E [ E [ e | X ] X ] = 0.
De plus, comme X admet un moment d’ordre 2, la fonction G est deux fois différentiable et pour tout h ∈ R
d,
∇
2G ( h ) = E h XX
Ti .
Cette matrice étant (supposée) définie positive, la Hessienne est uniformément minorée sur R
det la fonction G est donc fortement convexe, ce qui fait de θ son unique minimiseur.
Remarque 1.1.1. Bien que la matrice XX
Tsoit au plus de rang 1, la matrice E XX
Tpeut être définie po- sitive. En effet, si considère un vecteur aléatoire gaussien Z ∼ N ( 0, I
d) , sa matrice de variance-covariance
E h ZZ
Ti
= Var [ Z ] = I
dest définie positive.
1.1.2 Fonctions strictement convexes
Régression logistique : On considère un couple de variables aléatoires ( X, Y ) à valeurs dans R
d× { 0, 1 } tel que
L( Y | X ) = B π
θ
TX
, (1.2)
avec π ( x ) =
exp(x)1+exp(x)
. On peut voir le paramètre θ comme un minimiseur de la fonction G : R
d−→
R définie pour tout h ∈ R
dpar
G ( h ) = E h log
1 + exp
h
TX
− h
TXY i
.
En effet, si la variable aléatoire X admet un moment d’ordre 2, la fonction G est différentiable et pour tout h ∈ R
d,
∇ G ( h ) = E
"
exp h
TX
1 + exp ( h
TX ) X − XY
#
= E h π
h
TX
X − XY i . En particulier, comme E [ Y | X ] = π θ
TX
, on a
∇ G ( θ ) = E h π
θ
TX
− Y X i
= E h E h π
θ
TX
− Y X | X ii
= E h π
θ
TX
− E [ Y | X ] X i
= 0.
De plus, comme X admet un moment d’ordre 2, la fonction G est deux fois différentiable et
∇
2G ( h ) = E h π
h
TX 1 − π
h
TX XX
Ti
qui est au moins semi-définie positive. On supposera par la suite que la Hessienne en θ est définie positive, et donc que la fonction G est strictement convexe et que θ est son unique minimiseur.
Médiane d’une variable aléatoire : Soit X ∈ R une variable aléatoire et on suppose que sa fonction de répartition est strictement croissante et continue au voisinage de sa médiane notée m. Celle ci est alors le minimiseur de la fonction G : R −→ R définie pour tout h ∈ R par
G ( h ) = E [| X − h |] .
En effet, on rappelle que pour toute variable aléatoire X, grâce au théorème de Fubini-Tonelli, Z
+∞0
P [ Z ≥ t ] dt =
Z
+∞0
E [ 1
Z≥t] dt = E Z
+∞0
1
t≤Zdt
= E Z
Z0
1dt
= E [ Z ] . Ainsi, on peut réécrire, pour tout h ∈ R
G ( h ) =
Z
+∞0
P [| X − h | ≥ t ] dt =
Z
+∞0
P [ X ≥ t + h ] dt +
Z
+∞0
P [ X ≤ h − t ] dt Z
+∞h
( 1 − F ( t )) dt +
Z
h−∞
F ( t ) dt Ainsi on a pour tout h dans un voisinage de m, G
0( h ) = 2F ( h ) − 1 et donc m est bien l’unique
minimiseur de la fonction G. A noter que pour ne pas avoir à faire d’hypothèse sur l’existence du moment d’ordre 1 de | X | , on peut réécrire la fonction G comme
G ( h ) = E [| X − h | − | X |] .
Médiane géométrique : On considère une variable aléatoire X à valeurs dans R
d. La médiane géométrique de X est un minimum de la fonction G : R
d−→ R définie pour tout h ∈ R
dpar
G ( h ) : = E [k X − h k − k X k] ,
où k . k est la norme euclidienne de R
d. A noter que la fonction G est différentiable avec pour tout h ∈ R
d,
∇ G ( h ) = − E
X − h k X − h k
.
Sous certaines hypothèses, la fonction G est deux fois continûment différentiable avec pour tout h ∈ R
d,
∇
2G ( h ) = E
"
1
k X − h k I
d− ( X − h )( X − h )
Tk X − h k
2!#
.
La Hessienne de G est donc au moins semi-définie positive. On supposera par la suite qu’elle est strictement positive en m, et donc que la fonction G est strictement convexe.
1.2 M-estimateurs
1.2.1 Définition et exemples
On rappelle que l’objectif est d’estimer le minimisieur m de la fonction G définie pour tout h ∈ R
dpar
G ( h ) = E [ g ( X, h )] .
Comme on ne sait généralement pas calculer explicitement G (ou son gradient), on ne peut géné- ralement pas calculer (ou approcher) directement la solution. Pour pallier ce problème, on consi- dère maintenant des variables aléatoires indépendantes et identiquement distribuées X
1, . . . , X
n. Une possibilité pour estimer m est alors de considérer la fonction empirique G
ndéfinie pour tout h ∈ R
dpar
G
n( h ) = 1 n
∑
n k=1g ( X
k, h )
A noter que par la loi des grands nombres, si g ( X, h ) admet un moment d’ordre 1 (ce qui est la condition sine qua none pour que la fonction G soit bien définie en h),
G
n( h ) −−−−→
p.sn→+∞
G ( h ) .
Un M-estimateur de m est un minimiseur ˆ m
nde la fonction empirique G
n. A noter que ˆ m
nn’est pas toujours explicite, mais il existe tout de même quelques exemples où on sait le calculer.
Exemple 1 : estimation de la moyenne. Dans le cas de l’estimation de la moyenne, la fonction empirique est définie pour tout h ∈ R
dpar
G
n( h ) = 1 2n
∑
n k=1k X
k− h k
2− k X
kk
2,
et on obtient donc ˆ m
n= X
n. A noter que si X admet un moment d’ordre 2, le TLC nous donne
√ n X
n− m
L−−−−→
n→+∞
N ( 0, Var ( X )) . Remarque 1.2.1. En notant que H : = ∇
2G ( m ) = I
det que
Σ : = E h ∇
hg ( X, m ) ∇
hg ( X, m )
Ti
= E h ( X − m )( X − m )
Ti = Var ( X ) ,
où ∇
hg ( X, h ) est le gradient de g par rapport à la deuxième variable, on peut réécrire le TLC précédent comme
√ n ( m ˆ
n− m ) −−−−→
Ln→+∞
N 0, H
−1Σ H
−1.
Exemple 2 : la régression linéaire. Dans le cas de l’estimation du paramètre de la régression linéaire, on a
G
n( h ) = 1 2n
∑
n k=1X
kTh − Y
k2
.
Si la matrice X = ( X
1, . . . X
n)
Test de rang plein, on rappelle que le minimiseur de la fonction G
nest l’estimateur des moindres carrés est défini par
θ ˆ
n= XX
T−1X
TY
avec Y = ( Y
1, . . . , Y
n)
T.
Remarque 1.2.2. Sous certaines hypothèses, on peut montrer que si la matrice Hessienne H : = E XX
Test définie positive (et donc inversible), on a la normalité asymptotique
√ n θ ˆ
n− θ
L−−−−→
n→+∞
N 0, Var [ e ] H
−1. De plus, en remarquant que
Σ : = E h ∇
hg ( X, θ ) ∇
hg ( X, θ )
Ti = E h Y − X
Tθ
XX
TY − X
Tθ i
= E h e
2XX
Ti
= E h E e
2| X XX
Ti
= Var [ e ] H, on peut réécrire la normalité asymptotique comme
√ n θ ˆ
n− θ
L−−−−→
n→+∞
N 0, H
−1ΣH
−1.
Exemple 3 : médiane d’une variable aléatoire réelle. Dans le cas de l’estimation de la médiane
d’une variable aléatoire X, la fonction empirique s’écrit G
n( h ) = 1
n
∑
n k=1| X
k− h | − | X
k| ,
et on rappelle qu’un minimiseur de G
nest la médiane empirique ˆ m
n= X (d
n2e) .
Cependant, dans une grande majorité des cas tels que l’estimation de la médiane géométrique ou l’estimation des paramètres de la régression logistique, on ne sait pas calculer explicitement le minimum de la fonction G
n. On peut néanmoins utiliser les méthodes d’optimisation déterministes usuelles pour approcher ˆ m
n.
Exemple 1 : la régression logistique. Dans le cadre de la régression logistique, on a G
n( h ) = 1
n
∑
n i=1log
1 + exp h
TX
i− h
TX
iY
i,
et il n’existe pas de solution explicite. Cependant, on peut, par exemple, utiliser un algorithme de gradient pour approcher ˆ m
n. Celui-ci est défini de manière itérative pour tout t ≥ 0 par
m
n,t+1= m
n,t− η
t∇ G
n( m
n,t)
où η
test une suite de pas positifs (cf cours d’optimisation pour plus de précisions).
Exemple 2 : estimation de la médiane géométrique. Dans le cas de la médiane géométrique, la fonction empirique est définie pour tout h ∈ R
dpar
G
n( h ) = 1 n
∑
n k=1k X
k− h k − k X
kk
et un minimiseur de G
nest donc un zéro du gradient de G
n, i.e 0 = − 1
n
∑
n k=1X
k− m ˆ
nk X
k− m ˆ
nk .
Là encore, il n’existe pas de solution explicite, mais on peut réécrire l’égalité précédente comme
ˆ m
n= ∑
nk=1 Xk kXk−mˆnk
∑
nk=1 1 kXk−mˆnket on peut donc approcher ˆ m
nà l’aide d’un algorithme de point fixe, conduisant à l’algorithme itératif suivant (algorithme de Weiszfeld [Wei37])
m
n,t+1= ∑
nk=1 Xk kXk−mn,tk
∑
nk=1 1 kXk−mn,tkRemarque 1.2.3. A noter que l’on peut réécrire l’algorithme de Weiszfeld comme m
n,t+1= m
n,t+ n
∑
nk=1 1 kXk−mn,tk1 n
∑
n k=1X
k− m
n,tk X
k− m
n,tk = m
n,t− n
∑
nk=1 1 kXk−mn,tk∇ G
n( m
n,t)
et l’on peut donc voir l’algorithme de Weiszfeld comme un algorithme de gradient avec η
t= n
∑
nk=1 1 kXk−mn,tk.
1.2.2 Un résultat de convergence
Le théorème suivant généralise les résultats donnés dans les remarques 1.2.1 et 1.2.2. A noter que les hypothèses présentées ne sont pas minimales mais rendent la preuve accessible.
Théorème 1.2.1. On suppose que les hypothèses suivantes sont vérifiées :
• m ˆ
nconverge en probabilité vers m.
• Pour presque tout x, la fonction g ( x, . ) est deux fois continûment différentiable.
• Pour presque tout x, la Hessienne ∇
2hg ( x, . ) est L ( x ) -lipschitz, i.e pour tout h, h
0∈ R
d,
∇
2hg ( x, h ) − ∇
2hg x, h
0 op≤ L ( x ) h − h
0où k . k
opest la norme spectrale.
• L ( X ) et ∇
2hg ( X, m ) admettent des moments d’ordre 1.
• La Hessienne de G en m est inversible.
Alors
√ n ( m ˆ
n− m ) −−−−→
Ln→+∞
N 0, H
−1ΣH
−1avec
H = ∇
2G ( m ) et Σ = E h ∇
hg ( X, m ) ∇
hg ( X, m )
Ti . Démonstration. Comme ˆ m
nest un minimiseur local de G
n, on a
0 = 1 n
∑
n k=1∇
hg ( X
k, ˆ m
n) .
Comme pour presque tout x, la fonction g ( x, . ) est deux fois continûment différentiable, à l’aide d’un développement de Taylor, on a presque sûrement
0 = 1 n
∑
n k=1∇
hg ( X
k, ˆ m
n) − 1 n
∑
n k=1∇
hg ( X
k, m ) + 1 n
∑
n k=1∇
hg ( X
k, m )
= 1 n
∑
n k=1∇
hg ( X
k, m ) + 1 n
∑
n k=1Z
10
∇
2hg ( X
k, m + t ( m ˆ
n− m )) ( m ˆ
n− m ) dt
On peut donc réécrire l’égalité précédente comme
− 1 n
∑
n k=1∇
hg ( X
k, m ) = H
n( m ˆ
n− m ) avec
H
n= 1 n
∑
n k=1Z
10
∇
2hg ( X
k, m + t ( m ˆ
n− m )) ( m ˆ
n− m ) dt
= 1 n
∑
n k=1∇
2hg ( X
k, m ) +
Z
10
∇
2hg ( X
k, m + t ( m ˆ
n− m )) − ∇
2hg ( X
k, m ) dt
Comme ∇
hg ( X, m ) admet un moment d’ordre 2 et comme E [∇
hg ( X, m )] = ∇ G ( m ) = 0, on obtient à l’aide d’un TLC
√ 1 n
∑
n k=1∇
hg ( X
k, m ) −−−−→
Ln→+∞
N ( 0, Σ ) avec Σ : = Var [∇
hg ( X, h )] = E h ∇
hg ( X
k, m ) ∇
hg ( X
k, m )
Ti , et donc
√ nH
n( m ˆ
n− m ) −−−−→
Ln→+∞
N ( 0, Σ ) . De plus, comme ˆ m
nconverge en probabilité vers m, on a
1 n
∑
n k=1Z
10
∇
2hg ( X
k, m + t ( m ˆ
n− m )) − ∇
2hg ( X
k, m ) dt
op≤ 1 n
∑
n k=1Z
10
∇
2hg ( X
k, m + t ( m ˆ
n− m )) − ∇
2hg ( X
k, m )
op
dt ≤ 1
2 k m ˆ
n− m k 1 n
∑
n k=1L ( X
k) −−−−→
Pn→+∞
0.
De plus, par la loi des grands nombres, 1 n
∑
n k=1∇
2hg ( X
k, m ) −−−−→
Pn→+∞
∇
2G ( m ) ,
et donc H
nconverge en probabilité vers H = ∇
2G ( m ) . Comme H est positive, l’application M 7−→
M
−1est continue en H, et par continuité, H
−n1converge en probabilité vers H
−1(même si H
n−1n’est pas nécessairement définie). Ainsi, par le lemme de Slutsky,
√ n ( m ˆ
n− m ) −−−−→
Ln→+∞
N 0, H
−1ΣH
−1.
Ainsi, sous une certaine forme de régularité du modèle, on a une certaine forme d’efficacité asymp-
totique, i.e un résultat optimal "bornant" les résultats possibles pour les estimateurs. De plus,
lorsque l’on ne sait pas calculer explicitement ˆ m
net que l’on doit donc l’approcher via m
n,t, si
m
n,tconverge vers ˆ m
n, on obtient la convergence en loi
n→+
lim
∞lim
t→+∞
√ n ( m
n,t− m ) = N 0, H
−1ΣH
−1Ainsi les méthodes itératives sont particulièrement efficaces, mais sous une certaine forme de ré- gularité du modèle, on ne pourra pas avoir de meilleurs résultats que la normalité asymptotique, problème que l’on rencontrera quel que soit le type d’estimateur choisi. Cependant, pour les mé- thodes itératives, un gros problème peut être rencontré si l’on doit traiter des données en ligne : si on a déjà traité 1000 données (avec le temps de calcul que cela implique), que devons-nous faire si 1000 nouvelles données arrivent ? Une option serait de tout reprendre depuis le début, ce qui nécessite fatalement plus de calculs. S’intéresser aux estimateurs en ligne permet entre autre de régler ce problème.
1.3 Estimation en ligne
Dans ce qui suit, on considère des variables aléatoires X
1, . . . , X
n, X
n+1, . . . arrivant de manière sé- quentielle. L’objectif est de mettre en place des algorithmes permettant de mettre facilement à jours les estimateurs. Un exemple simple est celui de la moyenne. Considérant que l’on a calculé X
net qu’une nouvelle donnée arrive. Comment obtenir X
n+1en faisant le moins de calculs possibles ? Une version brutale serait de repasser sur toutes les données afin de calculer X
n+1, ce qui repré- senterait O (( n + 1 ) d ) nouvelles opérations. Une version plus subtile est de calculer X
n+1comme suit :
X
n+1= X
n+ 1
n + 1 X
n+1− X
n,
ce qui, quand n est grand, représente bien évidemment beaucoup moins de calculs (O ( d ) ). Pour l’estimateur de la variance S
2n, il faut se casser un peu plus la tête. Il faut d’abord remarquer que celui-ci peut s’écrire
S
2n= n
n − 1 Σ
2n− n
n − 1 X
nX
Tnet Σ
2n= 1 n
∑
n k=1X
kX
kTAinsi, on peut construire S
2nde manière récursive comme suit X
n+1= X
n+ 1
n + 1 X
n+1− X
nΣ
2n+1= Σ
2n+ 1
n + 1
X
n+1X
nT+1− Σ
2nS
2n+1= n + 1
n Σ
n+1− n + 1
n X
n+1X
nT+1.
A noter qu’en plus du fait que le temps de calcul pour mettre à jours les estimateurs est réduit, l’estimation en ligne permet de ne pas avoir à garder en mémoire toutes les données, i.e on peut
"jeter" les données dès qu’elles ont été traitées, ce qui peut permettre de réduire les coûts en terme
de mémoire. Même si dans de nombreux cas, il n’est pas possible ou évident de construire des estimateurs en ligne, dans le cas de la minimisation de la fonction G, on peut souvent construire ce type d’estimateurs à l’aide d’algorithmes de gradient stochastiques.
1.4 Algorithmes de gradient stochastiques
On rappelle que l’on s’intéresse à l’estimation du minimiseur de la fonction G : R
d−→ R définie pour tout h ∈ R
dpar
G ( h ) = E [ g ( X, h )] .
et on considère des variables aléatoires indépendantes et identiquement distribuées X
1, . . . , X
n, X
n+1, . . . arrivant de manière séquentielle. On rappelle qu’un algorithme de gradient pour approcher m au- rait été de la forme
m
t+1= m
t− η
t∇ G ( m
t) .
Cependant, ici, on n’a pas accès au gradient de G (car sous forme d’espérance). Pour régler ce problème, on a vu précédemment que l’on peut remplacer ∇ G par le gradient de la fonction em- pirique, ce qui représente O ( nd ) opérations à chaque itération, et en notant T ce nombres d’itéra- tions, on arrive donc à O ( ndT ) opérations. De plus, on a vu que ces méthodes ne permettent pas de traiter les données en ligne. Pour pallier ces problèmes, on s’intéresse à l’algorithme de gradient stochastique, qui permet de traiter les données en lignes, et ce, avec seulement O ( nd ) opérations.
1.4.1 Algorithmes de gradient stochastiques
L’algorithme de gradient stochastique, introduit par [RM51], est défini de manière récursive pour tout n ≥ 0 par
m
n+1= m
n− γ
n+1∇
hg ( X
n+1, m
n) avec m
0borné et ( γ
n) est une suite de pas positifs vérifiant
n
∑
≥1γ
n= + ∞ et ∑
n≥1
γ
2n< + ∞. (1.3)
A noter que l’on peut réécrire l’algorithme de gradient stochastique comme
m
n+1= m
n− γ
n+1∇ G ( m
n) + γ
n+1ξ
n+1(1.4) avec ξ
n+1= ∇ G ( m
n) − ∇
hg ( X
n+1, m
n) . De plus, en considérant la filtration (notion que l’on dé- finira par la suite) (F
n) engendrée par l’échantillon, i.e F
n= σ ( X
1, . . . , X
n) , ( ξ
n+1) est une suite de différences de martingale adaptée à la filtration (F
n) , i.e comme m
nest F
n-mesurable, et par indépendance,
E [ ξ
n+1|F
n] = ∇ G ( m
n) − E [∇
hg ( X
n+1, m
m) |F
n] = 0.
On peut donc voir l’algorithme comme un algorithme de gradient bruité (par γ
n+1ξ
n+1).
Exemple 1 : la régression linéaire. On se place dans le cadre de la régression linéaire et on consi- dère des couples de variables aléatoires i.i.d ( X
1, Y
1) , . . . , ( X
n, Y
n) , ( X
n+1, Y
n+1) , . . . à valeurs dans R
d× R. L’algorithme de gradient stochastique est alors défini récursivement pour tout n ≥ 0 par
θ
n+1= θ
n+ γ
n+1Y
n+1− θ
TnX
n+1X
n+1. (1.5)
Exemple 2 : la régression logistique. On se place dans le cadre de la régression logistique et on considère des couples de variables aléatoires i.i.d ( X
1, Y
1) , . . . , ( X
n, Y
n) , ( X
n+1, Y
n+1) , . . . à valeurs dans R
d× { 0, 1 } . L’algorithme de gradient stochastique est alors défini de manière récursive pour tout n ≥ 0 par
θ
n+1= θ
n− γ
n+1π
θ
TnX
n+1− Y
n+1X
n+1(1.6)
avec π ( x ) =
1+expexp(x()x).
Exemples 3 : la médiane géométrique. On considère des variables aléatoires i.i.d X
1, . . . , X
n, X
n+1, . . . à valeurs dans R
d. L’algorithme de gradient stochastique est défini de manière récursive pour tout n ≥ 0 par
m
n+1= m
n+ γ
n+1X
n+1− m
nk X
n+1− m
nk . 1.4.2 Approche non-asymptotique
On suppose à partir de maintenant que la suite de pas γ
nest de la forme γ
n= c
γn
−αavec c
γ> 0 et α ∈ ( 1/2, 1 ) . On voit bien que cette suite de pas vérifie la condition (1.3). Le théorème suivant nous donne la vitesse de convergence en moyenne quadratique des estimateurs obtenus à l’aide de l’algorithme de gradient stochastique dans le cas où la fonction G est fortement convexe.
Théorème 1.4.1. On suppose que les hypothèses suivantes sont vérifiées : 1. Il existe un minimiseur m de la fonction G.
2. La fonction G est µ-fortement convexe : pour tout h ∈ R
d,
h∇ G ( h ) , h − m i ≥ µ k h − m k
2. De plus, on suppose que l’hypothèse suivante est vérifiée :
(PS0) Il existe une constante positive C telle que pour tout h ∈ R
d, E h
k∇
hg ( X, h )k
2i ≤ C
1 + k h − m k
2Alors pour tout n ≥ 1,
E h
k m
n− m k
2i ≤ 2 exp
C
0c
2γ1 − n
1−2α2α − 1
exp
− µc
γ4 n
1−αE h
k m
0− m k
2i + 1
+ 2c
γC
µn
αoù C
0= max
C, 2µ
2.
En d’autres termes, les estimateurs convergent en moyenne quadratique à la vitesse
n1α. Démonstration. On a
k m
n+1− m k
2= k m
n− m k
2− 2γ
n+1h∇
hg ( X
n+1, m
n) , m
n− m i + γ
n2+1k∇
hg ( X
n+1, m
n)k
2. En passant à l’espérance conditionnelle et par linéarité, on obtient donc, comme m
nest F
n-mesurable, E h
k m
n+1− m k
2|F
ni = k m
n− m k
2− 2γ
n+1h E [∇
hg ( X
n+1, m
n) |F
n] , m
n− m i + γ
2n+1E h
k∇
hg ( X
n+1, m
n)k
2|F
ni
≤ k m
n− m k
2− 2γ
n+1h∇ G ( m
n) , m
n− m i + γ
2n+1E h
k∇
hg ( X
n+1, m
n)k
2|F
ni Grâce à l’hypothèse (PS0), il vient
E h
k m
n+1− m k
2|F
ni ≤ 1 + Cγ
2n+1k m
n− m k
2− 2γ
n+1h∇ G ( m
n) , m
n− m i + Cγ
2n+1. Par forte convexité, on obtient donc
E h
k m
n+1− m k
2|F
ni ≤ 1 − 2µγ
n+1+ Cγ
2n+1k m
n− m k
2+ Cγ
2n+1. En passant à l’espérance, on a
E h
k m
n+1− m k
2i ≤ 1 − 2µγ
n+1+ Cγ
2n+1E h
k m
n− m k
2i + Cγ
2n+1. Afin de conclure, on introduit le lemme suivant [BM13] :
Lemma 1.4.1. Soit ( δ
n) une suite positive vérifiant
δ
n+1≤ 1 − 2µγ
n+1+ 2L
2γ
2n+1δ
n+ 2σ
2γ
2n+1avec γ
n= c
γn
−α, c
γ, L ≥ µ > 0, σ
2≥ 0 et α ∈ ( 1/2, 1 ) . Alors pour tout n ≥ 1,
δ
n≤ 2 exp
− µ 4 n
1−αexp
2L
2c
2γ1 − n
1−2α2α − 1 δ
0+ σ
2
L
2+ 4c
γσ
2
µn
αEn prenant C
0= max
C, 2µ
2, on obtient √
C
0/2 ≥ µ et E h
k m
n+1− m k
2i ≤ 1 − 2µγ
n+1+ C
0γ
2n+1E h
k m
n− m k
2i + Cγ
2n+1. Les hypothèses du lemme sont donc vérifiées.
Preuve du Lemme 1.4.1. Comme γ
nest une suite croissante, il existe un rang n
0tel que pour tout
n > n
0, 2L
2γ
n+1≤ µ. De plus, par récurrence, on a
δ
n≤
∏
n j=11 − 2µγ
j+ 2L
2γ
2jδ
0+
n−1 k
∑
=0∏
n j=k+21 − 2µγ
j+ 2L
2γ
2j2σ
2γ
2k+1| {z }
=:Rn
. (1.7)
avec pour tout n ≥ 0, ∏
nk=n+1= 1. En effet, cette inégalité est vérifiée pour n = 0 et on a par récurrence
δ
n+1≤ 1 − 2µγ
n+1+ 2L
2γ
2n+1δ
n+ 2σ
2γ
n2+1≤ 1 − 2µγ
n+1+ 2L
2γ
2n+1 n∏
j=11 − 2µγ
j+ 2L
2γ
2jδ
0+
n−1 k
∑
=0∏
n j=k+21 − 2µγ
j+ 2L
2γ
2j2σ
2γ
2k+1!
+ 2σ
2γ
2n+1≤
n+1
∏
j=11 − 2µγ
j+ 2L
2γ
2jδ
0+
n−1 k
∑
=0n+1 j=
∏
k+21 − 2µγ
j+ 2L
2γ
2j2σ
2γ
2k+1+ 2σ
2γ
2n+1=
n+1
∏
j=11 − 2µγ
j+ 2L
2γ
2jδ
0+
∑
n k=0n+1 j=
∏
k+21 − 2µγ
j+ 2L
2γ
2j2σ
2γ
2k+1Comme pour tout x ∈ R, 1 + x ≤ exp ( x ) , on a pour tout 0 ≤ k ≤ n − 1,
∏
n j=k+21 − 2µγ
j+ 2L
2γ
2j≤
∏
n j=k+2exp
− 2µγ
j+ 2L
2γ
2j= exp − 2µ
∑
n j=k+2γ
j+ 2L
2∑
n j=k+2γ
2j! , et en particulier
∏
n j=11 − 2µγ
j+ 2L
2γ
2jδ
0≤ exp − 2µ
∑
n j=1γ
j+ 2L
2∑
n j=1γ
2j!
δ
0≤ exp − µ
∑
n j=1γ
j+ 4L
2∑
n j=1γ
2j! δ
0De plus, on a R
n≤ 2σ
2n0−2 k
∑
=0∏
n j=k+21 − 2µγ
j+ 2L
2γ
2jγ
2k+1| {z }
=:R1,n0
+ 2σ
2n−1 k=
∑
n0−1∏
n j=k+21 − 2µγ
j+ 2L
2γ
2jγ
2k+1| {z }
=:R02,n
De plus, comme pour tout k > n
0⇔ µγ
k≥ 2L
2γ
2k, on a R
1,n0≤
n0−2 k
∑
=0n0−1 j=
∏
k+21 + 2L
2γ
2jγ
2k+1∏
n j=n01 − µγ
jγ
2k+1≤
∏
n j=n01 − µγ
jn0−2 k
∑
=0n0−1 j=
∏
k+21 + 2L
2γ
2jγ
2k+1≤ e
−µ∑nj=n0γjn0−2 k
∑
=0n0−1 j=
∏
k+21 + 2L
2γ
2jγ
2k+1De plus, comme
n0−1 j=
∏
k+11 + 2L
2γ
2j−
n0−1 j=
∏
k+21 + 2L
2γ
2j=
n0−1 j=
∏
k+21 + 2L
2γ
2j1 + 2L
2γ
2k+1− 1
=
n0−1 j=
∏
k+21 + 2L
2γ
2j2L
2γ
2k+1et comme γ
k+2≤ γ
k+1, on obtient
R
01,n≤ e
−µ∑nj=n0γjn0−2 k
∑
=01 2L
2n0−1 j=
∏
k+11 + 2L
2γ
2j−
n0−1 j=
∏
k+21 + 2L
2γ
2j!
= 1
2L
2e
−µ∑nj=n0γjn0−1
∏
j=11 + 2L
2γ
2j− 1
!
≤ 1
2L
2e
−µ∑nj=n0γj+2L2∑n0−1 j=1 γ2j
.
De plus, comme j ≥ k + 2 ≥ n
0, µγ
j≤ 1 et on a pour tout entier n
0≤ k
0≤ n − 1, R
02,n≤
n−1 k=
∑
n0−1∏
n j=k+21 − µγ
jγ
2k+1≤
k0−1 k=
∑
n0−1∏
n j=k+21 − µγ
jγ
2k+1| {z }
=:R01,n
+
n−1 k
∑
=k0∏
n j=k+21 − µγ
jγ
2k+1| {z }
=R002,n
.
On a donc, comme 1 + x ≤ exp ( x ) , R
001,n≤
∏
n j=k0+11 − µγ
jk0−1 k
∑
=n0γ
2k+1≤ exp − µ
∑
n j=k0+1γ
j!
k0−1 k∑
=n0γ
2k+1. De plus, on remarque que
∏
n j=k+21 − µγ
j−
∏
n j=k+11 − µγ
j=
∏
n j=k+21 − µγ
j( 1 − ( 1 − µγ
k+1)) = µγ
k+1∏
n j=k+21 − µγ
j. Ainsi, on a
R
002,n≤ max
k0≤k≤n−1
γ
k+1 n−1 k∑
=k0∏
n j=k+21 − µγ
jγ
k+1= 1 µ max
k0≤k≤n−1
γ
k+1 n−1 k∑
=k0∏
n j=k+21 − µγ
j−
∏
n j=k+11 − µγ
j= 1 µ max
k0≤k≤n−1
γ
k+11 −
∏
n j=k0+21 − µγ
j!
≤ 1 µ max
k0≤k≤n−1
γ
k+1(1.8)
Ainsi, on a pour tout k
0≥ n
0, R
n2σ
2≤ 1
2L
2e
−µ∑nj=n0γj+2L2∑n0−1
j=1 γ2j
+ e
−µ∑nj=k0+1γjk0−1 k
∑
=n0γ
2k+1+ 1 µ min
k0≤k≤n−1
γ
k+1≤ 1
2L
2e
−µ∑nj=1γj+2L2∑nj=1γ2j+ e
−µ∑nj=k0γjk0−1 k=
∑
n0−1γ
2k+1+ 1 µ max
k0≤k≤n−1
γ
k+1On a donc
δ
n≤ e
−µ∑nj=1γj+2L2∑nj=1γ2jδ
0+ σ
2
L
2+ 2σ
2e
−µ∑nj=k0+1γjk0−1 k
∑
=n0γ
2k+1+ 2σ
2
µ max
k0≤k≤n−1
γ
k+1(1.9) A noter que grâce à une comparaison série intégrale, on a
∑
n j=1γ
2j≤ c
2γ+
Z
n+11
c
2γt
−2α== c
2γ+ c
2 γ
2α − 1
1 − ( n + 1 )
1−2α≤ c
2γ2α 2α − 1 . De plus, en prenant k
0= n/2, on obtient
∑
n j=n/2γ
j≥ c
γ∑
n j=n/2( n/2 )
−α≥ 1 4 n
1−α. et on a donc
2σ
2e
−µ∑nj=n/2γjn/2−1 k=
∑
n0−1γ
2j+1≤ σ
2
L
2e
−µ∑nj=n/2γje
2L2∑nk=−01γ2j+1≤ σ
2
L
2e
−µ4n1−αe
2L2c2γ2α2α−1et on obtient donc
δ
n≤ 2e
−µ4n1−αe
2L2c2γ2α2α−1δ
0+ σ
2
L
2+ 4c
γσ
2
µn
αAfin de simplifier les preuves par la suite, on donne maintenant une proposition que l’on peut voir comme une généralisation du lemme précédent.
Proposition 1.4.1. Soit δ
n, γ
ndeux suites positives telles que
• γ
n= c
γn
−αavec c
γ> 0 et α ∈ ( 1/2, 1 ) .
• Il existe un rang n
0, une constante c
0∈ 0, γ
n−01et une suite positive v
ntelle que pour tout n ≥ n
0,
δ
n+1≤ ( 1 − c
0γ
n+1) δ
n+ γ
n+1v
n+1.
Alors pour tout n ≥ 2n
0,
δ
n≤ exp
− c
0c
γ4 n
1−αδ
n0+
n/2−1 k
∑
=n0γ
k+1v
k+1!
+ max
n/2≤k+1≤n−1
v
k+1En paritculier, si v
n= C
v( ln n )
βn
vavec β ≥ 0 et v ∈ R, alors δ
n= O ( v
n) .
Démonstration. De manière analogue à la preuve du Lemme 1.4.1, on a
δ
n≤
∏
n j=n0+11 − c
0γ
jδ
n0| {z }
=:R1,n
+
n−1 k
∑
=n0∏
n j=k+21 − c
0γ
jγ
k+1v
k+1| {z }
=:R2,n
.
Avec des calculs analogues à ceux de l’inégalité (1.8), on a que pour tout k
0≥ n
0+ 1, R
2,n=
k0−1 k
∑
=n0∏
n j=k+21 − c
0γ
jγ
k+1v
k+1+
n−1 k
∑
=k0∏
n j=k+21 − c
0γ
jγ
k+1v
k+1≤ exp − c
0∑
n j=k0+1γ
j!
k0−1 k∑
=n0γ
k+1v
k+1+ 1
c
0max
k0≤k≤n−1
v
k+1.
Ainsi en prenant k
0= n/2, et avec des calculs analogues à ceux de la fin de la preuve du lemme 1.4.1, on obtient
δ
n≤
∏
n j=n0+11 − c
0γ
jδ
n0+ exp − c
0 n/2∑
j=1
γ
j!
k0−1 k∑
=0γ
k+1v
k+1+ max
n/2≤k+1≤n−1
v
k+1≤ exp
− c
0c
γ4 n
1−αδ
n0+
n/2−1 k
∑
=0γ
k+1v
k+1!
+ max
n/2≤k≤n−1
v
k+1.
De plus, si v
k= C
v( ln k )
βk
vavec v ∈ R. Alors, à l’aide d’une comparaison série intégrale, on a
n/2−1 k
∑
=0γ
k+1v
k+1≤ C
vc
γ( ln n )
βZ
n/21
t
v−αdt =
Cvcγ
1−α+v
( ln n )
βn
1−α+vsi 1 + v > α C
vc
γ( ln n )
1+βsi 1 + v = α C
vc
γ α−vα−1−v
( ln n )
βsinon De même, on a
n/2
max
≤k≤n−1v
k=
( C
vc
γ( ln n )
βn
vsi v ≥ 0
C
vc
γ2
−v( ln n )
βn
vsinon
ce qui conclut la preuve.
1.4.3 Exemple : regression lineaire
On se place dans le cadre du modèle linéaire défini par (1.1) et on rappelle que sous certaines hypothèses, θ est l’unique minimiseur de la fonction G : R
d−→ R
+définie pour tout h ∈ R
dpar
G ( h ) = 1 2 E
Y − X
Th
2.
Théorème 1.4.2. On suppose que e admet un moment d’ordre 2 et que X admet un moment d’ordre 4. De plus, on suppose que la matrice E
XX
Test définie positive et on note µ sa plus petite valeur propre. La suite d’estimateurs du gradient ( θ
n) définie par (1.5) vérifie pour tout n ≥ 0,
E h
k θ
n− θ k
2i ≤ 2 exp
Cc
2γ1 − n
2α−12α − 1
exp
− µc
γ4 n
1−αE h
k m
0− m k
2i + 1
+ 2c
γC µn
αavec C = max n
2E h
k e k
2i E h k X k
2i , 2E h k X k
4io .
Démonstration. Il suffit de vérifier que les hypothèses du théorème 1.4.1 sont vérifiées. On a vu
∇ G ( θ ) = 0 et que pour tout h ∈ R
d∇
2G ( h ) = E h XX
Ti . Comme E
XX
Test positive, la fonction G est fortement convexe et θ est donc l’unique minimi- seur de G. Comme ∇ G ( θ ) = 0, à l’aide d’un développement de Taylor du gradient, on a pour tout h ∈ R
d,
∇ G ( h ) =
Z
10