DE L ’U NIVERSITÉ DE C LERMONT -F ERRAND 2 Série Mathématiques
J. B. H IRIART -U RRUTY
Optimisation stochastique : méthodes de descente
Annales scientifiques de l’Université de Clermont-Ferrand 2, tome 58, série Mathéma- tiques, n
o12 (1976), p. 110-131
<http://www.numdam.org/item?id=ASCFM_1976__58_12_110_0>
© Université de Clermont-Ferrand 2, 1976, tous droits réservés.
L’accès aux archives de la revue « Annales scientifiques de l’Université de Clermont- Ferrand 2 » implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
OPTIMISATION
STOCHASTIQUE : méthodes
de descente J.B. HIRIART-URRUTY , Université de Clermont-FerrandRésumé
On
développe
une versionstochastique
des méthodes de descente enoptimi-
sation. La théorie desmultiapplications permet
dans le cas déterministe dedémontrer
la convergence des méthodes detype
descente~2~
CH IV). Pourles méthodes
stochastiques,
on se servira de ce même formalisme pour obtenir des théorèmes de convergence.Introduction
Le
problème
est celui de la minimisation d’une fonction f sur un ensembleC ;
on ne sait pas calculer f parce que parexemple
sa formeanalytique
est inconnue. Pour tout x E C, on n’a seulement accès à desobservations bruitées
soit de f (x) soit de f’
(x).
Lesalgorithmes
construitsgénèrent
des variablesaléatoires X n
et ils’agit
de prouver que des sous-suites de{x
nconver-
gent
vers despoints
stationnaires de f.Dans ce
qui
suit, le domaine des contraintes C est fixé et connu, c’est-à- dire que si C se met sous la formefx
/f i (x)
0 i = 1, ... ,ml,
lesfonctions
fi
sontsupposées
certaines.Pour la construction de
l’algorithme
de descente, onopère
de lafaçon
suivante : supposons que l’on aitcalculé
les np remiers
itérés : ...,Xn ;
r
il
s’agit
àprésent
de choisir une nouvelle direction dn
mais il faut que ce soit
une "direction de descente stochastique "
dans un sens à définir. Le nouvelitéré doit être
pris
dans la directiond n
tout en restant dans C et il faut que legain acquis
enpassant
deXn
àX
soit suffisammentgrand
pourassurer une convergence. En
particulier
il n’est pasquestion
de calculer exac- tement lepoint qui
minimise f dans cette directioncompte
tenu du fait que les observations de f sont bruitées.Le
problème général
C étant un convexe fermé de [Rn]
soit
f :n
+[R
une fonction finie et continue relativement à C en toutpoint
de C,inf-o acte
C(c’est-à-dire
quei x 6
C/
f(x) ~ XI
estcompact
pour toutX) . Considérons
leproblème d’optimisation ;
1(1’) ut
CC
=Inf {f ~~ / x r C }
Posons
f~ -
Infff (x) / x
f-CI
on suppose que 1
Vx~ y e-
C(f’ (x i d) désignant
la
dérivée
directionnelle de f en x dans la directiond).
L’inf-compacité
de f sur Centraîne que
l’ensemble M des solutions det!P)
n’eat pas
vide.
Une conditionnécessaire
pour M est quex sait
unpoint
i
Cette
condition est unparticulier
suffisantelorsque f
aetpeeudo-oonvexe
eurC. Désignons
par F l’ensemble despointes stationnaires.
Procédure
A.Auelender)
Soit D une
multiapplication
de C Gr(0) désigne
songraphe
dansC
considérons a
s Gr définie par ; sest une famille de
multiapplications
de Gr(0)
dans IR. A toutcouple (D,
on faitcorrespondre
laméthode d’optimi8ation 8uivante.
Partant d’un
élément x 1
1 ’ E C , on construit la suiteixn1
de C de lafaçon
sui-n
vante ;
On voit que D
désigne
lamultiapplication
desdirections de déplacement
possibles
tandis queTn permet
d’obtenir lamultiapplication
despoints de
déplacement
sur ces directions.Suivant
qu’il s’agit
d’unproblème d’optimisation
sans contraintes ou avec contraintes, l’ensemble des directions D (x )possibles
àpartir’de
xn’ . n
est connu ou est l’ensemble des
solutions
d’un programme (linéaire parexemple).
Les
types
de choix deTn
pour construire conduiront à des méthodes et à des théorèmesdifférents.
Procédure stochastique.
Dans le cas
stochastique
on n’aura que des évaluationsstochastiques
des directions ou bien à des solutions desous-problèmes
00 les données(fonctions, gradients)
sontbruitées.
D’autrepart,
pour lespoints
dedéplacement
sur ladirection
choisie,
il estpréférable
deprendre
des passimples
ou faciles àcalculer comme par
exemple :
n
neddpend pas de Cx,
a» nedépend
quede
n :sont deux suites de réels
positifs.
Dans la
première
familled’algorithmes étudiée
(ALG1 ) ,
onconsidérera
cechoix des
T .n
I - ALG fl
I.1. Dans ce
paragraphe,
on suppose que C estborné,
f estG-dérivable
sur C (c’est-à-dire dérivable au sens deGâteaux), f’ continue
sur C relativement à C.THEOREME 1
Sous les
hypothèses suivantes :
a) hypothèses rezatives
àla multiapplication
Dl ~~~
D est urcemuztiapplication bornée (i. e. trans forme
lesbornée
enbornée)
D est une
multiplication fermée
en x pour toutx
Fr
b) hypothèses
sur lechoix de Za directïon d n
nSoient
X 2’
...,X n
Zes np remiers itérés stochastiques
...,JL 2 n n 1 n-1
Zes
n-1directions Appelons Bn
1
Za tribu engendrée
parn 1
{(xi)ie1,n> t (dri)i e1.n -7>t 3
le problème estde
uneE ,
};
Zeproblème
estde choisir
unenouvelle direction a!ù
est
p. s.
et > est est uneunevariable aléatoire tene que i x 2 E
nc) hypothèses
surles
pasde descente :
-
co
pans ces
conditions,
presque ilexiste
unesous-suite
delx
n(w) 1
qui
converge vers unpoint de
F.Remarques
sur les différenteshypothèses
a) Les
hypothèses
relatives à D sont faites, comme dans le casdéterministe,
pour assurer que :> ~ 0, alors x E F.
n n n n
r
b) Les
hypothèses
surd n
sont faites pourexprimer
que :r
En moyenne
conditionnelle,
dn est une direction de descente,moyennant
unn
, r
terme résiduel n dû aux effets du bruit dans la recherche de d .
n n
Le fait que
d’
soit une"direction de descente stochastique"
estprécisé
n .
. par
l’hypothèse (D) qui
reliedr
à un élément d de D ( X ) .2 n n n
c) Le choix du pas de descente a
l’avantage
d’êtresimple
et de ne pas nécessiter de calculs. Leshypothèses expriment
que le pas doit étre suffisammentgrand
pour avoir une amélioration sensible dans la direction donnée et
qu’il
doittendre vers 0 pour obtenir une convergence. Pour que, à
partir
d’un certainr
rang ce soit effectivement un T
(X ,
d)qui
soitutilisée
nousn n n n
sommes
amenés
à fairel’hypothèse (0
3 : pour les choix ded
que nousn
explorerons,
cettehypothèse
sera facile à vérifier.Remarquons
que sir
d = 0 pour w ~ n, alors X
(w) =
X(w)
pour w .n ’ o n+1 n o
Démonstration
f étant G-dérivable de G-dérivée
f’ ,
on a ledéveloppement
suivant :ou
X-
est un élément dusegment
Appelons dn l’expression ,
» de
même, puisque
f’ est continue, f’ f’( Xn)
1 est borné p.s. et converge vers 0n n
p.s. Il s’en suit que :
Dans
l’égalité (1),
prenonsl’espérance
conditionnelle parrapport
à latribu(
D’après l’hypothèse (~1)’
nous avonsl’inégalité :
2013 ~
De
plus, lf e
> 0 nous avons :_n
D’après l’hypothèse
. 2 il existe d C 0 n n(X ) tel que, pour n ; N (E)Il découle ainsi de la relation (3) :
à
partir
d’un certain rangEn sommant à
partir
d’un certain rangn
1 = Max(n 0,
o N (e))La
premier
membre de cetteinégalité
étant borné uniformément en n, on endéduit que :
Comme la série de terme
général X
estdivergente
et que E (6 ) ~ 0 , ilm m
s’en suit que :
D’après
cequi précède,
pour tout entier k, ilexiste nk
tel que :1
d’après
le lemme de Borel-CantelliC étant
borné,
D (C) est un borné(puisque
D est unemultiapplication
bornée){X
k
(w)] ook=1
est une suitebornée,
de même{dn k (w)}ook=1; d’après
la relation(5)..
n.
k=1n.
k=1p.s. il existe une sous suite (w)) telle que :
Si X (w)
~ F , d
iwi C D(X (00)) (puisque
D est unemultiapplication
ferméeen xeF).
On aurait alors .:
f’
(-7X lw)
> ~ 0 d’où la contradiction.Ainsi,
avec uneprobabilité 1,
il existe une sous-suite de~X n qui
converge vers un
point
de F.Concernant la convergence de la suite de variables aléatoires
{f
nous avons le résultat suivant :
THEOREME 1 bis
tes
hypothèses du théorème précédent,
supposons que :f’
estH8ZdAPienne d’ordre
p > 0 surC, c’est-à-dire
que :e t
que
Dans ces
condi tions f (X )
converge p. s. vers unevariable aZéatoire foo
àn
valeurs
dans f (F).
Side plus
F =M, f - r
p.8, et p. s. toutevaleur
d’adhérence dé f X (w) 1
est unesolution du problème (C) -
n
Démonstration
D’après l’inégalité
(2) de la démonstration du théorème 1, nousavons :
Par suite
-mesurable, bornée
ïnférieurement. 1
est"presque
11
une
surmartingale
et commeil est
classique
alors que f (X ) converge vers une variable aléatoire fn 0153
avec une
probabilité
1.D’après
le théorème1,
il est facile de voir queLw)
Efjfj
p.s.Supposons
maintenant que F = M. On a vu que p.s. il existeune sous-suite de
~X
nqui
converge vers unpoint
X (00) de F,donc de M.
f
étant
continue, fPpr
suite :Soit X
une valeur d’adhérence de la suite(w)l. Appelons (a))}
une sous-suite de
fx
n(w) 1 qui
convergevers rX (00). Supposons que X (00) e M ;
alors : f
(~ ((t)))
>f* .
Mais f étant continue, on aurait :d’où la contradiction avec le fait que
Remarques
a) on
peut prendre
parexemple
pour intervalle l’intervalle suivant :[1 n, 10
avec ee: j 0, 1] .
Dans le cadre du théorème 1 bis, si f 1 estn 11
1
Lipchitzienne
sur C.les, hypothèses
sur le passont satisfaites
avec0 1).
b) A
chaque
itération n, onpeut prendre
un pasaléatoire
An pourvu que
A
soitn mesurable
n et que A n ~ 1,,1 ,lp.s.;
1 n"]
lesthéorèmes
énoncés restentencore vrais.
1.2. Les résultats
précédents
sont établis dans le cas où C est borné. Consi-dérons maintenant le cas où C est un convexe (en
particulier
pour C =~n,
on
envisage
leproblème
del’optimisation
sans contraintes).Soit donc C un convexe f G-dérivable sur C,
in f-compact
sur C.La direction
d IV
que l’on déterminera ne sera pas nécessairement p.s. bornéen .
car C n’est pas
borné ;
on fera donc unehypothèse
différente surdr.
n
TH EORENE 2 .
Outre
Zes hypothèses du théorème 1"
nous supposons que :.
f ’
estHöldérienne d’ordre
p > 0 sur C e t queAlors :
,
f
nconverge p. s.
vers unevariable 2e aléatoire fn .
0153. une
sous-suite d
6: P(X) telle
7Mef (X), d >~ koo
0 p. 8.. 1
unesous-suite
d nk
E: D)
te ZZe quef ), d>~
0 p. s.. une
sous-suite de fX n (u) 1 qui
converge vers unpoint
de F.Démonstration
»
Les démonstrations des deux
premiers points
sontanalogues à
celles faites pour C borné. Pour conclure, il ne resteplus qu’à
montrer que p.s. la suiteest bornée.
Soit noo
=( w 1
lim supJJX (w)1 1
= +0153}
et supposonsn m
n-+oo n
que P > 0
( hypothèse
dont on veut montrer l’ absurdité ) .Pour w
C ù 3
oo une sous suite deIXn(w)l
n telle queI X (
~ + CD.K
k-~ooCe la
entraine, d’ aprè s l’ inf -compacité
def ,
que f( w) )
~+oo,
cequi
- k
est
absurdepuisque
f(Xn k (00)) (00).
Remarques
a) les
hypothèses
duthéorème précédent
sont vérifiées enparticulier
dans lecontexte suivant :
f
Lipschitzienne
sur Cb) Naturellement, comme dans le cas du théorème 1.bis, si F = M,
f
=f~
p.s.et p.s, toute sous-suite
convergente
de converge vers unpoint
solution du
problème C ~) .
1.3. Nous allons à
présent
calculer effectivement une directionde
descente etvérifier
ainsi leshypothèses
des théorèmes de convergence : examinons d’abord le cas où C estborné
(théorèmes 1 et l.bis).~. Méthode de FRANK
èt,WOLFEC est un convexe
compact
non vide ; lamultiapplication
D desdirections
de descente est alors définie par :
Les
hypothèses
déterministes relatives à D sont vérifiées. D est unemultiappli-
cation bornée et :Désignons
par6c
la fonctiond’appui
de C, c’est-à-direc
Ainsi et si on suppose que
La
multiapplication
D est donc fermée.’ "
’ ’ ’
.
En
fait,
la résolution du programme pour calculer une direction de descentese fera avec une
donnée
bruitée Y au lieu de f’ 1(Xn) ;
la v.a. Y est cal-n n n
culée à
partir d’évaluations stochastiques du gradient de f en x X n
n
n
Ecrivons Y
n
" f +
E
n
avec
E 9’n-1 tn
= 0.n n n n
r ; n,
Il est clair que
d
est borné. Delus,
si nous considérons a(X , d ,m 1 ,
nousn n n
avons :
D
(X )
= a (- f’(X)) -
X et 00 --+ D (X(w) )
est unemultiappli-
n c n n n
cation
n mesurable n-1 -
à valeurs convexescompactes.
Onpeut
donc choisird
n E Dex )
n telle que d n soit1% n
n-1-mesurable (d’après
..le
théorème de sélec-tion mesurable de KURATOWSKI-RYLL-NARDZEWSKI
Bn
Comme E y. = - f’ n
CX )
n et que6c
L est convexe,l’inégalité
de Jensen surles
espérances
conditionnelles entraine que :D’autre
part 6x
estLipschitzienne
de coefficient deLipschitz
k -
Sup
x ECI .
Parconséquént :
Soient une suite de v.a. d’observation du
gradient
de f enn
x = X ; on suppose que les
Y i
sontaonditionnellement indépendantes
( len suppose n
conditionnement étant relatif à la
tribu Bn n-1)
n-1Plus
précisément
Posons 1
Pour vérifier les
hypothèses
et(D2)
du théorème1,
il suffit que :..
’
En
ef fet,
dans cesconditions.
etl’inégalité
(2)implique
que ., o
B. Méthode du GRADIENT PROJETE
La méthode étudiée ici n’est pas la méthode du
gradient projeté
tellequ’elle
a été définie par ROSEN ; il
s’agit
d’uneadaptation
àl’optimisation
avec con- traintes de la méthodeclassique
dugradient.
Définition de la
multiapplication
D :Vérifions les
hypothèses
relatives à D :D’après
lespropriétés
del’opérateur
deprojection P~,
on a :Puisque
x E C, on a alors :Par suite :
D’autre
part ;
Montrons que la
multiapplication
D est fermée en x EFc.
Il existe une sous-suite
Ainsi
d
~ 0ex).
Vérifions
maintenant leshypothèses
relatives àdr"
n
Y étant construit à
partir
d’observations dugradient
de f en x = X npn n
r on construit d
A de la
façon
suivante :Soit d C D
rX )
définie par (n n
I1 est clair que
dr
estan
-mesurable et que a I Il est clair quen
estbornée,
et que a 1Par ailleurs :
De môme :
En
décomposant ’
Comme (,
il s’en suit que :Nous faisons les mêmes
hypothèses
que dans la méthode de Frank et Wolfe en cqui
concerne3~ ,
à savoir :Notons K = Su
La relation
~
’) entraîne que :
sur
La relation (2) entraîne alors que :
.D’autre
part, d’ après l’inégalité (2)
Remarques
1°)
Dans les méthodesde.calcul
ded précédentes.
à laitération,
onconsidère p- observations. Par
exemple,
soit :- "/ ’ 1 1, w d Il 1 Il 1 L- --
la
partie
entière de, x. Dans ce cas,ln,2
et p nvérifient
leshypothèses
requises.
2°)
Onpeut
utiliser lesméthodes précédentes
dans le cas où on nepeut
estimerdirectement le
gradient
de f en x =Xn mais
où l’on estime une"approxi-
mation" notée Df (X ) de f’ (X ) .
Soit ll Df
(X ) - f’.
(X ) ( I
h . ; n iln n ’ ’ n n n
.
suffit alors que h vérifie les conditions suivantes :
n _
30) La méthode du
gradient projeté
estsusceptible
demultiples
variantes. Onpeut prendre
P v.a.3n mesurable
à valeurs dans D’autren n- 1 2.
part,
laprojection
sur Cpeut
se faire suivant unemétrique
Plus
précisément :
où A est une matrice
~n
-mesurableprise dans.L-%
oùJb désigne
n n-1
d% = IA
réellesymétrique
définiepositive
/ m I.:2 A £ mI(x) 1.
La
projection
s’effectue donc au sens de lamétrique
1.4. Nous allons donner dans ce
sous-paragraphe
desexemples
de directiond’
n
vérifiant les
hypothèses
du théorème 2.Considérons,
parexemple,
le cas 00C =
~n (optimisation
sans contraintes).A.
Exemple
_Soit f convexe,
inf-compact,
G-dérivable de G-dérivée f’ vérifiant :L’hypothèse
de convexité fait que l’ensemble F despoints
stationnaires est l’ensemble I~ despoints
solutions duproblème (~ )
(x)
,...,~- _ - --~____ ~_ ~ ..
A ~
B au sens de la relation d’ordre dans l’ensemble des matrices réellessymé-
triques,
définiespositives
,-mesurable, à valeurs dans
La
multiapplication
D est définie paret la direction
ru
est donnée par : et la direction
d n
est donnée par :Les
hypothèses
relatives à D ont été vérifiées dans l’étude de la méthode dugradient projeté
(§ I.3.B). Deplus :
Dans ce cas, 1T n
= 0
et (f 1 (-E)
= -e( hypothèse
n ’ t 2
La convexité de f,
l’hypothèse (L)
sur la G-dérivée font que :On en déduit que est uniformément
bornée
dansL 2
et parconséquent
que :n
Sup 11 dni
+ oo . On a donc vérifiél’hypothèse
relative àd
du théorème 2.n n
IL2
+ - - On a donc vérifiél’hypothèse
relative à n du théorème 2.pour p =
1,
à savoir que :On
peut
donc déduire duthéorème
2 (+ remarque b) que p.s. toute sous-suiteconvergente
de{X (a))}
converge vers unpoint
de M.Dans le cas
présent,
onpeut
améliorer ce résultat car il découle del’inégalité
(2) que1 IXn - x~1 1
converge p.s. Par suite si M ={x~}.
on a :converge p.s. vers
Comme dans le cas de la méthode du
gradient projeté,
onpeut prendre
comme direction :-mesurable,
peut
être un estimateur de[f" n )]-1
dans la mesure où ce dernier existe ou bienA
n est fonction des itérés et des directionsprécédentes.
II. ALG 2
Dans l’étude de la famille
d’algorithmes
ALG 1, nous avons utilisé un choixparticulier
demultiapplications ITn1m
E: .Un autre choix fondamental estdéfini
comme suit :X étant le itéré
stochastique
etd
la direction choisie, posons :n ’ n 1
En fait, on n’ a pas accès à
a
E T(Xni
nd )
et dans le casstochastique
où l’onn
n’ a que des évaluations aléatoires de f en x =
Xn
n ou de fi’ eh x =Xn,
n on estamené à modifie r le choix de T. Nous fe rons une
hypothèse analogue
à celle deKushner et Gavin
([3] ~ r4l )
pour une méthode de direction admissible(hypothèse
vérifiée,
du moins dans le cas convexe pour desprocédures tronquées
de recherchedans une direction donnée). ..
la condition
1Χ 1 explicitée
dans l’énoncé du théorème de convergence.Le nouvel itéré est donc obtenu par :
a*
mesurableSoit donc C convexe
fermé,
f G-dérivable sur C,inf-compact
sur C.Rappelons
quel’ensemble,F
despoints
stationnaires est définie par :THEOREME 3
Sous Zes
hypothèses suivantes :
c) re Zatives à
’la( 2 J - (1;/ ’
.(théorème 1)
b) hypothèse sur la
drdirection
n:3 d e D (X ), B [R]-*~lR-*
teXn n E t.f1 : IR *~R-*
tel_~~n
c) hypothèse
sur le pasde deseente :
Appelons
latribu engendi4e
parn
a~ d
aveca~ mesurable,
la
condi tion (19)
Dans ces
conditions,
touted’adurence de fX
niZ
enau moins une - est un
point
de F.Remarques
sur leshypothèses
’
Comparativement
au théorème 1 (et au théorèmel.bis),
nous remarquons que leshypothèses sur fd’l
sont affaibliesgrâce
à une "meilleure" recherche dun
nouvel itéré
stochastique
dans la direction dnnD’ autre
part, l’ hypothèse (C 3
3 a ndn
n a , si elle est vérifiée . surcertains
exemples
(§1.3),
ne l’est pastouj ours :
dans lesexemples
ou ellen’est pas
vérifiée,
c’est le choix de ALG 2qu’il
fautprendre.
La
démonstration du théorème 3 estparallèle
à celle deKushner-Gavin ([3]~[4~
Elle est
adaptée
à notre formalisme et à nos choix de direction.Démonstration
D’après
la condition(~),
nous avons :Soit
X1
lepremier itéré ;
supposons le non aléatoireX1 = x1
e C j f étantbornée inférieurement, il s’en suit que : f (X ) converge p.s. vers une v.a.
n
notée
f
(la convergence aégalement
lieu dansL1).
De
plus ;
pour n ~ N Ce:).D’après l’hypothèse (b),
pour n > Nic),
sur1 1
f
(X )
converge dansL1
J{-F
(X)}
est uniformément bornée dansL . L’inégalité
(2)
implique
que :D’où,
en sommant àpartir
d’un certain rang (N(c»,
on a :On termine ensuite comme dans le cas des théorèmes 1 et
1,bis, l’inf-compacité
de f et la convergence p.s. de f
(X ) (d’après l’inégalité (1))
font que p.s.la suite
tx n (w)l-est
bornée. Ainsi, p.s. toute sous-suiteconvergente
de~X n
et il en existe, converge vers unpoint
stationnaire.Conclusion
Dans le cadre des
problèmes d’optimisation stochastique
avec contraintes,nous avons donné un formalisme
des méthodes
de descentesstochastiques. Lorsque
les contraintes sont connues (et c’est le cas dans notre
approche),
onpeut
aussi définir d’autres méthodes
permettant
de résoudre cesproblèmes d’optimi-
sation
stochastique ;
parexemple : l’analogue stochastique
de la méthode d’accumulation des contraintes.Dans le cas où les contraintes sont
stochastiques,
c’est-à-direlorsque
les fonctions définissant les contraintes sont
bruitées,
les méthodesprécédentes
sont
inapplicables.
Pour résoudre de telsproblèmes,
des méthodes dutype péna-
lisation et du
type
dual sont en cours d’étude.Références
[1]
A. AUSLENDER, Résolutionnumérique d’inégalités
variationnelles C.R.A.S. Série A, t. 276, Avril 73[2]
A. AUSLENDER,Optimisation
convexe : méthodesnumériques,
Masson 1975(à
paraître)
[3]
T. GAVIN, Stochasticapproximation type
methods for unconstrained and constrainedoptimization problems,
Ph. D.Thesis,
BrownUniversity (1974)
[4]
H.J. KUSHNER, Stochasticapproximation algorithms
for constrainedoptimi-
zation