DE L ’U NIVERSITÉ DE C LERMONT -F ERRAND 2 Série Mathématiques
T. G AVIN
Études numériques et applications de processus d’approximation stochastique
Annales scientifiques de l’Université de Clermont-Ferrand 2, tome 58, série Mathéma- tiques, n
o12 (1976), p. 94-109
<http://www.numdam.org/item?id=ASCFM_1976__58_12_94_0>
© Université de Clermont-Ferrand 2, 1976, tous droits réservés.
L’accès aux archives de la revue « Annales scientifiques de l’Université de Clermont- Ferrand 2 » implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ETUDES NUMERIQUES
ET APPLICATIONS DE PROCESSUS D’APPROXIMATIONSTOCHASTIQUE
T. GAVIN, Université de Montréal
(Canada)
1 - Pour motiver notre travail sur
l’approximation stochastique,
prenonsl’exemple
du contrôleoptimal
d’unsystème dynamique linéaire décrit
paroù
X n
estl’état
du p rocessus à l’instant nu est la commande introduite à l’instant n n
n
est une suite de variablesaléatoires (v.a.) gaussiennes,
àmoyenne zéro
et à variancebornée.
Nous faisons
l’hypothèse
quel’état
initialXo est indépendant des E j
et nous
regardons l’évolution
du processus sur l’ intervalle detemps [0~ Ni.
Dans le cas
où
lecritère
"co0t"prend
la formequadratique
où y
=(Uop ...» uN-1)
est unestratégie
de commandesXT
est unétat
fin-aldésiré,
la commande
optimale
à l’instant n,u§ ,
est bien connue : elle est une commandeen feedback, u x
= -K
X . °n N-n n
La matrice de
gain Ki
est obtenue àpartir
de la solution à une relationrécursive
detype
Riccati.Lorsque
N ,Ki -> K
constante.i)
Si lesfonctions
L( ., . ) e-t 1.1
sont trèscomplexes,
nousperdons
normalemeni lacaractéristique
delinéarité
dans lareprésentation
de la commandeoptimale.
ii) Supposons
que nouspuissions représenter la commande optimale.
Dans de nom-breux cas, elle est
physiquement irréalisable
ou réalisable à un coot pro- hibitif. Nous pouvons chercher une commande nonoptimale plus simple,
parexemple’
une commandelinéaire
en feedback avec une matrice degain constante.
:
IRm te l le
que uKx}.
Leproblème
devient alorsLa fonctionnelle J
(.) peut
avoirplusieurs points
stationnaires. Deplus
touteobservation
prise
sur le processus est naturellementbruitée.
Donc la valeur^
exacte de J
(K),
pour toute valeur deK,
n’est pas connue.Les remarques
i)
etii)
nous amènent àétudier
leproblème d’optimisation stochastique
d’unpoint
de vuenon-classique.
Nous allons examiner leproblème
abstrait ;
J mais le lien avec lesproblèmes
de contrôle seraévident.
II -
Description
de laprocédure
Soit x 6 Soit H
(y l’ x)
une fonction derépartition
définie pourchaque
x.Soit
Y est une v.a. telle que
~ C Y - . f (x))2
d H1 x) y ^2 Cr
0153Nous allons
développer
unethéorie
etquelques méthodes pratiques
pour obtenir convergencepresque
sûreCp . s . )
d’ une suite de v. a. vers unpoint
stationnaire de f( . J
Soit i i=O une suite de v.a.
qui
seront lespoints
initiaux dechaque cycle d’itération.
Soit la suite de v.a.qui
seront les directions de1 i=O
recherche. Par
exemple,
aunième cycle,
lepoint
initial est X . Nous cherchonsun "meilleur"
point
sur ±dn ,
ladurée
de la reche rchedépendant
d’un critère.Soient
Xn =
X et ... ° lesitérés
sur ± d .o n 1 2 n
Soient
Soient
IbPl
i et i des suites de v.a. °réelles non-anticipatives
p . ar prapport
pp àBni.
i ° Soientd ,
n iXn donnés.
°Nous prenons
des observations
sur le processus auxpoints Xn
+ den
et i n ien .
Nous notons ces valeursYn
etyn respectivement.
i n i 21+l 2i ’ p m n .
Définitions
Le
processus d’approximation stochastique
seradéfini
parévolution
descoefficients {en.}
Soient une suite
d’entiers, qui pourraient
étre des v.a.réelles
non
anticipatives
parrapport
àbn,
mais que nousprendrons déterministes.
Soient
[ani],[cni],
des suites de nombrespositifs telles
quei
_ i qlorsque, n+i
Supposons
que nous soyons aucycle
n. Pour les deuxpremiers
itérés du cy- cle, c’est-à-direX 0
etx~.
Si le mouvement des itérés sur la droite
passant
parX0
de directiondn"
est monotone croissant ou
décroissant,
les coefficients{bn.}
et nei i
changent
pas, c’est-à-dire siSupposons
que nous ayons le cas tRègle
d’arrêt :après N n changementsde signe,
c’est-à-direaprès
que la re- lation(4)
soit satisfaite Nn
fois,
lecycle
est terminé.Hypothèse 1 :
Nous faisons les
hypothèses ’suivantes
(2)
Soient6
>0, Ô1
> 0. Soit c un réelquelconque,
d une direc-tion
quelconque.
Posonscontinue.
presque surement sur
III - Théorème
Sous les
hypothèses (1)
à(4),
la suite définie par(3)
conver-i
ge presque
, sûrement
versDO U
. On a aussiX n P.S. DO
-Démonstration :
Voir[1] .
Voiciétapes
de ladémonstration : (i)
SoitN9
le nombred’indices j t.q. b~ = an
.
1 J ].
(ii)
Soienta1~...aT
les valeurs desindices j t.q.
(iv)
Soit0,
0’ deux ouverts dansR n t.q.
IV - Nous voyons
qu’il
y abeaucoup
de liberté dans ladéfinition (1)
de laprocédure,
du moment que la condition(3)
deshypothèses
.est satisfaite par la direction d .n
1°
Le mouvement des itérés estrégi
par un testd’hypothèses :
Posons
an =
d’ .i n
°
x i
Définissons une v.a.
)
et nous faisonsl’hypothèse
que1
.
Nous utiliserons
le,schéma
La valeur de
W9
sera obtenue àpartir
d’un testd’hypothèses :
(hypothèse nulle)
2°
Le mouvement des itérés estrégi
par une moyenne des dérivées direction- nelles.Au lieu de
prendre
une estimée de la dérivéedirectionnelie,
nous f eronsplu-
sieurs observations et nous ferons
la
moyenne :3°
Une méthodegénérale
an(.)
i monotone non décroissant. Nous posons-Hypothèse
2 :(1)
Pourchaque x E IRn
et pourchaque
direction d ,f ( . )
a unnombre fini de
points
stationnaires sur laligne passant
par x en directions ± dSoit LÎ(.)
une fonctioncontinue
àl’origine
etayant
lescaractéristiques
des fonctions
À~(.).
i
Pour tout 8 et i, nous supposons que
(Si
61,
cecigarantit qu’il
y a du "bruit" dans lesystème).
(~3) Soit ~(.)
une fonctionayant
lescaractéristiques
de~(.),
Nous supposons que
Par
exemple
Théorème
On se donne les schémas
(5), (6)
ou(7).
Hypothèses.1.1, 1.3, (2.1) 1
à(2.4).
Deplus,
r sont bornées p.s. converge p.s. lorsque
Démonstration : voir
~2~ .
V - Essais
numériques
a)
Fonctions derégression
Les essais
numériques
ont été faits sur deux fonctions "coût"b)
Directions de recherche(i) gradient
1 :(ii) gradient
2 :(iii)
méthode d’accélération :Règle pour d n = règle
pour .(iv) Approximation stochastique classique
c)
2013201320132013201320132013.201320132013201320132013.2013 Choix des coefficients{b }
n .(i) Option
1 : aucune borne sur les coefficients.
(ii) Option
2 : bornesupérieure
seulement(UB) (iii) Option
3 : borne inférieure seulement.H-B) (iv) Option
4 : bornessupérieures, et
inférieures(ULB)
Nous avonspris b n
=20132013
nd) Règle
d’arrêt : limitesupérieure
sur le nombre d’oscillations.e)
Le bruit : Les v.a.i n
la fonctionf1
3~~ ~ JPCO.2.2S)
pour la fonctionVoici
quelques
résultatsnumériques
extraits de[3] .
.(UB) : step-size upper bound
....TABLE
1 -SIMULATION RESULTS
FORFOUR (KIEFER-WOLFOWITZ) -
LIKE
STOCHASTIC
APPROXIMATIONMETHODS Numbers indicated
arethe quadratic
function values after 250 samples
Noise - N(0,1.0)
TABLE 2 -
Cycle Index I~ for which
STOCHASTIC APPROXIMATION
METHODS WITH GAINSEQUENCE
(bn)=1/n
TABLE 3 - Cycle Index Im i>jzIm
STOCHASTIC APPROXIMATION METHODS
0FULB TYPE.
TABLE
4 -INDECES
ASFOR TABLES (2) i~ (3) ;
03JECTIVE FUNCTION IS QUARTIC
TABLE
5 -LUARTIC TERMINAL VALUES
FORSTOCHASTIC
APPROXIMATION SEARCH METHODS.
LEGEND:
Y =(.) Gain
=1 /n ( · )
UB Upper bound
UL’i Upper F~ Lower bounds
VI - Il arrive très souvent que, dans des
problèmes d’automatique,
les comman-des soient
assujetties
à des contraintes. Leplus souvent,
la commande doitprendre
une valeur dans uncompact dans!R’B
Nous avons alors unproblème d’‘op-
timisation
stochastique
avec contraintes.optimisation stochasti ue
desystème
avec contraintes Leproblème
que nous.examinons est le suivant :minimiser
f(x).
°
xe C
Les observations
prises
def(x)
sontbruitées,
mais non cellesprises
sur lescontraintes. Nous
développons
un théorème basé sur la méthode de directions admissibles utilisée dans laprogrammation
non-linéaireclassique.
Théorème :
(iii) 61 (.), d2(.), g(.), n1(.), c1(.),
des f onctionsréelles, positi-
ves, non décroissante sur
(iv) Soit aE(o.1] .
Pourchaque e > 0, d n
satisfait à(v)
Soit8’ n
une suite de v.a. réelles telles queSous les
hypothèses (:
Remarque :
: SoitNous définissons
La condition
Y(O, X) =
0 estéquivalente
à la conditionnécessaire
de Fritz-John pourl’optimalité
de X.Démonstration :
Voirr4l.
Pour des résultatsnumériques,
voirF41 .
BIBLIOGRAPHIE
GAVIN et KUSHNER :
[1]
Annals ofStatistics,
Vol.1, n°5, 1973,
pp. 851-862[2]
International Journal ofControl,
Vol.18, n°5, pp.
963-975GAVIN T. :