C AHIERS DU B URO
G. T H . G UILBAUD
Programmes dynamiques et programmes linéaires Note sur un modèle de Richard Bellman
Cahiers du Bureau universitaire de recherche opérationnelle.
Série Recherche, tome 2 (1957), p. 37-41
<
http://www.numdam.org/item?id=BURO_1957__2__37_0>
© Institut Henri Poincaré — Institut de statistique de l’université de Paris, 1957, tous droits réservés.
L’accès aux archives de la revue « Cahiers du Bureau universitaire de re- cherche opérationnelle. Série Recherche » implique l’accord avec les condi- tions générales d’utilisation (
http://www.numdam.org/conditions). Toute utili- sation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
PROGRAMMES DYNAMIQUES ET PROGRAMMES LINÉAIRES
NOTE SUR UN MODÈLE DE RICHARD BELLMAN
par
G. Th. GUILBAUD
On d i s p o s e d'une quantité donnée ( s t o c k ou capital initial), soit : a0. On peut l ' u t i l i s e r de p l u s i e u r s f a ç o n s , m a i s les rendements sont diffé- r e n t s . Mais on peut a u s s i d i v i s e r la quantité a en p l u s i e u r s p a r t s , chacune étant affectée à l'une des utilisations p o s s i b l e s .
Raisonnons sur le cas le plus simple où il n ' e x i s t e que deux m o d e s d ' e m p l o i . On effectuera d ' a b o r d un partage :
a0 = a'0 + a*Q
( L e s quantités a^ et a© sont toutes deux non n é g a t i v e s ) .
Le rendement global est supposé s o m m e des rendements p a r t i e l s , soit :
r0= f ' ( * { , ) + f " ( a « )
les deux fonctions f et f" qui définissent les rendements d e s deux m o d e s d ' e m p l o i sont d o n n é e s .
A p r è s un tel emploi le capital redevient d i s p o n i b l e , m a i s avec une p e r t e (ou u s u r e ) ; le capital initial étant :
aQ — a Q + a*Q on p o s e r a que le capital final sera
*i - g ' ( a i ) + g"(a5J)
les deux fonctions g1 et g" c a r a c t é r i s a n t l ' u s u r e . Par e x e m p l e on pourra p r e n d r e deux fonctions l i n é a i r e s t e l l e s que :
g ( a ) = g . a
dans laquelle le coefficient g est inférieur à l'unité (la différence 1-g étant le taux d'usure ) . Mais l'hypothèse de proportionnalité n'est pas indispen- s a b l e , et dans c e qui va suivre , nous c o n s e r v e r o n s la formulation g é n é r a l e , avec d e s fonctions g q u e l c o n q u e s .
38
A côté de d i v e r s e s interprétations é c o n o m i q u e s , on peut songer à une illustration "stratégique" : le stock initial a0 désignant l e s f o r c e s d i s p o n i b l e s , qu'il s'agit de r é p a r t i r entre p l u s i e u r s théâtres d ' o p é r a t i o n s . L e s rendements f ( a1) , f" ( a " ) pourront d é s i g n e r , par e x e m p l e , l e s p e r t e s e n n e m i e s .
Il
A i n s i d o n c , partant de a0, on obtient, pour un partage donné un r e n - dement
rG = f ( a » ) + f " ( a «0' ) et un nouveau capital
a, = gf( a y + g"(a'é)
On va pouvoir r e c o m m e n c e r l ' o p é r a t i o n , c ' e s t - à - d i r e effectuer un nouveau partage
a, = a', + a qui à son tour donnera
r, = f ' ( a l ) + f"(a»{)
az = g ' (at ) + g " (a' i ) et ainsi de suite .
On se trouve donc en p r é s e n c e d'une séquence de d é c i s i o n s de partage et l'on se p r o p o s e de d é t e r m i n e r la m e i l l e u r e . On p o u r r a i t , par e x e m p l e , f i x e r le n o m b r e d ' o p é r a t i o n s s u c c e s s i v e s et définir l ' o p t i m u m par le m a x i m u m de la s o m m e de tous l e s rendements :
r0 + r, + r2 + . . . + rn
On pourrait aussi introduire dans le c r i t è r e , une " v a l e u r " du résidu final an +i , on examinera plus loin c e perfectionnement du m o d è l e , ainsi que quelques a u t r e s .
III
P l a ç o n s - n o u s au début de la d e r n i è r e é t a p e . Soit x le stock restant (inconnu en c e m o m e n t de notre r a i s o n n e m e n t ) . On peut c a l c u l e r le rende - ment de la d e r n i è r e d é c i s i o n , c a r a c t é r i s é e par le partage :
x = ( x - y ) + ( y ) Le rendement est égal à :
f ' ( x - y ) + f » ( y )
Et c e qu'on peut faire de m i e u x , c ' e s t c h o i s i r de telle façon que cette s o m m e soit m a x i m u m . P o s o n s
E1 ( x ) = M a x f f1 ( x - y ) + f" ( y ) ]
(Y) L J
étant entendu que :
0 ^ y ^ x
On a donc obtenu une r è g l e ( p a r t i e l l e ) d'action pour la d e r n i è r e é t a p e . P r e n o n s maintenant l ' a v a n t - d e r n i è r e : si le stock restant est u et si l'on fait le partage :
u = ( u - v ) + (v) le rendement sera
f ( u - v ) + f " ( v ) et le r é s i d u
x = g' ( u - v ) + g" (v)
Si l'on applique la r è g l e p a r t i e l l e déjà t r o u v é e , le rendement d e s deux d e r n i è r e s étapes sera :
f1 ( u - v ) + f" (v) + E, [ g1 ( u - v ) + g" ( v ) ]
On c h e r c h e r a à le rendre m a x i m u m , u étant donné, et v c h o i s i entre l e s l i m i t e s :
0 < u On p o s e r a :
E2( u ) = Max [ f ( u - v ) + f " ( v ) + E, [ g1 ( u - v ) + g" (v)]]
On va continuer ainsi par r é c u r r e n c e , en posant :
Eh + 1 ( z ) = Max [ f ' ( z - t ) + f" (t) + Eh [g» ( z - t ) + g" ( t)]l
c e qui donne la valeur d'un stock z l o r s q u ' i l reste e n c o r e (h + 1) é t a p e s , et l o r s q u ' o n d é c i d e d'effectuer de la m e i l l e u r e façon p o s s i b l e tous les c h o i x u l t é r i e u r s .
On notera la similitude de cette méthode avec la définition générale de l ' e s p é r a n c e mathématique (Règle des Partis de P a s c a l et T h é o r è m e de Z e r m e l o pour les j e u x ) . Cf. L e ç o n s sur les éléments principaux de la t h é o r i e mathématique des Jeux, leçon II, pages 1-7, dans "Stratégie et d é c i s i o n s é c o n o m i q u e s " , P a r i s , C . N . R . S . , 1954.
I V
Traitons c o m p l è t e m e n t un c a s s i m p l e , c e l u i dans lequel l e s fonctions f et g sont l i n é a i r e s . Il nre s t évidemment pas n é c e s s a i r e de se limiter à deux f a ç o n s seulement d ' e m p l o y e r le stock existant. On p o s e r a donc :
f( i ) ( x , ) = f i X ' , g'" ( x , ) = giX i
et on doit r é s o u d r e l'équation fonctionnelle de r é c u r r e n c e : Eh+i (x) = Max [ s f-, xi + Eh (S g; x-, )J I x, = x , x; ^ 0 à partir de :
Ej (x) = Max (Z f | X j ) pour I x ; = x et xj 0
40
il est c l a i r que :
E, (x) = ei x a v e c : e, = M a x (ff)
( Î ;
On peut m o n t r e r , p a r r é c u r r e n c e , que l'on a d'une façon analogue : Eh( x ) = ehx
en e f f e t , si c e l a e s t v r a i pour h , on a
S f| X Ï + Eh ( S g, x-() = £ (f-, + eh g i) X i
d ' o ù : Eh + , = m a x S: (f { + ehg , ) x-, d o n c ! Eh + 1= eh+1x
a v e c
eh + 1 = M a x (fi + ehg i )
(0
P o u r d é t e r m i n e r la solution il suffira de t r a c e r d e s d r o i t e s : y = f i + g; x
et d'en p r e n d r e l'enveloppe s u p é r i e u r e , que nous d é s i g n e r o n s par : y = L ( x ) = M a x ( fi + Xg i )
(')
C e t t e f o n c t i o n , qui est r e p r é s e n t é e par une ligne p o l y g o n a l e , p e r m e t de c a l c u l e r la suite d e s c o e f f i c i e n t s eh, p a r la loi :
eQ = o , eh + 1 = L ( eh)
C o m m e tous l e s c o e f f i c i e n t s gi sont i n f é r i e u r s à l ' u n i t é , la pente de L ( x ) est t o u j o u r s i n f é r i e u r e à l'unité et p a r conséquent la suite d e s ej, a une l i m i t e l o r s q u e h a u g m e n t e i n d é f i n i m e n t .
Il en r é s u l t e , dans c e c a s , que l o r s q u e la suite d e s o p é r a t e u r s est t r è s l o n g u e , l e r é s u l t a t e s t à peu p r è s indépendant de sa l o n g u e u r . C e r é s u l t a t à t r è s long t e r m e est donné par la solution de :
x = L ( x )
c ' e s t - à - d i r e qu'on c a l c u l e r a t o u t e s l e s solutions de : x = f + g; x
soit : x = f i : ( 1 - g j ) et qu'on c h o i s i r a la plus grande :
6 = mi fx [f | : (US | ) ] = fP : ( 1 - g p ) A l o r s :
1 ° ) L e r e n d e m e n t m a x i m u m qu'on p u i s s e t i r e r d'un s t o c k initial x , à condition d ' a v o i r le t e m p s , s e r a é g a l à e . x .
2 ° ) L a politique la m e i l l e u r e c o n s i s t e à c o n c e n t r e r l ' e m p l o i de tout le s t o c k d i s p o n i b l e s u r l ' e m p l o i n u m é r o t é ( p ) .
V
Il peut ê t r e i n t é r e s s a n t de c o m p a r e r la m é t h o d e p r é c é d e n t e aux m é t h o d e s c l a s s i q u e s u t i l i s é e s pour r é s o u d r e l e s p r o b l è m e s de p r o g r a m - m a t i o n l i n é a i r e .
D é s i g n o n s p a r x le stock disponible à l'étape (t) ; on fait le partage : xk = x i + xî + . . . + x F = £ x't
d'où le nouveau stock :
xt- i = £ g; x[
et le nouveau p a r t a g e :
£ g' x[ = E xL, (1)
Po.ur le d é p a r t , on a :
x.l0 = a (donné) ( 2 )
L e r e n d e m e n t global e s t :
R = £ f! xi £' xj + . . . + Sif i x^ (3)
On doit donc c h e r c h e r le m a x i m u m de (3) en c h o i s i s s a n t l e s x't l i é s p a r l e s r e l a t i o n s (1) et (2) et a s s u j e t t i s de plus à la condition : x^ ^ 0 .
U t i l i s o n s la d u a l i t é . P r e n o n s c o m m e m u l t i p l i c a t e u r s de (1) d e s n o m - b r e s ek + 1, e t e0 pour ( 2 ) . On doit a v o i r
et 3*f; + g1 . et + 1 (t = 0 , l , . . . , n - l ) et c h e r c h e r l e m i n i m u m de : e0a
c ' e s t - à - d i r e de e0 .
On r e t r o u v e donc e x a c t e m e n t la p r o c é d u r e p r é c é d e n t e .