Programmes dynamiques et programmes linéaires Note sur un modèle de Richard Bellman

(1)

C ^{AHIERS DU} B ^URO

G. T H . G UILBAUD

Programmes dynamiques et programmes linéaires Note sur un modèle de Richard Bellman

Cahiers du Bureau universitaire de recherche opérationnelle.

Série Recherche, tome 2 (1957), p. 37-41

<

http://www.numdam.org/item?id=BURO_1957__2__37_0

>

© Institut Henri Poincaré — Institut de statistique de l’université de Paris, 1957, tous droits réservés.

L’accès aux archives de la revue « Cahiers du Bureau universitaire de re- cherche opérationnelle. Série Recherche » implique l’accord avec les condi- tions générales d’utilisation (

http://www.numdam.org/conditions

). Toute utili- sation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.

Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques

http://www.numdam.org/

(2)

PROGRAMMES DYNAMIQUES ET PROGRAMMES LINÉAIRES

NOTE SUR UN MODÈLE DE RICHARD BELLMAN

par

G. Th. GUILBAUD

On d i s p o s e d'une quantité donnée ( s t o c k ou capital initial), soit : a⁰. On peut l ' u t i l i s e r de p l u s i e u r s f a ç o n s , m a i s les rendements sont diffé- r e n t s . Mais on peut a u s s i d i v i s e r la quantité a en p l u s i e u r s p a r t s , chacune étant affectée à l'une des utilisations p o s s i b l e s .

Raisonnons sur le cas le plus simple où il n ' e x i s t e que deux m o d e s d ' e m p l o i . On effectuera d ' a b o r d un partage :

a0 = a'0 + a*Q

( L e s quantités a^ et a© sont toutes deux non n é g a t i v e s ) .

Le rendement global est supposé s o m m e des rendements p a r t i e l s , soit :

r⁰= f ' ( * { , ) + f " ( a « )

les deux fonctions f et f" qui définissent les rendements d e s deux m o d e s d ' e m p l o i sont d o n n é e s .

A p r è s un tel emploi le capital redevient d i s p o n i b l e , m a i s avec une p e r t e (ou u s u r e ) ; le capital initial étant :

aQ — a^Q +^a*Q on p o s e r a que le capital final sera

*i - g ' ( a i ) + g"(a5J)

les deux fonctions g¹ et g" c a r a c t é r i s a n t l ' u s u r e . Par e x e m p l e on pourra p r e n d r e deux fonctions l i n é a i r e s t e l l e s que :

g ( a ) = g . a

dans laquelle le coefficient g est inférieur à l'unité (la différence 1-g étant le taux d'usure ) . Mais l'hypothèse de proportionnalité n'est pas indispen- s a b l e , et dans c e qui va suivre , nous c o n s e r v e r o n s la formulation g é n é r a l e , avec d e s fonctions g q u e l c o n q u e s .

(3)

38

A côté de d i v e r s e s interprétations é c o n o m i q u e s , on peut songer à une illustration "stratégique" : le stock initial a⁰ désignant l e s f o r c e s d i s p o n i b l e s , qu'il s'agit de r é p a r t i r entre p l u s i e u r s théâtres d ' o p é r a t i o n s . L e s rendements f ( a¹) , f" ( a " ) pourront d é s i g n e r , par e x e m p l e , l e s p e r t e s e n n e m i e s .

Il

A i n s i d o n c , partant de a⁰, on obtient, pour un partage donné un r e n - dement

rG = f ( a » ) + f " ( a «0' ) et un nouveau capital

a, = g^f( a y + g"(a'é)

On va pouvoir r e c o m m e n c e r l ' o p é r a t i o n , c ' e s t - à - d i r e effectuer un nouveau partage

a, = a', + a qui à son tour donnera

r, = f ' ( a l ) + f"(a»{)

az = g ' (at ) + g " (a' i ) et ainsi de suite .

On se trouve donc en p r é s e n c e d'une séquence de d é c i s i o n s de partage et l'on se p r o p o s e de d é t e r m i n e r la m e i l l e u r e . On p o u r r a i t , par e x e m p l e , f i x e r le n o m b r e d ' o p é r a t i o n s s u c c e s s i v e s et définir l ' o p t i m u m par le m a x i m u m de la s o m m e de tous l e s rendements :

r⁰ + r, + r² + . . . + rⁿ

On pourrait aussi introduire dans le c r i t è r e , une " v a l e u r " du résidu final a^{n +}i , on examinera plus loin c e perfectionnement du m o d è l e , ainsi que quelques a u t r e s .

III

P l a ç o n s - n o u s au début de la d e r n i è r e é t a p e . Soit x le stock restant (inconnu en c e m o m e n t de notre r a i s o n n e m e n t ) . On peut c a l c u l e r le rende - ment de la d e r n i è r e d é c i s i o n , c a r a c t é r i s é e par le partage :

x = ( x - y ) + ( y ) Le rendement est égal à :

f ' ( x - y ) + f » ( y )

Et c e qu'on peut faire de m i e u x , c ' e s t c h o i s i r de telle façon que cette s o m m e soit m a x i m u m . P o s o n s

E1 ( x ) = M a x f f1 ( x - y ) + f" ( y ) ]

(Y)^{L J}

étant entendu que :

0 ^ y ^ x

(4)

On a donc obtenu une r è g l e ( p a r t i e l l e ) d'action pour la d e r n i è r e é t a p e . P r e n o n s maintenant l ' a v a n t - d e r n i è r e : si le stock restant est u et si l'on fait le partage :

u = ( u - v ) + (v) le rendement sera

f ( u - v ) + f " ( v ) et le r é s i d u

x = g' ( u - v ) + g" (v)

Si l'on applique la r è g l e p a r t i e l l e déjà t r o u v é e , le rendement d e s deux d e r n i è r e s étapes sera :

f1 ( u - v ) + f" (v) + E, [ g1 ( u - v ) + g" ( v ) ]

On c h e r c h e r a à le rendre m a x i m u m , u étant donné, et v c h o i s i entre l e s l i m i t e s :

0 < u On p o s e r a :

E²( u ) = Max [ f ( u - v ) + f " ( v ) + E, [ g¹ ( u - v ) + g" (v)]]

On va continuer ainsi par r é c u r r e n c e , en posant :

Eh + 1 ( z ) = Max [ f ' ( z - t ) + f" (t) + Eh [g» ( z - t ) + g" ( t)]l

c e qui donne la valeur d'un stock z l o r s q u ' i l reste e n c o r e (h + 1) é t a p e s , et l o r s q u ' o n d é c i d e d'effectuer de la m e i l l e u r e façon p o s s i b l e tous les c h o i x u l t é r i e u r s .

On notera la similitude de cette méthode avec la définition générale de l ' e s p é r a n c e mathématique (Règle des Partis de P a s c a l et T h é o r è m e de Z e r m e l o pour les j e u x ) . Cf. L e ç o n s sur les éléments principaux de la t h é o r i e mathématique des Jeux, leçon II, pages 1-7, dans "Stratégie et d é c i s i o n s é c o n o m i q u e s " , P a r i s , C . N . R . S . , 1954.

I V

Traitons c o m p l è t e m e n t un c a s s i m p l e , c e l u i dans lequel l e s fonctions f et g sont l i n é a i r e s . Il n^re s t évidemment pas n é c e s s a i r e de se limiter à deux f a ç o n s seulement d ' e m p l o y e r le stock existant. On p o s e r a donc :

f( i ) ( x , ) = f i X ' , g'" ( x , ) = giX i

et on doit r é s o u d r e l'équation fonctionnelle de r é c u r r e n c e : Eh+i (x) = Max [ s f-, xi + Eh (S g; x-, )J I x, = x , x; ^ 0 à partir de :

Ej (x) = Max (Z f | X j ) pour I x ; = x et xj 0

(5)

40

il est c l a i r que :

E, (x) = ei x a v e c : e, = M a x (ff)

( Î ;

On peut m o n t r e r , p a r r é c u r r e n c e , que l'on a d'une façon analogue : Eh( x ) = ehx

en e f f e t , si c e l a e s t v r a i pour h , on a

S f| X Ï + Eh ( S g, x-() = £ (f-, + eh g i) X i

d ' o ù : Eh + , = m a x S: (f { + ehg , ) x-, d o n c ! Eh + 1= eh+1x

a v e c

e^{h + 1} = M a x (fi + e^hg i )

(0

P o u r d é t e r m i n e r la solution il suffira de t r a c e r d e s d r o i t e s : y = f i + g; x

et d'en p r e n d r e l'enveloppe s u p é r i e u r e , que nous d é s i g n e r o n s par : y = L ( x ) = M a x ( f^{i + X}g i )

(')

C e t t e f o n c t i o n , qui est r e p r é s e n t é e par une ligne p o l y g o n a l e , p e r m e t de c a l c u l e r la suite d e s c o e f f i c i e n t s eh, p a r la loi :

eQ = o , eh + 1 = L ( eh)

C o m m e tous l e s c o e f f i c i e n t s gi sont i n f é r i e u r s à l ' u n i t é , la pente de L ( x ) est t o u j o u r s i n f é r i e u r e à l'unité et p a r conséquent la suite d e s ej, a une l i m i t e l o r s q u e h a u g m e n t e i n d é f i n i m e n t .

Il en r é s u l t e , dans c e c a s , que l o r s q u e la suite d e s o p é r a t e u r s est t r è s l o n g u e , l e r é s u l t a t e s t à peu p r è s indépendant de sa l o n g u e u r . C e r é s u l t a t à t r è s long t e r m e est donné par la solution de :

x = L ( x )

c ' e s t - à - d i r e qu'on c a l c u l e r a t o u t e s l e s solutions de : x = f + g; x

soit : x = f i : ( 1 - g j ) et qu'on c h o i s i r a la plus grande :

6 = mi fx [^{f | :} (US | ) ] = fP : ( 1 - g p ) A l o r s :

1 ° ) L e r e n d e m e n t m a x i m u m qu'on p u i s s e t i r e r d'un s t o c k initial x , à condition d ' a v o i r le t e m p s , s e r a é g a l à e . x .

(6)

2 ° ) L a politique la m e i l l e u r e c o n s i s t e à c o n c e n t r e r l ' e m p l o i de tout le s t o c k d i s p o n i b l e s u r l ' e m p l o i n u m é r o t é ( p ) .

V

Il peut ê t r e i n t é r e s s a n t de c o m p a r e r la m é t h o d e p r é c é d e n t e aux m é t h o d e s c l a s s i q u e s u t i l i s é e s pour r é s o u d r e l e s p r o b l è m e s de p r o g r a m - m a t i o n l i n é a i r e .

D é s i g n o n s p a r x le stock disponible à l'étape (t) ; on fait le partage : x^k = x i + xî + . . . + x F = £ x'^t

d'où le nouveau stock :

x^t- i = £ g^; x[

et le nouveau p a r t a g e :

£ g' x[ = E xL, (1)

Po.ur le d é p a r t , on a :

x.^l0 = a (donné) ( 2 )

L e r e n d e m e n t global e s t :

R = £ f^! xi £' xj + . . . + Sⁱf i x^ (3)

On doit donc c h e r c h e r le m a x i m u m de (3) en c h o i s i s s a n t l e s x'^t l i é s p a r l e s r e l a t i o n s (1) et (2) et a s s u j e t t i s de plus à la condition : x^ ^ 0 .

U t i l i s o n s la d u a l i t é . P r e n o n s c o m m e m u l t i p l i c a t e u r s de (1) d e s n o m - b r e s e^{k + 1}, e t e⁰ pour ( 2 ) . On doit a v o i r

e^t 3*f^; + g¹ . e^{t + 1} (t = 0 , l , . . . , n - l ) et c h e r c h e r l e m i n i m u m de : e⁰a

c ' e s t - à - d i r e de e⁰ .

On r e t r o u v e donc e x a c t e m e n t la p r o c é d u r e p r é c é d e n t e .

Programmes dynamiques et programmes linéaires Note sur un modèle de Richard Bellman

C AHIERS DU B URO

G. T H . G UILBAUD

Programmes dynamiques et programmes linéaires Note sur un modèle de Richard Bellman

Cahiers du Bureau universitaire de recherche opérationnelle.

Série Recherche, tome 2 (1957), p. 37-41

<

>

© Institut Henri Poincaré — Institut de statistique de l’université de Paris, 1957, tous droits réservés.

L’accès aux archives de la revue « Cahiers du Bureau universitaire de re- cherche opérationnelle. Série Recherche » implique l’accord avec les condi- tions générales d’utilisation (

). Toute utili- sation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.

PROGRAMMES DYNAMIQUES ET PROGRAMMES LINÉAIRES

NOTE SUR UN MODÈLE DE RICHARD BELLMAN

C ^{AHIERS DU} B ^URO