Sur quelques structures d'information Intervenant en jeux, dans les problèmes d'équipe ou de contrôle et en filtrage

(1)

HAL Id: tel-00654161

https://tel.archives-ouvertes.fr/tel-00654161

Submitted on 21 Dec 2011

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Sur quelques structures d’information Intervenant en

jeux, dans les problèmes d’équipe ou de contrôle et en

filtrage

Jean Lévine

To cite this version:

Jean Lévine. Sur quelques structures d’information Intervenant en jeux, dans les problèmes d’équipe

ou de contrôle et en filtrage. Automatique / Robotique. Université Paris Dauphine - Paris IX, 1984.

�tel-00654161�

(2)

THESE

DE DOCTOR.l\T D'ETAT ES SCIENCES 11.l\THEHATIQUES

presentee

a

L'Universite Par is 9 - Dauphine UER de l'!athematiques de la Decision

pour obtenirLe grade de

DOCTEUR ES SCIENCES

par

Jean LEVINE

Sujet de la These:

Sur Quelques structures dIInformation Intervenant en Jeu:.::, d aris les Pz ob Leme a d'Equipe oude cont.r o Le et en Filtrage.

Directeur de Recherche Alain BENSOUSSAN

Soutenue Le 19 Novembre 1984

(3)

(4)

(5)

(6)

RENERCIEUEUTS

Quecettethese so i tLapreuve derna re c o n n a iss an c e env er e tous ceuxqui ,de pres audeloin, ont p ar t.aq eme e preoccu p ations, m'a i d a n t a assemb ler au fi l des an neea Les pie c e s de cet edifice res t.e, heLe e, t.rea imp a rfait.

Je t ien s a exprime r rnapr ofond e qr at.f t.ude tout part icu-Laer emen t.AA.BENS OUSSANquim'a eou v ent.t.emc Iqne saco nfi an ce et e'a prodigue le s conseils et encouragemen t s sa ns Les que La co trav ai l n'au r ai t 8an s dout e pasYU Le jour ; aP. BERNHARD qu i m'a rn rtte A laprup art,de sdomainesabo r deadanscememcfre et qui a er bien r eus et a me transrnettre son ent ho usias rne pour la reche rch e appliquee aeluidoia rnapresence auCAl de l'Ec o l e desHin e s;aM. FL I ESS, 3.M LASRY, P.L. LIONS ct; E. PARDOUX qu i ont souv ent ma nirest.e leur interet pour man trav a il, Le prou v a nt, par leu r s nomb reu x coneeire, et qui me font l' hon ne ur et l'amitie de pa r t.icipc r .\ ce jury.

J'a d res s eau s s i mese

mce

rea rerner cie me n ts A tau s Le a co-slgnataire s de s travau x t ct pr e sent. e s r J. THEPOT, G. PIGN I E, A.

KASI f\:SKl,F GEROJoolELet P.WIUoIS, ain siqu'a t.o u e mea coLke q uea du CAl,G. COHEN, Y.LENOIR,L. PRALYet t.ousre eaut. rcaqui. part agen t quo t idie nnemen t Le durapp r enti s sage de la rech erche me t. hc d cLcqLqu e eou miee aux ox rqenceedes application s.

Qu' il me so it perrnis au s s r d'exp zimer rna reconnai s s a nce env e r s 3. LEVY. Direct. eurde l'Ecole des Hi nes, etLe souha i t qu e le s moye n s de ma intenir un equtLfbr eentr ethe o rie at appl i cat i ons iro n t etemetro ren t ,

Je reme r c re enf inJ.Altirnir a etA.Le Gal li c qutontpris charge Le trav ail de fr a pp e avec be a u co u p de soin etde bo nn e hume u r.

(7)

(8)

RESUME DE LA THESE D'ETAT DE

Jean LEVINE

Sur Quelques structures d' Information Intervenant en Jeux, dans les Pz ob Leme s d'Equipe ou de corrt.r o Le et en Filtrage.

Ce memoir e est cons acr e

a

I' etude de certains aspects de la prise de decision ou de La commande avec information incomplete sur l'environnement d e t.e r minis t;e oua Le at.oir e ,

Dans l a te r e partie, on p r c s e nte des structures d'infor-mation classique d etc r-rnLniato s . comprenantla boucle ouverte, la structurede Stackelberg, la boucle fe r mc e et laboucle fe r me e sur Le futur On compare, suru n exemplede duopoledynamique issude la th e o rJe de la firme, les e q uiLi b r-e s en boucle o u v e rte et fer me e Puis on etu die lastr-u ctu r e feed forward et on montre, en g e n e r a Li, s a nt I.a methode des c a r-a cto r Lstt quo s pourles syste me s dte q u atLo n s d' Hamil ton-Jacobi-Bellman, une c o n ditionn e c e s s airedtexistence locale, s u g g or-ant qu'il existeu n e infinitedte quiLi b r-e adans cer-tains

Dans la 2eme partie, on etudieI' information non classique pour les pr ob Leme s d' e qu Lp e stochastiques dans Le cas de d e c Lde uz a multiples ayant des observations d Lffe r errt.e s et une memoir e limi-tee. On generalise la methode de programmation dynamique en prenant La loi des tra"jectoires jusqu'a l'instant present comme variable d' e t.a t., On obtient une equ at a ond 'Hamilton-Jacobi-Bellman sous des hypotheses de regular It e , donnant une d efinition r igoureuse de la notion de "signalisation". Ces hypotheses de r equ Laz ite sont v e r if I e e s dans Le cas du contrOle des diffusions avec observations partielles.

(9)

La 3eme pa rtie est co r i sa c ree

a

l' etude d '117".8 cL a sse d<== syat.emes non Li n e aLre s admettam:. desfI Lt.re e de dLrnerisicnfLnie Les sy s t.erne s c ori sLd e r e s ,

a

t.emp sdiscret au c o nr.i nu , s orrt, C':t:;,:aC1:~L1J~S par Le fait que lee bruits n'c.gissen1: pas sur La dynarm quc~ du ey st.erne ,mais a e uLernerrt,sur les observations. On donneLacondition n e c e e s air e et suffis ant.e dIex istence d' unf.i Lr.re de dirnericion !::inie

ainsi que sa realisation minimale, et on montre Le lien entre

dimension finie du filtre et Imme r ston dans un sye t.eraeLf.neair e . Un exemple concret permet d' e v aLue r les performances de la met.hcd e de filtrage, et, deLa comparer au filtre de Kalman e t.eridu ,

La 4eme partie, enfin, propose un aLqo r i.t.hrne rapide nour Le calcul des ccrrcnande s r e aLia ant; Le d e c oupLaoe cu Le rejet des perturbations d "uri s ys t.eme no n Li n e air e (comluandes pcuv ant, s e r vir

a

d ef Ln Lr une sous-optimalite r aLsormab Le pour certains p r ob Leme s de contr61e s t.o chas t.Lque ) Cet algorithme n e c e s sit.e d e r ivation formelle (et peut e t.r e p r oo r arnme dans un Lanq aq e cornme REDUCE ou MACSYMA) at utilise l'interpretation des nombr e s dits "carac-t.e r istiques" comme la longueur de chemins mini.rnauxdans 1e qr aph e du s yst.erne • Cette methode est appliquee au calcul des commande s qui d e c oup Le nt; la dynamique dIun bras de robot.

(10)

DES l{!:l' IERES

Page

I NTRODUCTI ON

PARTIE I

Generalites sur les structures d' information. Etude de quelques structuresdIinformationen jeuxd Lffer enbLe Ls deterministes noncooperat.Lfe , application au duopole dynamique.

17

1 - Dynamic Duopoly Theory 21

2 - Open Loop and Closed Loop EC;llilibr ia in a Dynamical 41

Duopoly

3 - On the Solutions of Harn ilton - Jacobi Systems and 55

Applications to theDyriarn Lc Duopoly

corrt r oLe et dIequ i.pe PARTIE I I

Etude des conditions r1''''''~;,"""li;-''avec information non class ique pour les pr obLernes

stochastiques.

73

- Non ClassicalLnfo rm.rt Loriand Optimality in Conti- 77 nuous-Time Dynamic Te2mPro'Jle~~s

(11)

PARTIE II I

F iltrage non Lt n e air e de

de sys t.emes

a

t..emps discret et ccrrtinu

urie c Las s e 187

1 - Exact Finite Dimensional Filt.ers For a Class of 191

Nonlinear Discrete-T Ime Systems

2 - The Finite Dimensional Filtering Problem for a 241

Class of Nonlinear Discrete-Time Systems.

3 - Une Classe de s ys t.cme s No n Li n e air e s

a

Temps Continu 247 Adme t.t.ant; des F LLt.r e s de Dimens ion F inie.

PARTIr; IV

Methodes de graphe pour Le d e cou p Laq e et Le r ejet.de perturhations des sy s t.eme e non Li n e a ir c s

1 - A Fast Graph-Thcoric IUgorH.hm For the Feedback 265

Decoupling Problem of Nonlinear sys t.ems ,

2 - A Fast Algorithm Forsys t.emeDecoupling Usin Formal 279

Calculus.

ANNEXE 293

- Un Ape r cu Elementaire de la 'I'h e o r Le Moderne des 295 sys t.emee Non Li ne air es

(12)

(13)

(14)

INTRODUCTION

LES STRUCTURES DYNAMIQUES D' INfORt1ATION

Lorsqu'un d e cide ur- veutelaborer rationellemenT sa str-ate g i.c , par exemple dans .Le cadrede la gestion d'une firme, i l d oit bien e n r e n d utenir compte des informationsqu'il a en sa possession, mais aussi d'un certainnombre d'autres facteursdont l'oubli risquerai t de faire echouersesproj ets :

combieny a - t - i ld ' autres d e c Ld e u r s et que lIes sont les informations en leur possession ?

. Savent-ils la naturedes informations quep o s s e d s notre decideur, et celui-ci connait i l I a naturedes informations de ses c o e q u Lp Le r s ou/et de ses concurrents?

. Y a - t - i l desinformations dont on sait qu'elles existent mais quecertains d e cid e u r s uniquementpeuvent connaitresans en trahir Le contenu ?

que Le faitmeme de libeller cesquestions est

conn ude tous ?

Sichaque d e c i.d e ur- adopte une str ate gied o n n e e , comment r e s u Lt at sera-t-il evalue parchaque d e cid e ur- et cette evaluation est-elle connuede tous ?

. Le resultatd ' une telle str-ate g I s influence-t-il observationsdes d e cid e u r s et si oui comment?

On pourrai T prolonger cettel i s t e encore longtemps, mais butn 'estpas de tenterde d e c o u r a g er- Le d e c Ld e u r p ote n r Le L IIs ' agit simplement de sensibiliser .le lecteur nonpas auc o n c e pt vague et multiformequ'est l'informaTion, mais plus p r e cis e me nt ,

(15)

a l a structuredyna'J1iq'..le d'i:1formationgui intervient dans 10. prisede decision 0'..1 le guidage automatique.

Notons que dans lesquestionsprecedences o nt ete e mp l oveOo: termesassez proches : information e r observation.

CIest en fait 1Iensembledesobservations auxquelles les deci-deurs ont a c c e s a u n instant donne et 10.maniere dont

ensemble varie avec le temps quiservira de definition informelle l'expression "structure dynamiqued'information" Et comme precise plus haut, on p r ste r aplus p a rrt Lc u L'i e r-e me nt attentiona l ' influence quantitativede certaines structures d ' information surles decisions quien r e s u Lt e nt ; ce quin'interdit d'ailleurs, de t i r e rdes conclusions qualitatives.

Ainsi, les cadres th e o r Lq u e s que l'ons'est donne sont les Dynamiques,les Problemesd'Equipe, et 10.Th c o nie du Controle, d ete r-rniniste s 0'..1 stochastiques, et l'influencede l ' information sur les decisionsse traduit icipar 10. notion de bouclage (voir pour certainscas particuliers [1] et [2]).

Danstous cesp r-o b Le me s , l ' etat est donnepar 10.solution d 'uneequation d 'evolution LnfLu e n c e e parune 0'..1 plusieurs commandes, et cet etat estsoi t observe c o mp l cte me nt , soi t obseC've par 1ILnte r-me d i.air e de me c a n Ls me s qui r e n d c nt impossible 10. connaissance exacte de l ' etat, soi t encorepas observe du tout. Dansles deux premierscas, on peut avoiruneme mo Lr-e parfaite, se souvenir d 'unepartie seulement du passe desobservations, 0'..1 encore n' observerq uIune fo n c rio n .ir ata ntan e ede l ' e t a tet oublier tout ce qui precede 1 'observation

a

chaque instant. Mais dans tous les cas,10.structure dynamique d'informationpeut s'exprimerd'une ma nie r-e simple, comme 10.d o n n e ed'une famille de a-algebres .in d e x e e s par letemps (voir Ben¥s [3]), contenant a chaque instant l'ensemble de toutes les observations donton peut tenir c o mpte

loide commande, et 10.10i de commande estdite admissible si elle estmesurablepar rapport a c et te famille de a-algebres.

Cetted ef initLor; contient naturellement les notions classiquesde boucle ouverte (pas d' information autre

(16)

que le temps) ou de bouclefe r-rae e (i-nformation comp:"ete ic stentanee s a n s memoireJ, e r aun s e n s aussi bie n dans

cieterml~is-;:esque

prob Ie rn e s

=n contrale au c a n s les pr obLe me s d'equipe, les o e rfc r mc n c c s realiseespar l ' u t i l i s a t i o n desc o r.m an d e s , s o nt evaluees

a.

d'une fonction c oiit qui estun e foncti-onnelle 'tr a ] e ctoir e s des c o mrnan d e s , e t que l'onc h e r c h e

a

.nininie er-dans la .Iois, commande admissibles.

Eri je u x , chaque joueur dispose d'une fonction c oiit suppose que les joueurscherchent

a

realiser un typedonne d'equi1ibre(equilibre de"ash par e x e mp Le )

a

l'aide des lois de commande admissibles pourchaque joueur.

Dans tousles cas,on s' attachera

a

d e v e Lo p p er-des techniques de calcula d a pte e s auxdiverses structures d'information,

a

mettre en evidencel ' influence de cesstructures surlesc o n dir Lon s d'cptimaliTe et, lorsqu'on1epourra, sur leminimum ou l ' e q u i l i b r e obtenus.

peuttrouver de nombreuxexemples pratiquespour lesquels formalismep r e s e nte convient parfaitement. Citons, sans les d etaiLl er-, les p r o b Le me s d' oligopo1e dynamiqueen economie, d' allocation des taches dans un ordinateur mulTiprocesseuroudans un a t e l i e r flexible, d'evaluationdes transitoireset des c a p a cite s tempsreel d'unr e s e a ude communication, et enfin guidage automatique engeneral avecobservat ionpartielle de l ' etat (1' u n

p r o b Le rne s lesplus frequents en Ln g e nie r-i e !)

Cependant,

a

part de rares exceptions ayant tr o o souvent un caract ere a c a d e miq u e , .Ie calcu1 effectifdes s t r a t e gie s optimales d e p a s s e les p c s s LbLcLt c e des ordinateurs a ctu e Ls , ce qui compromet gravement les p c s sib L'ite s d'app1ication en l ' e t a tactuel de la l:heorie. Notamment, en contrale stochastiqueavec observations p a rtLo Ll es classique (memoireparfaite), on est a me n e

a

calculer loi de p r-o b a biL'i t c de l ' e t a t conditionnellement aux observations p a s s e e s (1e f i l t r e ) . v o i r [4],[5],[6],[7],[8],[9],[10], loi qui depend des commandes derna nie r e e xtr e me me nt corr.pLi q u e e , ~e cas

(17)

lineaireo u e c r ati qu e gaussien joueici role singullerpu Lsqu a le :"iltre s 'ycalcule

a

l ' aide d "u nr:ombre fi"i de p e r a rne t r o s queseule la mc y e n n e c o n d Lt Lo n n e Ll e depend des c o mrna n d e s Cpr Ln c Lp e de :~eparation de Honham [~1]). On peut done essayer de r r-o u v e r-classes de p r-o b Lc me s d o nt Le f i l t r e est de dimension finie, ce quisimplifie notablement laconduite ca1cu1s : c ettc idee, popu-La rIse e p ar- Brockett [12], a fait l'objet de tentativesencore tr e s limi Tees [13], [14], [15] avons c h e r c n e a la developperpour classede p r-o b Le me s

a

temps discret o u continu. (Partie III.).

Une seconde approchepermettant d "c s p c r e r des simplifications substantielles, consiste, a l'insTarde [15], a renoncer

a

l'optimalite,pour l ' u t i l i s a t i o n de lois de commande induisant une structurebeaucoup plus simpleet meme, eventuellement,p e r rr etta nt de se ramener

a

un p r-o b Le me d ete r-min Ls t e . Ainsi, on proposera l'uti~isationdes techniques de d e c o up La g e et de r ejet de perturbations [17],[18],permettant en particulierde lineariser Le syste me parbouclage, et d1appliquer, a p r e s rej et des

p e r t u r b atLo n s , sibesoin est, les techniquesdu Li n e air-e quadratique deterministe !

Avant de passer

a

unerevuede detail surlespoints que .i.'on vientd'aborder, p r e cis o n s quece travail estla reunion d'une s e r I e d' articlesp u b Li e s ou

a

publier, don t Iesoucis maj eur est de developperdes Techniques de calcul lorsquecelles-ci sont parcellaires (lerepartie), ou inexistantes (2emeet 3emeparties),

deja connues mais trop lourdes (4eme partie).

J3ien entendu, les divers d e v e Lo p p e me nts proposesn "a p p c r t e n t de solutions miracles, et d' importants effortsrestent a faire, aussi bien th e o r-Lq u e s quepratiques, p a r-t Lc u Li e r-o mo n t dans la secondepartie, avant de pouvoirs!attaquer

a

des applications reelles dont la t a i l l e estg e n e r a Le me nt colossale ! Cependant, les deux d e r-nie r e s parties (Filtrage n o n Li n e air-e de dimension finie et d e c o up La g edes syste mo s n o n Li n e air e s ) n o u s semblent, du p o l nt de vue des applications, e xtr-em e me nt prometteuses comme .le s u g g e r-e nt .i.es o x e rnp Le s p r e s e n t e s (conduite de til'et g uic a g o rap ided'un b r a s de robot, exemples emanants de secte u r s industriels d o nt la demande d'innovationn' est plus a d e mo ntr-er- i

».

(18)

Ce travail rassernble 10 articles organises en quatreparties

- Generalites sur les structuresd'information. etude de quelques structures d' information en jeux differentiels deterministes non cooperatifs. application au duopole dynamique.

1.1. Dynamic duopoly theory (en collaboration avec J. I'h e p otL, p ub Li e dans l ' Encyclopedia of Systems and Control. Pergamon Press. 1983.

1.2. Open-loop and closed-loop equilibria in a dynamicalduopoly (en collaboration avec J. Thepot), p u bLde dans "Optimal Control Theory and Economic Analysis. G. Feichtinger Ed., North-Holland. 1982.

1.3. On the solutions of Hamilton-Jacobi systems and applications the dynamic duopoly. A paraitr e , 1983.

II - Etude des conditions d'optimalite avec information non

Classique pour les problemes de controle et d' equipe stochastiques.

Non classical information and optimality in continuous-time dynamic team problems. A parai tre. 1984.

III - Fil trage nonlineaire de dimension finie pour une classe de systemes

a

tempsdiscret et continu.

III Exact fini te dimensional filters for a class of nonlinear

discrete-time systems. (en collabora tion avec G Pignie) A paraitre. 1983

(19)

I I I I . b The finite dimensional filtering problem for a classof

nonlinear discrete-time systems Proc of the9th IFAC

World Congress Budapest. 1984 (en collaboration avec

G. Pignie).

111.2 Une classe de s y s t e rne s n o n Lt n e a Lr-e s

a

tempscontinu admettant des filtres de dimension finie. A paraitre. 1984.

IV - Methodes de graphe pour Ie decouplage et Ie rejetde

perturba tions des systemes n o n Li.n e a Lr-e s .

IV.1. A fast graph theoretic algorithm for the feedbackdecoupling problem of nonlinear systems. (en collaboration avec A. Kasinskil. in Mathematical Theory of Networks and Systems. P.A. Fuhrmann. ed. Lecture Notes in Control and Information Sciences, N°58, pp. 550-562. (1983). Springer.

IV.2. A fast algorithm for systems decoupling using formal calculus (en collaboration avec F. Geromel et P. Willis). In Analysis and Optimization of Systems. A. Bensoussan, J.L. Lions e d , Lecture Notes in Control and Information Sciences, N°63, Part.2, p p , 378-390, (1983).Springer.

Un a p e r cu elementaire de la t h e o r i.e moderme des s y st s ms s n o n Ld n e a Lr-e e , p ub l d e dans la RAIRO - Automatique. (Dec. 83).

Partie 1 :

Dans la premiere partie, on donne u n ep r-e s e nta tion informelle de differentes structures d' information dans Le cadre de la th e o r Le des j eux dynamiques non c o o p e r-a tifs

a

2 joueurs (duopole d yn a miq uei . Les structures d' informa tion sont c La s s e e s en deux series : "information complete" (qui est d'ailleurs u n c h o i.x malheureux p uis q uto n n'yconnait pas n e c e s s a Lr-eme n t. tout! mais qui veut simplement dire qu' u n e structure probabiliste n ' est pas n e c e s s a Lr-e ) et "informa tique incomplete".

(20)

L' informa tion complete regroupe la boucle ouverte, La boucle fe r-me e , les structuces du type Sl:ackelberg tdisyrnctr Lq u a ) et en fin la "boucle fe r me e sur le f'utu r?•Les techniques hamil toniennes de cal c u L des strategies optimales sont presentees Aucune structure

donne Le meme r e s u I ta t en general.

Cette affirmation est eta y e e par les deux papiers c omp Le me n t.air-e s 1.2 et1.3 de ce chapi tre o u l ' on mon tre (1.2) que la notion de boucle fe r-me e nIimplique pas, ma Lg r e la presence dIinforma tion complete Ln st a nta ne e , une concurrence plus e x a c e r-b e e : au contraire, dans le cas de firmes se partageant Le ma r c h e par le c c ntr-o Le des prix, pour un ma r c h e de biens substi tuables avec une demande

a

elasticite constante, la boucle fermee induit une certaine cooperation parce que chaque firmesait que les 2 ont interet

a

saturer les contraintes,ce qui limite les choix str ate g Lq u e s au lieu de c r-e er-des menaces s up p Le me nta Lr-e s , et produit en definitive un consensus

pour avoir des prix plus eleves qu'en boucle ouverte. Le second

papier (1.3) p r e s e nte une structure d'information originale que l'on rencontre naturellement dans le cas general de la resolution des condi tions d' optimali te : l ' e q u Ll Lb r-e de Nash des Hamil toniens donne les strategies optimales comme des fonctions de l'etat, mais aussi des variables adjointes (done contenant des informations sur le futur). Or, on montre par le calcul d u s y st e me c a r-a cte rt s t.Lq ue que ces strategies donnent lieu en general

a

une infinite d'equilibres possibles en tout point regulier g e n e r-Lq ue . On termine en donnant exemple Ld n e a Lr e quadra tique o u aucun des e q ua.Li.b r-e s en boucle ouverte, f'e r-mee ou fe r-me e sur le futur ne coincide. On peut certainement en c o n c Lu r e que l'equilibre de Nash n'est pas une dIequilibre suffisamment precise pour etre vraiment pertinente . . .

Dans la seconde s e r Lede structures d'information incomplete, p r-e s e nte les structures de bouclefe r-me e sur les observations de boucle fe r-me e sur la loi de probabili te de 1Ietat .Nous reviendrons sur ces structures dans la seconde partie.

(21)

Cette partie est c ntie r-e me nt c o n s a c r-e e

a

l ' information non classique,

a

savoir lorsque les oi-a Lg e b r-c s d 'observation ne sont pas croissantes enfonction d utemps On peut donner 2 exemples simples de structures d ' information o u cela a lieu :lorsque Le con trol eur (decideur dans un p r o b Le me de contra Le )oublie une partie du passe des observations, ou, lorsqu'il y a plusieurs joueurs, si chaque joueur a desinformations dif'f'e r-e nt e s sur l ' e t a t du s y ste me et n'a pas a c c e s a u x informations des autres Onvoit quecette d e r nie r e structure est g e n e r a Le enth e o riedes jeux ou dans lesp r-o b Le me s d' e q u.i p e , On montre que l ' on peut utiliser la methode de programmation dynamique

a

condition de "grossir"l'espace d ' e t a t : au lieu de l ' e t a tdu s y ste me de depart, i l faut utiliser sa loide probabili tenon condi tionnelle comme nouvelle variable d'etat. Dans ce cas, la programmation dynamique donne la ou les strategies optimales enfonction des observations et de la loi, ce qui oblige

a

c o n s Ld e r-e r une structure d ' information plus g e n e r a Le o uLe bouclage des commandes sur la loi est permis, et que l ' on a a p p e Le e "bouclef'e r me ev• On montre alors que l' optimum en boucle r e r me e est egal au precedent, puis on derive les condi tions d' opti-malite .

Cette etude est me n e e dans deux c a s : lorsque les bruits temps discret ou dans Le casdes diffusions

On montre dansces deux situations que la fonctionvaleur est et continue par rapport

a

la loides trajectoires, et done sur-differentiable, et, moyennant unecondi tion de r e g u La r L te sur Le sur-differentiel, on peut obtenir une equation du type Hamilton-Jacobi-Bellman c a r-a ct e r Ls a nt La fonction valeur et la ou les strat e g i.e s optimales. L' Hamil tonien a s s o cie

a

cette equa tion comporte alors un terme supplementaire par rapport

a

celui du c o n t r o Le

a

information complete, terme que l'on peut interpreter comme la variation du c o ut c o r-r e s p o n d a n t

a

unev a r LatLo n d'information; on donne ainsi une definition precise de la notion de "signalling", introdui te heuristiquement dans

[19J

et

[zo] ,

disantq u '

aI'optimum

la commande devait r-e a Lt s e r le meilleur compromisentre minimiser le c o ut et coder desLnfo r-matLo n s dont la connaissance pourrait a rue Lt o r-e r les decisionsfu t.u r e s

(22)

Dans Lecas particulier du c o ntr o r e desdiffusions avec observations partielles etinformation c La s eiq u e , on mo ntr-e en plusque .L'c q u atio n d' Hamil ton-Jacobi-Bellman p e ut.etre obtenue sans hypothese de r e gu La r-Lt e sur La fonction valeur, donnant ainsi unecondition n e c e s s s a Lr e et suffisante dIoptimalite , g e n e r-a Li s ant les condi tions n e c e s s a Lr e s obtenues par A. Bensoussant

[5J

Partie III :

Comme p r-e c e d e mme nt a n n o n c c , c 'est la p e n u riede techniques de cal c u L efficaces en contrale stochastique, me me

a

information classique (.3.1 'exception du cas lineaire-quadratique gaussien) qui montre l'importance soit des techniques de filtrage approche, soit

de fil trage exact mais dimension finie.

C' est Le p r o b Le me d u fil trage exact de dimensionfinie quiest a o o r de ici pour uneclasse de syste me s n o n Li n c a I r-e s

a

temps discret

continu , ne comportant pas de bruits de dynamique.

Du point de vue des applications, unetelle mo d e Ld s atLo n peut justifier au moins dansles deuxcas suivants :

- la d u r-e e de vie ou d'observation du processusest tr e s - lesbruits de dynamique n'agissent que sur les composantes "Ientes" du processus. Onpeut ainsi filtrer sur un court intervalle de temps la dynamique rapidenon b r-ui te e (situation p r-e c e d e ntel , puis r-e a ctu a Li s e r la loi en fonction de la derivedu processus lent

recommencer.

Lesdeux premiers papierssont c o n s a c r-e s au temps disc ret , le premier exposant la th e o r Le et le secondcomparant d i.f'f'e r e nt e s methodes de filtrage dans le cadre d'une application, etLe tr oiais e me est c o n s a c r e autemps continu Less

ys

te me s

a

temps discret etu oie s icisont plus gene raux queceux

a

temps continu puisque, pour les premiers, L' Lnte n s Lt e des bruitsd'observationpeut etre c o r r e Le e

a

l ' e t a t (bruits c o Lo r e s ) .

(23)

Dans Le premier papierI on c o mma n c e par p r o u v er-u n e formule recursive donnant La loi c o ncitic nn e Ije non n o r-ma Li s e e , puis montre qu "u n e orientation n a t.ur-eLl e consiste

a

g e n e r-a Li s er-

a

la dimension infinie les techniques de realisation des s y ste me s nonlineaires

a

temps discret.

On montre, dans Le cas des bruits gaussiens, que l'on peut construire explici tement une base canonique du fil tre qui donne lieu

a

u n e condi tion necessaire et suffisante d' existence de fil tre de dimension finie .Cette condi tion est p a rtLc u Ld e r e me n t. simple et accessible au calcul, et permet de d e c r-Lr-e explicitement la realisation minimale du filtre dont la dimension est e ga I.e

a

la dimension de l ' espace e n g e n d r e par la base canonique. Bien entendu, on veri fie que cette realisation minimale est bien localement faiblement observable et localement faiblement accessible, au sens de La th e o r Le des s y ste me s n o n Li n e a Lr-e s . De plus, on montre q utu n s y st e me n o n Ld n e a Lr-e admettant un filtre de dimension finie peut etretr-a n s f'o r-me en un s y ste me Ld n e a Lr-esi et seulement si l'intensite des bruits n'est pas c o r-r e Le e

a

l'etat. Enfin, on tente d'evaluer Le nombre des s y st e me s admettant un filtre de dimension minimale do nn e e r , et pour une equation d'observation d o n ne e . On montre que,

sous certaines hypotheses de r e g u La r Ite sur la base canonique, on peut effectivement construire au moins autant de syste me s satisfaisant aux condi tions ci-dessus que d ' elements d' un sous-grouped u groupe Li n e a Lr e de dimension r , En plus d'exemples a c a d emiq u e s , on p r e s e nte une application r e e Ll.e

a

un p r o b Le me de conduite de tir, donnant des r e s u Lt at s probants, alors qu'aucune methode Li.n e air-e ou a p p r o c h e e ne donne de bons r e s u Lta ts. Ce point est p a rttc u Lt e r-eme nt d e v e Lo p p e dans Le second papier o u 1 'on montre, toujours pour Le p r o b Lem e de conduite de tir, que Le filtre de Kalman ete n d u diverge presque systematiquement, que Le filtre de Kalman sur un s y ste me L'i n e a i.r-e obtenu en d e r-Lv a n t. deux fois Le s y ste me de depart est c o mp Letem e nt inefficace puis que l'etat n'y est plus observable, alorsque Le filtre n o n Li.ne a Lr-e obtenu par les techniques p r e c e de nte s donneI pour une erreur ini tiale de l ' ordre de 40 %, u n e e stLrae e en moins de 15 observations ( 2 secondes r e e Ll.e a ) dont l'erreur est Ln f'e r-Le u r e

a

5 %. Notons enfin que pour des temps de cal c u L aussi courts l'utilisation du filtre n on L'i n e a Lr-e general (de dimension infinie) etait rigoureusement impossible.

(24)

Dans Le tr-o Lsie me papier, onmo n t r s qU2 la p Lu pa rr. des r e s u I ta ts precedents se g e n e r a Lt s e nt au temp s c o n t Lnu AinsiI a o r e s avoir c a l c u Le explicite me nt la solution de I' e q ua tion c e Zakai pour Le cas de la dynamique non b r uite e , on fait apparaitre comme p r e c e d emme nt la base canonique du fil tre donnant ainsila condi tion n e c e s s air-e et suffisante d'existence dtu n filtre de dimension finie, ainsi que la realisation minimale du filtre. La condition obtenue est equiva-lente

a

la dimension finie de l'algebre de Lie a s s o cie e

a

l'equation, de Zakai, g e n c r a Li s a nt ainsi des r e s u Lt at s heuristiques

[21]

obtenus p r e c e d e mme nt dans Le cas o u I' a Lg e b r c de Lie est nilpotente. On donne enfin un exemple d' observation p oLynSmia Le de d e g r-e quelconque d' un s y s t.e me Li n e a Lr-e non b r uite ou Le filtre est toujours de dimension finie, alors que lorsque la dynamique est b r-u Ite e et l'observation cubique, i l n ' y a pas de fil tre de dimension finie (voir [14J).

Partie IV :

La motivation de cette d e r n Le r-e partie, qui n'est pas d o n n e e dansles papiers p r e s e nt e s , comportant en soi un interet plus general, peut etre vue comme Le o e ve Lo p pe me nt de methodespermettant de transformer un p r o b Leme stochastique n o n Ld n e a Lr-e en un p r o b Le me eventuellement decouple et Ld n e a Lr-e , mais surtout d e t.e r'mLn Let e (rejet des perturbations). La classe naturelle des lois de commande assurant une telle p r-o p riete est done la classe dans laquelle on peut chercher la "sous-optimali te".

Le premier papier IV. 1, a p r-e s avoir r a p p e Le les conditions necessaires et suffisantes de rejet de perturbation et de d e c o up La g e , prouve que Le calcul des lois de commande assurant Ie rejet de perturbations et Ie d e c o up La g e peut etre t r e s largement simplifie

a

l'aide de l'interpretation, en terme de graphe, des nombres c a r-a cte r-LstLq u e s , Ces nombres s' Lnte r p r-et e n t. comme Le nombre minimal dtLnte g r att o n s q u ' il faut

a

une commande pour etre "visible" dans une sortie d o n n e e . On donne l'algorithme de calcul, utilisant des methodesde calcul forme1 (Reduce ou Macsyma).

(25)

Le second papier IV.2 donne u n resume du papier IV 1 et montre comment est organise Le programme de calcul formel. L' interet de la methode de graphe est c hi ff'r-e sur l'exemple du c e c ou p La g ede la dynamique d' un bras de robot. Cet exemple montre Le gain que 1ton retire des methodes de c a Lc u I formel, sans lesquelles Le d e c o u p La g e de tels s y ste mes n e c e s si.teraient des efforts e xtr eme nt lourds.

Annexes :

On donne u n expose e Le me nta Lr e des r e s u Lt.ats les plus modernes th e o r Le des s y ste me sn o n Li n e a Lr-e s qui pourra servir

a

e c Lair-c i.r-certain nombre de definitions et p r o p r-Lete s ut Ll d s e e sdans les deux derniers chapit r-e s .

Conclusion :

Ce travail comportant essentiellement des methodes de calcul, i l est clair q u ' u n travail de comparaison et d' approfondissement sur chaque structure dIinformation est n e c e s s a Lr-e . Ce travail semble cependant tr e s difficile dans Le cas de l'information non classique ou de gros efforts th e o r Lq u e sres tent

a

faire, surtout concernant les methodes n ume r d qu e s .

D' autre part, la generalisation des methodes d e v e Lo p p e e s en fil trage, au cas comportant des brui ts de dynamique semble etre questiontr e s importante aussi bien t.h e o r-Lq ue me nt que pour les applica tions.

Finalement, i l serait Lnt e r e s s a n t de savoir s ' i l est possible de trouver des algori thmes performants pour Le d e c o u p La g e et Ie rejet de perturbations par retour de sortie puisqu'ici les methodes p r o p o s e e s n e c e s si te nt la connaissance exacte de l'etat.

(26)

References de l'Introduction

[1] BERNEARD, G. COHEN, J-P QUADRAT: Le feedback en th e o r I c de la commande. Quelquesremarques. A paraItre

[2] HO, I. BLAU, T. BASAR : A t a l e offour.irfo r-matio n str-u ctu r e s A paraitre.

[3] BENES: Existence of optimalstrategies basedon specified information, SIAMJ. Cont. Vol.8, 2 p.179-188 (1970).

[4] ANDERSON, A. FRIEDMAN: Nulti-dimensionalquality control. Parts I and II. TAMS, Vo1.246, p.31-94 (1978).

[5] BENSOUSSAN : Maximum principle and dynamic programming approaches of the optimal control of partially observed diffusions. Stochastics. 9,3, (1983), p169-222.

[6] J.M BISMUT : Sur un p r-o b Le me de controle stochastique avec observation partiel1e. Z.f.W, 49, p.63-95 (1979).

[7] DAVIS :Nonlinearsemigroups inthe controlof partially observed stochastic systems. LectureNotes in Nath. (1979).

[8] FLEMING: Nonlinear semigroup forcontrolled partially observed diffusions. To appear.

[9] FLEMING, E. PARDOUX : Existenceof optimal p a r t LaLl.vobserved diffusions. SIAM J. Co nt Vol p.251-288 (1982)

[10] R.E. MORTENSEN: Stochasticoptimal control withnoisy v atio n s . Int. J. Cant. 4, p.455-4 6 5 (1966).

[11] W.M WONHAM : On separation theoremof s t o c h a s ric SIA~l J. Cant Vol.6, N°2, (1968)

(27)

[12] ::z 3RGCKETT : Remarkson ::'inite dimension a ; estimation Asterisque75, 76 (1980)

[13] Exact finite dirne n sio n a L f i l t e r s for certain cif::'usions with non::-inea.r d r i f t . Stcchastics 5, p.65-92 (1981).

[14] t1 HAZE\HNKEL,

s

i

r ,

elARCUS, H.J. SUSS~t,AN Non existence of exact finite dime n s i.o n e Lf i l t e r s

?reprin t. Uriive r si

te

Erasmus. Ams-::erdam.

[15] M. CHALEYAT-MAUR:::L, D. \1ICHE~ : Un th e o r e me de n o nve x Ls r e r c s de f i l t r e de dimensionfinie. CRAS, t 296 (19£,3). Serie 1. 933-936.

[16] QUADRAT : These Paris

[17] ISI1)ORI, A. KREHER, C. GORI-GIORGI, S. \10NACO :Nonlinear decoupling viafeedback.

p.331- 345 (1981).

Trans. AC. 2 6 , 2 ,

[18] D. CLAUDE: Decoupling of nonlinear systems. Syst. Cont. Letters. 1 , 4(1982).

[19J H.S. WITSENHAUSEN : A counterexample in stochastic optimum

control. SIAM J. Cont. 6,1, (1968), p . 131-147.

[20J I.C. HO, M. KASTNER, E. WONG: Teams, market signalling, and

information theory. IEEE-AC, 68,6, (1980), p. 644-654.

[21J Z.S. ROTH, K.A. LOPARO : Optimal filter realizationfor a class

of nonlinear systems with finite dimensional estimation algebra. Syst. Cont. Letters, 4,1, (1984), p.23-26

(28)

PARTIE I

Gt!meralites sur les structures dIinformation.

Etude de quelques structures dIinformation en jeux differentiels

deterministes non cooper at.Lr s ,

(29)

(30)

RESUME DE LA Jere PARTIE

Generalites sur les structures d' information. Duopole dynamique

Cette partie sert

a

introduire les diverses structures

d' Information qui ant ete e t.udLeea jusqu'

a

present dansLecadre des jeux dynamiques Le premier article, pub Li e dans I' Encyclopedia of Systems and Control, en collaboration avecJ. Thepot, sert en

quel-que sorte de f il d irecteur pour les 2 premieres parties: on y

p r e s errt e , sans les d emorrt.z e r , les pr incipaux r eauLt.at,s sur les

con-ditions d'equilibre pour chaque structure d'information, et les

r e s uLt.at.s originaux sont d eve Loppe e et demont.r es dans les autres articles des parties I et I I.

t.es structures d' information presentees sont classees en deux grnupes: l' information de nature deterministe et l ' information d e nat.ur e probabiliste.

£1) n:ln~ I.e premier groupe, on trouve la boucle ouverte (la seule information pour les 2 joueurs estLetemps et le point de depart du jeu), La boucle fermee (les joueurs ont une information com-plete sur l ' etat du j eu mais purement instantanee), les struc-tures d Lsymet.r iques du type Stackelberg ou l ' un des 2 joueurs est Le meneur et I' autre le suiveur. Le meneur joue en boucle ouverte a l.o r s que le suiveur joue en boucle fermee et connaissant la s t.r ateg i e du meneur; et enf in, la boucle f erme e sur le futur (information complete instantanee des 2 joueurs et enplus, ob-servation exacte de leur revenu marginal).

Deux contr ibutions or ig inales y sont annoncees, et deve-Loppee s dans les deux articles qui suivent. 11 s'agit d'une part de la comparaison entre equilibres en boucle ouverte et en boucle fe r mee , dans le cas d' un duopole au 2 f irmes se partagent le mar cb e par le contr61e des pr ix et deI'investissement, les biens p r o d uit.s par les 2 f irmes etant substituables, et la demande

(31)

at-ant s uppo s e e

a

elasticite constante. On montre que, contrai-rement

a

ce que l'on attend, la boucle fermee induit une certaine cooperation entre les f irmes car chaque joueur sait que chacun a inter~t

a.

saturer les contraintes sur les investissements, ce

qui limite leurs choix strategiques et produit, en definitive,

des pr ix plus e Lev e s qu' en boucle ouverte en reg ime permament. 11 s' ag it d' autre part du calcul des equilibres en boucle f e r mee sur Le futur. On montre d' abord que c' est cette structure d' informat ion qut apparalt naturellement lorsque l' on cherche un equilibre de Nash des Hamiltoniens, pUisqu'alors on obtient les s t.r at.eqie s optimales comme des fonctions du temps, de l'etat, et

lies variables adjointes (revenus marginaux des 2 joueurs), et

lorsque les strategies optimales ne saturent pas les

contrain-tesr on ne peut e Lirn Lne r les var iables adj ointes. On montre alors, en generalisant

a.

ce cas la t.heo r ie des car act.ar istiques de Cauchy de I' equation d' Hamilton-Jacobi, qu' il existe en tout point generiqlle une infinite d'equilibres possibles. Enfin, on

donne un exemple elementaire OUaucun des equilibres (boucle

ouverte, fe r mee et fermee sur le futur) ne coincide.

b) Dans Le d eux Leme groupe, on pr es ent,e des structures

d'infor-mation incomplete: boucle fermee sur les observations

instan-t.ane es ou , d'une part, les joueurs observant l'etat par des

pz oc ede s differents, ils ne peuvent comparer leurs informations, etr d' autr e part, les observations etant instantanees et sans memoir e , ils ne peuvent utiliser ce qu' ils auraient pu apprendre dans Le passe. ce type d' information non classique ne veri fie pas les conditions "habituelles" sur les o-algebres d' observation que l ' on suppose en contrOle avec observation partielle. On

pre-sente alors une equation de programmation dynamique qui sera

largement developpee dans la partie I I, consacree exclusivement

a.

l ' etude de l'information non class ique.

(32)

DYNAtlIC IJUQPOL.y'TrrEORY

L.EVINE;t J. THEPOTJtJt

Since the prominent contribution of von Neumann and

Morgen-stern (1944)0 o Ld g o o e Ly theory is widelyrecognized as part of

Game Theory. Static f~rmulationsof the c Lf.g c p oLy game have t:Jeen

developed to explain howthe competitive interdeoendencies

deter-mine the price. quantity or advising decisions of the firms.

How-ever. itis clear that Timeplays a determinant partin the defif1

i t ion of the strategies of the competitors. Differential Games

techniques have therefore been used to extend thestatic

tradit-ional modelsto dynamicsituations. By emphasizing hereduopoly

situations. we are gcingto outline the main issues arising in

this Th e sr-y and to present illustrative and recent models.

I - General Statement and Informational Structuresof a

Dynamic Dilopoly

L.et us consider two firms (firm 1 and firm 2) competing

on the same market over a horizon [D. T]. At timet • the state n.

of firm i is representedby a vector Xi (t) of 1R~ (ex: or8ductien capacity, inventory levels. balance-sheet accounts.

etc . . . )0 ana its decision by a vector functionof its

ot:Jserv-ations (tobe defined later) withvalues u_iLt ) in [RPi The

result u_i(t) of firmi ' s decision at time t knowing its

observ-ations is called a control (ex: price. quantity to be soldby unit of time0 etc •.. )0 and asequence of decisions over the

horizon is called a strategy. At any time. each firm

to given constraints :

according

tP

j( toX(tJ,u1(tJ,u2( t ) ) ...0 , j • 1 . . . .,m [1] where xLt ) • (x_{1(tJ,x 2(t)]'}€ iBn [prime denoting transpose],

(33)

denotes the state of theduopoly. If firm imust satisfy "':he

set of constraints ~i. {~. " •.d. } independently of i t s

~0 Ji

::Jpponent'sdecision, we say that this set::J-i' constraints is

under firm i ' s responsibility.

The dynamics of theduopoly are described by the

follow-ing differential system : XCt] • fCt.x Ct), u_iCt J. u

2CtJ] (2)

in which the initial statexCO)• ~ is given.

During the interval [ t , t+dt], firm i ' s profit

by gi[t,x,u

1, U_2)dt, so that the net present v.s Lu e J i horizon (with a discount rateeli) can be written as :

J

i( Ui, u2) •

f:

giCt,xCt),U1CtJ.1J2Ct))e-elitdt + Mi[xCTJJ. (3) i · 1 . 2 . where M

i describes ahe evaluationof firm i at time T. aefore to discuss the various structures of information

that can be metin these game problems, we suppose thatan

information struc.tureSis given, and that U_iCS) is firm i ' s

set ofstrategies adapted toS, and satisfying the constraints

un d e r i ' s res p0n sib i l i t y. i • 1. 2. Th us, we assurne tnat the

two competitors try to realize anon-cooperative Nash

eqUilibr-Lurni namely. ifSisa completeinformationstructure (see

below]. theywant tofind a pair of strategies (u~. U~) in U

1(S) xU2CS) such t h a t :

J1[u~, u~) .;;;J1(u1,u~) IfU1E Ui(S) J2CU~.U~).;;;J2Cu~.uZ] lfu ZEUZCSJ

If~ is incomplete informationstructure, (4)must be

(4)

adaptedin replacing J_i by ECJ_i) the mathematicalexpectation of J

(34)

Finally, let uspresenta brie-f survey of the informational

structures thathave been studied or, at least, pointed out, in

the literature until now: they are classified into completeand

incomplete information structures.

1. Complete information.

In all thisparagraph, both firms are supposed

least a perfect knowledge of theset of data

{{tPj},f,J_{1,J 2,;,t,T}.} (5)

For all thestructures introduced below, simple counterexamples

prove that they yield differentsolutions tothe Nash game.

1.1. Open-loopstructure : Both firms haveonly the

know-ledgeof (5). This structureis called "static" since there is

change of information during the game.The strategiesof U i(5) are thus measurable functions of t a n d ; ,and, when<;isfixed,

reduce tocontrols. Thisclass ofgames isby far the most

studied and the reader willfind a complete bibliography in

(Feichtinger, Jorgensen 1983).

1.2. Feedback structure: Bothfirms observe exactly the

state xat any time to U_i(5) is thus made of measurable functions

u

i(t,x). A careful definition ofthe solution of (1.) mu~!: be provided in order toallow strategiesthat are discontinuous with respect to x ,

As in (Basar ,Olsder1982); we distinguish between "Feedback" and

"Closed-Loop" structures, where the initialcondition; is also

r e mamb e r e d . Thus s tra tegies take the form u_i( t , x , ; ) . When, further more, the competitors perfectlyremember the pastof the state,

we saythat we are in a "Full memorystructure".Whether these

(35)

I. ] . Sta ckelberg 'th e lea de r , say firm I, pl a ys ope n-lo op and gives it s co n tr ol at eve ry time to the followe r

which, inadditio n, per fe c t ly ob se rv es thestat e. 'thusU₁(S) is

mad eof controls u\(t);wherea sU

2{S) is ::la d eof mea s urabl e fu ncti on, of the form u

2( t,Jl, U1(t» . Detai ls c:a llbe fou nd in t

e

asar 1977).

1. 4.Fe ed f orwa rd st ru c:t u re :Each fir mtake s de c i si ons of

form ui( t ,x, ..,q)wherep (r,up.q) is the op timalmarg ina l

for fir:ll \ (r e sp 2) of thega :ne st artin gat

t

c,x) over the horizo n

r

t,T].Th is in fo rm ati onstruct ur e is natura lly adapted to Dyn amicProg r am mi ng metho d s (Levine 19 53), As a re su l t , th e

st r u ctu res 1.3. lind \.4 . e e Le etd e in thezer o-sumsitu ation.

2. Incompl e te Infor matio n.

Thi s is thecasewhe r e lea s t one firm does notob se rve

I

perfe c tlythe statebe ca us e of dist u rb a nce s alld/or of theno n

iaj e ctivityof th e observa tion fu n ct i on. Pre cis ely,suppose th at th e obse rvat ions equa tions ar e gi ve n by :

Yi(t) • hi(]t (t),Vi(t) , i • 1,2 (6)

·

..her eVI and\1

2are exogeneousdLseureances,

Conceptu a lly,no th ingwo u ldcha ng e i f , inpl a ce of (6) , the

observa t ion. werede s cr ibedby a stochasticdLfferentLaLsystem. Fo l l owing (Ha rs any L 1968 ), the fit':lls must agreeonall a prior i

proba b i li t ymeasur e on the ini t i al statet andon the dist u r ba nc e s

Le t PU;,v

l,v2) be this apriori pro b abi l ityeeasure ,ThenJ1 an d

J₂mustbereplac e d by the ir llIath em at i cal ex p e ctation with r-• •peet P, na mely

Ile shal l as sume tha t th e cons tr a in t s (J) areof the form ~i(t ,yi,u

1,u2) , i • 1,2.

(36)

2.J. Output Feedback Structure: Each finn perfectly knows

theset of data :

{{Ijl~},f,h],h2,'J],J2,P,t,T},

and observesYi at

everytime t (andpossibly all orpart of the past Y

i ) . Decisions t a k e the form u i (t , Yi) 0r u i (t, { Yi (s)I s ~ t } ) .

Z.2. Closed-Loop Structure : Inaddi tion to the preceding

the decisions take into account the actualprobability

measure P

t, image of P by (Z), which plays therole of the state

of the game with incomplete information.Thus firm i ' s decision

is of the form ui(t'Yi'P_{t ) ,} For details see (Levine J981).Z.1.

and Z.Z. arereferred to as non-classical information

(Witsenhausen 1968) sincefirms 1 andZ have different ob s e r v atLo n

and the associated sigma-fields included one in another.

- Characterizations of Nash Equilibria.

We shall review theexistence results and the

characterizat-ions of the solutionsfor the precedinginformation structures.

We shall usethe same numbering as in paragraph I.

1.J. Open-Loop structure: Existence results ofan open-loop

Nashsolutioncan be proved for linear-quadraticgames (Starr,

Ho 1969). For the characterization of open-loop solutions, i t

can be proved thata two-sided minimum principle holds (Starr,

Ho 1969):

Theorem I :Let f ,gl ,gz ,MI,HZ be

c

Z

functions and Ijl

~

depend only CUI,u

Z),'Iti , j . Then anecessarycondition for

(u~ ,u~)

to bean open-loop Nash solution is that there exist two continuous

functions Pl andPz satisfying:

.

*

x

=

f(t,x,u_I,u_Z) x(O) = ~

ax.

(37)

* * * * with H] =PI.f(t,x,u

I,uZ) + g] (t,x,u] ,uZ)

..;

PI.f(t,x,u1'u~)

+

g](t,x,u1'u~)

"Iu₁ svt , <jl](u],U;)';;;; 0

and HZ

=

PZ·f(t,x,u~

,u;) +

gZ(t,x,U~

,u;)

.,; P Z • f(t,x, u: ,uZ) +g2 (t ,x, u: ' uz)

1.2. Feedback s'tructure :Existence results over a small

horizon can be derived for linear-quadratic games (Lukes 1971),

(Bensoussan ]974). Also characterizationscan be obtained under

regularityassumptions on theoptimalvalue functions, by means

of the Dynamic Programming method, and under theassumption that

the "local" Nash equi 1 i b rium of the Hami 1 tonians a t every po i n t

can be obtainedas functions of (t,x). Namely (Case ]969)

Theorem Z : f ,gl,gz,M] ,M_Zare chosen as in theorem 1. Let

d~f

J

i(t,x,u:

,u~)

, i = ],Z, where (u;

,u~)

supposed torealize aFeedback Nash equilibrium over thehorizon

[t,TI, from the i n i t i a l point x . Suppose furthermore that VI and

V

_z

ar: piecewise continuously differentiable. Then VI' V 2' - . and U

_z

must solve the following system ofHamilton-Jacobi

equations everyregularpoint :

av I av] * *

at

-a.]v l+] Min *

(ax

.f(t,x,u] ,uZ)+gl (t,x,u

I,uZ»=O <jl (t,x ,u

I,uZ)';;;;O

(8)

av

z

av Z *

*

at

-a.ivz+ 2 Min*

(ax

.f(t,x,u-_I,uZ)+gZ(t,x,u

I,uZ» .. O • <P ( tx u_l,u₂) ..,;o

Corollary (Case 1969) : Underthe* same as:umption and if (u~,u;) o b t a i ned by ( 8) are0f theform u] (t , x ) , u Z ( t • x ) , the n

p] =

~l

andPz

=

~Zsolve,

at every regular point, the adjoint

(38)

aMi

P i ( T ) - a i ( x ( T » , i = I , Z (9)

*

Remark: in (9) appear the derivativesof u

i ' i .. 1, Z, with

respect to x, so that its solution is generally different from

theopen-loop adj oints.

Let us also point out that the optimization problem of (8)

determines u: and

u~

as functions of (t,x,PI ,PZ). Thus a method

to obtainu~as functions of (t,x) consists in making the change

of variables

(10)

Thus Pi must satisfy the system : *

*

.:.:.i

+

~{

.s"

=

af* agi j ( df*+

~i)~ ~

at ax - Pi" a i

j - a ij - CliP i - Pi' ~ "aU 'aP'dXj i ..1,2; j , k " I , . . .,n. ( I I )

where f* denotes f evaluated at

u~

(t,x'P₁(t,x) ,PZ(t,x», and the

*

same forgi'

For linear f andquadratic gi' and if we look for u_l U

_z

linear feedback functions of x , (11) becomes the wellknown.

system of two coupled Riccatiequations. Nevertheless, thereis

no proofof the fact that, in thelinear quadratic case, the

linear solution of (11) is unique, and the author conjectures

the contrary.

Onthe other hand, one can find verification theorems in

(Stalford, Leitmenn 1973), (Mehlmann 198Z), but an open problem

remains the derivation of necessary conditions on singular s u rfa c a .

1.3. Stackelberg structure : Since the leaderplays

(39)

the characterization of the Stackelberg equilibrium can be

obtained by crossing the two preceding methods. It can be seen

in(Basar 1977) that there existinfinitely many equilibria even

inthe simplest linear-quadratic case withstrictly convex cost

functions. This result illustrates the sensitivity of the Nash

equilibrium to the information structures.

1.4. Feedforward : It was seen in ].Z. that one generally

obtains the optimal strategies in (8) in the form:

*

u'j (t ,x ,PI 'PZ) , u

_z

(t ,x,p] ,PZ) .

Thus, since the information structure allows the competitors to

use their optimal strategies as such, without introducing the a

priori change of variables (JO), i t remains to find the adjoint

system for PI'PZ in order to compute the optimaltrajectories.

.

*

ir

*

Thus, l.f we note f* (t;x'P₁,PZ)"'f(t,-x,u] (t,x,p] ,P_Z),u_Z(t,x,Pl,PZ)

and the same forgl ,gz' and if we set

Hi'" P i.f* (t , x , PI' P z) + g: (t,"X ,PI' P 2 ) , i '" I,Z ,

'" TT.

1. '" 1,Z,

the following theorem (Le-v i.n e 1983) holds t r u e :

Theorem 3 : inthe feedforwardstructure theadjoint equations

are given, in additionto

x '"

f* (t''X'P 1,PZ), by

i '"J,2; j,k '" 1, . . .,n,

i - J,Z; 1 '" ] , •••,n, aM. withterminal conditions: Pi (T) '" a:xl.('X(T».

(40)

a~k

with Zn equations,and suitable transversality conditions. This suggests that non-uniqueness of Nash equilibria is a generic prope:ty.

*

~ :The non-uniqueness of (IZ) disappears when u

1 and U

_z

independent of PI'PZ' in which case the informations on the

future contained in PI ,P_Zare wot:thless, and the adjoint system

reduces to (9). However, i t can be proved that thesolutions

obtained by (1Z)

loop solutions.

generally different from the openand

closed-Z. Incomplete Information. Feedback structure: We shall

just sketch the dynamic programming methods, forexample when the

observation equations are given by (6), with vi a piecewise

constant process on prescribed intervals [ t_j, t

j+ I[ forming a partition of [O,T] • We note vi the projection of vi onthe interval

[ t_j, t_{j+ 1[} andwe suppose that vi is independent of x and of v~, k

r

j, and we note oCv) the probability measure of (v

J'\,)Z). Let us denote :

e -(1i tv i (t, Pi) -

JJcJ~gi

(s

'x:

(t ,x)

,u:

,u~)

e -(1i s ds+M_i(X; (t ,x» )

dPt(x)dp(v) , i-1,Z (13)

*

where ul,u

Zaresupposed to be a Nashpair in theFeedback

structure (precisely, forevery t'Yi(t) and P

t, they are given by

*

u_{1(t'Yl(t),P t),} uZ(t'YZ(t),P_t

» ,

and whereXs(t,x) is thesolution of (2) at time s startingfrom (t,x) and generated byu~ ,u~. Finally, let us recall that the Lie derivative of P t in the

direction of u_l,u_z' : ~~elimit when i t e x i s t s : LUI ,u

z

(P t) ,.

~~~ ~(Xe:l

z(t,pt) - Pt) (J4)

U₁,u

_z

where Xe: (t,P

t) is the image of Pt by the flow of tr aje cto r roj , solutions of :

(41)

10

u_l,u

_z

with X

t (t ,x)

Thefollowing results holdtrue (Levine 1981) :

Proposition: Vi has the integral representation

Vi(t,P

t) = fwi(t,x;t,Pt)dPt(X) , i

=

1,Z,

*

with wi(t,x;s,P

s) '"' wi(t,x;t,Xt(s,Ps)) '" (t,s,Ps)'

~

: If

(u~ ,u~)

is a Nash point and if w_{1'w Z} are C1

functions of all their arguments, then wehave :

ff(~I_CllW

)dPtdP(\»)+f{Minfl;;l.f(t,x,UJ

,u~)+gl

(t,x,u]

,u~)+

u J

+<~I,L

*(P )-L*

*(Pt»ld(Pt~P)(x,\)IYJ)}dQ~(Y])

= 0 ap ul,u Z t l l_J,u_z

awZ

.

awZ

*

ff(~ -ClZwZ)dPtdp(\»)+f{MJ.nflai .f(t,x,ul,uZ)+gZ(t,x,uJ,uZ)+ U

_z

aw

Z

z

+<3'P ,Lu~,uz(Pt)-Lu:,u~(Pt»]d(PtllOp)(x,\)IYz)}dQt(YZ)= 0 wi th the boundary conditions :

(J5)

wi(T,x;t,P) '"' Mi(x) , '" x,t,P; i

=

I,Z, where

Q~

=yi(t,P

t) , i'"' I,Z, and where the bracll:ets<,> denote the duality between C1functions and first order distributions.

~ :Very l i t t l e is known about the solutions of (15) which

constitutesa non-linear integra-differential system. I t is

interesting to interpret thecoupled minimization problem of (15)

as a trade-off between cost and information, since the Lie

deri va t i veterm des cribe s the variation ofprobabiLi, ty induced by a variation of control.

To conclude thissurvey of theoretic methods for non-zero

sum differential games, let us just mention theanalysis in

(Dockner, Feichtinger, Jorgensen 1983) of classes of games

(42)

11

the optimal controls can bedirectly obtained by a system of

differential equations :

Ui = 'I'i (u₁,u Z 'c ) , i - 1, Z .

This situation occurs for example when

~i

_dU and

~i

do not i '3Xi

contain those adjointcomponents

p~

corresponding to x_j , j i .

III - AnIllustrative Example: GrowthStrategies in a

Price-Setting Duopoly. (Levine .. Thepot 1982)

Let us consider aprice setting duopoly aver an infinite

horizon when the outputs of the competitors are substituable. At

time t , firm i charges theprice Pi(t); its demand xiby unit of

time is supposedto depend on both prices:

(16)

Without a great loss of generality,we will assume henceforth

that the demand functions are time independentand constant

e1as tic i tie s fun c t ions 'in the form x i "Bi P i -Ei pj ni , wher e Bi i s

aconstant depending on the variable units, E

i the elasticity with respect to i ' sown price, n

i the crosselasticity with respect competitor j1S price, satisfying the following inequali ties :

E i > l , n i ; ; ' O ; D=E1EZ-n1nZ>O,

which merely' express classical assumptionson

I. Defini tion of the differential game.

(17)

demand functions

Each firmis supposedto maximise its net present value; then

the problem can be stated as thefollowing differential

Y

_i

=

Ii - U\Yi' Y_i(0)

=

; i

o .;;;

Ii-cCliVi) (Pi - ci)x i ;

(18)

(19) (20) (21)

(43)

12

where Yi is the output capacity offirmi , Ii therate of inves t>

ment in volume of capacity, c

i the production cost by unit of

put, wi the rate of depreciation of capacity, vi the priceof

unit volume of investment, <;i the levelof capacity at time O.

Re Ls . (20) express that the investment is irreversible and that

firm i is not allowed atany time to lose money; all the

para-meters vi' c_{i '} wi are supposed to be constantthroughout the

horizon. Hencei t is adifferential game with two state variables

YI'Y2 and two control variables Pi,I_i at the disposal ofeach

compe t i tor.

2.Open loop strategies inthe duopoly

By'using the classical results (see sect. 11.1.1.), we defin .

the current value dualized Hamiltonian Hi offirm i as follows

Hi = (Pi-ci)xi-viIi+qi(Ii-wiYi)+'Pi(Ij-wjYj)+a.i(Yi-xi)· (22)

with qi''Pi' (].i being respectively the costate variables

associated tocapacity Yi' Yj are the Kuhn and Tucker multiplier

associated tocons traint (21). The class ical necessary condi t ions

y i e l d : _{qi=(wi+di)qi-a. i ' ,p("'(wj+di)'P i ;}

(x'+(P.-c.)~·)(I+.!. )(q.-v.)+_a..~i

= 0

~ i, 3Pi vi ~ ~ ~3Pi

(23)

(24)

lim q. (t)exp(-d.t) lim 'P. (t)exp(-d.t) 0 ; (25)

t ...oo ~ ~ t... ~ ~

q i <v i " Ii =0 , q i = v i " I i >0 un d e term in ed, qi > vi .. Ii = ; i (Pi - ci)x i ;

(26)

sake of simplicity we do not consider situations where

excesscapacity may occur. Accordingly (26) determine the three

po licies I ike ly to becho sen by each firm along the eq ui I ib ri um

path: [policy I (qi<vi):I_i = 0; policy 2 (permanent policy, qi = vi); policy 3 (qi

>

vi):I i = }; (Pi - ci)xil . A combination

(44)

13

(k-s) of policies where firmi andfirm j use respectively p o Iic '

k and s iscalled a duopolYregime.

It is easy to show that regime (2-2) is thefinal regimeof the

duopoly to be held from a time t* (t*

<

+00); this regime

coin-cides with the long term classical static equilibrium of the

duopoly with constant prices P:-E:i(ci+(wi+di)vi)/(E:i-l)

To emphasizegrowth strategies of the firm, we suppose that the

initial production capacities ';i arelower than, the long term

* * *

pro d u c t ion 1 eve 1 s xi =x i (p i ' P j ); a s a r e s u 1 t the firm s are both incitated to investand to grow from the ·beginning. Three

types of equilibrium paths can be found according to the values

of theini tial capaci ties .;1 and .; 2 :

For initial capacitiesof same ma g n Lt u d e-, theequilibrium

path is in theform (3-3) ...(2-3) .... (2-2) : at the beginning,

the competitorsuse their maximum investment policies 3while

decreasing the prices and increasing the production until time

t

i when the price reaches the value Pi'

*

Then, firm i adopts

the permanent policy 2 with its price being" kept constant; firm

jIS pro d u c t ion i s s t i l l inc rea sin g but firm i ' s i s dec rea sin g .

At time t:price Pj becomes equal to pJ and the duopoly adopts

itspermanent regime with production and prices being

to infinity.

For a high initial capacity ';i anda low initial capacity

';j the equilibrium path is either in the form (3-3) ....(J-3) ....

(1-2) ...(2-2) or (3-3)....(1-3) ....(2-3) .... (2-2).Initially, the

firms use their maximum investment policies as previously. Howeve

at a time t

i, firm i stops its investmentalthough price Pi has

not yet reached the value Pi' As aresult, firm i goes througha

(45)

14

I t turns ou t tha t thegrowth of the firms is no t c rea ted

through monotonicallyincreasing productions forboth competitor

Moreo-ver, in some cases, one of thefirms has to stop Lnve s tmen t

during a transitory period, as the decrease of the competitor's

price causes too much ofa decline in demand"

3" Feedback strategies

In the closed Loop formulation, theprices and the rates of

investmentare to be sought in thefeedback form

Pi= Pi(yi,yj,t), I i " Ii(yi,yj,t) (Z8)

The feedbacks are determined by the Nash equilibrium of the

HamiLt o nd au s HI and HZ atany point intime t and forany

production capacities Y₁ and Y_Z" As a result, therates of

investment Ii are given by (26), as in the open loop case, and

the capacities constraints (21) are saturated: Zi(Pi,Pj)=Y

i ' fr om which we deduce the feedback laws of theprices

_ <-e/D) (-nJD)

Pi - Yi Y_j , and consequentlythose of the investments

The characteristic equations (9) actually take theform

I/J

i

=

-;'iy.-(q,_v.)~i+«lll.+d.)_;':'j)1jJ.

Yj 1 1 1 Y j J 1 Yj 1 + (Z5)"

(Z9)

(30)

Clearly, the feedback strategies are sequencesof the three

policies defined above in theopen loop case. However,

differences have to bepointed out :

a) The feedback final regime (2-2) holds withconstant

--prices Pi

=

(Ci+<llli+di)Vi)/~I-ej/D) which arehigher than

(46)

15

and contrarily to what is intuitively expected, feedback

stra-tegies imply more cooperative behaviourthan the open loop

strategies do.

b) Inthegrowing phase of the duopoly, regime (2-3) does

not hold in feedback with firm i keeping its price constant. In

this regime, theprices evolve according to anon linear differen

tial equations system(see Levine,Thepot 1982) which indicates

that both prices are decreasing. It turns then out that the

feedbackstrategies express a tendency towards some mimetism and

synchronization of the competitor'sdecisions.

IV - Generalized Competition Dynamic Models

Price (or quantity) manipulation is basicallyconsidered by

the managers as a two-edged sword which jeopardizes the

profit-ability of the firm rather than really affects therival's

position.Accordingly, thefirms are more and moreinvolved in

using other competitive weapons. Some dynamic duopoly models th e r e

fore have emphasized more accurate types ofcompetition on

advertising, quality of the products or R&D projects for

instance. Let us outline some typical andrecent contributions

inthi s field.

1.An advertising model (Deal1979)

Deal ·has developed extension of the classical monopolistic

sales response model of (Vidale, Wolfe 1957) :

Let x_(t) and a

i(t) the sales and the advertisingexpenditures per unit of time at date t of firm i . The evolution of the sales

are given by the following differentialequations :

(31

(47)

16

where

c

i = the sales decay parameter, 6i .. the sales response parameter and M ,. the total potentialmarket size (6_{i ,}

c

i >0)

Eqn. (31) indicates that advertising expendi tures increase the

sales; however, such anincrease is more efficient when the

marketis saturated (namely when xl +x₂ is close to M). As a

result, advertisingexpendituresof a firm have adirect effect

on its own sales andan indirectone on the competitor's as they

contribute to saturate thetotal market.

Dealdefines the o bjective function J i of firm i as a

weighted sum of the marketshareat time T and the sum of the

profits earned over the horizon.

J

i

=

wiXi( T ) ! [ X1( T ) +x2(T)] +

f~[Pixi(t)

-

a~(t)]dt.

(33)

with Pibeing thenet revenue coefficient andwi the weighting

factor for the performance index. The problem is thenstated as a

differential game which is numericallysolved in Open Loop. The

obtained results for a widerange of values of the parametersgive

interestinginsights on therelative importance over the horizon

of the direct andindirect effects ofadvertising.

2.A marketing mix model (Thepot 1983)

This model is related to the price setting model presented

above in Section 3. Thedemand of firmi is assumed tobe in the

form:

xi(t) =Xi[Pi(t),Pj(t),Ai(t),Aj(t)] exp(yit) . (34)

where Ai (t) denotes the goodwill offirm i ,defined by the

differential equation Ai .. a_i-r i Ai with a

irepresenting advertising expenditures per unit of time, r

i the depreciation of the goodwilland Y_i the growth rate of the demand. Then the

(48)

17

In this model each firm has three control variables at its

disposal : the price Pi' theinvestment Ii and the advertising

expendi tures a i•

By emphasizing the Open Loopequilibrium and thecase where

the demand functions are constantelasticities functions. i t is

shown how Competition and Growth interact inthe investmentand

marketing strategies of the firms. It turns out that the

cross-elasticities of the demand with respect to the goodwill play an

important r o l e : they determine whether Competition holds through

pricing oradvertising decisions. This isdue to thefact that

pricing andadvertising decisions quite differently affect the

p r o f i t s : thefirst oneshave an instantaneouseffect while the

impact of the second

goodwill variations.

are displayed over time th r ou g h

Twosituations may occur: either the competitors behave in

a closeway to the monopoly case bycohabitingin the industry

while increasing their sales andboth benefiting of the growth.

orone of them is self eliminatedof the market. In somecase.

this elimination process leads this firm to manipulate its price

in order toavoid excess capacity.

3. A model of R&Dcompetition (Reinganum 1982)

J.F. Reinganum addresses theproblem of resource allocation

Research and Development in a competitive conte-xt by d ev e Lo pin

a dynamic duopoly (in fact oligopoly) model which 'in c o-r p o r ate s

the main aspects of this type of competitionover a non already

(49)

18

relevant to the innovation by expending resources on research

activity or knowledgeacquisition. The knowledge acquisition

process is assumed to be deterministic whereas the dateof

successful completion of theproject is a random variable. Then

theproblem can be stated as thedifferential game

J_i

=

f~[PLAl1i+PF~~j-ci(J1i)][exp

- (Zl+ zZ)]dt;

Zi =Pi ' zi (0).. 0 ; O';;;;}li '" B,

where 11i (t) is firm i ' s rate ofknowledge acquisition, c i(11i) the discounted cost of additional knowledgeacquired attime t , B is

an upper bound of knowledgeacquisition; P

L is the present value

offirm i ' s reward i f i t is the f i r s t to succeed inthe completio

of the project, P

F if i t is the second (PF ,,;;; PL).Let ti be the timeat whichfirm i succeeds; i t is supposedthat

Prob{t

i.,; t} = I - ex~- zi (t)] and that theconditional probab-i l probab-i t y that firmi will succeedin thenext instant, given that i t

hosnot already done so, is Probiti£(t,t+dt)/ti>t}=A)li(t),O. >0)

Consequently, J

i is theexpected netpresent value of the

gain offirm i according to the fact that imitation is costless

immediate.

Due to the specific features of the exponential distribution,

i t turns outthat Open Loop andClosed Loop strategies coincide.

Analyticalsolutions are obtainedfor interiorsolutions

{O-e].Ii<B} •

Differentialgames techniques arean appropriate conceptual

framework to analyse the competitive strategies of firms ina

dynamic context, although avery limited number of models can be

completely analyticallysolved. However, they providea unified

language which makes comparisons and economicinterpretations