Disponible à / Available at permalink :

(1)

- - -

Dépôt Institutionnel de l’Université libre de Bruxelles / Université libre de Bruxelles Institutional Repository

Thèse de doctorat/ PhD Thesis Citation APA:

Reinhard, J.-M. (1978). Processus semi-markoviens bivariés. Applications à la théorie du risque (Unpublished doctoral dissertation). Université libre de Bruxelles, Faculté des sciences, Bruxelles.

Disponible à / Available at permalink : https://dipot.ulb.ac.be/dspace/bitstream/2013/214183/2/09d25bc2-4a26-45ae-86f2-1db59c5343aa.txt

(English version below)

Cette thèse de doctorat a été numérisée par l’Université libre de Bruxelles. L’auteur qui s’opposerait à sa mise en ligne dans DI-fusion est invité à prendre contact avec l’Université (di-fusion@ulb.ac.be).

Dans le cas où une version électronique native de la thèse existe, l’Université ne peut garantir que la présente version numérisée soit identique à la version électronique native, ni qu’elle soit la version officielle définitive de la thèse.

DI-fusion, le Dépôt Institutionnel de l’Université libre de Bruxelles, recueille la production scientifique de l’Université, mise à disposition en libre accès autant que possible. Les œuvres accessibles dans DI-fusion sont protégées par la législation belge relative aux droits d'auteur et aux droits voisins. Toute personne peut, sans avoir à demander l’autorisation de l’auteur ou de l’ayant-droit, à des fins d’usage privé ou à des fins d’illustration de l’enseignement ou de recherche scientifique, dans la mesure justifiée par le but non lucratif poursuivi, lire, télécharger ou reproduire sur papier ou sur tout autre support, les articles ou des fragments d’autres œuvres, disponibles dans DI-fusion, pour autant que :

Le nom des auteurs, le titre et la référence bibliographique complète soient cités;

L’identifiant unique attribué aux métadonnées dans DI-fusion (permalink) soit indiqué;

Le contenu ne soit pas modifié.

L’œuvre ne peut être stockée dans une autre base de données dans le but d’y donner accès ; l’identifiant unique (permalink) indiqué ci-dessus doit toujours être utilisé pour donner accès à l’œuvre. Toute autre utilisation non mentionnée ci-dessus nécessite l’autorisation de l’auteur de l’œuvre ou de l’ayant droit.

--- English Version ---

This Ph.D. thesis has been digitized by Université libre de Bruxelles. The author who would disagree on its online availability in DI-fusion is invited to contact the University (di-fusion@ulb.ac.be).

If a native electronic version of the thesis exists, the University can guarantee neither that the present digitized version is identical to the native electronic version, nor that it is the definitive official version of the thesis.

DI-fusion is the Institutional Repository of Université libre de Bruxelles; it collects the research output of the University, available on open access as much as possible. The works included in DI-fusion are protected by the Belgian legislation relating to authors’ rights and neighbouring rights.

Any user may, without prior permission from the authors or copyright owners, for private usage or for educational or scientific research purposes, to the extent justified by the non-profit activity, read, download or reproduce on paper or on any other media, the articles or fragments of other works, available in DI-fusion, provided:

The authors, title and full bibliographic details are credited in any copy;

The unique identifier (permalink) for the original metadata page in DI-fusion is indicated;

The content is not changed in any way.

It is not permitted to store the work in another database in order to provide access to it; the unique identifier (permalink) indicated above must always be used to provide access to the work. Any other use not mentioned above requires the authors’ or copyright owners’ permission.

(2)

FACULTE DES SCIENCES

PROCESSUS SEMI-MARKOVIENS BIVARIES APPLICATIONS A LA THEORIE DU RISQUE

Thèse présentée en vue de l'obtention du grade de Docteur en Sciences

(grade légal )

VOLUME H

(3)

BIBLIOTHÈQUE DE MATHÉMATIQUES ET DE PHYSIQUE

-B/^P

R PROCESSUS SEMI-MARKOVIENS BIVARIES

APPLICATIONS A LA THEORIE DU RISQUE

Thèse présentée en vue de l'obtention du grade de Docteur en Sciences

( grade légal )

VOLUME lE

1978 Jean - Marie REINHARD

(4)

CHAPITRE IV

EXTENSION SEMI-MARKOVIENNE DU MODELE DE MIYASAWA

Nous consacrons ce chapitre à l’extension semi-markovienne des tra

vaux de Shubik et Thompson, Miyasawa, Morril, Gerber. Le modèle étudié est entièrement discret (échelle discrète des temps, espace d'états dis

cret, espace des décisions discret!. Nous définissons d'abord ce modèle (J 1! et introduisons la fonction d'utilité adoptée ainsi que les notions de stratégie, de valeur d'une stratégie et de stratégie optimale (5 2!;

nous montrons alors que des résultats de D. Blackwell (19653 garantissent l'existence d'une stratégie stationnaire optimale (S 33. Le S 4 introduit la notion de stratégie impatiente et étend les résultats de Miyasawa (19623 : il existe une seule stratégie stationnaire impatiente optimale et cette

stratégie est du type stratégie de bande. Au J 5 nous donnons une majora

tion pour les nombres caractéristiques d’une stratégie de bande optimale;

cette majoration sera utilisée au chapitre suivant. Un algorithme permet

tant la construction en un nombre fini d’étapes d'une stratégie de bande optimale et le calcul de la valeur de cette stratégie est proposé au J 6.

Le 5 7 traite de la distribution de l’époque de ruine sous l’application d'une stratégie stationnaire. Le S 8 s'attache aux stratégies de barrière simple et aux temps de premier passage associés. Finalement, nous construi

sons au 5 9 un modèle plus général et nous montrons qu'on peut ramener ce modèle au modèle précédent.

Nous travaillons toujours avec une chaîne de Markov à espace d'états {1, .... m} fini. Il est cependant bon de remarquer que les résul

tats des cinq premiers paragraphes se généralisent immédiatement au cas où m = “.

'fGSeSO

(5)

5 1. Le Modèle

Nous considérons une compagnie d'assurances (ou plus généralement n’importe quelle entreprise] qui commence ses activités à l’instant ini

tial t = O en disposant d’une réserve initiale x(S N). Nous travaillerons avec une échelle des temps discrète : le montant des réserves ne sera ob

servé qu’aux instants t = o, 1, 2, ... . Les variables Y (n = 1, 2. ...]

n

qui mesurent l’accroissement (positif ou négatif] des réserves au cours des périodes successives (n-1, n] sont des variables aléatoires à valeurs dans Z ; nous appellerons le "bénéfice" résultant de l’exercice (n-1, n ou, plus brièvement, le résultat de l'exercice (n-1, n]; on pose Y^ = o p.s Nous admettons que le résultat d'un exercice dépend de la situation écono

mique générale du moment, cette situation économique pouvant être caractéri sée par l'un des nombres 1, ...,moùmG N. Soit J (n S N] une varia-

o n

ble aléatoire à valeurs dans J = {1, ..., m} et donnant la situation écono

mique à l’instant n, début de l’exercice (n, n+1]. Voici maintenant l'hypo thèse essentielle du modèle : nous supposons que les variables aléatoires

et Y^ (n 6 N] définissent un processus (J, X], c’est à dire que la chaîne {(J , Y ]; n N} est une chaîne de MarKov dont les probabilités

n n

de transition sont données par un noyau semi-markovien :

(4.1] P[J^ = j, Y = £ I (J., YJ, K = o... n-1; . = i] = Q.,(£]

n n i\ is n- i ij

(i, j £ J ; £ ^ Z]

où

Q^j(£] >o, Vi, j£J et V£S Z

a> m

E E Q. .(£] = 1 , V i e J .

£=-00 j = i

(6)

On sait qu'alors la matrice P = (p. J où ij

OO

(4.2) P = Z Q. .U) Ci, j e J],

^ £ = -œ

est une matrice stochastique et que le processus ne N} est une chaîne de MarKov dont la matrice de transition est P.

Soit Z (n G N} le montant des réserves à l’instant n : n

n

(4.3) Z = X + Z Y. .

n , k

K=o

La chaîne {(J , Z ), n G N} est une "promenade aléatoire définie sur une n n

chaîne de Markov finie (voir chapitre I) dont les probabilités de transi

tion sont données par

P[Z — r, J — j I (J,, Z,), k — O, ..., n—Z . — s, J . — i]

n n ' i\ N ni ni

= Q.. (r-s) (i, j G 3; r, s G Z) ij

La compagnie cesse obligatoirement toute activité dès l'instant t

où survient la ruine :

(4.4) T = inf {n : Z < o} ^ n

où l’on a posé inf 0 = ».

Supposons maintenant qu’en chaque instant n la compagnie puisse soustraire de ses réserves un montant qu'elle distribuera comme divi

dende à ses actionnaires. Nous admettons que le seul objectif de la com

pagnie est d'adopter une règle de versement de dividendes qui maximise l’espérance de la somme actualisée des dividendes qu’elle versera avant sa ruine.

(7)

L'évolution des réserves est maintenant décrite par le processus {X^ J n G N} :

X = Z = X O O

^X = X -w +Y ,1<n<T

S n n-1 n-1 n

X^ = X^ , n > T ,

où T = inf {n : X < o}. X mesure donc le montant des réserves à la fin

n n

de l'exercice Cn-1, n] et avant le versement du dividende w^.

Nous introduisons maintenant une hypothèse essentielle pour la suite nous supposerons constamment que V i G j :

m

[4.5) Z E r Q..Cr) = M. < n <

j = i

§ 2. Notion de stratégie - Valeur d'une stratégie - Fonction d'ùtilité

Soient

C X G

O N, y„e ^{Z. e J)}

^1^ ^ y ■••3 J w, G N}.

C représente l'espace des "histoires” possibles de la Compagnie si l'on interprète x^ comme étant la réserve initiale, i^ la situation économique à l'instant n, le résultat de l'exercice (n-1, n]. La définition sui

vante formalise la notion de stratégie.

(8)

Définition 1

Une stratégie est une application

w : C V : c = Cx, i^, wCc) = Cw^(c), w^Cc), ...)

satisfaisant les conditions suivantes :

/*««» /N»» /«W

Ci) si c = Cx, i^, y^, i^, ...) et c = Cx, i^, y^, i^, ...) sont suites de C telles que x = x, i. = i. (k = o, ..., n) et y, = y. CK

K K K K

alors leurs images par w sont telles que w (c) = w Ce) pour K = o,

K K

Cii) V c = Cx, i^, y^, i^, ...) G C et V n G N :

X - w O Ce) + y„ •''l'I - w.Cc) ... - w .Ce) n-'t + y -^r» < o =»■ w, Ce) k =

Ciii) V c = Cx, i^, y^, i^, ...) G c et V n G N, si x - w^Cc) + deux

“ 1, ..., n),

• ■ ^ n ■

O V k > n

Yi•••+ ^ °

V k < n, alors

O < w Co) < X - w Ce) + y. - w^Cc) + ... + y

n O -^1 1 n

Bien entendu w^Cc) représente le dividende versé à la fin de l'exerci

ce Cn-1, n] si la compagnie applique la stratégie w. La condition Ci) signi

fie que le dividende versé en n ne dépend que de l'histoire de la compagnie jusqu'à cet instant n, la condition Cii) signifie que plus aucun dividende n'est versé après l'époque de ruine, la condition Ciii) signifie que le di

vidende versé en n ne peut dépasser le montant des réserves en n avant le versement.

(9)

X (c,w) = X - w [c) + y. - w.Cc} + ... + y (n G N ),

n 00 11 n O

et

T(c,w) = inf {n G N : x (c,w) < o}.

O n

Il est clair que si l'histoire de la compagnie est décrite par c et si la compagnie adopte la stratégie w, TCc.w] est l’instant auquel survient la ruine et x (c,w} donne pour n < T[c,w) le montant des réserves en n.

Définition 2

Une stratégie w est dite stationnaire s'il existe une fonction VJ : Z X J N telle que V c = Cx, i^, y^, i^, ...3 G c et V n G N,

si X - w [c) + y. ... + y, > O V K < n, alors

w^(c3 = W[x-w^Cc] + y^ - w^Cc) + ... + y^, i^]

En d'autres termes, une stratégie est stationnaire lorsque le divi

dende qu'elle fait verser en un instant n antérieur à l’époque de ruine ne dépend que de la valeur des réserves et de la situation économique en cet instant. Par abus d’écriture nous utiliserons la même notation (W3 pour dé

signer une stratégie stationnaire et l'application qui la définit.

Soit s^ = (y^, i^, y^, i2» 1^,3 G ( Z x J3'^. Pour toutes les suites c G c de la forme

(10)

il ressort clairement de la condition (i] de la définition -1 que pour

k = O, n , dépend que de t, x, i et s^. Par abus d'écriture on notera parfois

w, (c) = w, [x, i. s ) et = O, .... n) .

t t n

Si J = i, on notera q.(s ) la probabilité de réalisation de s =

O n n

(y,, 1,, .... y„, :

qiCSp) - P[(Y^, J.|, .... Y^, Cy,, 1.,. .... y^, | - i]

On a alors

q.(s ) = 0.. (y.) Q. . (y„3 ... 0. . (y 3 1 n 11. 1 i.,!^ 2 1 . 1 -^n

1 12 n-1 n

Soient i et j G J ; supposons que si = i et = j» un facteur d'actualisation v. . (o < v. . < 13 corresponde à l'exercice [n, n+11. Si

ij ij

par exemple J = i [K = o, .... n3. la valeur actualisée en t = o d’une K K

unité monétaire payée à l'instant n est donnée par n-1

k=o V.

^k+1

Nous utiliserons les quantités

V = man i. j^J) et^ = min i' j ^ J)

On peut imaginer que v^^ correspond à un taux d'intérêt moyen pour les exercices débutant dans l’état i et se terminant dans l'état j : v. . =

ij [1 + i. .3"^ .

ij

(11)

Soit c = (x, i , y., i., y , i , ...) G C. Nous définissons

oïl n n

vCn.c) = V. . , n > 1; v[o,c) = 1 n-1 n

Si la réserve initiale est x et l'état initial i, l'espérance de la valeur actualisée à l'origine des dividendes payés jusqu'à l'instant n lorsque la stratégie w est appliquée est donnée par

n-1 t-1

V^Cx, i^; w) = Z {w [x,i ; s ] + Z ( ir v. . 3w, Cx,i ; s )} q (s }

" ° s ° ° " t.1 K-G ‘ " ip "

Remarque : pour m = 1, on retrouve le modèle markovien. Qn notera alors q = P[Y = r] et

r n

V (x,w3

n Z Z v'*^ w (x.

s t=o n

s ) q(s ) n n

où

sn q(s ]

n

n TT i=1

Le lemme suivant nous permettra de définir proprement la notion de valeur d'une stratégie; il fait appel à l'hypothèse (4.53 .

Lemme

Pour toute stratégie w, V x ^ N et V i ^ J, la suite (V (x, i; w3}nS N est convergente. n

Démonstration

La suite {V (x, i, w3) étant trivialement monotone croissante, il suffit n

de montrer qu'elle est bornée.

(12)

Définissons le noyau semi-marKovien 0 comme suit :

Q. . (£) si Ji G N

ij O

o

O si Jl G Z O S

Soit y (x. i; w) l'analogue de V (x, i; w) si les bénéfices annuels sont

n n

distribués suivant le noyau Dans le modèle g, il est clair que l'espé rance de la valeur actualisée des dividendes versés jusqu'à l’instant n est maximum pour la stratégie w consistant à verser en chaque instant k G {o, n} la totalité des réserves en cet instant :

- en t = O on verse comme dividende la réserve initiale x,

- en t = K (1 < K < n], on verse comme dividende le résultat Y. de K l'exercice Ck-1. R]

Nous noterons = (t[^^). On a clairement ij

avec d’ailleurs l'égalité si v.. = v Ci, j € J). Soit

m oo

Z Z £ V 0,|.C£] Cj G J) . K=1 1=0 J*" J*"

m.J

(13)

On a bien sûr

CjeJ), JJ

avec ici encore l'égalité si v^^ = v Ci, j € J). Il vient

m Co] m

C4.6) V Cx, i; w] = X + E t.. m. + .

~ j = ij J . * E t!""'' m.

J-1 "J J

k rki

< X + V E V E p. . M.

k=o J=1 J

< X + V M 1-v

la première des inégalités ci-dessus peut être remplacée par une égalité si V.. = V .

ij

La démonstration est ainsi achevée, puisque trivialement pour toute straté

gie w :

V Cx,i; w) < V Cx, i; w] V n G N, V i, G J, V x £ N □

n 'm ~

Si l'on définit les vecteurs

V Cx,w) = [V Cx,1;w),..., V Cx,mjw)]^, m = Cm.,..., m 3^

n *• n n 1m

M = cri 1'

n )m

t —X = Cx, X, X)

on obtient pour toute stratégie w :

n-1 . _ °° k k

C4.7) V Cx,w3 < V Cx,w) = x+ E T m <x + v E v^P^f1=x + vCI-vP3

n ~n ~ ,

la matrice I - vP étant inversible puisque P est une matrice stochastique Cdonc IIPII = 1) et que o < v<1.

(14)

La fonction d'utilité du modèle apparaît avec la

Définition 3

a] On appelle valeur de la stratégie w pour une réserve initiale x et un état initial i la quantité \/(x. i; w] définie par

V(x, i; w) = lim \l (x, i; w) n-^ ^

Nous appellerons fonction de valeur de la stratégie w la fonction

N X J R : (x,i) -> VCx.i; w]

b) ün appelle fonction de valeur du modèle la fonction .3 de N X J dans R définie par

V(x,i3 = sup VCx.i; w3 ,

le suprémum étant pris sur l’ensemble de toutes les stratégies.

On peut donner pour la fonction de valeur d'une stratégie w une expression plus formelle qui sera généralisée au chapitre suivant. Soit ê la a-algèbre naturelle sur C :

où Z. = Z V ij soit P. la mesure de probabilité sur CC, qu'engendrent w

00

a = {Pc N3 ® P(J3> ® ® [Pc Z3 ® ^CJ3]}

i=1

1

IX

les probabilités sur C Z x J3 définies par

Ci £ J, X G N3.

(15)

Si f est une fonction réelle définie sur C on notera

E. f = fCc) d P. (c]

IX J IX

C

si l’intégrale du membre de droite existe. En utilisant le théorème de Beppo-Levy on obtient alors :

VCx,i; w)=lim V [x,u w3 n-x» n

• “ n

Z [ TT v[K,c) ] w Ce)

^ n=0 K=o

d P. Ce) IX

00 n

= { E [ TT vCk,. ) ] w^}

n=o K=o

Le problème posé est la recherche CExistence, unicité, calcul) d’une stratégie w maximisant uniformément VCx,i; w). On peut évidemment rattacher ce problème à la classe des "Jeux contre la Nature".

Définition 4

Une stratégie w est dite optimale ssi pour toute stratégie w', V x G N et V i G J on a

VCx,i; w) > VCx,i; w’)

ou encore ssi

VxG N et ViGJona

VCx,ij w) = VCx,i)

Définition 5

a) On dit que la stratégie w domine la stratégie w' si V x G N et V i G J on a :

VCx,i; w) > VCx,i; w')

(16)

La dominance est dite stricte si de plus il existe x G N et i G J tels que

V(x,i; w) > V[x,i; w')

b) On dit que la stratégie w est non dominée s'il n'existe pas de stratégie w' dominant strictement w.

Le théorème suivant fait le lien entre les notions d'optimalité et de domination.

Théorème 1

Une stratégie w est optimale si et seulement si elle est non dominée.

Démonstration

Il ressort trivialement de la définition qu'une stratégie optimale est non dominée. Soit alors w une stratégie non dominée et non optimale;

il existe donc i^) ^ N x J et une stratégie w’ tels que

VCx , i , w) < V(x , i , w'} .

O O O O

On construit alors la stratégie w” comme suit :

w"(c) = wCc} si c ^ ^o' ^1' ^1' I ^ Z x J, k = 1,2

w"(c] = w'Cc3 si c 6 {(x , i , y., i., ...3 I (y, 3 e Z x J, K = 1,2

O o1 1 ' KK

Il est clair que la stratégie w" domine strictement la stratégie w, ce qui

est en contradiction avec l'hypothèse. □

(17)

s 3. Théorème d'existence

Nous utiliserons les matrices P et T* définies par

(4.83 p.. = Z Q..CZ] , tt . = V.. pt.

£=o

Ci, j = 1, .. ., m3

Les éléments des matrices (P 3*^ et CT^3*^ seront notés et

iJ iJ

respectivement. Gn a évidemment

< \/ n <

IJ V P . .

IJ Pij

+ + + +

et les matrices (I - T 3 et (I - v P 3 sont inversibles (ÜT 11 < v HP II = v < 13

Soient V(x,w3, m, M, x les vecteurs introduits précédemment et définissons encore le vecteur

V(x3 = [V(x,13, .... V(x,m3]^

Le théorème suivant fournit des bornes utiles pour la fonction de valeur du modèle

Théorème 2

On a V X G N :

(4.9.a3 X + (I - t'"3'^ m< V(x3 < x + (I - T3”^ m

et

(4.9.b3 V (I V P*3 ^ N < V(x3 < X + V (I - V P3 M

(18)

Démonstration

Soit W la stratégie stationnaire définie par

WCx,i) =x VxG N, ViGJ.

Il vient alors

m “

V(x,i;W) = X + Z V. . Z a Q. .[£) + j=1 £=o

m + Z j = 1

t^Cn-13

ij Z

£=o m Z k=1

Vj,

= X + m. + 1

m + Z j = 1

t^(n-l3

ij m.

J ⁺^{. • •}

ou, vectoriellement :

CO

V(x;W) = X + Z CT'"3^"^ m n=1

= X + [I - m ;

on en déduit la première des inégalités (4.9,a). La deuxième des inégalités (4.9,a) résulte immédiatement de (4.73 .

Les inégalités (4.9,b3 sont plus grossières que ( 4.9,a3 et s'en dé

duisent facilement en utilisant les majorations

vP.. <tt. <vP..

- iJ iJ iJ

V m.

1 ^{< V}

n.

1

Remarquons que les identités (4.9,a3 et (4.9,b3 sont identiques si v.. =v(i,j g J3 Des inégalités (4.9,b3 on déduit immédiatement le

(19)

Corollaire

V(x,i) e N X J, on a :

X < V(x.i) < X + M 1-v

Il ressort de la démonstration du théorème 2 que le membre de gauche de (4.9,a) donne la valeur de la stratégie W qui consiste à verser comme dividende en chaque instant t = o, 1, 2, ... la totalité des réserves en cet instant, la ruine survenant donc dès que le résultat d'un exercice est négatif.

Cas particulier : dans le cas markovien Cm=1], les variables sont indé

pendantes et équidistribuées; soit q = P[Y = £] (5. G Z) et posons n

oo p"" = ^ q„

£=o

CO

M = E £ q

£ = 1

Les inégalités [4.9] redonnent le résultat connu(Horril. 1966; Gerber, 1969]

(4.10) X + M —-— < V(x) < X + t1 (x e N]

. + 1-v

1-p V

On peut généraliser au modèle semi-markovien un argument utilisé par Gerber (1969) dans le cas markovien et ainsi déduire l’existence d'une stra

tégie stationnaire optimale d'un résultat de 0. Blackwell (1965)

Théorème 3 (théorème d'existence)

Pour le modèle décrit ici, il existe toujours une stratégie station

naire optimale.

(20)

Démonstration

Comme v G Co,1], le nombre

M], V X > r}

est bien défini. Soit D l'ensemble des stratégies w telles qu'én tout instant antérieur à la ruine, le montant des réserves après versement de dividende soit inférieure ou égal à Ç, c'est à dire telles que V c G C :

X (c, w] - w (c] < Ç , V n < T(c, w) .

est dominée par une stratégie w G D; il est par conséquent légitime de ne considérer que les stratégies de D. Si l’on caractérise alors la décision que prend la compagnie en un instant n par le montant auquel elle va ramener les réserves, l'espace des actions possibles de la compagnie est fini.

Dès lors, si

V.. = V , V i, j G J , ij

il en résulte [Blackwell, 1965, théorème 7b.) l'existence d'ùne stratégie stationnaire dans D. Nous allons montrer qu'on peut toujours se ramener à ce cas.

Soit Q le noyau semi-markovien défini par

n n

Il ressort de la définition de Ç et du théorème 2 que toute stratégie w ^ D

V. .

Q. .00 = Q. .[£) si Jl G Z; i, j G J

ij iJ V

<

m

1 - E E Q. .[£) si i G J j=1 £G Z

\

Soient w = [w^, w,j. » w,

n ...) G D et w = [w.j, .•■)

(21)

Pour (x,i) 6 N X J et si c = (x, i, ...] G C, on a :

m 0°

ï. V. . Q. .(£] V[x - w Ce) + a, w]

ij iJ O

ou encore :

m ⁰⁰

V[x,ij w3 = w [c] + V Z Z Q. .(£) V [x-w Ce) + £, w]

° j=1 £=-~ "J

Nous sommes ramenés ainsi à un modèle équivalent au modèle initial où le noyau est Q et où le coefficient d’actualisation est constant.

□n sait qu'il existe une stratégie stationnaire optimale pour ce modèle.

Pour simplifier l'écriture, nous supposerons dans la suite de ce chapitre que l'on a ramené le modèle considéré à un modèle équivalent à coefficient d'actualisation constant Cv = max v. .} au moyen de la modifi-

ij cation du noyau considérée ci-dessus.

impatientes

Nous venons d'établir l'existence d'une stratégie stationnaire optimale pour le modèle étudié. La question de l’unicité d’une telle stratégie vient alors à l'esprit; la réponse à cette question est en général négative, mais on peut cependant montrer qu'il existe une et une seule stratégie stationnaire optimale dans la classe des stratégies impatientes définies ci-dessous.

Rappelons qu'à partir de maintenant le coefficient d'actualisation sera supposé constant; nous savons en effet que par une transformation sim

ple on peut se ramener à ce cas.

La même stratégie est optimale pour le modèle initial.

□

§ 4. Théorème d'unicité - Forme des stratégies stationnaires optimales

(22)

4.1. Stratégies consistantes et stratégies impatientes

Il est immédiat que la fonction de valeur d'une stratégie stationnaire W satisfait les équations

m ^

V(x,ijW3 = W(x,i) + V E E Q..(r) V[x-WCx,i) + r, jj W]

j = 1 r=-oo

(x G N. i G J)

avec les conditions aux bornes

VCx.i; W) = O V X < O .

Posons pour (x,i) G N x J :

m 0°

(4.12) G(x,i) = V E E G..ÜI) V(x + £. j) . j = 1 £=-00

Le théorème suivant généralise l'équation d’optimalité bien connue pour le modèle markovien (Miyasawa, 1962).

Théorème 4

La fonction de valeur du modèle satisfait les équations suivantes :

(4.13) V(x,i) = max {y + G(x-y, i)}

o < y < X

Démonstration

Soit une stratégie stationnaire optimale. On a alors

V(x,i) = V(x,i; W ) = W (x,i) + G(x-W (x.i), i) .

O o O (X G N, i G J)

(23)

Par conséquent, puisque o < W^(x,i) < x :

V(x,i] < max {y + G(x - y, i]} Cx G N, i G J).

O < y < X

Supposons que cette inégalité soit stricte pour un oouple (x,i] G N x J : il existe y G {o, 1, x} tel que

V(x, i) < y + GCx - y, i) .

Définissons alors la stratégie w comme suit : si la réserve initiale est x et l'état initial i, on verse un dividende y en t = o et à partir de t = 1 on applique la stratégie W^; dans les autres cas on adopte la stratégie dès l'instant initial.

Il vient alors :

V[x,ij w] = y + GCx - y, i] > VCx,i) ,

ce qui est impossible. Le théorème est ainsi démontré.

La notion de consistance que nous allons maintenant introduire est due à Morril (1966).

Définition 6

Une stratégie stationnaire W est dite consistante si VCx,i) G N x J

C4.14) V(x,i; W) = W(x,i) + V(x - W (x,i), i,; W)

On voit qu'en particulier une stratégie stationnaire est consistante dès que V(x,i) G N x J :

W [x-WCx,i), i] = o

(24)

Théorème 5

Toute stratégie stationnaire optimale est consistante

Démonstration

Soit W une stratégie stationnaire optimale : \/(x,i) G

(4.15) V(x,i) = V(x,i;W) = W(x,i) + G[x - W(x,i), i]

Il faut montrer que V(x,i)G N x J

V(x,i) = W(x,i) + V[x - W(x,i), i]

o'est à dire, vu (4.15), que V(x,i) S N x J

V[x - W(x,i), i] = G [x - W(x,i), i] ,

De l’équation d'optimalité on déduit que V(x,i) G N x J

V [x - W(x,i), i] > G [x - W(x,i), i]

Supposons que cette inégalité soit stricte pour un couple (x et définissons alors la stratégie w’ comme suit : si (X , J )

0 0

verse en t = o un dividende de montant W(x,i) + W[x-W(x,i),i que à partir de t = 1 la stratégie optimale W, si (X^, J^) ^ applique la stratégie W dès l’instant initial. Il vient

V(x,ijw') = W(x,i) + W[x-W(x, i), i ] + G [x-W(x,i) - W

= W(x,i) + V[x - W(x,i),i]

> V(x,i) .

N X J on a :

i) e N X J

= (x,i) on ] et on appli-

(x,i) on

[x-W(x,i),i], i]

La dernière inégalité étant impossible, le théorème est démontré.

□

(25)

Dans 1’équation, d’optimalité C4.13) il est possible que le maximum soit réalisé pour plusieurs valeurs de y; dans ce cas il y a évidemment non-unicité de la stratégie stationnaire optimale. C'est pourquoi, sui

vant en cela Morril [1966]), nous introduisons la notion de stratégie im

patiente .

Définition 7

Une stratégie stationnaire consistante W est dite impatiente si VCx.i] e N X J

W(x,i] = max {y : V(x,i,W] = y + VCx - y, i; W]}

y=o,1, ... ,x

Nous allons montrer qu'il existe une seule stratégie stationnaire impatiente optimale. Pour ce faire nous utiliserons le

Théorème 5

Soit W une stratégie stationnaire telle que \/(x,i] G N x J

r X - W(x,i) < A

b V(x,i) = WCx,i) + G[x-W[x,i], i]

où A est un naturel non nul fixé. Alors la stratégie W est optimale.

Démonstration

Soit

m «

D = max E Z Q..Cr) max [V(y+r,K) - V(y+r,K;W)].

i j = 1 r=-“ y=o,...,A K=1, . .. ,m

(26)

Ce nombre est bien défini puisque

E Q..(r)max [V( y+r, k) - V(y+r, K; W]

r=-o° y=o, ..., A K“ 1 # •. ■ > m

< Z Q..(r] max r=-co K=1,

V[A + r,k]

.m

^ E Q. ,(r] [r + A + -7—^] (voir Théorème 2)

ij 1-v

p= —CX> ^

< M + A + = A + 1-v 1-v

Il vient alors V(x,i) G N x J

m 00

(4.16) V(x,i) - V(x,i,W) = v E E Q..(r) {V[x-W(x,i) + r, j]- j = 1 r=

ij

V[x-w(x,i) + r, j; W]},

Comme par hypothèse

X - W(x,i) < A

V(x,i) e N X J, on obtient

V(x,i) - V(x,ijW) < V D

V(x,i) G N X J. En itérant (4.16) on obtient alors V n G N O

O < V(x,i) - V(x,i; W) < v*^ D , V(x,i) G N x J .

(27)

Comme lim D = o on en déduit que W(x,i) S n-K»

N X J

V(x,i) = VCx.ij W) ,

o'est à dire que W est optimale. □

Comme il résulte de la démonstration du théorème 3 qu'il existe AG i\|^ tel que V(x,i) G N x J et pour toute stratégie stationnaire opti

male W ;

X - WCx,i] < A

(il suffit de prendre pour A le nombre Ç qui apparaît dans cette démons

tration), le théorème 5 fournit en fait une condition nécessaire et suffisante d'optimalité-d'.une stratégie stationnaire.

4.2. Théorème d’unicité

Théorème 6 (Théorème d'unicité)

Il existe une et une seule stratégie stationnaire impatiente optimale.

Démonstration

Soit W une stratégie stationnaire optimale. Alors 3AE tel que V(x,i) G N X J :

X - W(x,i) < A

Définissons alors une stratégie stationnaire W comme suit :

{y : V(x,i) = y + G(x-y,i)}. (x,i) G N x J.

W(X,i) max

y=o X

(28)

Comme W(x,i) appartient à l'ensemble dont W(x,i] est le maximum, on a évidemment

WCx,i] ^ WCx,i}

et par conséquent

X - WCx,i)< A , V(x,i) G N X J .

Il résulte alors du théorème 5 que la stratégie stationnaire W est optimale.

Par conséquent elle est consistante; et donc

V(x,i3 = WCx,i) + V[x - WCx.i], i]

etV(x,i)G NxJ

G[x - w(x,i), i] = V [x - w(x,i3, i]

Si W n’était pas impatiente il existerait (x,i3 G N x J et yG{o,...,x}

tels que y >W(x,i3 et

V(x,i3 = y + V(x-y, i3 ;

On aurait alors, puisque W est optimale

V[x,i3 = y + W[x - y, i3 + G[x - y - WCx - y, i3, i]

avec

y + W(x-y,i3 > y > W[x,i3 ,

ce qui est impossible par définition de W(x,i3. Par conséquent la straté

gie W est impatiente et optimale.

(29)

L'unicité se démontre alors facilement. Soient W et W deux stratégies stationnaires impatientes optimales différentes. Supposons par exemple que pour un couple (x,i) S N x J: W[x,i) > W(x,i}; on a :

VCx,i) = WCx.i) + V[x - W(x,i},i]

= WCx.i) + V[x - WCx.i),i]

/s./

et la stratégie W n’est donc pas impatiente, ce qui est absurde. □

De cette démonstration ressort le corollaire suivant, qui sera utilisé pour établir le théorème 7. Nous en donnons une démonstration directe.

Corollaire

Si W est la stratégie stationnaire impatiente optimale on a VCx.i) G N X J :

C4.17) WCx.i) = max {y : VCx.i) = y + GCx-y.i)}.

y=o, ....X

Démonstration

Raisonnons par l'absurde et supposons qu'il existe y G {o,...,x} tel que

y + GCx-y.i) > WCx.i) + G[x - WCx.i), i]

Comme W est optimale et donc consistante, il vient

y + VCx-y.i) > y + GCx-y.i) > WCx.i) + GC[x-WCx,i),i] = WCx.i) +V[x-WCx,i),i].

La considération des deux membres extrêmes de ces inégalités montre alors que W n'est pas impatiente, d'où une contradiction. □

(30)

4.3. Forme de la stratégie stationnaire impatiente optimale -

Après avoir défini les stratégies de bande et les stratégies de barrière, nous montrerons que l’unique stratégie stationnaire impatiente optimale est une stratégie de bande.

Définition 8

Une stratégie de bande est une stratégie stationnaire W caractérisée par C2 N + m] entiers positifs (i = 1, ..., m; K = o, .... n^]

et b (i = 1, ..., m; K = 1, ..., nJ tels que V i = 1, . . . ,1D.

IK 1

b., - a. ^ ^ > 2

iK i,K-1 CK = 1, , nJ

et

(4.18) o<a. <b.,<a..<-...<b. <a. ,

lo il il in. in.

1 1 m

où Z n. = N, et i=1 ^

/ O si X < a.

lO (4.19) W(x,i) = X -

\± si a.,

iK

0 si b.,

iK < X < a., ik X - a. si a. < X

in. 1 in.

1

Définition 9

Une stratégie de barrière est une stratégie stationnaire W caractérisée par m naturels a^, ..., a^ tels que

(4.20) W(x,i) =S

si X < a.

1

X - a. si X > a. 1 1

(31)

Une stratégie de barrière est donc une stratégie de bande pour laquelle n^ = o \/i = 1, ....m [ou encore N = o) .

Définition 10

Une stratégie de barrière simple est une stratégie stationnaire W caractérisée par un naturel a tel que

(4.21 W(x,i) = J

si X < a

X - a si X > a

Une stratégie de barrière simple est donc une stratégie de barrière dont les nombres caractéristiques a., ..., a sont égaux.

1 m

Le théorème suivant est fondamental; il fait fortement appel à la notion d'impatience.

Théorème 7

Soit W la stratégie stationnaire impatiente optimale, LG N,xG NetiGJ. Si

O

W(x,i) = O et

W(x + K, i) > O, 1 < k < L,

alors

et

WCx + K, i) = K, 1 < k < L

WCx+ L + 1, i) O ou L + 1.

(32)

Démonstration

Comme W(x.i3 = o et que W est optimale et impatiente, on a

VCx,i) = max {y + G(x - y, i}} = G(x,i), y=o,.... X

et

(4.22) G(x,i) > y + G(x - y, i) , y = 1, ..., x .

Par ailleurs :

V(x + 1, i) = max {y + G(x + 1 - y, i)}

O < y < x+1

= max {GCx + 1, i), max {y +_G(x + 1 - y, i)}}

-1 < y < x+1

= max {G(x + 1, i), ma.y {1 + y + G(x - y, i)}}

O < y < X

Comme W(x + 1, i) > o et qu'on déduit de (4.22) que (lorsque x > 1)

1 + G(x,i) > y + G(x + 1 - y, i) , y = 2, .... x+1 ,

il vient

W(x + 1, i) = 1

et donc

G(x + 1, i) < 1 + G(x,i) .

□n poursuit la démonstration en raisonnant par induction : supposons que

W(x +t, i)=t,1<t<K

(33)

Comme W est optimale et impatiente on a nécessairement

[4.23) y+GCx+K-y, i)<k+G(x,i) ,y=o, k-1

et

(4.24) k + y + G(x - y, i) < k + G(x,i) , y = 1, ..., x,

le dernier groupe d’inégalités ne devant être considéré que lorsque x > 1 .

D'autre part :

V(x + k + 1, i) = max {y + G(x + k + 1 - y, i) ; y = o, ..., x + k + 1}

= max {G(x + k + 1, i), max {1 + y + G(x + k - y, i)} , O < y < k-1

max {k + 1 + y + G(x-y,i)}, k + 1 + GCx,i)}

1 < y < X

Vu les inégalités (4.23) et (4.24), on obtient, puisque W est optimale et impatiente

V O W(x + k+1, i)='^

k + 1

si G(x + k + 1,i) > k + 1 + G(x,i)

si G(x + K + 1,i) < k + 1 + G(x,i) .

la démonstration est ainsi achevée.

□

Soit W une stratégie stationnaire optimale. Peut-il exister des états i S J tels que W(x,i) =o VxG N? Le lemme suivant répond à cette question; il résulte directement du corollaire au Théorème 3 (5 3).

(34)

Lemme

Soit W une stratégie stationnaire optimale, alors V i G J il existe a. G N tel que

lO /

<

\

WCx.i =0 O < X < a.

10

W(a. + 1, i) > O . lO

Soit Ç le nombre naturel défini par [4.11]. On a V i G J :

W(x,i] >o ^ V xG {ç + 1, ç + 2, ...}, X - W[x,i] < X G N

et

a. ^ lO

Nous sommes de ce paragraphe.

maintenant en mesure d’énoncer le résultat fondamental

Niyasawa a obtenu ce résultat dans le cas markovien [1962].

Théorème 8

L'unique stratégie stationnaire optimale impatiente est une stratégie de bande dont les nombres caractéristiques sont majorés par le naturel Ç défini en [4.11].

Démonstration

Soit W l'unique stratégie stationnaire optimale impatiente. Fixons i G J et soit

a. = inf {nG N : W[n + 1, i] >o>,

lO ^

l'existence de a étant assurée par le lemme.

(35)

Il n'y a que deux possibilités :

(13 V X > a. (x G N3, W(x,i) > o lO

(23 3 X > a^^ + 1 tel que W(x,i3 = o

- Dans le cas (13 il résulte du théorème 7 que

W(x,i3 = X - a. V X > a. , X e N;

lO 10

en ce qui concerne l’état i, W a donc bien la forme d'une stratégie de bande (n. = o3

1

- Dans le cas (23 soit

b^^ = inf {x G N : X > a^^ + 1, W(x,i3 = o}

Du théorème 8 il résulte que b.. < E et qu'il existe un naturel a.. < £

^ il ^ ^ il ^

tel que

a^^ = inf {x e N : X > b^^ et W(x + 1,i3 > o} .

A nouveau il n’y a alors que deux possibilités :

(2.13 V X > a. . , X G

il N : W(x,i3 > o (2.23 3x>a..+ 1 xG

il ’ N,tel que W(x,i3

Dans le cas (2.13 il résulte du théorème 7 que

W(x,i3 = X - a.. , X = a.. + r (r G N 3,

il il o

et, en ce qui concerne l'état i, W a la forme d'une stratégie de bande avec n^ =1. Dans le cas (2.23 on raisonne comme dans le cas (23 ci-dessus.

(36)

Soit finalement

a. = sup {x G N : WCx,i] = o};

il résulte du lemme que a. est bien défini et a. < f .

in. in. ^

1 1

Comme on peut faire le même raisonnement pour tous les états de J, il est clair que W est la stratégie de bande caractérisée par les nombres

a., (i = 1, ..., m ; K = O, ..., n. ) et b., (i = 1, . . ., mj K = 1, Ti.)

iR 1 iK 1

Corollaire

Soient a., (i = 1, .... mj K = o, .... nJ et b., (i = 1, .... m; k = 1

ik 1 ik

les nombres caractéristiques de la stratégie de bande optimale impatiente.

W i G J, la fonction VC.,i) croît linéairement sur {r G N, r > a. } : i

(1) V[r,i] = r - a. + V[a. , i) V r> a.

in. in. in.

Il 1

Si a > max {a. ; i = 1, .... m}, aG N, on a : in.1

(23 V[r,i) = r - a + V(a,i) V r > a, V i G J.

Démonstration

(1) est immédiat à partir de la définition d’une stratégie de bande et du fait que toute stratégie optimale est consistante. (2) est alors une conséquence immédiate de (13 puisque

V(a.i3 = a - a. + V(a. , i3 in. in.

(37)

4.4. Comparaison avec le modèle markovien

Il était presque inespéré que la morphologie des stratégies stationnai

res optimales impatientes du modèle markovien (m=1) se retrouve, élégamment généralisée, dans le modèle semi-markovien. On perd cependant un résultat important établi par Miyasawa (1962) dans le cas markovien; c’est pourquoi nous reformulons le théorème 8 dans ce cas :

Théorème 9

Si m=1, l'unique stratégie stationnaire optimale impatiente est une stratégie de bande. Soient a (k=o,...,n] et b, (k=1,...,n) les nombres ca-

K K

ractérisant cette stratégie. S'il existe KG tel que V r> K

(4.25) q_^ = P[Y^ = -r] = o

alors

[4.26] 2 < b. - a. ^ K (k=o,...,n-1]

K'*' I K

Du théorème 9 on peut immédiatement déduire le

Corollaire

Soit m = 1. Si

= -r] = O V r > 1,

alors l'unique stratégie stationnaire impatiente optimale est une stratégie de barrière : 3 a ^ N tel que

WCx)

I O si X < a

'^x-a six>a

(38)

En général, sous les hypothèses généralisant (4.25) :'3 KG tel que

Q. . (-r) = O, V r > K ,

^ J

on ne peut obtenir des inégalités semblables à C4.26) pour les intervalles (a^l^, b^ K+1 ^ stratégie de bande optimale et impatiente du modèle semi-marKovien. Ces inégalités restent cependant valables dans le cas où la même "bande" est optimale dans chaque état (les nombres a^^^ et b^j^ ne dépendent pas de i) : il suffit pour s'en persuader de relire la démonstra

tion de Miyasawa.

Remarques

13 Miyasawa n'a pas utilisé le concept de stratégie impatiente, mais celui de stratégie optimale spéciale :

Une stratégie stationnaire optimale W est spéciale si

WCx3 = O G(x3 >y + G(x-y3, y = 1,..., x .

Ce concept, plus faible que celui d'impatience (une stratégie stationnaire optimale impatiente est évidemment spéciale) est utilisé abusivement dans l'article de Miyasawa. Miyasawa affirme que si W° est une stratégie sta

tionnaire optimale spéciale, l'équation

V(x3 = K + G(x - K)

implique

W°(x) = K

Cette implication est fausse; elle est utilisée dans les démonstrations du lemme 2 et du théorème 2 de l'article de Miyasawa. Si l'on utilise la notion d'impatience les corrections de ces démonstrations sont élémen

taires.

(39)

2] Si V i, j G J et V r G Z

Q^jCr) = '

il est clair que sous la stratégie stationnaire impatiente optimale W on a V X G N

WCx,i] = WCx)

En fait on retrouve dans ce cas le modèle markovien; les variables Y n sont indépendantes et équidistribuées :

m

P[Y = r 1 = i] = E Q Cr] = q j = 1

5 5. Résultats complémentaires

Nous donnons ici pour les nombres caractéristiques des stratégies de bande optimales des majorations utilisées dans la suite de ce chapitre ainsi qu’au chapitre suivant; ces majorations sont moins évidentes et en général plus grossières que celles qu'on peut obtenir dans le cas marko

vien. Nous terminons le paragraphe par un théorème concernant les straté

gies de bande et valable seulement dans un cas particulier; ce théorème sera lui aussi utilisé au chapitre suivant.

Lorsque nous parlerons ci-dessous de la stratégie de bande optimale, nous entendrons toujours l'unique stratégie stationnaire impatiente et optimale.

5.1. Majoration des nombres caractéristiques de la stratégie de bande optimale

Théorème 10

Soient a., [i=1,...,m; k=o,...,n.) et b., (i = 1,...,m; k=1,...,n.}

ik 1 ik 1

les nombres caractéristiques de la stratégie de bande optimale.

Alors, V i€ {1,...,m} :

V M.

(4.273 a. < V(a. .) in. in.,1 1

1 1

v^ M d-v3'

^ D < ^ ^

" (1-vP

(40)

Démonstration

La première et la troisième inégalité sont triviales. Gn a V i 6 J :

VCa. ,i)

in. 1

m “ V E E

j = 1 r=

G. . CrJ V Ca. +

13 in^ r.

Comme Vr^-a. et VjGJona:

xn.

1

VCa.

in, r, j] in,

^{+ r} jn. VCa.

jn,

avec d'ailleurs l'egalite si a. +

in. 1

r ^ il vient

m CO C4.28} VCa. ,i) <vE E

in. . ^

1 j=i r=-a.

in,

G. . Cr) fr + a.

ij *■ in. a . + VCa . ,j } ] JHj jn.

<v il. + V p. . VCa. ,i) + v Z p. . [a. - a. + VCa. ,j]]

1 11 in. . , . ij in. jn. jn.

1 j¥=i'^ l'^j '^3

Tenant compte des inégalités Ccorollaire au théorème 2} :

VCa. .

in.

1

i]

_«

VCa. : V N

1-v

on obtient :

VCa. ,i)

in.

1

V M. + V VCa. ,i3

1 in. 1

V M 1 - V

j # i

PlJ

d'où l'on déduit immédiatement la deuxième des inégalités C4.27].

(41)

Dans le cas markovien Cm=13 on retrouve la majoration'due à Gerber (19693 :

Corollaire

Si m = 1 et si les nombres (a , b., b , a ) caractérisent la

O 1 n n

stratégie de bande optimale, on a :

(4.29) a < V(a ) < ~ n n 1 -V

La majoration (4.29) est généralement beaucoup plus précise que (4.27) lorsque v est voisin de 1 : o < v < 1, puisque dans ce cas

On retrouve cependant une majoration de l’ordre de pour le modèle semi- markovien lorsque la matrice P est bistochastique :

Théorème 1

Soient a (i=1,...,m; k=o,...,n.) et b (i=1,...,m; k=o,...,n.)

IK X IK 1

les nombres caractéristiques de la stratégie de bande optimale.

on a :

M. < ^ m M 1 1-v

Démonstration

Si la matrice P = ^st bistochastique.

mm m

(4.30) 2 a. <2 V(a. ,i) < 2 . „ in. . . in. 1-v . „

1=1 1 i=1 1 1=1

De l'inégalité (4.28) ci-dessus on déduit

m

V(a. ,i)'^vM. + v 2 p..[a. -a. +V(a. ,j)]

1 ^{j =} ^{U in. jn.} ^jn.

(42)

En sommant ces dernières inégalités sur i on obtient :

m m m m

E V( a. , i) < V

1=1 1 ^•H ^Il

M.1 +v I p..(a. -a. )+v E . . ij in. jn. . . ,

i,J=1 1 J i.J=

P . . V(a.

I "J

m m m

< V E i = 1

11.1 +v E a. (p..-p..) i,j=1 ^"i J"

+ V E

i,j = 1 Pji

- j)

i)

La matrice P étant bistochastique

m m

E p..= E p.. =1, j=1 j=1 J"

et il vient

m m m

E VCa. ,i) < V E M. + V E VCa. ,i),

• y. in. . . 1 . • in.

1=1 1 i=1 1=1 1

d'où la deuxième des inégalités (4.30)j la première et la troisième étant triviales, le théorème est démontré.

On a évidemment le

Corollaire

Sous les hypothèses du théorème 11, on a V i G {1,...,m} :

m

C4.31) a. < VCa. ,i) <E M. < m M

in. in. 1-v . . J 1-v

1 1 J = 1

Les majorations (4.31) seront plus ou moins fines que les majorations - (4.27) d'après les valeurs de m et de v. En général pour de petites valeurs

de m et des valeurs de v voisines de 1, les majorations (4.31) seront plus précises. Ces considérations sont importantes : nous verrons en effet que dans l'algorithme de construction de.la stratégie de bande optimale appa

raissent des systèmes de Cramer dont les dimensions sont de l'ordre de m A où A est un majorant des nombres a.

i

(43)

Exemple

Soit - m = 2

- QC-43 =

0.05 0.05'

0.3 0.3

Q(2) =

0.35 0.55'

0.3 0.1

- V = 0.95

Alors : P = Q(-4] + QC2) =

ri^ = 1,8 , = 0,8

= 19, [^3 = 361 .

1-v 1-v

0.4 0.6

0.6 0.4

La matrice P est bistochastique. Les majorations (4.273 donnent /

<

a < (19 X 1,83 + (361 x 1,8 x 0,63 = 384,08 1

a < (19 X 0,83 + (361 x 1,8 x 0,63 = 365,08 , 2

tandis que des majorations (4.313 on déduit

a. < 19 X (1,8 + 0,83 = 49,4 (i = 1, 23 . in.X

5.2. Théorème 12

Si 0..(r3 = O ij

0. .(13 > O ij

Vr>1 et Wi, jEJ

i = j

et si W est la stratégie de bande définie par les nombres

1,...,m; k= o,...,n,3 etb.,(i=1,...,m; k = 1,...,n.3,

1 ik 1

alors V i E {1, . .. ,m}

(44)

C4.32] V(a. ,i;W]

in.1

V p.

1-v p.

1

m ___)L___ E l-v p. 1 = 1

O E r=-a.

in. 1

VCa. +r, 1,W) Cr)

in. il

1

où

Pi Cl)

Démonstration

Un raisonnement élémentaire montre que

VCa. ,i;W) in,

“ O m

E p? [v p. + V E E D.,Cr) VCa. +r,ljW)] Ci S J)

n=o r=-a. 1=1 i

in.

de cette égalité on déduit immédiatement C4.32).

5 6. Algorithme de construction de la stratégie de bande optimale

Soit W une stratégie stationnaire pour laquelle il existe un nombre se N tel que

O

C4.32) WCr,i) = r - S + WCS,i) , Vr>SetViGJ .

Dn sait que la stratégie de bande optimale est de ce type et le 5 5 four

nit des majorations permettant de donner une valeur à S. Nous allons mon

trer que la fonction de valeur de la stratégie W peut s'écrire explicite

ment comme la solution d'un système de Cramer de dimension m CS + 1).

A l'aide de ce résultat nous développons un algorithme qui s'apparente à l'algorithme de Howard et permet la construction en un nontire fini d'ité

rations de la stratégie de bande optimale Cc'est à dire l'unique stratégie stationnaire optimale et impatiente).

(45)

6.1. Calcul de la fonction de valeur d'une stratégie stationnaire

Soit SG considérons une stratégie stationnaire W satisfai

sant [4.32). Pour r>SetieJ on a alors m

V(r,i;W) = r - S + W[S,i) + v E E Q..[n) V[S - W(S,i) + n,j; W], j=1 n=-“

d'où l'on déduit

(4.33) VCr,i;W) = r - S + V[S,i; W) [r > S, i G J)

La fonction de valeur de W satisfait le système d'équations suivant :

«> m

(4.34) V[r,i;W) = WCr.i) + v E E Q..[s-r+W(r,i)] V[s,j;W),[r,i) G N x J s=o j=1 "J

Les relations (4.33) montrent que ce système est équivalent à l'ensemble des équations

V(r,i;W)

(4.35) <

S m

= W(r,i) + V Z Z 0. .[s-r+W(r,i)] V(s,j;W) s=o j=1

m

+ V Z Z Q. .[s-r+W(r,i)] [s-S + V(S,j;W)]

s=S+1 j = 1

(o < r < S, i e J)

V(r,i;W) = r - S + V(S,i;W) (r > S, i G J)

(46)

Définissons alors les matrices carrées de dimension m 0 Cr,s) comme suitW

C4.363

[s-r+WCr,i]] si s G {o,...,S-1}

. r G {o...Sj-j Qj_jCr,s) = <^

Z 0. .[u-r+W(r,i] ] si s = S u=S ^ij

Soit

00 m

C4.37) g(r,i;W) = W(r,i) + v E E Q. . (s-r+W(r,i3Hs-S]

s=S+1 j = 1 (o4r4S , ie-j)

Avec ces notations le système (4.35) peut se mettre sous laorme suivante :

S m .W

(4.38) V(r,i;W) = g(r,i;W) + v E E Q. .(r.s) V(s,j;W) (o < r < S. i e J) s=o j=1

V(r,ijW) = r - S + V(S,ijW) (r > S, i G J)

Soit la matrice (bloc) carrée de dimension m(S+1) définie paroW

.2,"' =

qW‘^(o,o) . . . W 1 . . . Q (o,S)

Q (S,o) . . . Q (S,S)W /

et introduisons les vecteurs de suivants

g(W) = [g(o,1;W),--- g(o,m;W), g(1.1;W), .... g(S,1;W),--- g(S,m;W)]

Vg(W) = [V(o,1jW),..., V(o,m;W), V(1,1jW),..., V(S,1;W)____ _ V(S,m;W)]

(47)

Le système (4.38) admet alors la représentation matricielle’

(4.39) (I - v.^'^) ’Vg (W) - i (W) .

Commet est une matrice sous-stochastique et que o < v < 1. la matrice oW (I - V) est inversible et (4.39) admet l’unique solutionO w

(4.40) Vg (W) = (I - v.2'^)"^ g (W).

Remarque : on peut montrer que, pour une stratégie stationnaire quelconque, le système infini (4.34) admet une et une seule solution

6.2. Algorithme

Dans le calcul qui précède, et plus précisément dans la construction des matrices Q , apparait déjà l'idee essentielle qui va permettre l’élaboW ration d’un algorithme destiné à l’obtention d'une stratégie stationnaire optimale. En l’absence de versements de dividendes, on peut en effet consi- dérer le processus (situation économique / montant des réserves) comme une chaîne de Markov dont l’espace d’états est J x Z, la région J x Z

I

étant absorbante; les probabilités de transition de cette chaîne sont données par

Q^j(s-r) si r G N, s G Z

■ J- I -’n ■ ‘ ^

6 . . 6 si r G - N

ij sr O

A chaque instant n, la compagnie a alors une décision à prendre : si

Z = r (r G |\j), elle doit choisir le montant KG {o,...,r} des dividendes n

qu’elle versera à ses actionnaires en cet instant. A toute décision possible (o < K < r) est associé un "revenu" (le montant du versement effectué).

Au lieu de considérer que le versement de dividendes effectué à l’instant n diminue le montant des réserves,

(48)

on peut, de manière équivalente pour notre propos, adopter une optique différente qui nous ramènera dans le cadre classique de la théorie des

décisions séquentielles : si = r (r G IM) et si un dividende K (o < K < r) est versé en n, nous considérerons que ce versement n’affecte pas le montant des réserves en n, mais modifie les probabilités de transition de la chaîne

{[J^, Z^)}, les nouvelles probabilités de transition étant définies par

Q..(r,s)

ij Q. . (s - r + K)

ij (r G N, s G Z, o < K ^ r);

si Z = r < o, aucune décision n'est admise (revenu nul), n

Nous nous retrouvons ainsi dans un cadre qui s'apparente à celui d’un problème bien connu en programmation dynamique (Howard 1971).

Deux éléments en fait nous en séparent :

1) l’espace des décisions admissibles à l’instant n dépend de l’état de la chaîne en cet instant : si Z = r G N, seules les décisions

n

{o,...,r} sont admises; si Z < o, aucune décision n’est admise.

n

2) l’espace d’états de la chaîne est infini dénombrable.

Le premier élément n’est que purement formel : on pourrait, sans modifier le problème, agréger les états absorbants en (i,r) = (1,-1) par exemple (modification des probabilités de trbnsition vers les états appartenant à J X Z ), construire une fonction de revenu qui attache un revenu nul

o

à toute décision non admissible et supposer que les probabilités de transi

tion résultant d’une décision non admissible conduisent sûrement la chaîne dans l’état absorbant (1, - 1) : si r G N et si K > r.

Q.. (r,s) = 6., ô

ij Jl s, -1

(49)

Le deuxième élément est plus fondamental. Gn peut le rencontrer en utili

sant une des majorations connues concernant la stratégie de bande optimale Cvoir 55). Si S est une telle majoration, on sait qu'on peut ne considé

rer que les stratégies satisfaisant [4.32] et par conséquent (4.33), puis

que la stratégie de bande optimale satisfait ces relations.

La recherche d'une stratégie stationnaire optimale est ainsi ramenée à la recherche d'une stratégie stationnaire W telle que

V[r,i;W) > V(r,i;W) , V rG {o,...,S}, V iG J,

quelle que soit la stratégie stationnera W. Soit alors (r,i) G {o,.... S} x J le couple (montant des réserves, situation économique) à l’instant n et sup

posons que la compagnie prenne la décision K (o < K < r) . Si à l’instant n + 1 le montant s des réserves est supérieur à S, on considère qu’un dividende s - S est immédiatement versé et que le montant des réserves est ainsi ramené à S, la compagnie ayant alors seulement une nouvelle décision a prendre.

On est ainsi amené à définir le revenu associé a la décision k (o ^ K ^ r) prise dans l’état (r,i) par

m

(4.41) g (r,i) = k + V Z Z Q..(s-r+k) (s-S) s=S+1 j=1 ^ij

(rG {o,...,S}, kG {o,...,r} , iS J)

et à considérer que les probabilités de transition de la chaîne résultant de cette décision sont données par

(4.42) Q';.(r,s) = iJ

Q. . (s-r+k) si s G (o,..., S-1 } ij

CO

Z G. . (u-r+k) si s = S I u=S "J

(r^{o,...,S}, k£{o,...,r}, i^J);

(50)

la quantité

1 -

m S Z Z j=1 s=o ^ij

(r,s) Cr e {o S}, RG {o,...,r}. i e J)

donne la probabilité d'absorption lorsque la décision K est prise dans l'état Cr.i).

Il est clair que si W est une stratégie stationnaire satisfaisant C4.32) on a :

[4.43] <

, . ,,, W(r,i), g(r,i;W] = g [r,i]

Gj'^.tr.s) = Q'^[^'^^Cr,s) [i,j G j; □< r< S; o< s< Sj o< K< r]

ij iJ

Nous sommes ainsi ramenés au cas classique d'une chaîne de Narkov finie;

à chaque instant doit être prise une décision k modifiant les probabilités de transition de la chaîne et à laquelle est associé un revenu g dépendant de l'état de la chaîne et de la décision prise.

L'algorithme que nous proposons ci-dessous exploite cette situation.

Algorithme I

On choisit une stratégie stationnaire quelconque satisfaisant

W [r,i] = r - S + W (S,i] V r> S, V iG j

o o

où s est une majoration connue pour la stratégie de bande optimale [voir § 5).

On initialise n à o.

Phase 1

K K

- Calcul des quantités g [r,i] et 0^j[r,s) pour r, s G {o,...,S}, i, jG J et kG {o,...,r}

- Résolution du système [4.38] pour W = W^; les coefficients de ce système sont donnés par [4.43].

(51)

La phase 1 fournit la fonction de valeur V(r,ij W ) Cr e {o;...,S}, i 6 J) n

de la stratégie W .

Phase 2

- Calcul des quantités

É • w IM ,

V [r,i) = g Cr,i) + v E E CJ^.Cr,s) V(s,j; W ] s=o j=1 "J

pour r£ {o,...,S}, KG {o,...,r} et iG

- Calcul des quantités

ri(r,i3 = max V*^Cr,i) O < K < r

et

C4.44] Wn,i(r,i)

max {KG N : O < K < r, V^Cr,i] = M(r,i)}

si MCr,i} > V(r,i; W 3 n W (r,i3 si MCr,i) = V(r,i, W 3

n n

pour r G {o,...,S} et i G J .

Phase 3

Test :

- si W -Cr,i3 = W (r,i3 V rG {o,...,S} et V iG J, on arrête la

n+1 n

procédure

- si 3(r,i3 G {o,...S} x J tel que W^^^(r,i3 ^ W^[r,i3, on itère les trois premières phases avec la stratégie

(4.443 à la place de W . n

définie par

(52)

Le théorème suivant montre que la procédure se termine après un nombre fini d'itérations, la dernière stratégie produite étant optimale.

Théorème 13

L'algorithme I fournit une stratégie stationnaire optimale en un nom

bre fini d’itérations.

Démonstration

13 Soient et deux stratégies successives produites par l'algorith

En effet, par différence membre à metrbre des égalités C4.383 appliquées à W ^ . et W on obtient

me I

Si W . ^ VI , alors la stratégie W . domine strictement W , c'est à dire :

n+1 n ^ n+1 n

n+1 n

Posons alors

V Wn+1

(r,i3 = V [r,i3 (rG{o,...,S>, iGJ3.

(53)

Si W . # W , on a pour r G {o,...,S} et i £ J : n+1 n

SmW^.

(4.46) V ^ Cr,i) = g(r,ijW^^^) + v Z Z Cr,s) VCs,j;W^3

S m W

> g(r,i;W ) + V Z Z Q.. (r,s) V(s,j;W ) .

n . . ij n

s=o j=1

l'inégalité étant stricte pour au moins un couple (r,i) G {1,...,S} x J (voir 4.44). Posons

W W W ^

A (r,i) = V (r,i) - V(r,i;W^) , (r,i) G {o,...S} x J

Les égalités (4.45) peuvent alors se mettre sous la forme

W ^ W S m W ^

(4.47) V(r,ijW ^,) - V(r,i;W ) = A ^ "^(r,!) + v Z Z (r,s)

n+1 n . . ij

s=o j = 1

.[V(s,j) - V(s,j;W^)], (r,i) G {o,...,S} x J .

Il est par ailleurs clair à partir de (4.46) que

W ^ W

A*^ *^(o,i)=o,ViGJ,

et

W ^ W

A (r,i) > O, V(r,i) G {o,...,S} x J,

l'inégalité étant stricte pour un couple (r,i) au moins. Soit alors

a(r.i) = V(r,iiW ^.) - V(r,i;W )

n+1 n

W ^ W

B(r,i) = A "(r,i) , (r,i) G {o...S} x J ,

(54)

et définissons les vecteurs de RmCS+1)

ot”^,ocCoj13>..«> otCo.nn)/ otC1/

3"C3Co.1) / .... , 3CS,m3]

Les équations (4.473 s'écrivent matriciellement sous la forme

W

a = 3 + V c2 n+1 — a

2Wn+^

3 étant inversible, admettent l'unique solution

W ^ -1 a = CI - V 2 3 3 »

ou encore :

a = 3 + Y

avec

Y = E K=1

W „

c2 ) e

Les vecteurs y 6t 3 étant à coordonnées positives et 3 ayant au moins une coordonnée strictement positive, le vecteur a a lui aussi toutes ses coordon

nées positives et l'une d'elles au moins strictement positive.

La stratégie W domine donc bien strictement la stratégie .n+1

23 Si W . = W , la stratégie stationnaire W est optimale.

n+1 n n

(55)

En effet, siW .=W,onaVrG et V i S J : n+1 n

[4.48) V(r,i;W ) n

S m W

g(r,ijW ) + V Z E Q.?(r,s) V(s,j;W )

n s=o j = 1• ij n

= max

O ^ K < r

{g*^(r,i) +

S m

V Z Z Q..(r,s) V(s,j;

s=o j=1

W )}

n

Soit W une stratégie stationnaire optimale. Comme la relation (4.33) est satisfaite pour toute stratégie stationnaire optimale W (choix de S) et pour toute stratégie produite par l'algorithme, il vient

V(r,ijW) - V(r,i;W ) = V(S,i;W) - V(S,i;W ) V r > S, V i ^ J.

n n

De plus, puisque W est optimale :

(4.47) V(r,i;W) - V(r,i;W ) >o V(r,i) e {o,...,S} x J . n

□n a évidemment V(r,i) G {o,...,S} x J :

S m

.W

(4.50) V(r,i;W) = g(r,i;W) + v Z Z Q..(r,s) V(s,j;W) s=o j = 1

De (4.46) et (4.50) on déduit

S m .W

V(r,i;W) - V(r,ijW^) < v Z Z Q^.(r,s) [V(s,j;W) - V(s,j;W^)J, s=o j = 1

( r, i ) G {o ,...,3} X J ,

d'où

V(r,i; W) V(r,i;W^) <v max{V(s,j;W) V(s,jjW^); (s.j) ^ {o. _{.,S} X j}.}

V(r,i) e {o,...,s} X J ,

(56)

ce qui, comme o < v < 1 et vu (4.49], n'est possible que si .

V(r,i;W) - V(r,i;W^] = o \/(r,i] G {o,...,S} x J .

La stratégie est donc également optimale.

33 La procédure est évidemment finie puisque

- chaque itération qui n'arrête pas la procédure fournit une stratégie stationnaire dominant strictement la stratégie précédente

- il n'y a qu'un nombre fini de fonctions W définies sur {o,...,S} x J et à valeurs dans {o,...,S} telles que

W(r,i3 < r V(r,i3 G {o,...,S} x J .

Le théorème 13 est ainsi démontré.

L'algorithme I fournit une stratégie stationnaire optimale et donc consistante. Cette stratégie n'est pas nécessairement impatiente (il suffit de considérer le cas où est optimale et non impatiente).

On peut obtenir l'unique stratégie stationnaire impatiente optimale (straté

gie de bande optimale) en ajoutant à l'algorithme I une phase 4 qui débutera à l'arrêt de la procédure définie par les trois premières phases :

Phase 4

Soit W de la stratégie fournie par les phases 1 à 3.

Calcul des quantités

W (r,i) = max {KG N ; W(r,i) < k < r et V (r,i) = V(r,i;W)} , opt

(r,i) G {o,...,S} X J .

(57)

- fin

Pour r > S et i G J on pose

W ^Cr.i) = r - S + W

opt opt

Il est clair que la stratégie ainsi obtenue est optimale et impatiente.

Remarques

1] ün obtient directement l'unique stratégie stationnaire optimale et im

patiente du modèle par l’algorithme I si on remplace l’expression C4.44) par

W^^^(r,i) = max {k e N : o < k < r, V*^[r,i) = i1Cr,i)} j

r e {1,...,S}, i G J .

Nous n’avons pas adopté cette présentation afin de ne pas alourdir la dé

monstration de la proposition 13, mais il est évident qu’on la retiendra en pratique

23 La résolution du système (4.383 peut être effectuée par approximations successives; l’opérateur

. m(S+13 m(S+13 tt —^ ^ V7

A : R R : V g(W3 + v Q V

est en effet une contraction de l’espace métrique complet RmCS+13

(dCx,y3 = sup |X|^ - y|^|3- Vg(W3 est l’unique point fixe de A.

k

33 L'algorithme I est évidemment applicable au cas markovien (m=13.

Comme nous l’avons déjà fait remarquer au § 5, les majorants S valables pour le modèle semi-markovien seront en général beaucoup plus élevés que ceux du modèle markovien.

(58)

Par exemple si 1 = 0,10 (v = 1 ~ 0,909), le dernier membre des inégali

tés C4.29) donne

S = [10 M]

pour le modèle markovien, tandis que (4.27) donne

S = [10 ri (1 + 10 Sup E p. .)]

i j i

ou, s'il existe i tel que p.. = o :

S = [110 M]

Dn doit donc s'attendre, si l'on utilise ces majorations, à des calculs beaucoup plus longs pour le modèle semi-markovien même si le nombre m d'états de la chaîne [J , n £ N} est plus élevé. Comme on a évidemment

^ n

le plus grand intérêt à choisir une valeur de S aussi peu élevée que possible (réduction de la taille des systèmes linéaires à résoudre), on ne manquera pas si la matrice P est bistochastique, d'étudier les majora

tions (4.31) .

5 7. Probabilités de ruine attachées à une stratégie stationnaire

Pour le cas markovien (m=1) le processus des réserves en l'absence de versements de dividendes est une promenade aélatoire sur Zj on sait qu'en dehors du cas dégénéré (Y^ = o p.s.) trois cas seulement sont possi

bles : la promenade aléatoire dérive vers - «>, oscille ou dérive vers + <»

(Feller, Vol. II Chap. XTI ).

Dans les deux premiers cas la ruine est certaine; dans le troisième (tou

jours en l'absence de versements de dividendes), la probabilité de ruine asymptotique est strictement inférieure à 1, elle n'est nulle que si

> o presque sûrement. Sous l'application d'une stratégie stationnaire W la ruine reste évidemment certaine dans les deux premiers cas; dans le troi

sième, si Y^ n'est pas presque sûrement positif et s'il existe un nombre S tel que V(r,i) G N x J : r - W(r,i) < S, il est clair que la ruine est également certaine.