1. Ce probl` eme g´ en´ eralise un exemple vu en classe, au Chapitre 4. On a le syst` eme lin´ eaire x

(1)

IFT-6521: PROGRAMMATION DYNAMIQUE Hiver 2015

Prof. Pierre L’Ecuyer

DEVOIR 3

Devoir ` a remettre le lundi 9 mars 2015, au d´ ebut du cours, 9h30. DPOC d´ esigne le livre de Bertsekas, “Dynamic Programming and Optimal Control”. Dans chaque cas, il est impor- tant de bien d´ efinir (math´ ematiquement et clairement) tous les symboles utilis´ es. Dans la correction, les explications claires et d´ etaill´ es comptent davantage que les r´ esultats.

1. Ce probl` eme g´ en´ eralise un exemple vu en classe, au Chapitre 4. On a le syst` eme lin´ eaire x

_k+1

= A

_k

x

_k

+ B

_k

u

_k

, k = 0, 1, . . . , N − 1,

o` u x

_k

et u

_k

sont des vecteurs de dimensions n et m, les A

_k

sont des matrices n × n connues, et les B

_k

sont des matrices al´ eatoires ind´ ependantes n × m de lois de probabilit´ e connues qui ne d´ ependent pas de (x

_k

, u

_k

). Chaque u

_k

peut ˆ etre choisi dans R (aucune contrainte) apr` es avoir observ´ e le vecteur x

_k

.

On veut maximiser E [U (c

^t

x

_N

)] o` u c est un vecteur connu et U est une fonction d’utilit´ e concave et deux fois continument diff´ erentiable, telle que

− U

⁰

(y)

U

⁰⁰

(y) = a + by.

Montrez que la d´ ecision u

_k

optimale est une fonction lin´ eaire de x

_k

pour chaque k (i.e., dans la politique optimale, chaque µ

_k

est une fonction lin´ eaire).

Suggestion: R´ eduire le probl` eme ` a un probl` eme en une dimension via un changement de variable de la forme y

_k

= c

^t

A

_N−1

· · · A

_k

x

_k

pour l’´ etat, et quelque chose de semblable pour la d´ ecision, puis utiliser les r´ esultats de la section 4.3 de DPOC.

2. DPOC (2005), Exercice 4.29. Remplacez 5.1 par 4.5.1 dans la question.

3. DPOC (2005), Exercice 5.14.

4. Vous disposez d’un montant initial x

₀

> 0 ` a investir, sur une p´ eriode de N mois. Apr` es k mois, pour k = 0, . . . , N − 1, votre capital est x

_k

et vous d´ ecidez d’un montant u

_k

` a investir dans des actifs risqu´ es. Ce montant doit satisfaire 0 ≤ u

_k

≤ x

_k

. Avec probabilit´ e p > 1/2, le montant investi devient (1 + c)u

_k

au d´ ebut du moins suivant, et avec probabilit´ e 1 − p il devient (1 − d)u

_k

, o` u c et d sont des constantes positives telles que pc > (1 − p)d. Votre objectif est de maximiser E [ln x

_N

], votre utilit´ e esp´ er´ ee apr` es N ´ etapes, en supposant que votre fonction d’utilit´ e est logarithmique.

Prouvez (pensez ` a l’induction) que la politique optimale est d´ efinie par u

_k

= bx

_k

et que la fonction d’utilit´ e esp´ er´ ee optimale ` a partir de l’´ etape k est

J

_k

(x

_k

) = C

_k

+ ln x

_k

(2)

o` u

b = (pc − (1 − p)d)

cd et C

_k

1. Ce probl` eme g´ en´ eralise un exemple vu en classe, au Chapitre 4. On a le syst` eme lin´ eaire x

IFT-6521: PROGRAMMATION DYNAMIQUE Hiver 2015

Prof. Pierre L’Ecuyer

DEVOIR 3

1. Ce probl` eme g´ en´ eralise un exemple vu en classe, au Chapitre 4. On a le syst` eme lin´ eaire x

= A

x

+ B

u

, k = 0, 1, . . . , N − 1,

o` u x

et u

sont des vecteurs de dimensions n et m, les A

sont des matrices n × n connues, et les B

sont des matrices al´ eatoires ind´ ependantes n × m de lois de probabilit´ e connues qui ne d´ ependent pas de (x

, u

). Chaque u

peut ˆ etre choisi dans R (aucune contrainte) apr` es avoir observ´ e le vecteur x

.

On veut maximiser E [U (c

x

)] o` u c est un vecteur connu et U est une fonction d’utilit´ e concave et deux fois continument diff´ erentiable, telle que

− U

(y)

U

(y) = a + by.

Montrez que la d´ ecision u

optimale est une fonction lin´ eaire de x

pour chaque k (i.e., dans la politique optimale, chaque µ

est une fonction lin´ eaire).

Suggestion: R´ eduire le probl` eme ` a un probl` eme en une dimension via un changement de variable de la forme y

= c

A

· · · A

x

pour l’´ etat, et quelque chose de semblable pour la d´ ecision, puis utiliser les r´ esultats de la section 4.3 de DPOC.

2. DPOC (2005), Exercice 4.29. Remplacez 5.1 par 4.5.1 dans la question.

3. DPOC (2005), Exercice 5.14.

4. Vous disposez d’un montant initial x

> 0 ` a investir, sur une p´ eriode de N mois. Apr` es k mois, pour k = 0, . . . , N − 1, votre capital est x

et vous d´ ecidez d’un montant u

` a investir dans des actifs risqu´ es. Ce montant doit satisfaire 0 ≤ u

≤ x

. Avec probabilit´ e p > 1/2, le montant investi devient (1 + c)u

au d´ ebut du moins suivant, et avec probabilit´ e 1 − p il devient (1 − d)u

, o` u c et d sont des constantes positives telles que pc > (1 − p)d. Votre objectif est de maximiser E [ln x

], votre utilit´ e esp´ er´ ee apr` es N ´ etapes, en supposant que votre fonction d’utilit´ e est logarithmique.

Prouvez (pensez ` a l’induction) que la politique optimale est d´ efinie par u

= bx

et que la fonction d’utilit´ e esp´ er´ ee optimale ` a partir de l’´ etape k est

J

(x

) = C

+ ln x

o` u

b = (pc − (1 − p)d)

cd et C

= (N − k)[p ln(1 + cb) + (1 − p) ln(1 − db)]

pour k = 0, . . . , N − 1. Selon cette politique, on investit toujours une fraction constante de

notre capital, et cette fraction b ne d´ epend pas du num´ ero d’´ etape.