Chapitre 7: Mod`eles sur Horizon Inﬁni

(1)

Chapitre 7: Mod` eles sur Horizon Infini

Fabian Bastin

DIRO, Universit´e de Montr´eal

IFT-6521 – Hiver 2011

Fabian Bastin Programmation dynamique

(2)

Horizon infini

Nombre illimité d’étapes, système stationnaire:

U_k,X_k,g_k,f_k, etPk sont les mˆemes pour tout k.

à l’étape k, on observe l’étatxk, on prend une décision uk ∈U(xk), puis une variable aléatoirew_k est générée selon la loiP(· |x_k,u_k).

On paye uncoût d’espéranceg(x_k,u_k), et l’état à la prochaine

´etape estxk+1=f(xk,uk,wk).

Nous avons éliminé le paramètre wk de la fonction g.

´Equivaut `a rempla¸cerg(x_k,u_k,w_k) par E[g(x_k,u_k,w_k)|x_k,u_k].

(3)

Mod` eles en temps discret

Coût espéré total sur horizon infini, avecfacteur d’actualisation α≤1, pour une politique π= (µ₀, µ₁, . . .):

Jπ(x0) = lim

N→∞E

"_N−1 X

k=0

α^kg(x_k,u_k)

#

où uk =µk(xk) et xk+1=f(xk,uk,wk) pour toutk. Si le taux d’intérêt par étape estr, alors α= 1/(1 +r).

Le coût espéré total optimal sur horizon infini:

J^∗(x₀) = inf

π J_π(x₀).

Plusieurs jeux de conditions peuvent garantir queJ^∗(x0) existe et est fini, qu’une politique stationnaire optimale existe, et qu’on peut les calculer.

Ces mod`eles peuvent en fait englober tous ceux que nous avons vus auparavant.

(4)

Exemplesde telles conditions:

Si la fonctiong est bornée, disons |g(x,u,w)| ≤M et si 0< α <1, alors le coût espéré total est borné parP∞

k=0α^kM =M/(1−α).

Sig est born´ee et α= 1, mais qu’il existe au moins un´etat

absorbantdans lequel les coûts sont nuls et que l’on atteindra à un instant aléatoire (temps d’arrêt)T₁ tel queE[T₁]<∞pour toute politique, ou pour au moins une politique si les coûts sont non négatifs, alors le coût espéré total est borné parME[T1].

Souvent,T1 est borné par une v.a. géométrique. C’est vrai par exemple s’il existe des constantesn0<∞et ρ <1 telles qu’à partir de n’importe quel état, on aP[T₁ >n₀]≤ρ.

Les modèles avec un nombre fini d’étapes entrent aussi dans ce cadre: il suffit de mettre le numéro de l’étape courante dans l’état.

Certains jeux de conditions permettent des fonctionsg non born´ees.

Voir DPOC, vol. 2, pour plus de d´etails.

(5)

Coˆut moyen par ´etape, pour une politiqueπ = (µ₀, µ₁, . . .):

Jπ(x0) = lim

N→∞E

"

1 N

N−1

X

k=0

g(x_k,u_k)

# .

Coˆut moyen optimal:

J^∗(x0) = inf

π Jπ(x0).

Le coût moyen peut être non nul seulement si le coût espéré total est infini. D’habitude,Jπ etJ^∗ ne dépendent pas de x0.

Une politiqueπ est dite stationnairesi elle est de la forme π= (µ, µ, µ, . . .). Dans ce cas, on parlera souvent, par abus de langage, de la politiqueµ, et on noteraJπ par Jµ.

Une politique stationnaireµestoptimalesi Jµ(x) =J^∗(x) pour tout x, et-optimalesi J_µ(x)≤J^∗(x) +pour toutx.

(6)

Mod` eles ` a ´ etapes discr` etes (ou ´ ev´ enements discrets)

On observe le système à des instants aléatoires t₀ = 0≤t₁ ≤t₂ ≤. . . (les instants desévénements).

SoitN(t)= sup{k :t_k ≤t}= nombre d’´ev´enements durant (0,t].

à l’instanttk, le système “saute” dans l’étatxk, on l’observe et on prend une décision u_k, on paye un coût dont l’espérance est g(x_k,u_k), et la paire w_k = (t_k+1−t_k,x_k+1) est générée selon une loi de probabilité qui dépend de (xk,uk).

(7)

Coût espéré total actualisé sur horizon fini t, avectaux d’actualisationρ>0 (i.e., facteur d’actualisatione^−ρt pour une période de tempst), pour une politique π = (µ₀, µ₁, . . .):

Jπ,t(x0) = E





N(t)

X

k=0

e^−ρt^kg(x_k,u_k)



 o`u uk =µk(xk). Si pas d’actualisation: ρ= 0.

Dans le cas de l’horizon fini, on suppose que la valeur courante de tk est incluse dans l’´etatxk, si n´ecessaire.

Parfois, un coût est cumulé de fa¸concontinue, à untauxg˜(x,u,w) si on est dans l’état x, on a pris la décision u, et l’élément aléatoire estw. Notre formulation couvre ce cas en prenant

g(xk,uk) = E Z tk+1

t_k

e^−ρtg˜(xk,uk,wk)dt

. Coût espéré optimal:

J_t^∗(x0) = inf

π Jπ,t(x0).

(8)

Coût espéré total actualisé sur horizon infini:

Jπ(x0) = lim

t→∞Jπ,t(x0).

Le coût espéré total optimal:

J^∗(x0) = inf

π Jπ(x0).

Coˆut moyen par unit´e de temps sur horizon infini, pour une politiqueπ= (µ₀, µ₁, . . .):

Jπ(x0) = lim

t→∞E



 1 t

N(t)

X

k=0

g(x_k,u_k)



.

Le coˆut moyenoptimal:

J^∗(x0) = inf

π Jπ(x0).

Le coût moyen peut être non nul seulement si le coût espéré total est infini. D’habitude,J_π etJ^∗ ne dépendent pas de x₀.

(9)

Temps discret

Pour le modèle sur horizon infini, on définit la fonction decoût anticipé optimal pour un modèle àhorizon tronqué: J₀(x)= 0 et

J_k(x) = coût espéré total optimal si on est dans l’étatx et s’il ne reste que k étapes

= min

u∈U(x)Ew[g(x,u) +αJk−1(f(x,u,w))] pourk >0.

On s’attend `a ce que J_k →J^∗ lorsquek → ∞, et que µ^∗(x) = arg min

u∈U(x)Ew[g(x,u) +αJ^∗(f(x,u,w))]

d´efinisse une politique optimale. On va montrer que sous certaines conditions, cela est vrai et que l’on peut borner|J_k(x)−J^∗(x)|et sup_x∈X |J_k(x)−J^∗(x)|, et le taux de convergence de cette erreur vers 0.

On va supposer (sauf lorsqu’on dira le contraire) queg est born´ee et quew prend ses valeurs dans un ensembleD d´enombrable.

(10)

Notation. Soit B(X) l’ensemble des fonctionsborn´eesV :X →R.

Lanorme supd’une fonctionV ∈ B(X) est d´efinie par kVk=kVk_∞= sup

x∈X

|V(x)|.

On d´efinit les applicationsT :B(X)→ B(X) etTµ:B(X)→ B(X), pour une politique stationnaireµ, par

T(J)(x) = min

u∈U(x)Ew[g(x,u) +αJ(f(x,u,w))], Tµ(J)(x) = Ew[g(x, µ(x)) +αJ(f(x, µ(x),w))]. Ce sont lesop´erateurs de la PD. Les images deT etTµ sont dans B(X) car g est born´ee. On peut composer ces applications:

T^k(J) = T(T^k−1(J)), T_µ^k(J) = T_µ(T_µ^k−1(J)),

T_µ_iT_µ_i+1· · ·T_µ_k−1(J) = T_µ_i(T_µ_i+1· · ·T_µ_k−1)(J).

On noteJ≤J⁰ si J(x)≤J⁰(x) pour tout x∈X.

(11)

D´efinition. Une applicationT :B(X)→ B(X) est dite contractante enm´etapesde moduleρ si

kT^m(J)− T^m(J⁰)k ≤ρkJ−J⁰k, pour toutJ,J⁰ ∈ B(X), pour une constante ρ <1.

Sim= 1, on dit simplement que T est contractante.

Th´eor`eme du point fixepour les applic. contractantes.

SiT :B(X)→ B(X) est contractante enm ´etapesalors il existe un et un seulJ^∗ ∈ B(X) tel queT(J^∗) =J^∗, i.e.,T poss`ede un point fixe unique dansB(X).

De plus, pour toutJ∈ B(X), limk→∞kT^k(J)−J^∗k= 0.

(12)

On montre ici que les applicationsT et Tµ de la programmation dynamique sontmonotoneset contractantes.

Proposition(monotonicit´e).

SiJ ≤J⁰, alors T^k(J)≤T^k(J⁰) etT_µ^k(J)≤T_µ^k(J⁰), pourk ≥1.

Preuve: D´ecoule directement de la d´efinition + induction surk. Proposition: (contraction).

Siα <1, J et J⁰ sont dans B(X), etµest une politique stationnaire, alors, pour toutk ≥1, on a

kT^k(J)−T^k(J⁰)k ≤α^kkJ−J⁰k, kT_µ^k(J)−T_µ^k(J⁰)k ≤α^kkJ−J⁰k.

(13)

Preuve: Par la proposition pr´ec´edente, comme k · k=k · k∞, J⁰ ≤J+kJ−J⁰k

⇒ T(J⁰)≤T(J+kJ−J⁰k) =T(J) +αkJ−J⁰k

⇒ T²(J⁰)≤T(T(J) +αkJ−J⁰k) =T²(J) +α²kJ−J⁰k ... ...

⇒ T^k(J⁰)≤T(T^k−1(J) +α^k⁻¹kJ−J⁰k) =T^k(J) +α^kkJ−J⁰k

⇒ T^k(J⁰)−T^k(J)≤α^kkJ−J⁰k

et on peut répéter le même argument en permutantJ et J⁰. On fait la même chose avecTµ.

(14)

Corollaire. (a) J^∗ et J_µ sont les solutions uniques, dans B(X), des

´equations fonctionnelles (de Bellman):

J^∗=T(J^∗) et J_µ=T_µ(J_µ).

(b) Pour toutJ∈ B(X),

k→∞lim kT^k(J)−J^∗k = lim

k→∞kT_µ^k(J)−Jµk = 0.

(c) Une politique station.µ estoptimalessi Tµ(J^∗) =T(J^∗).

Preuve: Les deux premiers items découlent directement du théorème du point fixe. (DPOC donne aussi une preuve directe.) Pour le dernier item, on aT_µ(J^∗) =T(J^∗) =J^∗ ssi J^∗=J_µ (par le théorème du point fixe), ssi µest optimale.

On voit qu’une politique optimale stationnaire existe ssi il existe un µqui fait atteindre le minimum dans l’´equation de Bellman.

(15)

Approximations successives (it´ eration des valeurs)

ALGORITHME AS;

k ←0;

Choisir >0 etJ0 ∈ B(X) (premi`ere approximation de J^∗);

R´EP´ETER

k ←k+ 1; J_k ←T(Jk−1);

TANT QUE kJ_k −Jk−1k> ;

RETOURNER µ˜= arg minµTµ(Jk−1) comme approx. deµ^∗. Par la propri´et´e de contraction, on a

kJ_k −J^∗k ≤αkJ_k−1−J^∗k ≤ · · · ≤α^kkJ₀−J^∗k.

L’erreur diminue donc de manièregéométrique(ou exponentielle) en fonction dek. De plus,

kJ_k −J^∗k ≤αkJ_k−1−J^∗k ≤α(kJ_k−J_k−1k+kJ_k−J^∗k), ce qui fournit une borne sur la distance entreJ_k etJ^∗:

kJ_k −J^∗k ≤ kJ_k −Jk−1kα/(1−α).

(16)

On peut raffiner ces bornes comme suit. PourJ0 ∈ B(X), posons γ_k = inf

x∈X[T^k(J₀)(x)−T^k−1(J₀)(x)];

γ_k = sup

x∈X

[T^k(J0)(x)−T^k−1(J0)(x)];

ck = γkα/(1−α);

ck = γkα/(1−α).

Proposition. On a

ck ≤J^∗−T^k(J0)≤ck,

et ces bornes ne s’´elargissent jamais, ni d’un cot´e ni de l’autre, lorsqu’on augmentek.

(17)

Preuve. PrenonsJ =Jk−1=T^k−1(J0) et γ =γ_k. On a T(J)≥J+γ

⇒ T²(J)≥T(J) +αγ≥J+γ+αγ

⇒ T³(J)≥T(J) +αγ+α²γ≥J+γ+αγ+α²γ ...

⇒ Tⁿ⁺¹(J)≥T(J) + (α+α²+· · ·+αⁿ)γ.

En prenant la limite:

J^∗ = lim

n→∞Tⁿ⁺¹(J)≥T(J) +γα/(1−α) =T^k(J0) +c_k. L’autre borne se démontre de la même manière.

Pour la preuve qu’elles ne s’´elargissent pas, voir DPOC.

Cas particulier: siJ0 ≤J^∗, alors on aura toujoursck ≥0.

(18)

Siµest telle que Tµ(J) =T(J) (elle fait atteindre le minimum partout), on peut appliquer la proposition pr´ec´edente avec Jµ et Tµ

`a la place deJ^∗ et T, ce qui donne

ck ≤Jµ−Tµ(J)≤ck. On obtient alors

0≤J_µ−J^∗ ≤(J_µ−T(Jk−1))−(J^∗−T(Jk−1))≤c_k −c_k. Comme

c_k ≤J^∗−J_k ≤c_k, on a

J_k +c_k ≤J^∗ ≤J_k+c_k.

`a la fin de l’algorithme, comme approximation finale deJ^∗, on pourra prendre par exemple la m´ediane

J_k + (c_k−c_k)/2.

(19)

Approximation des op´erateurs.

Souvent, lorsqu’on applique l’opérateurT ouT_µ à une fonction J, on ne peut pas calculerT(J) ouTµ(J) exactementsur tout l’espace d’états, mais seulement uneapproximation.

C’est le cas lorsque l’espace d’´etats est tr`es grand ou infini.

Soit˜J une approximation deT(J), telle que

−δ⁻≤T(J)−J˜≤δ⁺.

En appliquant la proposition pr´ec´edente avecJ =T^k⁻¹(J0), on obtient

−δ⁻+c_k ≤J^∗−˜J ≤δ⁺+c_k. Souvent, en pratique, on connaitJ et ˜J, mais pasT(J).

Il faudra doncestimer δ⁻ etδ⁺. On peut le faire, par exemple, en réévaluant T(V) sur une grille plus fine, ou encore aux endroits ou on pense que l’erreur peut être importante.

(20)

On a aussi les bornes suivantes:

Proposition(L’Ecuyer, 1983): Soient J et ˜J dans B(X) tels que

−δ⁻ ≤ T(J)−˜J ≤ δ⁺ et Tµ(J)−˜J ≤ δ0. Alors

−ϕ(J−J, δ˜ ⁻) ≤J^∗−J˜≤ ϕ(˜J−J, δ⁺)

0 ≤J_µ−J^∗ ≤ ϕ(J−J, δ˜ ⁺) +ϕ(˜J−J, δ₀), o`u

ϕ(V,x)=x+ α

1−αmax(0,V +x) pourV ∈ B(X).

(21)

Notation matricielle pour X fini.

X = {1, . . . ,n}

P_ij(u) = P[x_k+1 =j |x_k =i,u_k =u].

Les fonctionsJ ∈ B(X) sont alors des vecteurs`an dimensions:

J =





 J(1)

... J(n)





, T(J) =







T(J)(1) ... T(J)(n)





.

Pour une politique stationnaireµ donn´ee, on a le vecteur de coˆuts g_µ =







g(1, µ(1) ... g(n, µ(n)





 et la matrice des probabilit´es de transition

Pµ =







p₁₁(µ(1)) · · · p_1n(µ(1)) ... ... ... p_n1(µ(n)) · · · p_nn(µ(n))







(22)

On peut alors ´ecrire T_µ(J) sous forme matricielle:

T_µ(J)=g_µ+αP_µJ

et l’équationTµ(Jµ) =Jµ devient un système d’équations linéaires:

Jµ=gµ+αPµJµ, i.e., (I−αPµ)Jµ=gµ, dont la solution est

J_µ= (I −αP_µ)⁻¹g_µ.

Les valeurs propres deαPµ sont toutes dans le cercle de rayonα <1 dans le plan complexe. Cela implique que (I −αP_µ) est inversible.

(23)

Gauss-Seidel

Dans l’algorithme AS tel qu’il est formulé, on doit conserver et utiliserJk−1 tant qu’on n’a pas calculéJ_k(x) pourtousles états x.

Si l’espace d’états est fini et de cardinalitén, il faut alors réserver de la mémoire pour 2 vecteurs de taillen.

Que se passe-t-il si on utilise un seul vecteurJ et que l’on utilise les nouvelles valeurs dex d`es qu’on les a calcul´ees?

C’est la m´ethode deGauss-Seidel.

(24)

ALGORITHME AS-GS, pour X fini;

Choisir J∈ B(X) (premi`ere approximation deJ^∗);

R´EP´ETER

POUR CHAQUE x ∈X FAIREJ(x)←T(J)(x);

TANT QUE “pas satisfait”;

RETOURNER µ˜= arg min_µT_µ(J) comme approx. deµ^∗. L’énoncéJ(x)←T(J)(x) modifieJ en un seul point et cette nouvelle valeur deJ(x) sera immédiatement utilisée par la suite.

La boucle “POUR CHAQUE ...” transforme une fonctionJ∈ B(X) en une nouvelle fonction, disonsF(J). Si les ´etats sont {1,2, . . . ,n}

et sont trait´es dans l’ordre par l’algorithme, on a F(J)(i)= min

u∈U(i)



g(i,u) +α





i−1

X

j=1

p_ij(u)F(J)(j) +

n

X

j=i

p_ij(u)J(j)







.

On d´efinit Fµ de la mˆeme fa¸con.

(25)

Proposition. L’op´erateurF :B(X)→ B(X) est contractant de moduleα, tout commeT, ce qui assure la convergence. De plus, si J≤T(J)≤J^∗, alors T^k(J)≤F^k(J)≤J^∗, donc dans ce cas l’erreur diminue au moins aussi vite avecF qu’avec T.

Preuve. Pour J et J⁰ dans B(X), on montrepar induction sur i que

|F(J)(i)−F(J⁰)(i)| ≤αkJ−J⁰k. On a

|F(J)(1)−F(J⁰)(1)| ≤αmax

j∈X |J(j)−J⁰(j)|=αkJ−J⁰k.

Si on suppose que|F(J)(j)−F(J⁰)(j)| ≤αkJ−J⁰kpour tout j <i, alors

|F(J)(i)−F(J⁰)(i)|

≤ αmax

maxj<i |F(J)(j)−F(J⁰)(j)|,max

j≥i |J(j)−J⁰(j)|

≤ αkJ−J⁰k.

On a donckF(J)−F(J⁰)k ≤αkJ−J⁰k, et même chose pour Fµ. La preuve de la deuxième partie (monotonicité) se fait facilement par induction suri pour chaquek, puis surk.

(26)

Lorsqu’on utilise les bornes sur l’erreur, il n’est pas clair que les bornes convergent plus vite avec AS-GS qu’avec AS standard. Le principal avantage de AS-GS est qu’il demande moins de m´emoire.

D’autre part, AS est plus facile `a parall´eliser.

Généralisation. On peut mettre à jour les valeurs deJ(i) en visitant les étatsi de manière arbitraire, possiblement aléatoire. La convergence est assurée en autant que chaque état est visité infiniment souvent lorsque le nombre d’itérations tend vers l’infini.

Une version du théorème du point fixe s’applique même si les différents états visités (i.e., la mise à jour deJ(i) pour les différents i) se fait de manière asynchrone. Cela facilite les implantations parallèles.

On pourrait par exemple avoir:

R´EP´ETER

CHOISIR un i au hasard dans X; FAIRE J(i)←T(J)(i);

TANT QUE “pas satisfait”;

(27)

It´ eration des politiques (IP)

ALGORITHME IP;

Choisir >0;

Choisir une politique stat. µ (premi`ere approx. deµ^∗);

R´EP´ETER

Trouver J tel queJ=Tµ(J); (on a J=Jµ) Trouver µ tel queTµ(J) =T(J) (nouvelle politique);

TANT QUE kJ−T(J)k> ; RETOURNER µ.

Note: lorsqu’on cherche un nouveauµ, on se restreint aux politiques admissibles raisonnables, compte tenu de la structure du probl`eme.

Souvent,µ change très peu d’une itération à l’autre.

Dans ce cas, seulement quelques lignes du système d’équations linéaireJ =T_µ(J) vont changer et il suffira de faire une

“mise-`a-jour” de la solution.

(28)

Proposition. à chaque itération de cet algorithme, la fonction J=Jµ ne peut augmenter en aucun point par rapport au J précédent. Ellene peut que diminuer. De plus, dès que J ouµne change pas d’une itération à la suivante, la politiqueµ est

n´ecessairement optimale.

Dans le cas où le nombre total de politiques stationnaires est fini (e.g., siX etU le sont), on peut remplacer “> ” par “>0” et l’algorithme s’arrête toujours après unnombre fini d’itérations et retourne une politique optimale.

(29)

Preuve. Soit ν la politique a une itération donnée et µla politique a l’itération suivante. On veut montrer que J_µ≤J_ν.

Par d´efinition de µ, on a

T_µ(J_ν) =T(J_ν)≤T_ν(J_ν) =J_ν.

Ainsi, par la monotonicit´e de T_µ,T_µ^k+1(J_ν)≤T_µ^k(J_ν), et, en vertu des ´equations de Bellman,

J_µ= lim

k→∞T_µ^k(J_ν)≤J_ν.

SiJ_µ=J_ν, alors J_ν =T_µ(J_ν) =T(J_ν) et donc J_ν =J^∗, car c’est le seul point fixe deT. En d’autres mots, si µn’est pas encore

optimale, on doit avoirJµ(x)<Jν(x) pour au moins un état x∈X. Tant que l’algorithme ne s’arrête pas, il améliore nécessairement la politique à chaque itération. Donc le nombre d’itérations ne peut pas dépasser le nombre total de politiques stationnaires.

(30)

Algorithme d’IP modifi´ e

En pratique, lorsqueX est très grand, on ne peut résoudre l’équationJ =T_µ(J) qu’approximativement à chaque itération.

L’une des fa¸cons de faire cela est d’utiliser l’algorithme des

approximations successives pour un nombre fini d’itérations, disons m_k itérations lors duk-ième tour de boucle de l’algorithme IP. On remplace alors “TrouverJ ...” par “J ←T_µ^m^k(J)”.

On peut montrer qu’en autant que lesm_k sont tous positifs, la suite des fonctionsJ visit´ees par cet algorithme converge vers J^∗ dans le sens quekJ−J^∗k →0, et que si le nombre de politiques

stationnaires est fini, alors après un nombre fini k^∗ d’itérations toutes les politiques visitées seront optimales. Par contre,J ne sera peut-être jamais exactement égal àJ^∗.

On peut aussi approximerJµ d’une autre fa¸con, puis choisir une prochaine politiqueµtelle queT_µ(J) est “proche” de T(J).

Lorsqu’on décide de s’arrêter, on peut calculer les mêmes bornes sur l’erreur que pour AS.

(31)

DPOC (Vol. 2, Proposition 1.3.6) nous dit ce qui se passe à la limite lorsque l’erreur d’approximation est bornée par le même constante à toutes les itérations.

Proposition. Si `a chaque it´eration de IP, on trouveJ tel que kJ−T_µ(J)k ≤δ, puisµ tel quekT_µ(J)−T(J)k ≤, alors

lim sup

k→∞

kJ_µ−J^∗k ≤ + 2αδ (1−α)².

Par contre, cette proposition ne donne pas de bornes surJ_µ−J^∗ à une itération donnée.

(32)

Programmation lin´ eaire

SiJ ≤J^∗, alors J≤T(J), et vice-versa.

On voit queJ^∗ est le “plus grand”J tel queJ≤T(J).

En d’autres mots, si|X|=n<∞, le vecteurJ^∗ est la solution optimale du probl`eme de programmation lin´eaire:

maximiser J(1) +· · ·+J(n)

s.l.c. J(i)≤g(i,u) +α(P_i1(u)J(1) +· · ·+P_in(u)J(n)) pouri = 1, . . . ,n, u∈U(i).

Maximiser la somme revient `a rendre chaque contrainte active.

Ce probl`eme poss`ede n variables etU(1) +· · ·+U(n) contraintes.

On le résoudra habituellement par une méthode duale, car il a y beaucoup moins de variables que de contraintes. Mais la résolution devient très difficile (ou impossible) si n est trop grand.

(33)

Chaque politiqueµ correspond `a une base r´ealisable du PL dual, et vice-versa. La matrice de base correspondante estI−αP_µet on a µ(i) =u ssi la variable duale correspondante est strictement positive.

Les contraintes qui sont satisfaites à égalité par la solution optimale correspondent aux paires (i,u) telles que la décision u est optimale dans l’état i.

Si dans la méthode IP, on ne change la politique à chaque itération que pour l’étati pour lequel |J(i)−T(J)(i)|est le plus grand, alors cette méthode est équivalente, pivot pour pivot, à appliquer

l’algorithme dual du simplexe au PL.

(34)

Exemple: remplacement d’un ´ equipement

Une machine (ou un ´equipement) est dans l’un des ´etats {1, . . . ,n}.

Plus l’état est élevé, plus la détérioration est avancée.Si l’état est i au début d’une période, le coût d’opération (espéré) pour cette période estg(i) et l’état sera j au début de la prochaine période avec probabilité p_ij. Au début de chaque période, on peutlaisser la machine pour une autre période (u = 0), ou encore laremplacer par une neuve (u= 1) au coût R, auquel cas la machine sera dans l’état 1 (neuve) et y restera au moins jusqu’à la prochaine période. Les coûts sont actualisés par un facteurα par période.

SoitJ^∗(i) le coût espéré total optimal actualisé, sur horizon infini, à partir de maintenant, si on est dans l’étati. L’équation de la PD:

J^∗(i) = min



R+g(1) +αJ^∗(1), g(i) +α

n

X

j=1

p_ijJ^∗(j)



, 1≤i ≤n.

Lapolitique optimale: remplacer ssiJ^∗(i) =R+g(1) +αJ^∗(1).

On peut calculer (approx.) J^∗ par l’un des algorithmes: AS, IP, etc.

(35)

Hypoth`ese D:g(i) est croissant eni et pour chaquej fix´e, P[xk+1≥j |xk =i,u = 0] =pij +· · ·+pin

est croissant eni.

Cette hypothèse dit qu’une machine plus dégradée ne coûte pas moins cher, et a au moins autant de chances d’atteindre un seuil de dégradation donné à la prochaine étape, qu’une machine moins dégradée.

Proposition. Sous l’hypothèse D, si J₀ = 0 etJ_k =T^k(J₀), alors J_k(i) est croissanteeni, et J^∗(i) = limk→∞J_k(i) est aussi croissanteeni. La politique optimale est donc déterminée par un seuili^∗: on remplace ssi

i ≥i^∗ ^def= inf{i :J^∗(i) =R+g(1) +αJ^∗(1)}.

Si cet ensemble est vide, on posei^∗ =∞.

(36)

Preuve. On montre par induction surk queJ_k est croissante.

Vrai pourk = 0. Supposons que c’est vrai pour k−1. On a J_k(i) = min



R+g(1) +αJk−1(1), g(i) +α

n

X

j=1

p_ijJk−1(j)



.

On peut r´e´ecrire la somme, en posant Jk−1(0) = 0, comme:

n

X

j=1

p_ijJk−1(j) =

n

X

j=1

(p_ij +· · ·+p_in)(Jk−1(j)−Jk−1(j−1)).

L’hypoth`ese D nous assure que cette somme etg(i) sont croissants eni, car Jk−1(j)−Jk−1(j−1)≥0 par l’hypoth`ese d’induction.

(37)

Coˆ ut total, α = 1 (plus court chemin stochastique)

Siα= 1, il faut faire des hypothèses garantissant que les coûts ne s’accumulent pas à l’infini.

On va supposer ici queX ={1, . . . ,n,t}et que chaqueU(i) est fini.

L’étatt est un état terminal (absorbant) dans lequel le coût est nul.

On a alors un probl`eme deplus court chemin stochastique.

D´efinition. Une politiqueµ est propres’il existen0<∞ tel que ρµdef

= max

i∈X P[xn06=t|x0 =i, µ]<1.

Autrement, elle estimpropre.

Hypoth`ese PP. Il existe au moins une politique stationnaire propre, et pour toute politique impropre,Jµ(i) =∞ pour au moins uni.

(38)

Sous l’hypothèse PP, T et T_µ ne sont pas nécessairement des applications contractantes par rapport à la norme sup, mais on peut quand même montrer:

Proposition. (a) Siµest propre, alors J=Jµ est l’unique solution de l’´equationJ =T_µ(J), et pour toutJ on a

Jµ= lim

k→∞T_µ^k(J).

(b) SiTµ(J)≤J pour au moins unJ, alors µest propre.

(c)J =J^∗ est l’unique solution de l’´equation de Bellman J=T(J), et pour toutJ on a

J^∗ = lim

k→∞T^k(J).

(d) Une politique stationnaireµest optimale ssi Tµ(J^∗) =T(J^∗).

(39)

Preuve. Pour (a), si µ est propre, on a, avec la notation vectorielle, T_µ^k(J) =g_µ+P_µT_µ^k−1(J) =· · ·=P_µ^kJ+

k−1

X

`=0

P_µ^`g_µ.

Mais lorsquek → ∞,P_µ^kJ ≤ρ^bkµ^/n⁰^ckJk →0 et donc T_µ^k(J)→

∞

X

`=0

P_µ^`gµ=Jµ.

On a aussiT_µ^k⁺¹(J) =g_µ+P_µT_µ^k(J), qui devient, lorsque k → ∞, Jµ=gµ+PµJµ=Tµ(Jµ).

D’autre part, siJ =Tµ(J), alorsJ = limk→∞T_µ^k(J) =Jµ, ce qui d´emontre l’unicit´e.

(40)

(b) SiT_µ(J)≤J, puisque T_µest monotone, P_µ^kJ+

k−1

X

`=0

P_µ^`g_µ=T_µ^k(J)≤J.

Ceci implique queµ est propre, car autrement au moins une des composantes du vecteur défini par la somme à gauche devrait diverger vers +∞selon notre hypothèse PP.

(c) et (d): voir DPOC.

Cette proposition tient mˆeme si lesU(i) ne sont pas finis, par ex. si lesU(i) sont compacts et si lesP_ij(u) etg(i,u) sont continus enu.

(41)

La proposition implique que l’algorithme AS converge versJ^∗. Il en est de mˆeme pour AS-GS.

S’il existe une politique optimaleµ^∗ sans cycle(i.e., on ne revient jamais à un état déjà visité, ce qui implique en particulier que Pii[µ^∗(i)] = 0 pour touti), et si on démarre avecJ0 =∞, alors l’algorithme AS atteintJ^∗ (et ne bouge plus par la suite) après un nombre fini d’itérations.

L’algorithme IP exact converge si on se limite `a explorer des politiques propres.

Pour l’algorithme IP modifi´e, on peut aussi adapter la preuve de convergence si on suppose queJ₀ satisfaitT(J₀)≤J₀.

(42)

Exemple. On a 2 ´etats: 0 et 1. L’´etat 0 est terminal.

Dans l’´etat 1, on choisit une d´ecision u∈(0,1]. Puis, avec

probabilité 1−u² on fait un gain de u et on reste dans l’état 1, et avec probabilitéu² on fait un gain de 0 et on passe à l’état terminal.

Une politique stationnaireµ correspond `a choisir une valeur de u=µ(1), et une telle politique est toujours propre.

On cherche une politique qui maximise le gain esp´er´e total.

Interpr´etation: on peut voiru comme la “prime de protection”

demandée à une victime à chaque mois par une organisation criminelle. On passe à l’état terminal lorsque la victime refuse de céder. On a ici

J_µ(1) = (1−u²)(u+J_µ(1)) dont la solution estJ_µ(1) = (1−u²)/u.

Ainsi,J^∗(1) = sup_0<u≤1Jµ(1) =∞, mais aucune valeur deu ne permet d’atteindre cette valeur: aucune politique n’est optimale.

(43)

Si on rempla¸cait U = (0,1] par un nombrefini de valeurs de u positives, la proposition pr´ec´edente s’appliquerait et la politique optimale serait de choisir la plus petite valeur deu.

Si on prend plutôt U = [0,1], l’hypothèse PP est violée car u= 0 définit une politique µimpropre pour laquelleJµ(0) =Jµ(1) = 0.

à noter qu’il existe ici une politiquenon stationnairepour laquelle le gain espéré total est infini: prenons u_k =µ_k(1) = 1/[4(k+ 1)].

(Faire d´etails.)

(44)

Fonctiong non born´ee.

Supposons que le nombre d’états est infini, que g n’est pas nécessairement bornée et/ou queα peut valoir 1.

Dans ce cas, les choses se compliquent car il pourrait s’accumuler, par exemple, un coût infini ou un revenu infini, ou même les deux en même temps ce qui pourrait faire un coût net indéterminé.

L’algorithme de la PD fonctionne quand mˆeme et plusieurs

propri´et´es fonctionnent toujours sous l’une des conditions suivantes:

Hypoth`ese P: g(x,u)≥0 pour toutx et u ∈U(x).

Hypoth`ese N:g(x,u)≤0 pour toutx etu ∈U(x).

(45)

Proposition. (a) Sous P ou N,J^∗=T(J^∗) et Jµ=Tµ(Jµ). Ces

´equations peuvent avoir d’autres solutions queJ^∗ etJµ.

Mais sous P, aucune solution n’est plus petite, et sous N, aucune solution n’est plus grande.

(b) Sous P,µest optimale ssi T(J^∗) =Tµ(J^∗).

(c) Sous P, siJ∞def

= lim_k→∞T^k(0) satisfait J∞=T(J∞) et si J∈ B(X) et α <1, ou si 0≤J ≤J^∗, alors limk→∞T^k(J) =J^∗. (d) Sous P, s’il existek¯ tel que pour k ≥k¯,x∈X et λ∈R,

n

u ∈U(x)|g(x,u) +αE[T^k(J0)(f(x,u,w))]≤λ o

est un ensemble compact, alorsJ∞=J^∗ et il existe une politique stationnaire optimale.

(e) Sous N,µest optimale ssi T(Jµ) =Tµ(Jµ).

(f) Sous N, siJ∈ B(X) et α <1, ou si J^∗ ≤J ≤0, alors

k→∞lim T^k(J) =J^∗.

(46)

Coˆ ut moyen par ´ etape

Considérons un modèle actualisé avecX ={1, . . . ,n}et α <1.

NotonsJα,µ etJ_α^∗ les valeurs deJµ etJ^∗ pour unα donn´e. On va faire tendreα vers 1.

Coˆut moyen par ´etape, pour une politique stationnaire µ:

N→∞lim E

"

1 N

N−1

X

k=0

g(x_k, µ(x_k))

#

= lim

N→∞ lim

α→1⁻

E

hPN−1

k=0 α^kg(xk, µ(xk)) i PN−1

k=0 α^k

= lim

α→1⁻ lim

N→∞

E

hPN−1

k=0 α^kg(x_k, µ(x_k))i PN−1

k=0 α^k

= lim

α→1⁻(1−α)Jα,µ(x0)

si on suppose que l’on peut ´echanger les deux limites.

(47)

On choisit un état, disons t, comme état de référence, et on pose:

h_α,µ(i) = J_α,µ(i)−J_α,µ(t), λ_α,µ = (1−α)J_α,µ(t), h_µ(i) = lim

α→1⁻h_α,µ(i) et λµ = lim

α→1⁻λα,µ

si ces deux limites existent. Les valeurshα,µ(i) ethµ(i) représentent uncoût différentielde l’étati par rapport à l’état de référence, tandis queλ_µ représente le coût moyen par étape sur horizon infini, sous la politiqueµ, pourx0=t. En fait, sous l’hypothèse que tous les états communiquent, λµ ne dépend pas dex0.

L’´equationJα,µ=gµ+αPµJα,µ se r´eecrit:

hα,µ+Jα,µ(t) = gµ+αPµ(hα,µ+Jα,µ(t)) λ_α,µ+h_α,µ = g_µ+αP_µh_α,µ,

qui devient, lorsqueα→1⁻,

λµ+hµ=gµ+Pµhµ

def= Tµ(hµ). (1)

(48)

De la mˆeme mani`ere, pour les valeurs optimales, on pose h^∗_α(i) = J_α^∗(i)−J_α^∗(t),

λα = (1−α)J_α^∗(t), h^∗(i) = lim

α→1⁻h^∗_α(i) et λ^∗ = lim

α→1⁻λα

si ces deux limites existent. Les fonctionsh^∗_α et h^∗ représentent le coût différentielà l’optimum, etλ^∗ le coût moyen optimal par

étape, sur horizon infini. Dans la plupart des cas, ce coût moyen ne dépend pas de l’état initial x₀.

L’équation de Bellman J_α^∗ = minµ{g_µ+αPµJ_α^∗}se réécrit λ_α+h^∗_α = min

µ {g_µ+αP_µh^∗_α} et devient `a la limite

λ^∗+h^∗ = min

µ (gµ+Pµh^∗)^def= T(h^∗). (2)

(49)

Le raisonnement que nous venons de faire est heuristique, `a cause des hypoth`eses que nous avons faites sur les limites.

S’il tient, (1) et (2) donnent des conditionsn´ecessaires d’optimalit´e.

Sont-elles aussi suffisantes? Et si les ´etats ne communiquent pas tous sous certaines politiques?

Les propositions qui suivent r´epondent `a ces questions.

Proposition.

Il existe une constanteλet une fonctionh∈ B(X) telles que λ+h =T(h)

si et seulement siλ=J^∗(i) = minπJπ(i) (le coˆut moyen optimal) pour touti ∈X.

Et siT_µ(h) =T(h) pour ceh, alors µest optimale.

De mˆeme, il existe λµ et hµ∈ B(X) tels que λµ+hµ=Tµ(hµ) si et seulement siλµ=Jµ(i) pour tout i ∈X.

(50)

Preuve partielle. Supposons que λ+h =T(h).

Siπ= (µ0, µ1, . . .) est une politique admissible etN >0, alors TµN−1(h) ≥ T(h) =λ+h,

TµN−2(TµN−1(h)) ≥ TµN−2(λ+h) =λ+TµN−2(h)≥2λ+h, ...

T_µ₀· · ·T_µ_N−1(h) ≥ Nλ+h

et on a l’´egalit´e partout si chaque µ_k fait atteindre le minimum. On a donc, sous la politiqueπ et pourx0=i,

1 NE

"

h(x_N) +

N−1

X

k=0

g(x_k, µ(x_k))

#

= 1

NT_µ₀· · ·T_µ_N−1(h)(i)

≥ λ+h(i) N .

LorsqueN→ ∞, cela donneJπ(i)≥λ, avec l’´egalit´e si chaque µk

fait atteindre le minimum.

Cette preuve fonctionne mˆeme si X et Y sont infinis. La preuve dans l’autre direction d´epend du fait que |X|est fini (voir DPOC).

(51)

Etant donné une chaˆıne de Markov à états finis, avec une matrice de transition de probabilitéP, une classe récurrenteest un ensemble d’états qui commiquent dans le sens que de chaque état de

l’ensemble, il existe une probabilité de 1 de visiter finalement tous les autres états de l’ensemble, et une probabilité nulle d’aller à un moment donné vers un état hors de l’ensemble.

Une politiqueµ est dite unichaˆınesi elle donne lieu à une seule classe d’états récurrents (et éventuellement certains états transitoires).

Proposition. Si µest une politique unichaˆıne, alors le syst`eme d’´equations

λ+h=T_µ(h), h(n) = 0,

poss`ede l’unique solution (λ,h) = (λ_µ,h_µ), o`u λ_µ=J_µ(i) pour touti.

(52)

Proposition.

Supposons quel’unedes trois conditions suivantes est v´erifi´ee.

(C1) Toute politique optimale parmi les politiques stationnaires est unichaˆıne.

(C2) Tous les ´etats sont accessibles les uns des autres, i.e., pour tousi,j dansX, il existe une politique stationnaire µ etk >0 tels queP[x_k =j |x₀ =i, µ]>0.

(C3) Il existe un ´etat i₀ et des constantes L>0 etα¯ ∈(0,1) tels que

sup

i∈X,α<α<1¯

|J_α(i)−J_α(i₀)| ≤L.

AlorsJ^∗(i) ne d´epend pas dei et on a J^∗(i) =λ^∗ = lim

α→1⁻(1−α)J_α^∗(i) pour touti, etλ^∗+h^∗=T(h^∗), oùh^∗ est défini tel que précédemment, peu importe le choix de l’état t.

(53)

Exemple: remplacement d’un ´equipement (suite).

Même exemple, avec l’hypothèse D, mais on veut maintenant minimiser lecoût moyen par période, sur horizon infini.

Ici, les politiques ne sont pas toutes unichaˆınes. Par exemple, si p1n= 0, la politique stupide qui consiste à toujours remplacer sauf si on est dans l’état n donne lieu à deux classes d’états qui ne communiquent pas entre elles: {1, . . . ,n−1} et{n}.

C2n’est vérifiée que sous des hypothèses supplémentaires.

Mais on peut v´erifier la conditionC3: Pourα <1, on a J_α^∗(i) = min



R+g(1) +αJ_α^∗(1), g(i) +α

n

X

j=1

pijJ_α^∗(j)



, d’o`u 0 ≤ J_α^∗(i)−J_α^∗(1) ≤ R+g(1) +αJ_α^∗(1)−J_α^∗(1)

≤ max



0, R−α

n

X

j=1

p_1j(J_α^∗(j)−J_α^∗(1))



 ≤ R.

(54)

Il s’ensuit que l’´equation d’optimalit´e λ+h(i) = min



R+g(1) +h(1), g(i) +

n

X

j=1

p_ijh(j)





possède unesolution (λ,h) et la politique optimaleconsiste à prendre la décision qui minimise cette expression, pour chaque i. On a aussi queh(i) = lim_α→1⁻(J_α^∗(i)−J_α^∗(1)) estcroissant eni (en raison de l’hypothèse D), ce qui implique que la politique optimale consiste à remplacer ssi

i ≥i^∗ ^def= inf{i :λ+h(i) =R+g(1) +h(1)}.

Si cet ensemble est vide, on posei^∗ =∞.

(55)

Algorithmes de calcul

Les algorithmes pour le cas actualis´e se transposent au cas du coˆut moyen. On suppose ici queX et U sont finis.

La méthode des approximations successivespour le vecteur des valeursrelativesh, i.e., appliquée aux équations

λ+h=T(h); h(t) = 0, devient:

ALGORITHME ASR;

k ←0; Choisir >0 ett ∈X;

Choisir h0 ∈ B(X) tel queh0(t) = 0 (premi`ere approx. de h^∗);

R´EP´ETER

k ←k+ 1; λ_k ←T(hk−1)(t); h_k ←T(hk−1)−λ_k; TANT QUE kh_k−hk−1k> ;

RETOURNER µ˜= arg min_µT_µ(hk−1) comme approx. de µ^∗.

(56)

Cet algorithmene converge pas toujours. Il peut cycler, en particulier si la suite des états visités est périodique.

La proposition suivante donne des conditionssuffisantes assurant la convergence. Si ces conditions ne sont pas vérifiées, ou si on n’en est pas certain, on peut utiliser une version modifiée de l’algorithme qui consiste à remplacer la matriceP_µ par

P˜µ=τPµ+ (1−τ)I

pour chaque politique stationnaireµ, o`u 0< τ <1.

(57)

Proposition. Supposons qu’il existem>0 tel que pour toute politiqueπ= (µ0, µ1, . . .), il existe >0 et un états ∈X tels que tous les éléments de la colonnes des matricesP_µ_m· · ·P_µ₁ et Pµm−1· · ·Pµ0 sont≥. Alors:

(a) La suite desh_k dans l’algorithme ASR convergevers une solutionh de l’´equation de Bellman λ+h=T(h), etλk converge donc versλ^∗, le coˆut moyen optimal.

(b) Si on d´efinit

c_k = min

x∈X[T(h_k)(x)−h_k(x)];

c_k = max

x∈X[T(h_k)(x)−h_k(x)];

alors

ck ≤λ^∗ ≤ck,

et ces bornes ne s’´elargissent jamais, ni d’un cot´e ni de l’autre, lorsqu’on augmentek.

La versionGauss-Seidel de cet algorithme ne converge pas toujours.

(58)

Si on remplaceP_µpar P˜_µ=τP_µ+ (1−τ)I pour chaque µ, où 0< τ <1, l’opérateurT devientTτ, défini par

T_τ(h)(i) = min

u∈U(i)



g(i,u) + (1−τ)h(i) +τ

n

X

j=1

p_ij(u)h(j)





= (1−τ)h(i) + min

u∈U(i)



g(i,u) +τ

n

X

j=1

p_ij(u)h(j)



, i.e., Tτ(h) = (1−τ)h+ min

µ [gµ+τPµh], et on obtient:

ALGORITHME ASR-τ;

k ←0; Choisir >0,t ∈X etτ >0;

Choisir h₀ ∈ B(X) tel queh₀(t) = 0 (premi`ere approx. de h^∗);

R´EP´ETER

k ←k+ 1; λ_k ←T_τ(hk−1)(t); h_k ←T_τ(hk−1)−λ_k; TANT QUE kh_k−hk−1k> ;

RETOURNER µ˜= arg minµTµ(hk−1) comme approx. de µ^∗.

(59)

Proposition. Supposons que chaque politique µest unichaˆıne et que0< τ <1. On consid`ere la suite des constantes λ_k et des vecteursh_k produits par l’algorithme ASR-τ.

Alors la suite des vecteurs(λ_k, τh_k) convergevers un vecteur (λ,h) qui est solution de l’´equation de Bellman λ+h=T(h). On a donc λ=λ^∗, le coˆut moyen optimal.

(60)

It´ eration des politiques (IP)

Proposition. Si on se restreint à ne considérer que les politiquesµ pour lesquelles la chaine de Markov estirréductible(i.e. est

unichaˆıne et n’a pas d’état transitoire), ou encore si on s’assure de ne jamais modifier la politiqueµpour un état i tel que la décision µ(i) pour la politique précédente fait encore atteindre le minimum, alors l’algorithme IP converge en temps fini et retourne une politique optimale.

ALGORITHME IP;

Choisir t∈X et >0;

Choisir une politique stationnaire µ (premi`ere approx. de µ^∗);

R´EP´ETER

Trouver (λ,h) tels queλ+h=T_µ(h) et h(t) = 0;

(on a h=h_µ)

Trouver µ tel queTµ(h) =T(h) (nouvelle politique);

TANT QUE kλ+h−T(h)k< ; RETOURNER µ.

(61)

Mod` ele Semi-Markovien

Processus de renouvellement Markovien command´e (PRMC).

Le temps écoulé entre deux transitions successive est maintenant aléatoire. Soient 0 =t₀ ≤t₁ ≤t₂ ≤ · · · les instants des transitions (ou étapes, ou événements).

N(t)= sup{k :t_k ≤t} = nombre d’´ev´enements durant (0,t].

à l’instantt_k, le système “saute” dans l’étatx_k, on l’observe et on prend une décision u_k, et on paye un coût d’espéranceg(x_k,u_k).

Puis le couple (tk+1−tk,xk+1) est généré selon la loi de probabilité conjointeQ(· |x_k,u_k).

(62)

Coût total actualisé. Les coûts sont actualisés au tauxρ>0.

Le coûtg(x_k,u_k) peut représenter en fait l’espérance du coût total cumulé sur la période [tk,tk+1), actualisé au tempstk. Par exemple, si le coût est cumulé continûment au taux c(x,u) quand on est dans l’étatx et qu’on a pris la décision u, on aura

g(x_k,u_k) =E

Z tk+1−t_k 0

e^−ρζc(x_k,u_k)dζ

.

On cherche une politique stationnaireµqui minimise le coût espéré total actualisé sur horizon infini, pour un état initial x₀ fixé:

J_µ(x₀) = lim

n→∞E

"_n−1 X

k=0

e^−ρt^kg(x_k, µ(x_k))|µ,x₀

# .

(63)

Pourk ≥1, le facteur d’actualisation esp´er´e pour lesk prochaines

´etapes, si on est dans l’´etatx et on utilise la politiqueµ, est α_k(x, µ)=E

e^−ρt^k|x₀=x, µ .

En particulier, pourk = 1, on a α1(x, µ)=

Z ∞ 0

e^−ρζQ(dζ,X |x, µ(x)).

Hypoth`ese C: Contraction en m´etapes.

La fonction de coût g est bornée, et il existe un entierm>0 et un nombre réel α<1 tels que

sup

x∈X, µ

α_m(x, µ)≤α.

(64)

On d´efinit les op´erateurs de la PD:

T(J)(x) = min

u∈U(x)

g(x,u) +E

e^−ρt¹J(x1)|x0=x,u0 =u

= min

u∈U(x)

"

g(x,u) + Z

[0,∞)×X

e^−ρζJ(y)Q(dζ,dy |x,u)

#

T_µ(J)(x) = g(x, µ(x)) +E

e^−ρt¹J(x₁)|x₀=x,u₀ =µ(x) . Sous l’hypoth`ese C, les op´erateurs T^m etT_µ^m sontcontractants de moduleα. On peut alors appliquer les algorithmes AS, ASG, IP, ..., comme auparavant.

(65)

Proposition. Sous l’hypoth`ese C, on aT(J) =J ssiJ =J^∗, et lim_k→∞kT^k(J)−Jk= 0.

De mˆeme, Tµ(J) =J ssi J =Jµ, et limk→∞kT_µ^k(J)−Jk= 0.

De plus, les bornes surJ^∗ et J_µ d´eriv´ees dans le contexte du temps discret sont encore valides ici.

(66)

Exemple: Vente d’un actif. Supposons que les offres arrivent selon un processus de Poisson de tauxλ(les dur´ees entre les offres successives sont des v.a. i.i.d. exponentielles de moyenne 1/λ). Les montants des offres sont des v.a. i.i.d., ind´ep. du proc. de Poisson.

Les revenus sont actualisés au tauxρ>0. On veut maximiser le revenu espéré total actualisé, sur horizon infini.

Soit∆l’état dans lequel on a vendu. Autrement, l’étatx est le montant de l’offre courante. SiZ est la durée entre la date de l’offre courante et celle de la prochaine offre, alorsZ est une v.a.

continue de densité λe^−λζ sur [0,∞), et les équations de récurrence s’écrivent:

J(x) =

(0 six = ∆;

max{x, a} sinon, o`u, si on note parw le montant de la prochaine offre, a=E[e^−ρZJ(w)] =

Z ∞ 0

λe^−λζe^−ρζE[J(w)]dζ = λ

λ+ρE[max(w,a)].

Lapolitique optimaleest d’accepter l’offre ssi x>a.