• Aucun résultat trouvé

Draft F´evrier2015 PierreL’Ecuyer IFT-6521PROGRAMMATIONDYNAMIQUEChapitre5:´Etatpartiellementobserv´e

N/A
N/A
Protected

Academic year: 2022

Partager "Draft F´evrier2015 PierreL’Ecuyer IFT-6521PROGRAMMATIONDYNAMIQUEChapitre5:´Etatpartiellementobserv´e"

Copied!
14
0
0

Texte intégral

(1)1. aft. IFT-6521 PROGRAMMATION DYNAMIQUE Chapitre 5:. Dr. État partiellement observé Pierre L’Ecuyer. DIRO, Université de Montréal. Février 2015. 1 / 14.

(2) 2. aft. Information partielle et conversion au modèle avec information parfaite. Dans plusieurs situations pratiques, l’état du système n’est pas observable complètement, de sorte qu’une politique admissible ne peut pas être n’importe quelle fonction de l’état. Les décisions ne doivent dépendre que de ce qui est observable.. Dr. Comment traiter cette situation? La réponse courte: simplement remplacer (redéfinir) l’état (partiellement observable) par l’information disponible, ou encore par une fonction de l’information disponible qui nous donne autant d’information utile mais sous une forme plus agrégée (une statistique exhaustive). On se ramène alors au cadre connu, mais avec un état défini différemment. L’aggrégation des états (via une statistique exhaustive ou une autre méthode d’approximation) est souvent essentielle pour limiter la dimension de l’espace d’états, pour pouvoir résoudre. C’est essentiellement ce que raconte la chapitre 5 du livre, avec quelques détails en plus. 2 / 14.

(3) 3. Modèle. À l’étape k, le système est dans l’état xk , mais on ne peut observer que. aft. zk = hk (xk , uk−1 , vk ), où zk ∈ Zk et vk ∈ Vk est une v.a. dont la loi. P[vk ∈ · | xk , . . . , x0 , uk−1 , . . . , u0 , wk−1 , . . . , w0 , vk−1 , . . . , v0 ] dépend de la suite des états, décisions, et aléas précédents.. Dr. L’état initial peut aussi être aléatoire, de loi P[x0 ∈ ·]. L’information disponible à l’étape k est. Ik = (z0 , z1 , . . . , zk , u0 , u1 , . . . , uk−1 ),. k = 0, 1, . . . , N − 1,. et la décision uk ∈ Uk ne peut dépendre que de cette information. On suppose ici que Uk ne dépend pas de xk . Ensuite une variable aléatoire wk est “générée” selon une loi Pk (· | xk , uk ), on doit payer un coût gk (xk , uk , wk ), et l’état à la prochaine étape est xk+1 = fk (xk , uk , wk ). 3 / 14.

(4) wk. System xk + 1 = fk(xk ,u k ,wk). vk. xk. Measurement. zk. z k = hk(xk ,u k - 1,vk). uk - 1. Delay. Dr. uk. aft. 4. Actuator mk. P x k | Ik. uk - 1. Estimator fk - 1. zk. 4 / 14.

(5) 5. aft. On cherche une politique admissible de la forme π = (µ0 , . . . , µN−1 ), où µk (Ik ) ∈ Uk , qui minimise " # N−1 X E gN (xN ) + gk (xk , uk , wk ) , k=0. sous les contraintes. Dr. xk+1 = fk (xk , µk (Ik ), wk ), z0 = h0 (x0 , v0 ), zk. = hk (xk , µk−1 (Ik−1 ), vk ),. k = 1, . . . , N − 1.. 5 / 14.

(6) 6. Reformulation.. aft. Si on remplace l’état par Ik et la fonction de coût par étape par g̃k (Ik , uk ) = E[gk (xk , uk , wk ) | Ik , uk ],. on se retrouve dans cadre “standard” où l’état est complètement observé. L’équation de récurrence se réecrit alors comme. Jk (Ik ) = coût espéré total optimal de l’étape k à la fin,. Dr. si l’information disponible à l’étape k est Ik =. min [g̃k (Ik , uk ) + E[Jk+1 (Ik+1 )]]. uk ∈Uk. où zk+1 = hk+1 (xk+1 , uk , vk+1 ) et Ik+1 = (Ik , zk+1 , uk ). DPOC traite en détail le cas des systèmes linéaires à coût quadratique, puis examine plusieurs examples. 6 / 14.

(7) 7. aft. Statistique exhaustive. Une statistique exhaustive est une fonction Sk qui associe à chaque Ik une valeur Sk = Sk (Ik ), souvent plus compacte, telle que l’on peut réecrire Jk (Ik ) = min Hk (Sk (Ik ), uk ) uk ∈Uk. Dr. pour une certaine fonction Hk . En d’autres mots, on peut écrire Jk et une politique optimale comme fonctions de Sk = Sk (Ik ) au lieu de Ik . Dans ce cas, on peut remplacer l’état Ik par Sk .. 7 / 14.

(8) 8. Loi conditionnelle de l’état xk . Dans le cas fréquent où. aft. P[vk ∈ · | xk , . . . , x0 , uk−1 , . . . , u0 , wk−1 , . . . , w0 , vk−1 , . . . , v0 ] = P[vk ∈ · | xk , xk−1 , uk−1 , wk−1 ],. on peut prendre Sk = Sk (Ik ) = P[xk ∈ · | Ik ], la loi de probabilité de xk conditionnelle à l’information connue Ik . On peut mettre à jour Sk+1 = Φk (P[xk ∈ · | Ik ], uk , zk+1 ) = Φk (Sk , uk , zk+1 ). Dr. pour une certaine fonction Φk . Le coût par étape est remplacée par Z. g̃k (Sk , uk ) = E[gk (xk , uk , wk ) | Sk , uk ] =. gk (xk , uk , wk )dP(xk , wk | Sk , uk ].. et on peut alors écrire. Jk (Sk ) = min [g̃k (Sk , uk ) + E[Jk+1 (Sk+1 )]] . uk ∈Uk. 8 / 14.

(9) 9. wk. System xk + 1 = fk(xk ,u k ,wk). vk. xk. Measurement. zk. z k = hk(xk ,u k - 1,vk). uk - 1. Dr. uk. aft. La commande optimale se décompose alors en deux parties: (a) estimation de la loi conditionnelle de l’état; (b) choix de la décision. En pratique, de nombreuses heuristiques (sous optimales) sont basées sur des versions approximatives de ce schéma.. Delay. Actuator mk. P x k | Ik. uk - 1 Estimator fk - 1. zk. 9 / 14.

(10) 10. Exemple: prises de décision sous un modèle Bayesien. aft. Une loterie bien particulière vend des billets C dollars. On pense que chaque billet permet de gagner V dollars avec probabilité β > 0 (cas A) mais il est aussi possible que la probabilité de gagner soit de zéro à tous les tirages (cas B). Notre probabilité a priori que l’on soit dans le cas A est p0 > 0. Dès que l’on a gagné une fois, on ne peut plus jouer. Soit pk la probabilité que l’on soit dans le cas A après avoir acheté k billets sans gagner. Ces pk suivent la récurrence (formule de Bayes): P[cas A et k échecs] P[k échecs] P[k échecs | cas A]p0 P[k échecs | cas A]p0 + P[k échecs | cas B](1 − p0 ) (1 − β)k p0 (1 − β)pk−1 = . k (1 − β)pk−1 + 1 − pk−1 (1 − β) p0 + 1 − p0. = P[cas A | k échecs] = = =. Dr. pk. On voit que pk est décroissant en k et pk → 0 quand k → ∞. La dernière égalité est facile à vérifier. 10 / 14.

(11) 11. aft. Comme état à l’étape k, on peut prendre pk (statistique exhaustive), ou même simplement k, puisque l’état n’est utile que lorsqu’on n’a pas encore gagné. Si Jk est le gain espéré optimal après k échecs, alors on a Jk = max[0, pk βV − C + (1 − pk β)Jk+1 ] pour k = 0, 1, 2, . . . .. Dr. Il est clair que Jk ≤ max(0, pk V − C ), car c’est le cas où on gagne à coup sûr au prochain coup, de sorte que Jk = 0 dès que pk ≤ C /V . Si N = min{k : pk ≤ C /V }, alors Jk = 0 pour tout k ≥ N. La récurrence implique aussi que Jk = 0 tant que pk βV − C ≤ 0, et que Jk > 0 dès que pk βV − C > 0. La politique optimale est donc d’acheter au maximum k ∗ billets, où k ∗ = max{k : pk βV > C }.. 11 / 14.

(12) 12. Exemple: modèle simplifié d’entretien d’une machine. aft. Une machine peut être dans l’état 1 (elle fonctionne correctement) ou 0 (elle est défectueuse). À chaque période k, l’état xk ∈ {0, 1} n’est pas observé, mais on inspecte la machine et on observe zk = G (semble ok) ou zk = B (semble défectueuse). = G | xk = 1] = 1 − P[zk = B | xk = 1] = 3/4, = B | xk = 0] = 1 − P[zk = G | xk = 0] = 3/4, = 1 | xk−1 = 1] = 1 − P[xk = 0 | xk−1 = 1] = 2/3, = 0 | xk−1 = 0] = 1.. Dr. P[zk P[zk P[xk P[xk. Après l’inspection, on peut arrêter la machine pour connaitre son état véritable (action uk = S) ou encore continuer (action uk = C ). Si on arrête et trouve la machine défectueuse, on la répare (remet dans l’état 1). Coûts par étape: g (1, C ) = 0, g (0, C ) = 2, g (1, S) = g (0, S) = 1.. 12 / 14.

(13) 13. aft. Vecteur d’information: Ik = (z0 , z1 , . . . , zk , u0 , . . . , uk−1 ). Jk (Ik ) = coût espéré de l’étape k à la fin. On a JN (Ik ) = 0 et Jk (Ik ) = min [P(xk = 1 | Ik )g (1, C ) + P(xk = 0 | Ik )g (0, C ) +E[Jk+1 (Ik , C , zk+1 ) | Ik , C ],. P(xk = 1 | Ik )g (1, S) + P(xk = 0 | Ik )g (0, S) + E[Jk+1 (Ik , S, zk+1 ) | Ik , S]]. = min [2 P(xk = 0 | Ik ) + E[Jk+1 (Ik , C , zk+1 ) | Ik , C ],. Dr. 1 + E[Jk+1 (Ik , S, zk+1 ) | Ik , S]] . Statistique exhaustive: pk = P(xk = 1 | Ik ).. Jk (pk ) = min[2(1 − pk ) + E[Jk+1 (pk+1 ) | pk , C ], 1 + E[Jk+1 (pk+1 ) | pk , S]].. 13 / 14.

(14) 14. aft. On peut calculer pk+1 à partir de pk , uk , zk+1 :. pk+1 = P[xk+1 = 1 | Ik , uk , zk+1 ] P[zk+1 , xk+1 = 1 | Ik , uk ] = P[zk+1 | Ik , uk ] P[zk+1 | xk+1 = 1] · P[xk+1 = 1 | Ik , uk ] = . P[zk+1 | Ik , uk ]. Dr. Par exemple, si uk = S et zk = G : P[zk+1 = G | xk+1 = 1] = 3/4 et P[xk+1 = 1 | Ik , uk = S] = 2/3. Si uk = C et zk = G : P[zk+1 = G | xk+1 = 1] = 3/4 et P[xk+1 = 1 | Ik , uk = C ] = (2/3)pk .. 14 / 14.

(15)

Références

Documents relatifs

Au volant du véhicule poussif, le pilote a peu de place pour manœuvrer et peu d'autorité pour faire régner quelque ordre dans cette assemblée : il ressemble étrangement à un doyen

Mathoeufs Trouver tous les mathoeufs possibles avec des chaussures jaunes et des cheveux jaunes en

Si g est bornée et α = 1, mais qu’il existe au moins un état absorbant dans lequel les coûts sont nuls et que l’on atteindra à un instant aléatoire temps d’arrêt T1 tel

sûr/sûre/sûrs/sûres: adjectif qui s’accorde en genre et en nombre.. On peut le remplacer

Or, nous avons vu que ce coût peut s’interpréter comme étant celui résultant de la construction d’une digue de protection fluviale, pour un rapport coût d’investissement/coût

Convergence d’une suite de fonctions Théorème de convergence dominée de Lebesgue.. Continuité et dérivation sous le

• Cadrage et points clés de mise en œuvre d’un projet de Spend analysis.. •

3 Le percentuali qui presentate sono calcolate in base al totale delle menzioni del foglio di carta e/o del masso rispetto ai frammenti di testo (118 per l'italiano, prodotti da