• Aucun résultat trouvé

Draft F´evrier2015 PierreL’Ecuyer IFT-6521PROGRAMMATIONDYNAMIQUEChapitre5:´Etatpartiellementobserv´e

N/A
N/A
Protected

Academic year: 2022

Partager "Draft F´evrier2015 PierreL’Ecuyer IFT-6521PROGRAMMATIONDYNAMIQUEChapitre5:´Etatpartiellementobserv´e"

Copied!
14
0
0

Texte intégral

(1)1. aft. IFT-6521 PROGRAMMATION DYNAMIQUE Chapitre 5:. Dr. État partiellement observé Pierre L’Ecuyer. DIRO, Université de Montréal. Février 2015. 1 / 14.

(2) 2. aft. Information partielle et conversion au modèle avec information parfaite. Dans plusieurs situations pratiques, l’état du système n’est pas observable complètement, de sorte qu’une politique admissible ne peut pas être n’importe quelle fonction de l’état. Les décisions ne doivent dépendre que de ce qui est observable.. Dr. Comment traiter cette situation? La réponse courte: simplement remplacer (redéfinir) l’état (partiellement observable) par l’information disponible, ou encore par une fonction de l’information disponible qui nous donne autant d’information utile mais sous une forme plus agrégée (une statistique exhaustive). On se ramène alors au cadre connu, mais avec un état défini différemment. L’aggrégation des états (via une statistique exhaustive ou une autre méthode d’approximation) est souvent essentielle pour limiter la dimension de l’espace d’états, pour pouvoir résoudre. C’est essentiellement ce que raconte la chapitre 5 du livre, avec quelques détails en plus. 2 / 14.

(3) 3. Modèle. À l’étape k, le système est dans l’état xk , mais on ne peut observer que. aft. zk = hk (xk , uk−1 , vk ), où zk ∈ Zk et vk ∈ Vk est une v.a. dont la loi. P[vk ∈ · | xk , . . . , x0 , uk−1 , . . . , u0 , wk−1 , . . . , w0 , vk−1 , . . . , v0 ] dépend de la suite des états, décisions, et aléas précédents.. Dr. L’état initial peut aussi être aléatoire, de loi P[x0 ∈ ·]. L’information disponible à l’étape k est. Ik = (z0 , z1 , . . . , zk , u0 , u1 , . . . , uk−1 ),. k = 0, 1, . . . , N − 1,. et la décision uk ∈ Uk ne peut dépendre que de cette information. On suppose ici que Uk ne dépend pas de xk . Ensuite une variable aléatoire wk est “générée” selon une loi Pk (· | xk , uk ), on doit payer un coût gk (xk , uk , wk ), et l’état à la prochaine étape est xk+1 = fk (xk , uk , wk ). 3 / 14.

(4) wk. System xk + 1 = fk(xk ,u k ,wk). vk. xk. Measurement. zk. z k = hk(xk ,u k - 1,vk). uk - 1. Delay. Dr. uk. aft. 4. Actuator mk. P x k | Ik. uk - 1. Estimator fk - 1. zk. 4 / 14.

(5) 5. aft. On cherche une politique admissible de la forme π = (µ0 , . . . , µN−1 ), où µk (Ik ) ∈ Uk , qui minimise " # N−1 X E gN (xN ) + gk (xk , uk , wk ) , k=0. sous les contraintes. Dr. xk+1 = fk (xk , µk (Ik ), wk ), z0 = h0 (x0 , v0 ), zk. = hk (xk , µk−1 (Ik−1 ), vk ),. k = 1, . . . , N − 1.. 5 / 14.

(6) 6. Reformulation.. aft. Si on remplace l’état par Ik et la fonction de coût par étape par g̃k (Ik , uk ) = E[gk (xk , uk , wk ) | Ik , uk ],. on se retrouve dans cadre “standard” où l’état est complètement observé. L’équation de récurrence se réecrit alors comme. Jk (Ik ) = coût espéré total optimal de l’étape k à la fin,. Dr. si l’information disponible à l’étape k est Ik =. min [g̃k (Ik , uk ) + E[Jk+1 (Ik+1 )]]. uk ∈Uk. où zk+1 = hk+1 (xk+1 , uk , vk+1 ) et Ik+1 = (Ik , zk+1 , uk ). DPOC traite en détail le cas des systèmes linéaires à coût quadratique, puis examine plusieurs examples. 6 / 14.

(7) 7. aft. Statistique exhaustive. Une statistique exhaustive est une fonction Sk qui associe à chaque Ik une valeur Sk = Sk (Ik ), souvent plus compacte, telle que l’on peut réecrire Jk (Ik ) = min Hk (Sk (Ik ), uk ) uk ∈Uk. Dr. pour une certaine fonction Hk . En d’autres mots, on peut écrire Jk et une politique optimale comme fonctions de Sk = Sk (Ik ) au lieu de Ik . Dans ce cas, on peut remplacer l’état Ik par Sk .. 7 / 14.

(8) 8. Loi conditionnelle de l’état xk . Dans le cas fréquent où. aft. P[vk ∈ · | xk , . . . , x0 , uk−1 , . . . , u0 , wk−1 , . . . , w0 , vk−1 , . . . , v0 ] = P[vk ∈ · | xk , xk−1 , uk−1 , wk−1 ],. on peut prendre Sk = Sk (Ik ) = P[xk ∈ · | Ik ], la loi de probabilité de xk conditionnelle à l’information connue Ik . On peut mettre à jour Sk+1 = Φk (P[xk ∈ · | Ik ], uk , zk+1 ) = Φk (Sk , uk , zk+1 ). Dr. pour une certaine fonction Φk . Le coût par étape est remplacée par Z. g̃k (Sk , uk ) = E[gk (xk , uk , wk ) | Sk , uk ] =. gk (xk , uk , wk )dP(xk , wk | Sk , uk ].. et on peut alors écrire. Jk (Sk ) = min [g̃k (Sk , uk ) + E[Jk+1 (Sk+1 )]] . uk ∈Uk. 8 / 14.

(9) 9. wk. System xk + 1 = fk(xk ,u k ,wk). vk. xk. Measurement. zk. z k = hk(xk ,u k - 1,vk). uk - 1. Dr. uk. aft. La commande optimale se décompose alors en deux parties: (a) estimation de la loi conditionnelle de l’état; (b) choix de la décision. En pratique, de nombreuses heuristiques (sous optimales) sont basées sur des versions approximatives de ce schéma.. Delay. Actuator mk. P x k | Ik. uk - 1 Estimator fk - 1. zk. 9 / 14.

(10) 10. Exemple: prises de décision sous un modèle Bayesien. aft. Une loterie bien particulière vend des billets C dollars. On pense que chaque billet permet de gagner V dollars avec probabilité β > 0 (cas A) mais il est aussi possible que la probabilité de gagner soit de zéro à tous les tirages (cas B). Notre probabilité a priori que l’on soit dans le cas A est p0 > 0. Dès que l’on a gagné une fois, on ne peut plus jouer. Soit pk la probabilité que l’on soit dans le cas A après avoir acheté k billets sans gagner. Ces pk suivent la récurrence (formule de Bayes): P[cas A et k échecs] P[k échecs] P[k échecs | cas A]p0 P[k échecs | cas A]p0 + P[k échecs | cas B](1 − p0 ) (1 − β)k p0 (1 − β)pk−1 = . k (1 − β)pk−1 + 1 − pk−1 (1 − β) p0 + 1 − p0. = P[cas A | k échecs] = = =. Dr. pk. On voit que pk est décroissant en k et pk → 0 quand k → ∞. La dernière égalité est facile à vérifier. 10 / 14.

(11) 11. aft. Comme état à l’étape k, on peut prendre pk (statistique exhaustive), ou même simplement k, puisque l’état n’est utile que lorsqu’on n’a pas encore gagné. Si Jk est le gain espéré optimal après k échecs, alors on a Jk = max[0, pk βV − C + (1 − pk β)Jk+1 ] pour k = 0, 1, 2, . . . .. Dr. Il est clair que Jk ≤ max(0, pk V − C ), car c’est le cas où on gagne à coup sûr au prochain coup, de sorte que Jk = 0 dès que pk ≤ C /V . Si N = min{k : pk ≤ C /V }, alors Jk = 0 pour tout k ≥ N. La récurrence implique aussi que Jk = 0 tant que pk βV − C ≤ 0, et que Jk > 0 dès que pk βV − C > 0. La politique optimale est donc d’acheter au maximum k ∗ billets, où k ∗ = max{k : pk βV > C }.. 11 / 14.

(12) 12. Exemple: modèle simplifié d’entretien d’une machine. aft. Une machine peut être dans l’état 1 (elle fonctionne correctement) ou 0 (elle est défectueuse). À chaque période k, l’état xk ∈ {0, 1} n’est pas observé, mais on inspecte la machine et on observe zk = G (semble ok) ou zk = B (semble défectueuse). = G | xk = 1] = 1 − P[zk = B | xk = 1] = 3/4, = B | xk = 0] = 1 − P[zk = G | xk = 0] = 3/4, = 1 | xk−1 = 1] = 1 − P[xk = 0 | xk−1 = 1] = 2/3, = 0 | xk−1 = 0] = 1.. Dr. P[zk P[zk P[xk P[xk. Après l’inspection, on peut arrêter la machine pour connaitre son état véritable (action uk = S) ou encore continuer (action uk = C ). Si on arrête et trouve la machine défectueuse, on la répare (remet dans l’état 1). Coûts par étape: g (1, C ) = 0, g (0, C ) = 2, g (1, S) = g (0, S) = 1.. 12 / 14.

(13) 13. aft. Vecteur d’information: Ik = (z0 , z1 , . . . , zk , u0 , . . . , uk−1 ). Jk (Ik ) = coût espéré de l’étape k à la fin. On a JN (Ik ) = 0 et Jk (Ik ) = min [P(xk = 1 | Ik )g (1, C ) + P(xk = 0 | Ik )g (0, C ) +E[Jk+1 (Ik , C , zk+1 ) | Ik , C ],. P(xk = 1 | Ik )g (1, S) + P(xk = 0 | Ik )g (0, S) + E[Jk+1 (Ik , S, zk+1 ) | Ik , S]]. = min [2 P(xk = 0 | Ik ) + E[Jk+1 (Ik , C , zk+1 ) | Ik , C ],. Dr. 1 + E[Jk+1 (Ik , S, zk+1 ) | Ik , S]] . Statistique exhaustive: pk = P(xk = 1 | Ik ).. Jk (pk ) = min[2(1 − pk ) + E[Jk+1 (pk+1 ) | pk , C ], 1 + E[Jk+1 (pk+1 ) | pk , S]].. 13 / 14.

(14) 14. aft. On peut calculer pk+1 à partir de pk , uk , zk+1 :. pk+1 = P[xk+1 = 1 | Ik , uk , zk+1 ] P[zk+1 , xk+1 = 1 | Ik , uk ] = P[zk+1 | Ik , uk ] P[zk+1 | xk+1 = 1] · P[xk+1 = 1 | Ik , uk ] = . P[zk+1 | Ik , uk ]. Dr. Par exemple, si uk = S et zk = G : P[zk+1 = G | xk+1 = 1] = 3/4 et P[xk+1 = 1 | Ik , uk = S] = 2/3. Si uk = C et zk = G : P[zk+1 = G | xk+1 = 1] = 3/4 et P[xk+1 = 1 | Ik , uk = C ] = (2/3)pk .. 14 / 14.

(15)

Références

Documents relatifs

Le dosage mentionné se réfère au stade BBCH J-M (post floraison) avec une quantité de bouillie de référence de 1600 l/ha ou à un volume de la haie foliaire de 4'500 m³ par

Les Investissements en Immobilisations Corporelles concernent uniquement les acquisitions d’immobilisations effectuées par les entreprises au cours de l’exercice de

La communication viserait donc fondamentalement la résolution de tensions internes provoquées par un écart, une dissonance, entre un état de la conscience ou de

Chaque élève est tenu de suivre durant le cycle, un ensemble de conférences d’une durée de 5 heures environ comportant une information sur l’orientation professionnelle

Nous nous int´ eressons dans cette derni` ere partie ` a une th´ eorie mettant en sc` ene des ´ electrons et des positrons interagissant entre eux par l’´ echange d’une

Si vous traduisez ceci dans une autre langue, veuillez nous l ’ envoyer par courriel à [email protected] afin qu ’ il puisse être partagé avec d ’ autres

avoir indiscutablement mis en lumière le rôle, tout à fait prépondérant en la matière, des diverses catégories de cassures naturelles du sol (litho- clases), il résumait par ces

La présentation orale ainsi que la reprise des documents complétés : vendredi 01/05 Je reste disponible par mail si vous avez d’éventuelles questions