Equivalence des politiques AC-POMDP et POMDP ´

Prise en compte de contraintes de faisabilit´e d’actions dans le cadre POMDP

5.4 Equivalence des politiques AC-POMDP et POMDP ´



r(b, a) +γX

o∈O θ∈Θ

p(o, θ|a, b)V^∗ b^(o,θ)_a





 (5.9)

avec b^(o,θ)a donn´e par l’´equation 5.4, et :

p(o, θ|a, b) = X

s⁰∈S

I(θ, s⁰)O(o, a, s⁰)X

s∈S

T(s, a, s⁰)b(s) (5.10) Preuve. Suivant le théorème 5.3.2, l’ensemble d’actions réalisables observé avant le calcul de l’état de croyance b, c’est-à-dire, θt−1, peut être déduit de b sans aucune ambigu¨ıté : θt−1 =A_b =A_s, quel que soit s∈σ(b). Cette déduction est nécessaire pour l’optimisation, puisque au moment de l’optimisation on ne connait pas à l’avance quel sera le θ observé.

De plus, nous savons que les politiques optimales sont forcées d’appliquer uniquement des actions faisables : suivant l’équation 5.3, les actions gloutonnes candidates pour maximiser la fonction de valeur doivent être choisies parmi A_b. Donc l’équation 5.9 peut être obtenue de la même fa¸con que pour les POMDP, en considérant (o, θ) comme une observation jointe.

Ainsi, l’équation 5.10 peut être obtenue en faisant dépendre θ et o de s⁰ et a, comme pour la mise à jour de l’état de croyance, car ces deux observations sont indépendantes sachants⁰ eta:

p(o, θ|a, b) =P

s⁰∈SP r(θ|s⁰, a)P r(o|s⁰, a)P r(s⁰ |a, b)

s⁰∈SI(θ, s⁰)O(o, a, s⁰)P

s∈ST(s, a, s⁰)b(s)

Ce théorème nous permet d’utiliser la programmation dynamique pour le calcul des politiques optimales pour les AC-POMDP. Contrairement à l’artifice utilisant des pénalités

“infinies”, aucune pénalité artificielle et empirique n’est requise dans notre cas. L’opérateur max opère aussi sur un nombre réduit d’actions.

Pour comparer les politiques calculées pour les AC-POMDP avec un modèle POMDP classique et équivalent, nous avons besoin de définir la transformation entre AC-POMDP et POMDP. Dans certains domaines l’information concernant la faisabilité d’une action est encodée de manière indirecte dans l’espace d’observation ; par exemple, dans le domaine hallway, la configuration des murs fait partie du modèle d’observation. Ceci suggère que le modèle POMDP contient le modèle AC-POMDP. La conclusion est que nous pouvons transformer n’importe quel AC-POMDP en un POMDP équivalent, avec des actions et des fonctions d’observation et de récompense différentes.

5.4 Equivalence des politiques AC-POMDP et POMDP ´

SoitM=hS,(A_s)_s∈S,Ω =O ×Θ, T, O,I, R, b0,Θ0iun AC-POMDP donné. Considérons le POMDPMf=hS,A,e Ω =O ×Θ, T,O,e R, be ₀,Θ₀i= Ψ(M), où :

– Ae=S

s∈SA_s;

– Oe : (O ×Θ)×Ae×S → [0; 1] la fonction d’observation r´esultat de l’agr´egation, telle queO((o, θ), a, se ⁰) =O(o, a, s⁰)I(θ, s⁰) ;

– Re:S×Ae→Rla fonction de r´ecompense modifi´ee, telle quer(s, a) =e r(s, a) sia∈A_s, eter(s, a) =−∞sinon.

A partir des équations d’optimalité des POMDP et des AC-POMDP nous pouvons démontrer qu’une politique optimale pour un POMDP Mfest optimale pour l’AC-POMDP originalM. A cette fin, examinons le théorème qui suit.

5.4. Équivalence des politiques AC-POMDP et POMDP Théorème 5.4.1 SoitMun modèle AC-POMDP etMf= Ψ(M) son POMDP transformé.

Toute politique optimale pourMf est aussi optimale pour M.

Preuve.Soitπ^∗ une politique optimale pourM. Selon l’´equation de Bellman (´equation 2.9 du chapitre 2), nous savons que :

π^∗(b)∈argmax comme défini antérieurement dans l’équation 5.10.

De plus, pour a6∈ A_b,r(b, a) =˜ −∞; de cette fa¸con, suivant la définition de A_b, il existe un états∈σ(b), tel queb(s)>0, pour lequela6∈ A_s, et doncr(s, a) =e −∞. Par conséquent, la valeur maximale résultante de l’opérateurmax est nécessairement obtenue pour une action a^∗ ∈ A_b. Et, finalement, pour tout a ∈ A_b et pour tout état s ∈ σ(b), r(s, a) =e r(s, a), et

ce qui implique que V^π^∗ est solution de l’équation d’optimalité des AC-POMDPs selon l’équation 5.9.

Cette équivalence repose sur l’hypothèse communément admise que l’on sait choisir une récompense égale à −∞, tout du moins une valeur qui correspond à la borne inférieure des valeurs des états.

5.4.1 Comparaison des complexit ´es de r ´esolution

Dans le but d’évaluer si il est plus intéressant de résoudre directement l’AC-POMDP basé sur l’équation 5.9 que résoudre le POMDP équivalant basé sur l’équation 2.9 du chapitre 2, nous avons besoin de comparer la complexité des deux approches. Pour cette étude compara-tive nous nous sommes appuyée sur les algorithmes ditspoint-based, tels que : PBVI [Pineau et al., 2003], Perseus [Spaan et Vlassis, 2004], HSVI [Smith et Simmons, 2005], SARSOP [Kur-niawatiet al., 2008], qui sont très répandus dans la communauté. Nous tenons à rappeler que la fonction de valeur est convexe et linéaire par morceaux, et qu’elle peut être paramétrée par un ensemble d’α-vecteurs, conformément à ce qui a été présenté dans le chapitre 2.

Comme pour les m´ethodes de r´esolution exactes [Smallwood et Sondik, 1971], les algo-rithmespoint-based calculent les ensembles de projections desα-vecteurs pour chaque action aet observation (o, θ), tels que :

Γ^a,(o,θ)←α^a,(o,θ)(s) =γX

s⁰∈S

p(s⁰|s, a) ˜O((o, θ), a, s⁰)α_i(s⁰), ∀α_i ∈V⁰ (5.11)

Ensuite, ces algorithmes calculent l’ensemble Γâ_b desα-vecteurs pour touta∈A, selon :˜ Γâ_b ←Γâ,∗+γX

arg max

α^a,(o,θ)_i ∈Γ^a,(o,θ)

b·α^a,(o,θ)_i (5.12)

avec le revenu immédiat Γâ,∗ ← αâ,∗(s) =r(s, a), en utilisant un sous-ensemble Bconstitué de pointsb de l’espace des états de croyance obtenus à partir des simulations stochastiques de la dynamique du système (PBVI, Perseus), ou à partir de recherches heuristiques dans l’espace d’états de croyance (HSVI, SARSOP).

La mise à jour de la fonction de valeur est ainsi réalisée par l’opération debackup : V ←backup(b) = arg max

α^a_b∈Γ^a_b,a∈A˜

b·αâ_b, ∀b∈ B (5.13) Calculer la mise à jour de la valeur nécessite de générer |A||O||Θ||V˜ ⁰| projections de la fonction de valeur à l’instant de temps précédent, sachant que la taille de la fonction de valeur|V⁰|est bornée par|B|.|V|peut être plus petit que|B|, puisque des états de croyance b∈ B peuvent avoir le même α-vecteur dominant. Donc, le temps nécessaire pour la mise à jour de la fonction de valeur V est : |S||A||O||Θ||V˜ ⁰||B|[Pineauet al., 2003].

En revanche, nous mettons en évidence que calculer la mise à jour de la valeur pour un AC-POMDP implique, d’une part une maximisation sur un sous-ensemble d’actions tel que A_b ⊂ A, et d’autre part que des projections Γâ,(o,θ) soient calculées seulement pour les α-vecteurs dont l’action associée est cohérente avecθ, telles que aα ∈θ. Si nous appliquons les mêmes opérations que précédemment directement sur le modèle AC-POMDP, on voit avec l’aide de l’équation 5.9 que la mise à jour de la valeur pour un état de croyancebdonné, sera

évaluée sur un plus petit nombre d’α-vecteurs, parce que nous allons maximiser la valeur sur un sous-ensemble d’actions applicables A_b ∈A. Pour chaque b∈ B, le temps nécessaire au calcul de l’opération de mise à jour de la valeurV(b), appeléebackup, est réduit, dans le pire cas, à : |S||A_b||O||Θ||V⁰||B|. De cette fa¸con, le temps pour l’opération complète pour tout b∈ B est :P

b∈B|S||A_b||O||Θ||V⁰|dans le pire cas.

D’autre part, lors du calcul des projections Γâ,(o,θ), il est nécessaire de tenir compte du fait que chaqueα∈V⁰, a une action aassociée. Et donc, pour un θdonné, nous allons projeter lesα-vecteurs dont l’action associéeaappartient à l’ensemble d’actions réalisablesθ. Ceci est dû au fait que l’état de croyance futurb^(o,θ)a , qui sera une distribution de probabilité sur des

états dont l’ensemble d’actions réalisables estθ(cf. théorème 5.3.2), aura sa valeur maximisée pour unα-vecteur deV⁰ dont l’action associée appartient nécessairement à l’ensembleθ.

En s’appuyant sur ces arguments, nous présumons que le gain minimum dû au fait qu’on optimise directement le modèle AC-POMDP à la place du POMDP équivalent vaut :

|∪s∈SAs| P

b∈B|A_b|. Sachant que pour plusieurs problèmes, A_b peut être petit, puisqu’il contient les actions qui sont appliquées pour toutstel queb(s)>0 en filtrant plusieurs actions, contrai-rement au cas classique où ∪_s∈SA_s qui contient toutes les actions du modèle, sera possible-ment (beaucoup) plus grand. De plus, comme les projections Γâ,(o,θ) sont calculées pour les α-vecteurs cohérents avec θ, moins de vecteurs seront pris en compte. Ceci nous amène à conclure que le gain de temps de calcul dans le pire cas sera linéaire, et polynomial dans le cas général. Ceci sera mis en évidence dans nos résultats expérimentaux, présentés dans la section 5.6.

D’autre part, notons que le modèle AC-POMDP n’attribue pas valeur r(s, a)→ R à la paire état-action pour laquelle l’actionan’est pas réalisable dans l’états, puisque le modèle AC-POMDP ne tient simplement pas compte de cette paire, c’est-à-dire que la paire n’a pas de raison d’exister. En termes d’α-vecteur, nous avons besoin définir la valeur de ces actions sur l’espace des états pour lesquels cette action est réalisable. Ainsi, leα-vecteur d’une action

Dans le document The DART-Europe E-theses Portal (Page 140-143)