Equivalence des politiques AC-POMDP et POMDP ´

 r(b, a) + γ^X o∈O θ∈Θ p(o, θ | a, b)V^∗b^(o,θ)_a    (5.9)

avec b^(o,θ)a donn´e par l’´equation 5.4, et :

p(o, θ | a, b) = ^X

s0∈S

I(θ, s⁰)O(o, a, s⁰)^X

s∈S

T (s, a, s⁰)b(s) (5.10)

Preuve. Suivant le théorème 5.3.2, l’ensemble d’actions réalisables observé avant le calcul de l’état de croyance b, c’est-à-dire, θt−1, peut être déduit de b sans aucune ambigu¨ıté : θ_t−1 = A_b = A_s, quel que soit s ∈ σ(b). Cette déduction est nécessaire pour l’optimisation, puisque au moment de l’optimisation on ne connait pas à l’avance quel sera le θ observé. De plus, nous savons que les politiques optimales sont forcées d’appliquer uniquement des actions faisables : suivant l’équation 5.3, les actions gloutonnes candidates pour maximiser la fonction de valeur doivent être choisies parmi A_b. Donc l’équation 5.9 peut être obtenue de la même fa¸con que pour les POMDP, en considérant (o, θ) comme une observation jointe. Ainsi, l’équation 5.10 peut être obtenue en faisant dépendre θ et o de s⁰ et a, comme pour la mise à jour de l’état de croyance, car ces deux observations sont indépendantes sachant s⁰ et a :

p(o, θ | a, b) =P

s0∈SP r(θ | s⁰, a)P r(o | s⁰, a)P r(s⁰ | a, b)

s0∈SI(θ, s⁰)O(o, a, s⁰)P

s∈ST (s, a, s⁰)b(s)

Ce théorème nous permet d’utiliser la programmation dynamique pour le calcul des politiques optimales pour les AC-POMDP. Contrairement à l’artifice utilisant des pénalités “infinies”, aucune pénalité artificielle et empirique n’est requise dans notre cas. L’opérateur max opère aussi sur un nombre réduit d’actions.

Pour comparer les politiques calculées pour les AC-POMDP avec un modèle POMDP classique et équivalent, nous avons besoin de définir la transformation entre AC-POMDP et POMDP. Dans certains domaines l’information concernant la faisabilité d’une action est encodée de manière indirecte dans l’espace d’observation ; par exemple, dans le domaine hallway, la configuration des murs fait partie du modèle d’observation. Ceci suggère que le modèle POMDP contient le modèle AC-POMDP. La conclusion est que nous pouvons transformer n’importe quel AC-POMDP en un POMDP équivalent, avec des actions et des fonctions d’observation et de récompense différentes.

5.4 Equivalence des politiques AC-POMDP et POMDP^´

Soit M = hS, (As)_s∈S, Ω = O × Θ, T, O, I, R, b0, Θ0i un AC-POMDP donné. Considérons le POMDP fM = hS, eA, Ω = O × Θ, T, eO, eR, b₀, Θ₀i = Ψ(M), où :

– eA =S

s∈SA_s;

– eO : (O × Θ) × eA × S → [0; 1] la fonction d’observation r´esultat de l’agr´egation, telle que eO((o, θ), a, s⁰) = O(o, a, s⁰)I(θ, s⁰) ;

– eR : S × eA → R la fonction de r´ecompense modifi´ee, telle quer(s, a) = r(s, a) si a ∈ Ae _s, et_er(s, a) = −∞ sinon.

A partir des équations d’optimalité des POMDP et des AC-POMDP nous pouvons démontrer qu’une politique optimale pour un POMDP fM est optimale pour l’AC-POMDP original M. A cette fin, examinons le théorème qui suit.

5.4. ´Equivalence des politiques AC-POMDP et POMDP

Théorème 5.4.1 Soit M un modèle AC-POMDP et fM = Ψ(M) son POMDP transformé. Toute politique optimale pour fM est aussi optimale pour M.

Preuve. Soit π^∗ une politique optimale pour M. Selon l’´equation de Bellman (´equation 2.9 du chapitre 2), nous savons que :

π^∗(b) ∈ argmax a∈ eA      ˜ r(b, a) + γ^X o∈O θ∈Θ ˜ p((o, θ) | a, b)V^π^∗(b^(o,θ)_a )      avec ˜r(b, a) =P s∈Sb(s)_er(s, a) et : ˜ p((o, θ) | a, b) = ^X s0∈S e O((o, θ), a, s⁰)^X s∈S T (s, a, s⁰)b(s) = ^X s0∈S O(o, a, s⁰)I(θ, s⁰)^X s∈S T (s, a, s⁰)b(s) = p(o, θ | a, b)

comme défini antérieurement dans l’équation 5.10.

De plus, pour a 6∈ A_b, ˜r(b, a) = −∞ ; de cette fa¸con, suivant la définition de A_b, il existe un état s ∈ σ(b), tel que b(s) > 0, pour lequel a 6∈ As, et doncr(s, a) = −∞. Par cons´_e equent, la valeur maximale résultante de l’opérateur max est nécessairement obtenue pour une action a^∗ ∈ A_b. Et, finalement, pour tout a ∈ A_b et pour tout état s ∈ σ(b), r(s, a) = r(s, a), et_e ˜

r(b, a) = r(b, a), nous avons :

π^∗(b) ∈ argmax a∈Ab      r(b, a) + γ^X o∈O θ∈Θ p((o, θ) | a, b)V^π^∗(b^(o,θ)_a )     

ce qui implique que V^π^∗ est solution de l’équation d’optimalité des AC-POMDPs selon l’équation 5.9.

Cette équivalence repose sur l’hypothèse communément admise que l’on sait choisir une récompense égale à −∞, tout du moins une valeur qui correspond à la borne inférieure des valeurs des états.

5.4.1 Comparaison des complexit ´es de r ´esolution

Dans le but d’évaluer si il est plus intéressant de résoudre directement l’AC-POMDP basé sur l’équation 5.9 que résoudre le POMDP équivalant basé sur l’équation 2.9 du chapitre 2, nous avons besoin de comparer la complexité des deux approches. Pour cette étude compara-tive nous nous sommes appuyée sur les algorithmes dits point-based, tels que : PBVI [Pineau et al., 2003], Perseus [Spaan et Vlassis, 2004], HSVI [Smith et Simmons, 2005], SARSOP [Kur-niawati et al., 2008], qui sont très répandus dans la communauté. Nous tenons à rappeler que la fonction de valeur est convexe et linéaire par morceaux, et qu’elle peut être paramétrée par un ensemble d’α-vecteurs, conformément à ce qui a été présenté dans le chapitre 2.

Comme pour les m´ethodes de r´esolution exactes [Smallwood et Sondik, 1971], les algo-rithmes point-based calculent les ensembles de projections des α-vecteurs pour chaque action a et observation (o, θ), tels que :

Γ^a,(o,θ)← αa,(o,θ)(s) = γ^X

s0∈S

Ensuite, ces algorithmes calculent l’ensemble Γâ_b des α-vecteurs pour tout a ∈ Ã, selon : Γâ_b ← Γa,∗+ γ^X o arg max αâ,(o,θ)_i ∈Γa,(o,θ) b · αâ,(o,θ)_i (5.12)

avec le revenu immédiat Γâ,∗← αa,∗(s) = r(s, a), en utilisant un sous-ensemble B constitué de points b de l’espace des états de croyance obtenus à partir des simulations stochastiques de la dynamique du système (PBVI, Perseus), ou à partir de recherches heuristiques dans l’espace d’états de croyance (HSVI, SARSOP).

La mise à jour de la fonction de valeur est ainsi réalisée par l’opération de backup : V ← backup(b) = arg max

αa b∈Γa

b,a∈ ˜A

b · α^a_b, ∀b ∈ B (5.13)

Calculer la mise à jour de la valeur nécessite de générer | Ã||O||Θ||V⁰| projections de la fonction de valeur à l’instant de temps précédent, sachant que la taille de la fonction de valeur |V⁰| est bornée par |B|. |V | peut être plus petit que |B|, puisque des états de croyance b ∈ B peuvent avoir le même α-vecteur dominant. Donc, le temps nécessaire pour la mise à jour de la fonction de valeur V est : |S|| Ã||O||Θ||V⁰||B| [Pineau et al., 2003].

En revanche, nous mettons en évidence que calculer la mise à jour de la valeur pour un AC-POMDP implique, d’une part une maximisation sur un sous-ensemble d’actions tel que A_b ⊂ A, et d’autre part que des projections Γa,(o,θ) soient calculées seulement pour les α-vecteurs dont l’action associée est cohérente avec θ, telles que aα ∈ θ. Si nous appliquons les mêmes opérations que précédemment directement sur le modèle AC-POMDP, on voit avec l’aide de l’équation 5.9 que la mise à jour de la valeur pour un état de croyance b donné, sera évaluée sur un plus petit nombre d’α-vecteurs, parce que nous allons maximiser la valeur sur un sous-ensemble d’actions applicables A_b ∈ A. Pour chaque b ∈ B, le temps nécessaire au calcul de l’opération de mise à jour de la valeur V (b), appelée backup, est réduit, dans le pire cas, à : |S||A_b||O||Θ||V⁰||B|. De cette fa¸con, le temps pour l’opération complète pour tout b ∈ B est :P

b∈B|S||A_b||O||Θ||V0| dans le pire cas.

D’autre part, lors du calcul des projections Γâ,(o,θ), il est nécessaire de tenir compte du fait que chaque α ∈ V⁰, a une action a associée. Et donc, pour un θ donné, nous allons projeter les α-vecteurs dont l’action associée a appartient à l’ensemble d’actions réalisables θ. Ceci est dû au fait que l’état de croyance futur b^(o,θ)a , qui sera une distribution de probabilité sur des états dont l’ensemble d’actions réalisables est θ (cf. théorème 5.3.2), aura sa valeur maximisée pour un α-vecteur de V⁰ dont l’action associée appartient nécessairement à l’ensemble θ.

En s’appuyant sur ces arguments, nous présumons que le gain minimum dû au fait qu’on optimise directement le modèle AC-POMDP à la place du POMDP équivalent vaut :

|∪_s∈SAs| P

b∈B|A_b|. Sachant que pour plusieurs problèmes, A_b peut être petit, puisqu’il contient les actions qui sont appliquées pour tout s tel que b(s) > 0 en filtrant plusieurs actions, contrai-rement au cas classique où ∪_s∈SA_s qui contient toutes les actions du modèle, sera possible-ment (beaucoup) plus grand. De plus, comme les projections Γâ,(o,θ) sont calculées pour les α-vecteurs cohérents avec θ, moins de vecteurs seront pris en compte. Ceci nous amène à conclure que le gain de temps de calcul dans le pire cas sera linéaire, et polynomial dans le cas général. Ceci sera mis en évidence dans nos résultats expérimentaux, présentés dans la section 5.6.

D’autre part, notons que le modèle AC-POMDP n’attribue pas valeur r(s, a) → R à la paire état-action pour laquelle l’action a n’est pas réalisable dans l’état s, puisque le modèle AC-POMDP ne tient simplement pas compte de cette paire, c’est-à-dire que la paire n’a pas de raison d’exister. En termes d’α-vecteur, nous avons besoin définir la valeur de ces actions sur l’espace des états pour lesquels cette action est réalisable. Ainsi, le α-vecteur d’une action

Dans le document Planification de perception et de mission en environnement incertain : Application à la détection et à la reconnaissance de cibles par un hélicoptère autonome (Page 140-143)

Equivalence des politiques AC-POMDP et POMDP ´

5.4 Equivalence des politiques AC-POMDP et POMDP´

5.4 Equivalence des politiques AC-POMDP et POMDP^´