• Aucun résultat trouvé

r(b, a) + γX o∈O θ∈Θ p(o, θ | a, b)Vb(o,θ)a  (5.9)

avec b(o,θ)a donn´e par l’´equation 5.4, et :

p(o, θ | a, b) = X

s0∈S

I(θ, s0)O(o, a, s0)X

s∈S

T (s, a, s0)b(s) (5.10)

Preuve. Suivant le th´eor`eme 5.3.2, l’ensemble d’actions r´ealisables observ´e avant le calcul de l’´etat de croyance b, c’est-`a-dire, θt−1, peut ˆetre d´eduit de b sans aucune ambigu¨ıt´e : θt−1 = Ab = As, quel que soit s ∈ σ(b). Cette d´eduction est n´ecessaire pour l’optimisation, puisque au moment de l’optimisation on ne connait pas `a l’avance quel sera le θ observ´e. De plus, nous savons que les politiques optimales sont forc´ees d’appliquer uniquement des actions faisables : suivant l’´equation 5.3, les actions gloutonnes candidates pour maximiser la fonction de valeur doivent ˆetre choisies parmi Ab. Donc l’´equation 5.9 peut ˆetre obtenue de la mˆeme fa¸con que pour les POMDP, en consid´erant (o, θ) comme une observation jointe. Ainsi, l’´equation 5.10 peut ˆetre obtenue en faisant d´ependre θ et o de s0 et a, comme pour la mise `a jour de l’´etat de croyance, car ces deux observations sont ind´ependantes sachant s0 et a :

p(o, θ | a, b) =P

s0∈SP r(θ | s0, a)P r(o | s0, a)P r(s0 | a, b)

=P

s0∈SI(θ, s0)O(o, a, s0)P

s∈ST (s, a, s0)b(s)

Ce th´eor`eme nous permet d’utiliser la programmation dynamique pour le calcul des politiques optimales pour les AC-POMDP. Contrairement `a l’artifice utilisant des p´enalit´es “infinies”, aucune p´enalit´e artificielle et empirique n’est requise dans notre cas. L’op´erateur max op`ere aussi sur un nombre r´eduit d’actions.

Pour comparer les politiques calcul´ees pour les AC-POMDP avec un mod`ele POMDP classique et ´equivalent, nous avons besoin de d´efinir la transformation entre AC-POMDP et POMDP. Dans certains domaines l’information concernant la faisabilit´e d’une action est encod´ee de mani`ere indirecte dans l’espace d’observation ; par exemple, dans le domaine hallway, la configuration des murs fait partie du mod`ele d’observation. Ceci sugg`ere que le mod`ele POMDP contient le mod`ele AC-POMDP. La conclusion est que nous pouvons transformer n’importe quel AC-POMDP en un POMDP ´equivalent, avec des actions et des fonctions d’observation et de r´ecompense diff´erentes.

5.4 Equivalence des politiques AC-POMDP et POMDP´

Soit M = hS, (As)s∈S, Ω = O × Θ, T, O, I, R, b0, Θ0i un AC-POMDP donn´e. Consid´erons le POMDP fM = hS, eA, Ω = O × Θ, T, eO, eR, b0, Θ0i = Ψ(M), o`u :

– eA =S

s∈SAs;

– eO : (O × Θ) × eA × S → [0; 1] la fonction d’observation r´esultat de l’agr´egation, telle que eO((o, θ), a, s0) = O(o, a, s0)I(θ, s0) ;

– eR : S × eA → R la fonction de r´ecompense modifi´ee, telle quer(s, a) = r(s, a) si a ∈ Ae s, eter(s, a) = −∞ sinon.

A partir des ´equations d’optimalit´e des POMDP et des AC-POMDP nous pouvons d´emontrer qu’une politique optimale pour un POMDP fM est optimale pour l’AC-POMDP original M. A cette fin, examinons le th´eor`eme qui suit.

5.4. ´Equivalence des politiques AC-POMDP et POMDP

Th´eor`eme 5.4.1 Soit M un mod`ele AC-POMDP et fM = Ψ(M) son POMDP transform´e. Toute politique optimale pour fM est aussi optimale pour M.

Preuve. Soit π une politique optimale pour M. Selon l’´equation de Bellman (´equation 2.9 du chapitre 2), nous savons que :

π(b) ∈ argmax a∈ eA      ˜ r(b, a) + γX o∈O θ∈Θ ˜ p((o, θ) | a, b)Vπ(b(o,θ)a )      avec ˜r(b, a) =P s∈Sb(s)er(s, a) et : ˜ p((o, θ) | a, b) = X s0∈S e O((o, θ), a, s0)X s∈S T (s, a, s0)b(s) = X s0∈S O(o, a, s0)I(θ, s0)X s∈S T (s, a, s0)b(s) = p(o, θ | a, b)

comme d´efini ant´erieurement dans l’´equation 5.10.

De plus, pour a 6∈ Ab, ˜r(b, a) = −∞ ; de cette fa¸con, suivant la d´efinition de Ab, il existe un ´etat s ∈ σ(b), tel que b(s) > 0, pour lequel a 6∈ As, et doncr(s, a) = −∞. Par cons´e equent, la valeur maximale r´esultante de l’op´erateur max est n´ecessairement obtenue pour une action a ∈ Ab. Et, finalement, pour tout a ∈ Ab et pour tout ´etat s ∈ σ(b), r(s, a) = r(s, a), ete ˜

r(b, a) = r(b, a), nous avons :

π(b) ∈ argmax a∈Ab      r(b, a) + γX o∈O θ∈Θ p((o, θ) | a, b)Vπ(b(o,θ)a )     

ce qui implique que Vπ est solution de l’´equation d’optimalit´e des AC-POMDPs selon l’´equation 5.9.

Cette ´equivalence repose sur l’hypoth`ese commun´ement admise que l’on sait choisir une r´ecompense ´egale `a −∞, tout du moins une valeur qui correspond `a la borne inf´erieure des valeurs des ´etats.

5.4.1 Comparaison des complexit ´es de r ´esolution

Dans le but d’´evaluer si il est plus int´eressant de r´esoudre directement l’AC-POMDP bas´e sur l’´equation 5.9 que r´esoudre le POMDP ´equivalant bas´e sur l’´equation 2.9 du chapitre 2, nous avons besoin de comparer la complexit´e des deux approches. Pour cette ´etude compara-tive nous nous sommes appuy´ee sur les algorithmes dits point-based, tels que : PBVI [Pineau et al., 2003], Perseus [Spaan et Vlassis, 2004], HSVI [Smith et Simmons, 2005], SARSOP [Kur-niawati et al., 2008], qui sont tr`es r´epandus dans la communaut´e. Nous tenons `a rappeler que la fonction de valeur est convexe et lin´eaire par morceaux, et qu’elle peut ˆetre param´etr´ee par un ensemble d’α-vecteurs, conform´ement `a ce qui a ´et´e pr´esent´e dans le chapitre 2.

Comme pour les m´ethodes de r´esolution exactes [Smallwood et Sondik, 1971], les algo-rithmes point-based calculent les ensembles de projections des α-vecteurs pour chaque action a et observation (o, θ), tels que :

Γa,(o,θ)← αa,(o,θ)(s) = γX

s0∈S

Ensuite, ces algorithmes calculent l’ensemble Γab des α-vecteurs pour tout a ∈ ˜A, selon : Γab ← Γa,∗+ γX o arg max αa,(o,θ)i ∈Γa,(o,θ) b · αa,(o,θ)i (5.12)

avec le revenu imm´ediat Γa,∗← αa,∗(s) = r(s, a), en utilisant un sous-ensemble B constitu´e de points b de l’espace des ´etats de croyance obtenus `a partir des simulations stochastiques de la dynamique du syst`eme (PBVI, Perseus), ou `a partir de recherches heuristiques dans l’espace d’´etats de croyance (HSVI, SARSOP).

La mise `a jour de la fonction de valeur est ainsi r´ealis´ee par l’op´eration de backup : V ← backup(b) = arg max

αa b∈Γa

b,a∈ ˜A

b · αab, ∀b ∈ B (5.13)

Calculer la mise `a jour de la valeur n´ecessite de g´en´erer | ˜A||O||Θ||V0| projections de la fonction de valeur `a l’instant de temps pr´ec´edent, sachant que la taille de la fonction de valeur |V0| est born´ee par |B|. |V | peut ˆetre plus petit que |B|, puisque des ´etats de croyance b ∈ B peuvent avoir le mˆeme α-vecteur dominant. Donc, le temps n´ecessaire pour la mise `a jour de la fonction de valeur V est : |S|| ˜A||O||Θ||V0||B| [Pineau et al., 2003].

En revanche, nous mettons en ´evidence que calculer la mise `a jour de la valeur pour un AC-POMDP implique, d’une part une maximisation sur un sous-ensemble d’actions tel que Ab ⊂ A, et d’autre part que des projections Γa,(o,θ) soient calcul´ees seulement pour les α-vecteurs dont l’action associ´ee est coh´erente avec θ, telles que aα ∈ θ. Si nous appliquons les mˆemes op´erations que pr´ec´edemment directement sur le mod`ele AC-POMDP, on voit avec l’aide de l’´equation 5.9 que la mise `a jour de la valeur pour un ´etat de croyance b donn´e, sera ´evalu´ee sur un plus petit nombre d’α-vecteurs, parce que nous allons maximiser la valeur sur un sous-ensemble d’actions applicables Ab ∈ A. Pour chaque b ∈ B, le temps n´ecessaire au calcul de l’op´eration de mise `a jour de la valeur V (b), appel´ee backup, est r´eduit, dans le pire cas, `a : |S||Ab||O||Θ||V0||B|. De cette fa¸con, le temps pour l’op´eration compl`ete pour tout b ∈ B est :P

b∈B|S||Ab||O||Θ||V0| dans le pire cas.

D’autre part, lors du calcul des projections Γa,(o,θ), il est n´ecessaire de tenir compte du fait que chaque α ∈ V0, a une action a associ´ee. Et donc, pour un θ donn´e, nous allons projeter les α-vecteurs dont l’action associ´ee a appartient `a l’ensemble d’actions r´ealisables θ. Ceci est dˆu au fait que l’´etat de croyance futur b(o,θ)a , qui sera une distribution de probabilit´e sur des ´etats dont l’ensemble d’actions r´ealisables est θ (cf. th´eor`eme 5.3.2), aura sa valeur maximis´ee pour un α-vecteur de V0 dont l’action associ´ee appartient n´ecessairement `a l’ensemble θ.

En s’appuyant sur ces arguments, nous pr´esumons que le gain minimum dˆu au fait qu’on optimise directement le mod`ele AC-POMDP `a la place du POMDP ´equivalent vaut :

|∪s∈SAs| P

b∈B|Ab|. Sachant que pour plusieurs probl`emes, Ab peut ˆetre petit, puisqu’il contient les actions qui sont appliqu´ees pour tout s tel que b(s) > 0 en filtrant plusieurs actions, contrai-rement au cas classique o`u ∪s∈SAs qui contient toutes les actions du mod`ele, sera possible-ment (beaucoup) plus grand. De plus, comme les projections Γa,(o,θ) sont calcul´ees pour les α-vecteurs coh´erents avec θ, moins de vecteurs seront pris en compte. Ceci nous am`ene `a conclure que le gain de temps de calcul dans le pire cas sera lin´eaire, et polynomial dans le cas g´en´eral. Ceci sera mis en ´evidence dans nos r´esultats exp´erimentaux, pr´esent´es dans la section 5.6.

D’autre part, notons que le mod`ele AC-POMDP n’attribue pas valeur r(s, a) → R `a la paire ´etat-action pour laquelle l’action a n’est pas r´ealisable dans l’´etat s, puisque le mod`ele AC-POMDP ne tient simplement pas compte de cette paire, c’est-`a-dire que la paire n’a pas de raison d’exister. En termes d’α-vecteur, nous avons besoin d´efinir la valeur de ces actions sur l’espace des ´etats pour lesquels cette action est r´ealisable. Ainsi, le α-vecteur d’une action