• Aucun résultat trouvé

Equivalence des politiques AC-POMDP et POMDP ´

Dans le document The DART-Europe E-theses Portal (Page 140-143)

Prise en compte de contraintes de faisabilit´e d’actions dans le cadre POMDP

5.4 Equivalence des politiques AC-POMDP et POMDP ´

r(b, a) +γX

o∈O θ∈Θ

p(o, θ|a, b)V b(o,θ)a

(5.9)

avec b(o,θ)a donn´e par l’´equation 5.4, et :

p(o, θ|a, b) = X

s0∈S

I(θ, s0)O(o, a, s0)X

s∈S

T(s, a, s0)b(s) (5.10) Preuve. Suivant le th´eor`eme 5.3.2, l’ensemble d’actions r´ealisables observ´e avant le calcul de l’´etat de croyance b, c’est-`a-dire, θt−1, peut ˆetre d´eduit de b sans aucune ambigu¨ıt´e : θt−1 =Ab =As, quel que soit s∈σ(b). Cette d´eduction est n´ecessaire pour l’optimisation, puisque au moment de l’optimisation on ne connait pas `a l’avance quel sera le θ observ´e.

De plus, nous savons que les politiques optimales sont forc´ees d’appliquer uniquement des actions faisables : suivant l’´equation 5.3, les actions gloutonnes candidates pour maximiser la fonction de valeur doivent ˆetre choisies parmi Ab. Donc l’´equation 5.9 peut ˆetre obtenue de la mˆeme fa¸con que pour les POMDP, en consid´erant (o, θ) comme une observation jointe.

Ainsi, l’´equation 5.10 peut ˆetre obtenue en faisant d´ependre θ et o de s0 et a, comme pour la mise `a jour de l’´etat de croyance, car ces deux observations sont ind´ependantes sachants0 eta:

p(o, θ|a, b) =P

s0∈SP r(θ|s0, a)P r(o|s0, a)P r(s0 |a, b)

=P

s0∈SI(θ, s0)O(o, a, s0)P

s∈ST(s, a, s0)b(s)

Ce th´eor`eme nous permet d’utiliser la programmation dynamique pour le calcul des politiques optimales pour les AC-POMDP. Contrairement `a l’artifice utilisant des p´enalit´es

“infinies”, aucune p´enalit´e artificielle et empirique n’est requise dans notre cas. L’op´erateur max op`ere aussi sur un nombre r´eduit d’actions.

Pour comparer les politiques calcul´ees pour les AC-POMDP avec un mod`ele POMDP classique et ´equivalent, nous avons besoin de d´efinir la transformation entre AC-POMDP et POMDP. Dans certains domaines l’information concernant la faisabilit´e d’une action est encod´ee de mani`ere indirecte dans l’espace d’observation ; par exemple, dans le domaine hallway, la configuration des murs fait partie du mod`ele d’observation. Ceci sugg`ere que le mod`ele POMDP contient le mod`ele AC-POMDP. La conclusion est que nous pouvons transformer n’importe quel AC-POMDP en un POMDP ´equivalent, avec des actions et des fonctions d’observation et de r´ecompense diff´erentes.

5.4 Equivalence des politiques AC-POMDP et POMDP ´

SoitM=hS,(As)s∈S,Ω =O ×Θ, T, O,I, R, b00iun AC-POMDP donn´e. Consid´erons le POMDPMf=hS,A,e Ω =O ×Θ, T,O,e R, be 00i= Ψ(M), o`u :

– Ae=S

s∈SAs;

– Oe : (O ×Θ)×Ae×S → [0; 1] la fonction d’observation r´esultat de l’agr´egation, telle queO((o, θ), a, se 0) =O(o, a, s0)I(θ, s0) ;

– Re:S×Ae→Rla fonction de r´ecompense modifi´ee, telle quer(s, a) =e r(s, a) sia∈As, eter(s, a) =−∞sinon.

A partir des ´equations d’optimalit´e des POMDP et des AC-POMDP nous pouvons d´emontrer qu’une politique optimale pour un POMDP Mfest optimale pour l’AC-POMDP originalM. A cette fin, examinons le th´eor`eme qui suit.

5.4. ´Equivalence des politiques AC-POMDP et POMDP Th´eor`eme 5.4.1 SoitMun mod`ele AC-POMDP etMf= Ψ(M) son POMDP transform´e.

Toute politique optimale pourMf est aussi optimale pour M.

Preuve.Soitπ une politique optimale pourM. Selon l’´equation de Bellman (´equation 2.9 du chapitre 2), nous savons que :

π(b)∈argmax comme d´efini ant´erieurement dans l’´equation 5.10.

De plus, pour a6∈ Ab,r(b, a) =˜ −∞; de cette fa¸con, suivant la d´efinition de Ab, il existe un ´etats∈σ(b), tel queb(s)>0, pour lequela6∈ As, et doncr(s, a) =e −∞. Par cons´equent, la valeur maximale r´esultante de l’op´erateurmax est n´ecessairement obtenue pour une action a ∈ Ab. Et, finalement, pour tout a ∈ Ab et pour tout ´etat s ∈ σ(b), r(s, a) =e r(s, a), et

ce qui implique que Vπ est solution de l’´equation d’optimalit´e des AC-POMDPs selon l’´equation 5.9.

Cette ´equivalence repose sur l’hypoth`ese commun´ement admise que l’on sait choisir une r´ecompense ´egale `a −∞, tout du moins une valeur qui correspond `a la borne inf´erieure des valeurs des ´etats.

5.4.1 Comparaison des complexit ´es de r ´esolution

Dans le but d’´evaluer si il est plus int´eressant de r´esoudre directement l’AC-POMDP bas´e sur l’´equation 5.9 que r´esoudre le POMDP ´equivalant bas´e sur l’´equation 2.9 du chapitre 2, nous avons besoin de comparer la complexit´e des deux approches. Pour cette ´etude compara-tive nous nous sommes appuy´ee sur les algorithmes ditspoint-based, tels que : PBVI [Pineau et al., 2003], Perseus [Spaan et Vlassis, 2004], HSVI [Smith et Simmons, 2005], SARSOP [Kur-niawatiet al., 2008], qui sont tr`es r´epandus dans la communaut´e. Nous tenons `a rappeler que la fonction de valeur est convexe et lin´eaire par morceaux, et qu’elle peut ˆetre param´etr´ee par un ensemble d’α-vecteurs, conform´ement `a ce qui a ´et´e pr´esent´e dans le chapitre 2.

Comme pour les m´ethodes de r´esolution exactes [Smallwood et Sondik, 1971], les algo-rithmespoint-based calculent les ensembles de projections desα-vecteurs pour chaque action aet observation (o, θ), tels que :

Γa,(o,θ)←αa,(o,θ)(s) =γX

s0∈S

p(s0|s, a) ˜O((o, θ), a, s0i(s0), ∀αi ∈V0 (5.11)

Ensuite, ces algorithmes calculent l’ensemble Γab desα-vecteurs pour touta∈A, selon :˜ Γab ←Γa,∗+γX

o

arg max

αa,(o,θ)i ∈Γa,(o,θ)

b·αa,(o,θ)i (5.12)

avec le revenu imm´ediat Γa,∗ ← αa,∗(s) =r(s, a), en utilisant un sous-ensemble Bconstitu´e de pointsb de l’espace des ´etats de croyance obtenus `a partir des simulations stochastiques de la dynamique du syst`eme (PBVI, Perseus), ou `a partir de recherches heuristiques dans l’espace d’´etats de croyance (HSVI, SARSOP).

La mise `a jour de la fonction de valeur est ainsi r´ealis´ee par l’op´eration debackup : V ←backup(b) = arg max

αab∈Γab,a∈A˜

b·αab, ∀b∈ B (5.13) Calculer la mise `a jour de la valeur n´ecessite de g´en´erer |A||O||Θ||V˜ 0| projections de la fonction de valeur `a l’instant de temps pr´ec´edent, sachant que la taille de la fonction de valeur|V0|est born´ee par|B|.|V|peut ˆetre plus petit que|B|, puisque des ´etats de croyance b∈ B peuvent avoir le mˆeme α-vecteur dominant. Donc, le temps n´ecessaire pour la mise `a jour de la fonction de valeur V est : |S||A||O||Θ||V˜ 0||B|[Pineauet al., 2003].

En revanche, nous mettons en ´evidence que calculer la mise `a jour de la valeur pour un AC-POMDP implique, d’une part une maximisation sur un sous-ensemble d’actions tel que Ab ⊂ A, et d’autre part que des projections Γa,(o,θ) soient calcul´ees seulement pour les α-vecteurs dont l’action associ´ee est coh´erente avecθ, telles que aα ∈θ. Si nous appliquons les mˆemes op´erations que pr´ec´edemment directement sur le mod`ele AC-POMDP, on voit avec l’aide de l’´equation 5.9 que la mise `a jour de la valeur pour un ´etat de croyancebdonn´e, sera

´evalu´ee sur un plus petit nombre d’α-vecteurs, parce que nous allons maximiser la valeur sur un sous-ensemble d’actions applicables Ab ∈A. Pour chaque b∈ B, le temps n´ecessaire au calcul de l’op´eration de mise `a jour de la valeurV(b), appel´eebackup, est r´eduit, dans le pire cas, `a : |S||Ab||O||Θ||V0||B|. De cette fa¸con, le temps pour l’op´eration compl`ete pour tout b∈ B est :P

b∈B|S||Ab||O||Θ||V0|dans le pire cas.

D’autre part, lors du calcul des projections Γa,(o,θ), il est n´ecessaire de tenir compte du fait que chaqueα∈V0, a une action aassoci´ee. Et donc, pour un θdonn´e, nous allons projeter lesα-vecteurs dont l’action associ´eeaappartient `a l’ensemble d’actions r´ealisablesθ. Ceci est dˆu au fait que l’´etat de croyance futurb(o,θ)a , qui sera une distribution de probabilit´e sur des

´etats dont l’ensemble d’actions r´ealisables estθ(cf. th´eor`eme 5.3.2), aura sa valeur maximis´ee pour unα-vecteur deV0 dont l’action associ´ee appartient n´ecessairement `a l’ensembleθ.

En s’appuyant sur ces arguments, nous pr´esumons que le gain minimum dˆu au fait qu’on optimise directement le mod`ele AC-POMDP `a la place du POMDP ´equivalent vaut :

|∪s∈SAs| P

b∈B|Ab|. Sachant que pour plusieurs probl`emes, Ab peut ˆetre petit, puisqu’il contient les actions qui sont appliqu´ees pour toutstel queb(s)>0 en filtrant plusieurs actions, contrai-rement au cas classique o`u ∪s∈SAs qui contient toutes les actions du mod`ele, sera possible-ment (beaucoup) plus grand. De plus, comme les projections Γa,(o,θ) sont calcul´ees pour les α-vecteurs coh´erents avec θ, moins de vecteurs seront pris en compte. Ceci nous am`ene `a conclure que le gain de temps de calcul dans le pire cas sera lin´eaire, et polynomial dans le cas g´en´eral. Ceci sera mis en ´evidence dans nos r´esultats exp´erimentaux, pr´esent´es dans la section 5.6.

D’autre part, notons que le mod`ele AC-POMDP n’attribue pas valeur r(s, a)→ R `a la paire ´etat-action pour laquelle l’actionan’est pas r´ealisable dans l’´etats, puisque le mod`ele AC-POMDP ne tient simplement pas compte de cette paire, c’est-`a-dire que la paire n’a pas de raison d’exister. En termes d’α-vecteur, nous avons besoin d´efinir la valeur de ces actions sur l’espace des ´etats pour lesquels cette action est r´ealisable. Ainsi, leα-vecteur d’une action

Dans le document The DART-Europe E-theses Portal (Page 140-143)

Outline

Documents relatifs