AC-POMDP Les politiques AC-POMDP sont-elles s ˆ ures ?

Prise en compte de contraintes de faisabilit´e d’actions dans le cadre POMDP

5.3. AC-POMDP Les politiques AC-POMDP sont-elles s ˆ ures ?

Contrairement au cas des POMDP, les politiques AC-POMDP sont forcées d’exécuter seulement des actions qui sont applicables dans l’état caché du système. Étant donné un historiqueht = (ω0 = (o0, θ0), ..., ωt = (ot, θt)) d’observations à l’instant t, nous définissons l’ensemble faisable de politiques comme :

Π^h^t ={π∈ A^∆:∀06i6t, π(b_i((o₀, θ₀),· · ·,(o_i, θ_i))∈θ_i} (5.2) où, b_i((o₀, θ₀),· · · ,(o_i, θ_i)) est l’état de croyance résultant de la politique π en recevant les observations ((o₀, θ₀),· · · ,(o_i, θ_i)). Donc, résoudre un AC-POMDP consiste à trouver une politique déterministe stationnaire π^∗, telle que, pour toutb∈∆ etθ∈Θ0 :

π^∗(b, θ)∈arg max

π∈Π^h∞

"_+∞

t=0

γ^tr(b_t, π(b_t)

b₀=b,Θ₀=θ

(5.3)

L’idée de découpler les différentes informations spécifiques à la planification et au contrôle d’exécution afin de garantir la sûreté d’exécution des actions n’est pas nouvelle dans le domaine robotique. Par exemple, dans [Ingrand et al., 2007], une approche similaire est utilisée au travers de fonctionnalités spécifiques et découplées de la planification, comme dans le cas particulier du contrôle d’exécution. Plus précisément, un composant spécifique de l’architecture robotique peut être en charge du suivi de l’état et peut inhiber la réalisation d’une action indésirable en la remplacent par une action na¨ıve, qui n’appartient pas forcément au modèle. Ceci, dans certains cas, arrête l’exécution de la politique et conduit le superviseur

a lancer une phase de replanification. Le but est d’éviter des dommages que pourrait subir le robot. Généralement, l’exécution de la politique doit être contrôlée pour garantir que le plan sera réalisé en toute sécurité. Pour cela, les systèmes autonomes sont généralement munis d’un composant responsable du contrôle d’exécution qui vérifie l’applicabilité des actions ainsi que l’évolution physique de l’engin. L’approche AC-POMDP vise ainsi à optimiser la politique de manière à tenir compte de ces contraintes en évitant des replanifications.

Dans la suite nous définirons la mise à jour de l’état de croyance dans le cadre du modèle AC-POMDP.

5.3.1 Mise `a jour de l’ ´etat de croyance

Comme pour les POMDP, nous devrons calculer le nouvel état de croyance de l’agent, que nous noterons bô,θa , après l’exécution de a dans l’état de croyance b et l’observation de (o, θ).

Théorème 5.3.1 Soit b l’état de croyance à un instant t donné, a l’action appliquée par l’agent à cet instant, et (o, θ) les observations immédiatement re¸cues. L’état de croyance suivant, pour tout état s⁰ suivant possible, est :

b^(o,θ)_a (s⁰) = I(θ, s⁰)b^o_a(s⁰) P

s⁰⁰∈SI(θ, s⁰⁰)b^o_a(s⁰⁰) (5.4) avec :

b^o_a(s⁰) = p(o|s⁰)P

s∈Sp(s⁰|s, a)b(s) P

s⁰∈Sp(o|s⁰)P

s∈Sp(s⁰|s, a)b(s) (5.5)

Preuve. Quel que soit l’´etat suivant possible s⁰ et l’actiona, nous avons : b^(o,θ)_a (s⁰) =P r(st+1=s⁰|ot+1=o, θt+1=θ, bt=b, at=a)

=P r(s_t+1=s⁰, o_t+1=o, θ_t+1=θ|bt=b, a_t=a) P r(ot+1=o, θt+1 =θ|bt=b, at=a)

= P r(θt+1=θ|st+1 =s⁰, bt=b, at=a)P r(ot+1=o|st+1=s⁰, bt=b, at=a)P r(st+1=s⁰|bt=b, at=a) P

s⁰⁰∈SP r(θt+1=θ|st+1=s⁰⁰, bt=b, at=a)P r(ot+1=o|st+1=s⁰⁰, bt=b, at=a)P r(st+1=s⁰⁰|bt=b, at=a) (5.6)

La dernière factorisation réalisée au dénominateur vient du fait que les observations ot+1

etθ_t+1 sont indépendantes sachant l’état s⁰ et l’action a. Ainsi, en utilisant cette propriété dans le dénominateur nous pouvons écrire :

P r(ot+1 =o, θt+1 =θ|bt=b, at=a) comme le produit :

s⁰⁰∈S

P r(θ_t+1=θ|st+1=s⁰⁰, b_t=b, a_t=a)P r(o_t+1=o|st+1=s⁰⁰, b_t=b, a_t=a)P r(s_t+1=s⁰⁰|bt=b, a_t=a)

Pour la suite, nous multiplions le num´erateur et le d´enominateur par le facteur _{P r(o} ¹

t+1=o|bt=b,at=a), en faisant l’hypoth`ese classique (comme dans les POMDP) que le d´enominateur de ce facteur

est diff´erent de z´ero. On retrouve donc : b^(o,θ)_a (s⁰) =

P r(θt+1=θ|st+1=s⁰, bt=b, at=a)^{P r(o}^t+1^=o|s^t+1^=s_{P r(o}⁰^,b^t^=b,a^t^{=a)P r(s}^t+1^=s⁰^|b^t^=b,a^t^=a)

t+1=o|bt=b,a_t=a)

s⁰⁰∈SP r(θ_t+1=θ|s_t+1=s⁰, b_t=b, a_t=a)^{P r(o}^t+1^=o|s^t+1^=s_{P r(o}⁰⁰^,b^t^=b,a^t^{=a)P r(s}^t+1^=s⁰⁰^|b^t^=b,a^t^=a)

t+1=o|bt=b,at=a)

(5.7) Ainsi, on fait apparaitrebô_a(s⁰) dans le numérateur et dans le dénominateur. De plus, on sait queP r(θ_t+1=θ|s_t+1=s⁰⁰, b_t=b, a_t=a) =I(θ, s⁰⁰), puisque la probabilité d’observerθ en

étant ens⁰⁰ correspond à la relation de faisabilité I(θ, s⁰⁰). On retrouve donc : bô,θ_a (s⁰) = P r(θt+1=θ|st+1 =s⁰)bô_a(s⁰)

s⁰⁰∈SP r(θ_t+1=θ|s_t+1=s⁰⁰)b^o_a(s⁰⁰)

= I(θ, s⁰)b^o_a(s⁰) P

s⁰⁰∈SI(θ, s⁰⁰)b^o_a(s⁰⁰) (5.8) Finalement, on a bien l’expression finale deb^(o,θ)_a (s⁰).

L’équation 5.4 du théorème 5.3.1 montre que l’état de croyance d’un AC-POMDP se comporte comme si l’agent recevait les observations o puis θ, et mettait à jour son état de croyance entre les deux observations avec bô_a(s⁰). Autrement dit, la mise à jour de l’état de croyance est équivalente à observer l’environnement, comme dans le POMDP, à mettre à jour l’état de croyance, à ensuite observerθ(ensemble d’actions réalisables), à encore mettre

a jour l’´etat de croyance pour finalement appliquer la prochaine action.

Sur la figure 5.4, nous présentons un schéma avec les évolutions probables de l’état de croyance b suite aux actions exécutées et aux observations o et θ re¸cues. Les rectangles oranges indiquent les états de croyance intermédiaires.

Une autre propriété qui découle de l’équation 5.4 est que, à tout instant t, tous les

étatss⁰ pour lesquels l’état de croyance courant est non nul ont le même ensemble d’actions réalisables. Cette propriété montre qu’exécuter des politiques dans le modèle AC-POMDP est cohérent avec le cadre proposé, c’est-à-dire qu’à aucun moment la politique optimisée n’exécutera d’actions infaisables dans les états cachés du système.

Formellement, nous définissons l’ensemble d’états supports d’un état de croyance par : σ(b^(o,θ)a ) ={s⁰∈ S :b^(o,θ)a (s⁰)>0}, ce qui sera utilisé dans le théorème suivant.

5.3. AC-POMDP

t t+ 1

b^oa¹₁

b^oa²1

b^oa¹2

b^oa²₂

b^(oa₁¹^,θ¹⁾

b^(oa₁¹^,θ²⁾

θ1

θ2

b^(oa2¹^,θ¹⁾

b^(oa₂¹^,θ²⁾

θ1

θ2

Figure 5.4 – Schéma de l’évolution stochastique de l’état de croyance.

Théorème 5.3.2 Soitb^(o,θ)a un état de croyance pour un instanttdonné. Quelles que soient deux états s⁰₁ et s⁰₂ dans σ(b^(o,θ)a ), nous avons : A_s⁰

1 =A_s⁰

Preuve. (Démonstration par l’absurde). Soiental’action exécutée à un instantt quel-conque,oetθles observations re¸cues à l’instant suivantt+ 1, ets⁰₁ ets⁰₂ deux états suivants possibles, tels ques⁰₁, s⁰₂∈σ(b^(o,θ)a ).

Supposons que A_s⁰

1 6= A_s⁰

2, donc par définition I(θ, s⁰₁) 6= I(θ, s⁰₂) . Si I(θ, s⁰₁) = 1 alors I(θ, s⁰₂) = 0 , et par l’équation 5.4 on voit que b^(o,θ)a (s⁰₂) = 0. Ce qui contredit le fait que s⁰₁, s⁰₂∈σ(b^(o,θ)a ). Donc, pour ques⁰₁, s⁰₂∈σ(b^(o,θ)a ), on a nécessairementA_s⁰

1 =A_s⁰

La conséquence de ce théorème est très importante à l’exécution de la politique, ainsi que durant son optimisation : puisque tous les états support de l’état de croyancebont le même ensemble d’actions réalisables, nous pouvons ainsi déduire l’ensemble d’actions réalisables de b, noté A_b, sans aucune ambigu¨ıté par :

A_b:=A_s,∀s∈σ(b).

De cette fa¸con, les politiques AC-POMDP définies dans l’équation 5.3 peuvent être fonc-tion deb, avec un abus de notation, tel que :π(b) =π(b,A_b). Ceci signifie que les politiques AC-POMDP et les politiques POMDP sont définies sur le même espace, ce qui nous per-met de comparer les politiques optimales des AC-POMDP avec les politiques optimales des POMDP équivalents. La transformation vers un POMDP équivalent sera présentée dans la section 5.4.

Dans la suite nous allons formaliser l’équation d’optimalité des AC-POMDP, afin de pouvoir extraire de cette équation des moyens de résolution efficaces par programmation dynamique.

5.3.2 Equation d’optimalit ´e pour le mod `ele AC-POMDP´

Nous cherchons maintenant à définir l’équation d’optimalité des AC-POMDP. Notons que les politiques des AC-POMDP peuvent être optimisées sur des ensembles spécifiques d’actions (A_b :=A_s,∀s∈σ(b)). De cette fa¸con l’opérateurmax sera utilisé pour un nombre (généralement) réduit d’actions, c’est-à-dire A_b ⊂ A, contrairement à l’approche classique des POMDP où toutes les actions du modèle doivent être évaluées. Ce théorème peut sembler

évident à première vue, mais il repose sur le fait primordial que l’ensemble d’actions faisables peut être extrait d’un état de croyance donné sans ambigu¨ıté.

Théorème 5.3.3 L’équation d’optimalité d’un AC-POMDP est telle que :

V^∗(b) = max

a∈Ab





r(b, a) +γX

o∈O θ∈Θ

p(o, θ|a, b)V^∗ b^(o,θ)_a





 (5.9)

avec b^(o,θ)a donn´e par l’´equation 5.4, et :

p(o, θ|a, b) = X

s⁰∈S

I(θ, s⁰)O(o, a, s⁰)X

s∈S

T(s, a, s⁰)b(s) (5.10) Preuve. Suivant le théorème 5.3.2, l’ensemble d’actions réalisables observé avant le calcul de l’état de croyance b, c’est-à-dire, θt−1, peut être déduit de b sans aucune ambigu¨ıté : θt−1 =A_b =A_s, quel que soit s∈σ(b). Cette déduction est nécessaire pour l’optimisation, puisque au moment de l’optimisation on ne connait pas à l’avance quel sera le θ observé.

De plus, nous savons que les politiques optimales sont forcées d’appliquer uniquement des actions faisables : suivant l’équation 5.3, les actions gloutonnes candidates pour maximiser la fonction de valeur doivent être choisies parmi A_b. Donc l’équation 5.9 peut être obtenue de la même fa¸con que pour les POMDP, en considérant (o, θ) comme une observation jointe.

Ainsi, l’équation 5.10 peut être obtenue en faisant dépendre θ et o de s⁰ et a, comme pour la mise à jour de l’état de croyance, car ces deux observations sont indépendantes sachants⁰ eta:

p(o, θ|a, b) =P

s⁰∈SP r(θ|s⁰, a)P r(o|s⁰, a)P r(s⁰ |a, b)

s⁰∈SI(θ, s⁰)O(o, a, s⁰)P

s∈ST(s, a, s⁰)b(s)

Ce théorème nous permet d’utiliser la programmation dynamique pour le calcul des politiques optimales pour les AC-POMDP. Contrairement à l’artifice utilisant des pénalités

“infinies”, aucune pénalité artificielle et empirique n’est requise dans notre cas. L’opérateur max opère aussi sur un nombre réduit d’actions.

Pour comparer les politiques calculées pour les AC-POMDP avec un modèle POMDP classique et équivalent, nous avons besoin de définir la transformation entre AC-POMDP et POMDP. Dans certains domaines l’information concernant la faisabilité d’une action est encodée de manière indirecte dans l’espace d’observation ; par exemple, dans le domaine hallway, la configuration des murs fait partie du modèle d’observation. Ceci suggère que le modèle POMDP contient le modèle AC-POMDP. La conclusion est que nous pouvons transformer n’importe quel AC-POMDP en un POMDP équivalent, avec des actions et des fonctions d’observation et de récompense différentes.

Dans le document The DART-Europe E-theses Portal (Page 137-140)