AC-POMDP

Formellement, un AC-POMDP (Action Constrained POMDP ) est d´efini par un n-uplet hS, (A_s)_s∈S, Ω, T, O, F, I, R, b0, Θ0i, o`u :

– S est l’ensemble des ´etats ;

– (A_s)_s∈S est l’ensemble des ensembles d’actions applicables pour chaque état, avec A_s l’ensemble d’actions applicables pour un état donné s ;

– Ω = O × Θ est l’ensemble d’observations, tel que Θ ⊆ 2Â; les observations dans O et dans Θ sont indépendantes sachant chaque paire état-action ;

– T : S × A × S → [0, 1] est la fonction de transition, telle que : T (s, a, s⁰) = p(s_t+1= s⁰|s_t= s, a_t= a); – F : A × S → {0, 1} est la relation de faisabilit´e d’une action :

F(a, s) =

1 si a ∈ As

0 autrement

– O : O × A × S → [0, 1] est la fonction d’observation, telle que : O(o, a, s⁰) = p(ot+1= o|st+1= s⁰, at= a);

– I : Θ × S → {0, 1} est la relation de faisabilit´e d’un ensemble d’actions : I(θ, s⁰) = p(θ_t+1= θ | s_t+1= s⁰) =

1 si θ = A_s0

0 autrement

– R : S × A → R est la fonction de récompense r(s, a) associée à la paire état-action ; – b0 est l’état de croyance initial ;

– Θ₀ est l’ensemble initial d’actions applicables, observé lors de l’exécution avant l’ap-plication de la première action.

Il y a quatre diff´erences par rapport au mod`ele POMDP.

1. la relation de faisabilité d’une action dans un état est explicitement décrite ; 2. l’ensemble d’observations est un produit cartésien ;

3. la fonction d’observation est définie pour seulement la partie gauche du produit cartésien ; 4. il y a une observation initiale qui renseigne sur l’ensemble d’actions réalisables, similaire

a une approche existante dans le domaine non-déterministe [Pralet et al., 2010b], qui est requise pour appliquer la première action de manière sûre.

Dans la figure 5.3 nous illustrons l’AC-POMDP comme un processus stochastique contrôlé. L’action at exécutée à l’instant t est forcée d’appartenir à l’ensemble d’actions réalisables observées θt. L’observation suivante θt+1 est égale à l’ensemble d’actions réalisables Ast+1

applicable sur l’état caché s_t+1, qui est le résultat stochastique de l’application de a_tsur s_t.

st s_t+1 p(st+1|st, at)

ω_t

ot θt

ω_t+1

ot+1 θt+1 p^(o t+1 |s^t+1 ,a^t )

a

t r(st, at) a t∈ θ t θ^t+1 = A^s t+1

5.3. AC-POMDP

Les politiques AC-POMDP sont-elles s ˆures ?

Contrairement au cas des POMDP, les politiques AC-POMDP sont forcées d’exécuter seulement des actions qui sont applicables dans l’état caché du système. Étant donné un historique ht = (ω0 = (o0, θ0), ..., ωt = (ot, θt)) d’observations à l’instant t, nous définissons l’ensemble faisable de politiques comme :

Π^ht = {π ∈ A^∆: ∀ 0 6 i 6 t, π(bi((o₀, θ₀), · · · , (o_i, θ_i)) ∈ θ_i} (5.2) où, b_i((o₀, θ₀), · · · , (o_i, θ_i)) est l’état de croyance résultant de la politique π en recevant les observations ((o₀, θ₀), · · · , (o_i, θ_i)). Donc, résoudre un AC-POMDP consiste à trouver une politique déterministe stationnaire π^∗, telle que, pour tout b ∈ ∆ et θ ∈ Θ0 :

π^∗(b, θ) ∈ arg max π∈Π^h∞ E "+∞ X t=0 γ^tr(b_t, π(b_t) b₀= b, Θ₀= θ # (5.3)

L’idée de découpler les différentes informations spécifiques à la planification et au contrôle d’exécution afin de garantir la sûreté d’exécution des actions n’est pas nouvelle dans le domaine robotique. Par exemple, dans [Ingrand et al., 2007], une approche similaire est utilisée au travers de fonctionnalités spécifiques et découplées de la planification, comme dans le cas particulier du contrôle d’exécution. Plus précisément, un composant spécifique de l’architecture robotique peut être en charge du suivi de l’état et peut inhiber la réalisation d’une action indésirable en la remplacent par une action na¨ıve, qui n’appartient pas forcément au modèle. Ceci, dans certains cas, arrête l’exécution de la politique et conduit le superviseur `

a lancer une phase de replanification. Le but est d’éviter des dommages que pourrait subir le robot. Généralement, l’exécution de la politique doit être contrôlée pour garantir que le plan sera réalisé en toute sécurité. Pour cela, les systèmes autonomes sont généralement munis d’un composant responsable du contrôle d’exécution qui vérifie l’applicabilité des actions ainsi que l’évolution physique de l’engin. L’approche AC-POMDP vise ainsi à optimiser la politique de manière à tenir compte de ces contraintes en évitant des replanifications.

Dans la suite nous définirons la mise à jour de l’état de croyance dans le cadre du modèle AC-POMDP.

5.3.1 Mise `a jour de l’ ´etat de croyance

Comme pour les POMDP, nous devrons calculer le nouvel état de croyance de l’agent, que nous noterons bô,θa , après l’exécution de a dans l’état de croyance b et l’observation de (o, θ).

Théorème 5.3.1 Soit b l’état de croyance à un instant t donné, a l’action appliquée par l’agent à cet instant, et (o, θ) les observations immédiatement re¸cues. L’état de croyance suivant, pour tout état s⁰ suivant possible, est :

b^(o,θ)_a (s⁰) = ^{I(θ, s} 0)b^o_a(s⁰) P s00∈SI(θ, s⁰⁰)bo a(s00) ^(5.4) avec : b^o_a(s⁰) = ^{p(o | s} 0)P s∈Sp(s⁰| s, a)b(s) P s0∈Sp(o | s0)P s∈Sp(s0| s, a)b(s) ^(5.5)

Preuve. Quel que soit l’´etat suivant possible s⁰ et l’action a, nous avons : b^(o,θ)_a (s⁰) = P r(st+1= s⁰|ot+1= o, θt+1= θ, bt= b, at= a) =^{P r(s}^t+1^{= s} 0, o_t+1= o, θ_t+1= θ|b_t= b, a_t= a) P r(ot+1= o, θt+1= θ|bt= b, at= a) = ^{P r(θ}^t+1^{= θ|s}^t+1^{= s}

0, bt= b, at= a)P r(ot+1= o|st+1= s⁰, bt= b, at= a)P r(st+1= s⁰|bt= b, at= a)

s00∈SP r(θt+1= θ|st+1= s00, bt= b, at= a)P r(ot+1= o|st+1= s00, bt= b, at= a)P r(st+1= s00|bt= b, at= a)

(5.6)

La dernière factorisation réalisée au dénominateur vient du fait que les observations ot+1

et θ_t+1 sont indépendantes sachant l’état s⁰ et l’action a. Ainsi, en utilisant cette propriété dans le dénominateur nous pouvons écrire :

P r(ot+1= o, θt+1= θ | bt= b, at= a) comme le produit :

s00∈S

P r(θ_t+1= θ|s_t+1= s⁰⁰, b_t= b, a_t= a)P r(o_t+1= o|s_t+1= s⁰⁰, b_t= b, a_t= a)P r(s_t+1= s⁰⁰|bt= b, a_t= a)

Pour la suite, nous multiplions le num´erateur et le d´enominateur par le facteur _{P r(o} ¹

t+1=o|bt=b,at=a), en faisant l’hypoth`ese classique (comme dans les POMDP) que le d´enominateur de ce facteur

est diff´erent de z´ero. On retrouve donc :

b^(o,θ)_a (s⁰) =

P r(θt+1= θ | st+1= s⁰, bt= b, at= a)^{P r(o}t+1=o|st+1=s⁰,bt=b,at=a)P r(st+1=s⁰|bt=b,at=a)

P r(o_t+1=o|b_t=b,a_t=a)

s00∈SP r(θ_t+1= θ | s_t+1= s0, b_t= b, a_t= a)^{P r(o}t+1=o|s_t+1=s00,b_t=b,a_t=a)P r(s_t+1=s00|bt=b,a_t=a)

P r(ot+1=o|bt=b,at=a)

(5.7)

Ainsi, on fait apparaitre bô_a(s⁰) dans le numérateur et dans le dénominateur. De plus, on sait que P r(θ_t+1= θ | s_t+1= s⁰⁰, b_t= b, a_t= a) = I(θ, s⁰⁰), puisque la probabilité d’observer θ en étant en s⁰⁰ correspond à la relation de faisabilité I(θ, s⁰⁰). On retrouve donc :

bô,θ_a (s⁰) = ^{P r(θ}^t+1^{= θ | s}^t+1^{= s} 0)bô_a(s⁰) P s00∈SP r(θ_t+1= θ | s_t+1= s00)bo a(s00) = ^{I(θ, s} 0)bô_a(s⁰) P s00∈SI(θ, s⁰⁰)bo a(s⁰⁰) ^(5.8)

Finalement, on a bien l’expression finale de b^(o,θ)_a (s⁰).

L’équation 5.4 du théorème 5.3.1 montre que l’état de croyance d’un AC-POMDP se comporte comme si l’agent recevait les observations o puis θ, et mettait à jour son état de croyance entre les deux observations avec bô_a(s⁰). Autrement dit, la mise à jour de l’état de croyance est équivalente à observer l’environnement, comme dans le POMDP, à mettre à jour l’état de croyance, à ensuite observer θ (ensemble d’actions réalisables), à encore mettre `

a jour l’´etat de croyance pour finalement appliquer la prochaine action.

Sur la figure 5.4, nous présentons un schéma avec les évolutions probables de l’état de croyance b suite aux actions exécutées et aux observations o et θ re¸cues. Les rectangles oranges indiquent les états de croyance intermédiaires.

Une autre propriété qui découle de l’équation 5.4 est que, à tout instant t, tous les états s⁰ pour lesquels l’état de croyance courant est non nul ont le même ensemble d’actions réalisables. Cette propriété montre qu’exécuter des politiques dans le modèle AC-POMDP est cohérent avec le cadre proposé, c’est-à-dire qu’à aucun moment la politique optimisée n’exécutera d’actions infaisables dans les états cachés du système.

Formellement, nous définissons l’ensemble d’états supports d’un état de croyance par : σ(b^(o,θ)a ) = {s⁰∈ S : b^(o,θ)_a (s⁰) > 0}, ce qui sera utilisé dans le théorème suivant.

5.3. AC-POMDP t t + 1 b bô1 a₁ bô2 a1 a1 o1 o2 bô1 a2 bô2 a₂ a2 o1 o2 b^(o1,θ₁) a₁ b^(o1,θ2) a₁ θ1 θ2 b^(o1,θ₁) a2 b^(o1,θ₂) a₂ θ1 θ2

Figure 5.4 – Schéma de l’évolution stochastique de l’état de croyance.

Théorème 5.3.2 Soit b^(o,θ)a un état de croyance pour un instant t donné. Quelles que soient deux états s⁰₁ et s⁰₂ dans σ(b^(o,θ)a ), nous avons : A_s0

1 = A_s0 2.

Preuve. (Démonstration par l’absurde). Soient a l’action exécutée à un instant t quel-conque, o et θ les observations re¸cues à l’instant suivant t + 1, et s⁰₁ et s⁰₂ deux états suivants possibles, tels que s⁰₁, s⁰₂∈ σ(b^(o,θ)_a ).

Supposons que A_s0

1 6= A_s0

2, donc par définition I(θ, s⁰1) 6= I(θ, s⁰2) . Si I(θ, s⁰1) = 1 alors I(θ, s⁰₂) = 0 , et par l’équation 5.4 on voit que b^(o,θ)a (s⁰₂) = 0. Ce qui contredit le fait que s⁰₁, s⁰₂∈ σ(b^(o,θ)_a ). Donc, pour que s₁⁰, s⁰₂∈ σ(b^(o,θ)_a ), on a nécessairement A_s0

1 = A_s0 2.

La conséquence de ce théorème est très importante à l’exécution de la politique, ainsi que durant son optimisation : puisque tous les états support de l’état de croyance b ont le même ensemble d’actions réalisables, nous pouvons ainsi déduire l’ensemble d’actions réalisables de b, noté A_b, sans aucune ambigu¨ıté par :

A_b:= A_s, ∀s ∈ σ(b).

De cette fa¸con, les politiques AC-POMDP définies dans l’équation 5.3 peuvent être fonc-tion de b, avec un abus de notafonc-tion, tel que : π(b) = π(b, Ab). Ceci signifie que les politiques AC-POMDP et les politiques POMDP sont définies sur le même espace, ce qui nous per-met de comparer les politiques optimales des AC-POMDP avec les politiques optimales des POMDP équivalents. La transformation vers un POMDP équivalent sera présentée dans la section 5.4.

Dans la suite nous allons formaliser l’équation d’optimalité des AC-POMDP, afin de pouvoir extraire de cette équation des moyens de résolution efficaces par programmation dynamique.

5.3.2 Equation d’optimalit ´e pour le mod `ele AC-POMDP^´

Nous cherchons maintenant à définir l’équation d’optimalité des AC-POMDP. Notons que les politiques des AC-POMDP peuvent être optimisées sur des ensembles spécifiques d’actions (A_b := A_s, ∀s ∈ σ(b)). De cette fa¸con l’opérateur max sera utilisé pour un nombre (généralement) réduit d’actions, c’est-à-dire Ab ⊂ A, contrairement à l’approche classique des POMDP où toutes les actions du modèle doivent être évaluées. Ce théorème peut sembler évident à première vue, mais il repose sur le fait primordial que l’ensemble d’actions faisables peut être extrait d’un état de croyance donné sans ambigu¨ıté.

Théorème 5.3.3 L’équation d’optimalité d’un AC-POMDP est telle que : V^∗(b) = max a∈A_b   r(b, a) + γ^X o∈O θ∈Θ p(o, θ | a, b)V^∗b^(o,θ)_a    (5.9)

avec b^(o,θ)a donn´e par l’´equation 5.4, et :

p(o, θ | a, b) = ^X

s0∈S

I(θ, s⁰)O(o, a, s⁰)^X

s∈S

T (s, a, s⁰)b(s) (5.10)

Preuve. Suivant le théorème 5.3.2, l’ensemble d’actions réalisables observé avant le calcul de l’état de croyance b, c’est-à-dire, θt−1, peut être déduit de b sans aucune ambigu¨ıté : θ_t−1 = A_b = A_s, quel que soit s ∈ σ(b). Cette déduction est nécessaire pour l’optimisation, puisque au moment de l’optimisation on ne connait pas à l’avance quel sera le θ observé. De plus, nous savons que les politiques optimales sont forcées d’appliquer uniquement des actions faisables : suivant l’équation 5.3, les actions gloutonnes candidates pour maximiser la fonction de valeur doivent être choisies parmi A_b. Donc l’équation 5.9 peut être obtenue de la même fa¸con que pour les POMDP, en considérant (o, θ) comme une observation jointe. Ainsi, l’équation 5.10 peut être obtenue en faisant dépendre θ et o de s⁰ et a, comme pour la mise à jour de l’état de croyance, car ces deux observations sont indépendantes sachant s⁰ et a :

p(o, θ | a, b) =P

s0∈SP r(θ | s⁰, a)P r(o | s⁰, a)P r(s⁰ | a, b)

s0∈SI(θ, s⁰)O(o, a, s⁰)P

s∈ST (s, a, s⁰)b(s)

Ce théorème nous permet d’utiliser la programmation dynamique pour le calcul des politiques optimales pour les AC-POMDP. Contrairement à l’artifice utilisant des pénalités “infinies”, aucune pénalité artificielle et empirique n’est requise dans notre cas. L’opérateur max opère aussi sur un nombre réduit d’actions.

Pour comparer les politiques calculées pour les AC-POMDP avec un modèle POMDP classique et équivalent, nous avons besoin de définir la transformation entre AC-POMDP et POMDP. Dans certains domaines l’information concernant la faisabilité d’une action est encodée de manière indirecte dans l’espace d’observation ; par exemple, dans le domaine hallway, la configuration des murs fait partie du modèle d’observation. Ceci suggère que le modèle POMDP contient le modèle AC-POMDP. La conclusion est que nous pouvons transformer n’importe quel AC-POMDP en un POMDP équivalent, avec des actions et des fonctions d’observation et de récompense différentes.

Dans le document Planification de perception et de mission en environnement incertain : Application à la détection et à la reconnaissance de cibles par un hélicoptère autonome (Page 136-140)

ωt

ωt+1

a

ω_t

ω_t+1