PCVI : PreConditions Value Iteration - Prise en compte de contraintes de faisabilit´e d’actions

Prise en compte de contraintes de faisabilit´e d’actions dans le cadre POMDP

5.5 PCVI : PreConditions Value Iteration

s₄

s₁

s₃

s₂ αa₁

αa₂

αa₃

(a) Espace de d´efinition desα-vecteurs dans les POMDP.

s₄

s₁

s₃

s₂ αa₁

αa₂

α_a₃

(b) Espace de définition desα-vecteurs dans les AC-POMDP. Notez que :a1est réalisable sur les 4 états ;a2 est réalisable ens1 ets4; eta3 n’est réalisable qu’ens2.

Figure 5.5 – Schéma de l’espace de définition des α-vecteurs pour un POMDP et un AC-POMDP à 4 états, pour lesquels l’actionaassociée auα-vecteur n’est pas réalisable sur tous les états. Notez que la représentation utilisée est abusive, étant donné qu’une fonction de valeur du POMDP sur 4 états nécessite d’un représentation à 4 dimensions.

an’a sa valeur définie que sur les sommetssoù cette action est définie. L’espace de définition desα-vecteurs du modèle AC-POMDP est illustré sur la figure 5.5. Notons que contrairement au modèle MOMDP, qui définit un sous-espaceY ⊂Sde variables partiellement observables, sur lequel tous lesα-vecteurs de la fonction de valeur sont définis, le modèle AC-POMDP ne définit pas de sous-espace : l’espace d’état est le même que pour le modèle POMDP, mais un α-vecteur n’a sa valeur définie que pour les états où réaliser l’action associée à cetα-vecteur a un sens. De cette fa¸con, les différents α-vecteurs qui constituent la fonction de valeur des AC-POMDP ont des supports différents.

Dans la prochaine section, nous formalisons notre algorithme PCVI (PreCondition Value Iteration), dédié à une résolution directe du modèle AC-POMDP. PCVI a été con¸cu pour mettre en évidence un gain de temps de calcul dû à la structure particulière du modèle AC-POMDP, discuté dans cette sous-section, ainsi que le respect des contraintes de faisabilité sur les actions du modèle à certains états.

5.5 PCVI : PreConditions Value Iteration

Dans le but de valider notre approche, nous avons implémenté PCVI –PreCondition Va-lue Iteration, un algorithme point-based qui est une adaptation de l’algorithme d’itérations sur la valeur PBVI à des contraintes de faisabilité d’actions. PCVI travaille sur un ensemble finiB={b₀, ..., bn}d’états de croyance et utilise la nouvelle mise à jour de l’état de croyance de l’équation 5.4 ainsi que l’opérateur de mise à jour de la valeur de l’équation 5.9. Ces opérations nous permettent de prendre en compte les préconditions sur les actions directe-ment à partir des différents ensembles d’actions réalisables Θ = {θ₁, ..., θm}. PCVI, comme PBVI, explore l’espace d’états de croyance par des trajectoires stochastiques. Toutefois, il existe quatre différences majeures par rapport à PBVI :

– Les projections Γâ,(o,θ)sont calculées pour les paires (o, θ), oùoreprésente l’observation standard etθl’observation sur l’ensemble d’actions réalisables, contrairement à PBVI qui ne fait aucune différence entre elles ;

– PBVI calcule les projections Γâ,(o,θ) pour tout α-vecteur en V⁰. PCVI, au contraire, calcule les Γâ,(o,θ) pour toutα-vecteur de V⁰ tel que aα ∈θ, c’est-à-dire qu’il ne tient compte que desα-vecteurs deV⁰ cohérents avecθ. De cette fa¸con, moins deα-vecteurs seront projetés.

– La mise à jour de la fonction de valeur V pour un état de croyance donné est évaluée seulement pour les actions dansA_b, contrairement à PBVI qui évalue toutes les actions du modèle.

– Un α-vecteur n’a sa valeur définie que sur les états (sommets s) où l’action associée est réalisable.

Afin de formaliser les op´erations de projection et de mise `a jour de la valeur pour un

état de croyance donné, nous détaillons dans la suite l’opérateur de mise à jour de la valeur (backup) utilisé par PCVI.

Comme pour les m´ethodes de r´esolution exactes [Smallwood et Sondik, 1971], l’algorithme PCVI calcule les ensembles de projections des α-vecteurs pour chaque action a et chaque paire d’observations (o, θ), tels que :

Γ^a,(o,θ)←α^a,(o,θ)(s) =γ X

s⁰∈S

p(s⁰|s, a)F(a, s)p(o|, a, s⁰)I(θ, s⁰)α_i(s⁰), ∀α_i ∈V⁰aveca_α_i ∈θ (5.14) où F(a, s) représente la relation de faisabilité d’une action dans un état. Ceci est nécessaire pour empêcher l’algorithme d’associer une valeur à une actionaqui n’est pas réalisable dans un état s, ce qui n’aurait pas de sens.

Ensuite, en utilisant un sous ensemble B constitué des pointsb de l’espace des états de croyance obtenus à partir des simulations stochastiques de la dynamique du système comme pour le cas des algorithmes PBVI et Perseus, PCVI calcule l’ensemble Γâ_b des α-vecteurs pour touta∈ A_b, selon :

Γ^a_b ←Γ^a,∗+γX

arg max

α^a,(o,θ)_i ∈Γ^a,(o,θ)

b·α^a,(o,θ)_i (5.15)

avec le revenu immédiat Γâ,∗ ← αâ,∗(s) = r(s, a)F(a, s), construit de telle fa¸con qu’aucune récompense ne soit associée aux états pour lesquels l’action an’est pas réalisable. Ainsi, les α-vecteurs générés pour une action aont leur valeur définie sur les états de S, pour lequel cette action est réalisable.

La mise à jour de la fonction de valeur est donc réalisée par l’opération de backup, telle que :

V ←backup(b) = arg max

α^a_b∈Γ^a_b,a∈Ab

b·αâ_b, ∀b∈ B (5.16) Comme déjà mentionné (voir figure 5.5), dans le modèle AC-POMDP, la relation de faisabilité F(a, s) est définie. Donc, pour une paire (s, a) si l’action a est réalisable,F(a, s) = 1, sinon, F(a, s) = 0. Le modèle AC-POMDP n’attribue pas de valeurr(s, a)→R à cette paire ´ etat-action, puisque le modèle AC-POMDP ne tient pas compte de cette paire. Pour cela, nous avons besoin de filtrer la valeur de ces états. Ceci est fait par la multiplicationr(s, a)F(a, s).

Cette multiplication joue le rôle d’un filtre en laissant passer la valeur des états s pour lesquels a est réalisable et en mettant à zéro la valeur des états pour lesquels a n’est pas réalisable. Ceci est une fa¸con de définir la valeur de ces actions uniquement sur les états pour lesquels cette action est réalisable. Ainsi, le α-vecteur d’une action a n’a sa valeur définie que sur les sommetssoù cette action est définie.

Notons que l’opération arg max de l’équation 5.16 pour un b ∈ B ne tient compte que des α-vecteurs dont les actions associées appartiennent à A_b. De plus, nous savons que les composantes, c’est-à-dire les états supports de b, tels que b(s) > 0, appartiennent à σ(b).

CommeA_b est construit selonA_b :=A_s,∀s∈σ(b), lors du produit scalaire, les composantes deb qui ont une valeur plus grande que z´ero ont aussi une valeur d´efinie dans lesα-vecteurs

évalués. Ceci nous permet de mettre à zéro les composantes α(s) tels que F(s, a_α) = 0. Ce masque se rapproche des masques de type BDD utilisés dans les approches symboliques à

5.5. PCVI : PreConditions Value Iteration base des ADD [Feng et et al., 2002, Feng et al., 2002]. De plus, si on n’utilise pas le masque F(s, a_α) = 0, une action non réalisable en s pourrait avoir une valeur non nulle incorrecte qui pourrait être évaluée et comparée aux autres.

Nous tenons à remarquer, que nous nous sommes aussi intéressée à une version relaxée de l’équation d’optimalité utilisée par PCVI qui permet, à la manière des MOMDP, de découpler les observations standard des observations sur les faisabilité d’actions et à réduire de fa¸con exponentielle en nombre d’observation |Θ| le temps de calcul. Cette version relaxée sera présenté plus tard.

Dans la prochaine section, nous détaillerons le pseudo-code de la versionnon-relaxé de notre algorithme PCVI qui s’appuie sur les opérations de projection et de mise à jour de la valeur que nous venons de présenter, et qui nous appelons PCVI1.

5.5.1 Algorithme PCVI1

L’algorithme 9 formalise le pseudo-code de PCVI. Comme déjà mentionné, PCVI est un algorithme basé sur l’itération approchée de la valeur. Pour cela il est nécessaire de générer les états de croyance qui formeront l’ensembleB.

PCVI initialise l’ensemble B au début de la résolution (ligne 3), à partir de b0 et de Θ0

selon équation 5.8. Notons qu’au moment de l’optimisation PCVI ne connaˆıt pas à l’avance Θ₀, puisque Θ₀ est la première observation re¸cue avant la réalisation de la première action.

Pour cela, il est nécessaire de tenir compte de tout Θ0 possible par rapport à b0. Nous avons besoin de vérifier quels sont les états s pour lesquels b₀(s) > 0, afin d’identifier les Θ₀ possibles. La mise à jour avec l’équation 5.8 est ainsi réalisée pour tout Θ₀ possible, et chaqueb^Θ₀⁰ généré est intégré à B.

Ensuite, les projections Γâ,(o,θ) de la fonction de valeur Vk−1 sont calculées (ligne 9) suivant l’opérateur décrit dans l’équation 5.14. Notons qu’à ce moment, les projections seront générées pour toutes les actions du modèle. Nous avons séparé le calcul des projections de la boucle de mise à jour de la valeur pour les états de croyance, afin de les calculer une fois pour toutes (comme dans PBVI).

Ensuite, pour tout b∈ B l’opérateur de mise à jour de la valeur est appliqué (lignes 11 et 12), suivant les équations 5.15 et 5.16. Une fois les opérations de mise à jour réalisées, l’ensemble Best étendu.

L’ensembleB est étendu comme pour PBVI : pour chaque pointb∈ B, un état sest tiré suivant b(s), puis pour chaque action a ∈ A_b (A_b construit selon A_b := A_s,∀s ∈ σ(b)), une paire d’observations est tirée suivant I(θ, s⁰), p(o|s⁰) et p(s⁰|s, a), ainsi un ensemble {b_a₀, ..., baj} est créé. L’étape suivante consiste à mesurer la distance euclidienne des points {b_a₀, ..., b_a_j} par rapport à toutb∈ B, et le point le plus distant de tous les b∈ B est choisi et intégré à B.

L’algorithme PCVI s’arrête dès que K itérations sont réalisées ou quand la différence maximale entre les valeurs actuelle et précédente pour toutb∈ B est plus petite qu’un seuil défini par l’utilisateur.

Comme déjà mentionné, le masque F(a, s), utilisé dans la ligne 9 permet de filtrer les valeurs des vecteurs pour chaque action alors de projections de valeurs futurs. Ainsi, nous

évitons de répercuter une valeur non nulle d’une composante du α-vecteur projeté dans l’instant présent sur les états où l’action a n’est pas réalisable. Ceci garantit qu’une valeur non nulle incorrecte puisse être évaluée et comparée aux autres.

Notons que la fonction de valeur obtenue contient tous lesα-vecteur, sans faire la différence entre lesα-vecteurs dont les composantes ont des valeurs définies sur des états différents. Le choix du bonα-vecteur à évaluer dans les opérations des lignes 9, 11 et 12 dépend deθ(ligne 9) et de A_b (lignes 11 et 12). Contrairement à ce qui est fait dans le cadre MOMDP, dans l’algorithme 7 présenté au chapitre 2, la sélection du bon α-vecteur défini sur le sous-espace

Algorithme 9:PCVI1 entr´ee: POMDP,K

sortie : fonction de valeurV

1 k←0 ;

13 Etendre´ Bcomme dans l’algorithme PBVI [Pineauet al., 2003] ;

14 untilk < Kou||maxα_k∈Vkαk·b−maxαk−1∈Vk−1α_k−1·b||< ,∀b∈ B;

Y, est faite en choisissant d’abord le sous-ensemble deα-vecteurs correspondant à la variable visiblex∈X, puisque la fonction de valeur sur l’espace complet d’états est paramétrée par un ensemble de ΓY(x), c’est-à-dire Γ ={Γ_Y(x)|x∈ X }.

Nous nous sommes aussi intéressée à une version relaxée de l’équation d’optimalité utilisée par PCVI qui permet, à la manière des MOMDP, de découpler les observations standard des observations sur les faisabilité d’actions. Cette version relaxée, que nous avons appelé PCVI2, est basée sur une borne inférieure de la valeur pour un état de croyance donné. Nous verrons dans la section 5.6 que cette version relaxée sous-optimale permet d’accélérer encore plus le temps de calcul (gain exponentiel en la taille de Θ) avec des récompenses espérées correctes dans certains domaines.

5.5.2 Algorithme PCVI2

Afin de mettre en ´evidence la construction de la borne inf´erieure de la valeur pour un

état de croyanceb donné utilisée dans une version relaxée de PCVI, l’équation 5.9, pour un instantn, peut être réécrite telle que :

En développant cette équation en fonction deVn(b^(o,θ)a ) paramétrée par des α-vecteurs nous avons :

5.5. PCVI : PreConditions Value Iteration En utilisant l’´equation 5.4, dans l’´equation 5.18 :

V_n+1(b) = max

Cette mise à jour sous-optimale de la valeur pour un état de croyance donné nous permet de calculer des projections non plus pour les couples (o, θ), mais seulement pour les différents o∈ O comme dans le cas classique des POMDP :

Γ^a,o ← α^a,o(s) =γ X

Etant donn´´ e que l’ensemble O O ×Θ, le nombre de projections calculées est divisé par |Θ|. Ainsi, le temps de calcul sera réduit significativement par l’utilisation de ce calcul approché. Le pseudo-code de PCVI2 est quasiment le même que PCVI1. Les différences sont telles que :

1. les projections de la ligne 9 de l’algorithme 9 sont calculées suivant l’équation 5.21 ; 2. la mise à jour de la valeur réalisée dans les lignes 11 et 12 de l’algorithme 9 sera faite

selon les ´equations 5.22 et 5.23.

Ainsi, le nombre d’it´erations de la boucle for est divis´e par |Θ| ainsi que la taille de la fonction de valeur.

Dans la prochaine section, nous présentons nos résultats expérimentaux pour cette nou-velle approche de résolution qui découple les différentes informations des observations. Nous cherchons à démontrer que les politiques AC-POMDP obtenues pour cette nouvelle ap-proche sont fondées et équivalentes aux politiques des POMDP transformées. Nous met-trons en évidence l’efficacité des algorithmes PCVI1 et PCVI2 dans des problèmes avec des contraintes sur les actions modélisées par des préconditions.

Dans le document The DART-Europe E-theses Portal (Page 143-148)