Les mod èles POMDP factoris és et avec observabilit é mixte

Processus D´ecisionnels de Markov Partiellement Observables - POMDP

2.5 Les mod èles POMDP factoris és et avec observabilit é mixte

2.5.1 Le mod `ele POMDP factoris ´e

Dans les POMDP, les fonctions de transition d’état, d’observation et de récompense uti-lisent l’espace d’état pour la définition des domaines. Pour les problèmes avec un espace d’état important, des techniques ont été développées pour représenter ces fonctions de transition, d’observation et de récompense de manière compacte et structurée [Poupart, 2005].

Une des récentes avancées, en ce qui concerne la résolution des POMDP et la représentation des problèmes réalistes, exploite des propriétés structurelles du problème [Poupart, 2005], afin de résoudre des problèmes de grande taille sans énumérer les états individuels. Un lien avec ce qui a été développé pour les réseaux bayésiens dynamiques (DBN) peut être fait ici.

Les réseaux bayésiens permettent de représenter des distributions de probabilité jointes sur un ensemble de variables à partir d’une connaissance a priori entre la relation entre ces variables [Djian et al., 1995, Marchand et Chaumette, 1997]. En particulier, les réseaux bayésiens dynamiques, DBN - Dynamic Bayesian Network, [Dean et Kanazawa, 1989, Mur-phy, 2002] sont une extension aux réseaux bayésiens et permettent de représenter l’évolution des variables aléatoires du réseau selon un axe temporel discret. Dans plusieurs domaines, il est possible de définir les fonctions de transition d’état, d’observation, et de récompense en fonction des variables d’états, variables d’observations et variables d’actions. Ceci permet une représentation compacte du problème sous forme de DBN, mais aussi graphique (voir figure 2.12).

L’états∈Sd’un POMDP factorisé regroupe toutes les variables pertinentes pour décrire l’univers du problème. Une variable de cet univers est représentée par une variable d’étatsi

avec un domaine dom(si). Donc, chaque état s est une conjonction des N variables d’état instanciées s₁, s₂, .., s_N. La taille des états est exponentielle en N, avec |S| = |dom(s₁)| ×

|dom(s₂)| ×...× |dom(s_N)|. De même, il est possible de décomposer l’espace d’actions A et l’espace d’observations Ω : chaque action acorrespondrait à une instanciation jointe des variables d’action, et chaque observation o correspondrait à une instanciation jointe des variables d’observation.

Les probabilités conditionnelles p(s⁰|s, a) et p(o|s⁰, a) peuvent être représentées par un graphe acyclique dirigé, comme celui de la figure 2.12. Dans ce graphe, les nœuds sont les variables d’état, d’action et d’observation, et les arêtes représentent les dépendances probabilistes. Les nœuds sont disposés en deux colonnes successives dans le temps. Chaque nœud s⁰_i a une table de probabilité conditionnelle associée p(s⁰_i | parents(s⁰_i)), qui spécifie

2.5. Les modèles POMDP factorisés et avec observabilité mixte.

t t+ 1

s s⁰

s⁰₁

s⁰₂

s⁰₃ p(s⁰|s, a)

o1 o2

p(o|s⁰, a)

Figure 2.12 – Modèle factorisé de la fonction de transition d’état et d’observation d’un POMDP à 3 variables d’état et 2 variables d’observation pour une actiona.

une distribution de probabilité conditionnelle par rapport à ses variables d’états parentes.

L’utilisation des DBN permet la décomposition de la fonction de transition d’états sous forme d’un produit des distributions de probabilités conditionnelles de la fonction de transition de chaque variable d’état (voir figure 2.13(a)),

p(s⁰|s, a) = p(s⁰₁, s⁰₂, s3|s₁, s2, s3, a)

= p(s⁰₁|s₁, a)p(s⁰₂|s₁, s2, a)p(s⁰₃|s₃, a) et ceci `a condition que s⁰₁, s⁰₂ ets⁰₃ soient ind´ependantes.

De même, la fonction d’observation peut être décomposée en produit des distributions de probabilités conditionnelles de chaque variable d’observation :

p(o|s⁰, a) = p(o1, o2|s⁰₁, s⁰₂, s⁰₃)

= p(o1|s⁰₁, s⁰₂)p(o⁰₂|s₃)

a condition que o₁ eto₂ soient ind´ependantes.

De plus, pour la représentation de la fonction de récompense, d’autres propriétés des DBN peuvent être exploitées, comme par exemple l’additivité. Ainsi, la fonction de récompense peut être définie comme la somme de deux fonctions, où chacune est dépendante de certaines variables d’état et de certaines actions. Ou encore, nous pouvons citer une autre propriété : l’indépendance de contexte, basée sur le fait que certains variables d’état, d’action ou d’ob-servation sont indépendantes les unes des autres dans certains contextes.

Par ailleurs, les fonctions de transition d’état et d’observation peuvent être repr´ esen-tées de manière très compactes à partir des tables de probabilités conditionnelles des DBN encodées en tant que diagrammes de décision. La taille des tables de probabilité est exponen-tielle en le nombre de parents d’une variable dans le pire cas, mais, en pratique, une variable aléatoire a peu de parents.

En ce sens, les ADDs - Algebric Decision Diagrams [Bahar et al., 1997] proposent une représentation compacte de tables de probabilité des DBN. Les ADD sont des graphes de décision orientés acycliques dont les sous-graphes identiques sont fusionnés dans un seul sous-graphe, et les feuilles de valeur nulle ne sont pas stockées en mémoire. La figure 2.13(b) illustre l’ADD résultant de la table de probabilité conditionnelle de la variable d’état booléennes⁰₁ (voir figure 2.13).

Dans sa thèse, [Poupart, 2005] propose de représenter les fonctions de transition, d’ob-servation, de récompense ainsi que l’état de croyance par des ADD et propose, entre autres

s1 s2 s⁰₂ p(s⁰₂|s1, s2, a)

F F F 1.0

F F V 0.0

F V F 0.0

F V V 1.0

V F F 0.8

V F V 0.2

V V F 0.0

V V V 1.0

(a) Table de probabilit´e conditionnelle pour l’´etats1 de la figure 2.12.

s⁰₂

s2 s2

0.8 0.0 0.2 1.0

1.0

(b) Diagramme algébrique de décision pour la va-riable d’états⁰2 de la figure 2.12

Figure2.13 – Exemples : de table de probabilité conditionnelle et de diagramme algébrique de décision.

un des premiers algorithmes de résolution des POMDPs factorisés : l’algorithme Symbolic PERSEUS, qui est un algorithme d’itération approximative sur la fonction de valeur. L’idée est de représenter tous les vecteurs (dont les α-vecteurs) et matrices par des ADD, et de réaliser les opérations de mise à jour de la valeur et mise à jour de l’état de croyance de manière symbolique, en utilisant l’avantage de compacité des ADD.

D’autres chercheurs ont étendu les algorithmes HSVI [Simet al., 2008b] et FSVI [Shani et al., 2008] de fa¸con à travailler directement avec ce type de représentation factorisée du problème POMDP, sans avoir besoin d’énumérer tous sinon la plupart des états dans les tables de probabilités des transition d’état, d’observation ou de récompense. De plus, [Shani et al., 2008] propose des opérations qui sont réalisées directement sur les ADD (ainsi très efficaces) pour les différents produits réalisés lors de la mise à jour de la valeur.

2.5.2 Les mod `eles POMDP avec observabilit ´e mixte

Une autre extension pour le modèle POMDP récemment proposée est le modèle avec ob-servabilité mixte [Onget al., 2009, López et al., 2010], appelée MOMDP - Mixed Observabi-lity Markov Decision Process. Les MOMDP exploitent une structure particulière où certaines variables d’état sont complètement observables, ce qui permet de découpler le problème d’ob-servabilité partielle de celui d’observabilité totale. Ce modèle factorisé met en évidence le fait que certaines variables d’état peuvent être observées complètement, ce qui conduit à un gain très important dans le temps de calcul des politiques. Nous rappelons qu’en effet la complexité de la mise à jours des algorithmes optimaux est exponentielle en le nombre d’observations du POMDP.

[Ong et al., 2009] et [López et al., 2010] proposent de factoriser l’espace d’état du POMDP en deux parties : une partie complètement observable représentée par une seule variable d’état x et une partie partiellement observable représentée par une variable d’état y. De cette fa¸con, le couple (x, y) spécifie l’espace d’état complet, avec|S|=|X | × |Y|, oùX représente l’espace avec toutes les valeurs possibles de la variablex (resp. Y pour y).

Une des différences entre [Ong et al., 2009] et [López et al., 2010], est que l’approche proposée par [López et al., 2010] factorise aussi l’espace des observations en accord avec la division de l’espace d’état. Dans les figures 2.14(b) et 2.14(c), nous représentons le modèle de transition pour les deux approches.

Nous allons maintenant définir formellement le MOMDP suivant [Ong et al., 2009]. Un MOMDP est un n-uplet spécifié par {X,Y, A,Ω, TX, TY, O, R,(x0, b0)}, où la fonction de

2.5. Les modèles POMDP factorisés et avec observabilité mixte.

at r(st, at)

st st+1

ot ot+1

(a) Mod`ele classique de transition du POMDP.

at r(st, at)

st+1

xt+1

yt+1

ot ot+1

(b) Mod`ele de transition du MOMDP propos´e par [Onget al., 2009].

at r(st, at)

st+1

xt+1

yt+1

o^x_t o^x_t+1

o^y_t o^y_t+1

Figure 2.14 – Modèle factorisé de la transitions d’état et d’observation d’un POMDP et d’un MOMDP pour une action a_t.

probabilité conditionnelle TX(x, y, a, x⁰) = p(x⁰|x, y, a) donne la probabilité que la variable complètement observable ait la valeurx⁰ sachant qu’on a réalisé l’actionadans l’état (x, y).

La fonction de probabilité TY(x, y, a, x⁰, y⁰) = p(y⁰|x, y, a, x⁰) donne la probabilité que la variable partiellement observable prenne la valeury⁰ sachant qu’on a réalisé l’actionadans l’état (x, y) et qu’on arrive à l’état x⁰.

L’avantage du modèle MOMDP devient claire quand on regarde de plus près les effets sur la représentation de l’état de croyance. Comme la variablexest complètement observable, la distribution de probabilité sur les états partiellement observables y est conditionnée par la valeur dex. Donc, l’agent a uniquement besoin de maintenir une distribution de probabilité sur les variables y, qui est noté bY. De cette fa¸con, l’état de croyance du modèle MOMDP est noté par le couple (x, bY). On notera B_Y l’espace d’états de croyance pour la variable y conditionnée par x : B_Y(x) = {(x, b_Y), bY ∈ B_Y} . B_Y(x) est un sous-espace de B, tel que B=S

x∈XBY(x).

La mise à jour de l’état de croyance est maintenant définie par : bô_Y,a(y⁰) =η X

y⁰∈Y

p(o|y⁰, x⁰, a)p(y⁰|x, y, a, x⁰)p(x⁰|x, y, a)b_Y(y) (2.55) o`u η est une constante de normalisation.

Dans le modèle MOMDP, la fonction de valeur peut être aussi paramétrée par des α-vecteurs. Celle-ci est alors notée par :

V(x, bY) = max

α∈ΓY(x)(α·bY) (2.56)

où α est maintenant un hyperplan sur l’espace B_y(x). De cette fa¸con, la fonction de valeur sur l’espace complet d’états est paramétrée par un ensemble de ΓY(x), c’est-à-dire Γ = {Γ_Y(x), x∈ X }.

Cette structure factorisée est utilisée de manière à réaliser toutes les opérations de mise à jour de l’état de croyance de la valeur sur un sous-espace plus petit. Dans [Onget al., 2009],

Algorithme 7:Opération de mise à jour de la valeur (backup) pour le modèle MOMDP de [Onget al., 2009]

entr´ee: MOMDP ;

(x, b_Y) : ´etat de croyance dont la valeur est mise `a jour.

1 foreacha∈Ado

2 αa,x⁰,o←arg max_α∈Γ_Y_(x0)(α·b^o_Y,a);

3 foreacha∈Ado

4 foreachy∈ Y do

5 αa(y)←

r(x, y, a) +γP

o∈Ω

x⁰∈X

y⁰∈Yp(o|y⁰, x⁰, a)p(y⁰|x, y, a, x⁰)p(x⁰|x, y, a)αa,x⁰,o(y⁰);

6 α⁰←arg max_a∈A(α_a·b_Y);

7 Γ_Y(x)←α⁰;

la compression du modèle POMDP en MOMDP permet un gain très important d’efficacité de l’algorithme d’itération approché sur la valeur, SARSOP, qui a été adapté à l’approche.

L’opération de mise à jour de la valeur (backup) pour un état de croyance (x, bY) proposée dans [Onget al., 2009] est montrée dans l’algorithme 7. Les opérations de mise à jour des états de croyance et de la valeur présentées dans [López et al., 2010] sont différentes, puisque la factorisation de l’espace d’observation du modèle MOMDP n’est pas la même. Nous invitons le lecteur intéressé à consulter directement [López et al., 2010].

Dans le document The DART-Europe E-theses Portal (Page 72-76)