Processus D´ecisionnels de Markov Partiellement Observables - POMDP
2.5 Les mod `eles POMDP factoris ´es et avec observabilit ´e mixte
2.5.1 Le mod `ele POMDP factoris ´e
Dans les POMDP, les fonctions de transition d’´etat, d’observation et de r´ecompense uti-lisent l’espace d’´etat pour la d´efinition des domaines. Pour les probl`emes avec un espace d’´etat important, des techniques ont ´et´e d´evelopp´ees pour repr´esenter ces fonctions de transition, d’observation et de r´ecompense de mani`ere compacte et structur´ee [Poupart, 2005].
Une des r´ecentes avanc´ees, en ce qui concerne la r´esolution des POMDP et la repr´esentation des probl`emes r´ealistes, exploite des propri´et´es structurelles du probl`eme [Poupart, 2005], afin de r´esoudre des probl`emes de grande taille sans ´enum´erer les ´etats individuels. Un lien avec ce qui a ´et´e d´evelopp´e pour les r´eseaux bay´esiens dynamiques (DBN) peut ˆetre fait ici.
Les r´eseaux bay´esiens permettent de repr´esenter des distributions de probabilit´e jointes sur un ensemble de variables `a partir d’une connaissance a priori entre la relation entre ces variables [Djian et al., 1995, Marchand et Chaumette, 1997]. En particulier, les r´eseaux bay´esiens dynamiques, DBN - Dynamic Bayesian Network, [Dean et Kanazawa, 1989, Mur-phy, 2002] sont une extension aux r´eseaux bay´esiens et permettent de repr´esenter l’´evolution des variables al´eatoires du r´eseau selon un axe temporel discret. Dans plusieurs domaines, il est possible de d´efinir les fonctions de transition d’´etat, d’observation, et de r´ecompense en fonction des variables d’´etats, variables d’observations et variables d’actions. Ceci permet une repr´esentation compacte du probl`eme sous forme de DBN, mais aussi graphique (voir figure 2.12).
L’´etats∈Sd’un POMDP factoris´e regroupe toutes les variables pertinentes pour d´ecrire l’univers du probl`eme. Une variable de cet univers est repr´esent´ee par une variable d’´etatsi
avec un domaine dom(si). Donc, chaque ´etat s est une conjonction des N variables d’´etat instanci´ees s1, s2, .., sN. La taille des ´etats est exponentielle en N, avec |S| = |dom(s1)| ×
|dom(s2)| ×...× |dom(sN)|. De mˆeme, il est possible de d´ecomposer l’espace d’actions A et l’espace d’observations Ω : chaque action acorrespondrait `a une instanciation jointe des variables d’action, et chaque observation o correspondrait `a une instanciation jointe des variables d’observation.
Les probabilit´es conditionnelles p(s0|s, a) et p(o|s0, a) peuvent ˆetre repr´esent´ees par un graphe acyclique dirig´e, comme celui de la figure 2.12. Dans ce graphe, les nœuds sont les variables d’´etat, d’action et d’observation, et les arˆetes repr´esentent les d´ependances probabilistes. Les nœuds sont dispos´es en deux colonnes successives dans le temps. Chaque nœud s0i a une table de probabilit´e conditionnelle associ´ee p(s0i | parents(s0i)), qui sp´ecifie
2.5. Les mod`eles POMDP factoris´es et avec observabilit´e mixte.
t t+ 1
s s0
s1
s2
s3
s01
s02
s03 p(s0|s, a)
o1 o2
p(o|s0, a)
Figure 2.12 – Mod`ele factoris´e de la fonction de transition d’´etat et d’observation d’un POMDP `a 3 variables d’´etat et 2 variables d’observation pour une actiona.
une distribution de probabilit´e conditionnelle par rapport `a ses variables d’´etats parentes.
L’utilisation des DBN permet la d´ecomposition de la fonction de transition d’´etats sous forme d’un produit des distributions de probabilit´es conditionnelles de la fonction de transition de chaque variable d’´etat (voir figure 2.13(a)),
p(s0|s, a) = p(s01, s02, s3|s1, s2, s3, a)
= p(s01|s1, a)p(s02|s1, s2, a)p(s03|s3, a) et ceci `a condition que s01, s02 ets03 soient ind´ependantes.
De mˆeme, la fonction d’observation peut ˆetre d´ecompos´ee en produit des distributions de probabilit´es conditionnelles de chaque variable d’observation :
p(o|s0, a) = p(o1, o2|s01, s02, s03)
= p(o1|s01, s02)p(o02|s3)
`
a condition que o1 eto2 soient ind´ependantes.
De plus, pour la repr´esentation de la fonction de r´ecompense, d’autres propri´et´es des DBN peuvent ˆetre exploit´ees, comme par exemple l’additivit´e. Ainsi, la fonction de r´ecompense peut ˆetre d´efinie comme la somme de deux fonctions, o`u chacune est d´ependante de certaines variables d’´etat et de certaines actions. Ou encore, nous pouvons citer une autre propri´et´e : l’ind´ependance de contexte, bas´ee sur le fait que certains variables d’´etat, d’action ou d’ob-servation sont ind´ependantes les unes des autres dans certains contextes.
Par ailleurs, les fonctions de transition d’´etat et d’observation peuvent ˆetre repr´ esen-t´ees de mani`ere tr`es compactes `a partir des tables de probabilit´es conditionnelles des DBN encod´ees en tant que diagrammes de d´ecision. La taille des tables de probabilit´e est exponen-tielle en le nombre de parents d’une variable dans le pire cas, mais, en pratique, une variable al´eatoire a peu de parents.
En ce sens, les ADDs - Algebric Decision Diagrams [Bahar et al., 1997] proposent une repr´esentation compacte de tables de probabilit´e des DBN. Les ADD sont des graphes de d´ecision orient´es acycliques dont les sous-graphes identiques sont fusionn´es dans un seul sous-graphe, et les feuilles de valeur nulle ne sont pas stock´ees en m´emoire. La figure 2.13(b) illustre l’ADD r´esultant de la table de probabilit´e conditionnelle de la variable d’´etat bool´eennes01 (voir figure 2.13).
Dans sa th`ese, [Poupart, 2005] propose de repr´esenter les fonctions de transition, d’ob-servation, de r´ecompense ainsi que l’´etat de croyance par des ADD et propose, entre autres
s1 s2 s02 p(s02|s1, s2, a)
F F F 1.0
F F V 0.0
F V F 0.0
F V V 1.0
V F F 0.8
V F V 0.2
V V F 0.0
V V V 1.0
(a) Table de probabilit´e conditionnelle pour l’´etats1 de la figure 2.12.
s02
s2 s2
s1
s1
0.8 0.0 0.2 1.0
1.0
(b) Diagramme alg´ebrique de d´ecision pour la va-riable d’´etats02 de la figure 2.12
Figure2.13 – Exemples : de table de probabilit´e conditionnelle et de diagramme alg´ebrique de d´ecision.
un des premiers algorithmes de r´esolution des POMDPs factoris´es : l’algorithme Symbolic PERSEUS, qui est un algorithme d’it´eration approximative sur la fonction de valeur. L’id´ee est de repr´esenter tous les vecteurs (dont les α-vecteurs) et matrices par des ADD, et de r´ealiser les op´erations de mise `a jour de la valeur et mise `a jour de l’´etat de croyance de mani`ere symbolique, en utilisant l’avantage de compacit´e des ADD.
D’autres chercheurs ont ´etendu les algorithmes HSVI [Simet al., 2008b] et FSVI [Shani et al., 2008] de fa¸con `a travailler directement avec ce type de repr´esentation factoris´ee du probl`eme POMDP, sans avoir besoin d’´enum´erer tous sinon la plupart des ´etats dans les tables de probabilit´es des transition d’´etat, d’observation ou de r´ecompense. De plus, [Shani et al., 2008] propose des op´erations qui sont r´ealis´ees directement sur les ADD (ainsi tr`es efficaces) pour les diff´erents produits r´ealis´es lors de la mise `a jour de la valeur.
2.5.2 Les mod `eles POMDP avec observabilit ´e mixte
Une autre extension pour le mod`ele POMDP r´ecemment propos´ee est le mod`ele avec ob-servabilit´e mixte [Onget al., 2009, L´opez et al., 2010], appel´ee MOMDP - Mixed Observabi-lity Markov Decision Process. Les MOMDP exploitent une structure particuli`ere o`u certaines variables d’´etat sont compl`etement observables, ce qui permet de d´ecoupler le probl`eme d’ob-servabilit´e partielle de celui d’observabilit´e totale. Ce mod`ele factoris´e met en ´evidence le fait que certaines variables d’´etat peuvent ˆetre observ´ees compl`etement, ce qui conduit `a un gain tr`es important dans le temps de calcul des politiques. Nous rappelons qu’en effet la complexit´e de la mise `a jours des algorithmes optimaux est exponentielle en le nombre d’observations du POMDP.
[Ong et al., 2009] et [L´opez et al., 2010] proposent de factoriser l’espace d’´etat du POMDP en deux parties : une partie compl`etement observable repr´esent´ee par une seule variable d’´etat x et une partie partiellement observable repr´esent´ee par une variable d’´etat y. De cette fa¸con, le couple (x, y) sp´ecifie l’espace d’´etat complet, avec|S|=|X | × |Y|, o`uX repr´esente l’espace avec toutes les valeurs possibles de la variablex (resp. Y pour y).
Une des diff´erences entre [Ong et al., 2009] et [L´opez et al., 2010], est que l’approche propos´ee par [L´opez et al., 2010] factorise aussi l’espace des observations en accord avec la division de l’espace d’´etat. Dans les figures 2.14(b) et 2.14(c), nous repr´esentons le mod`ele de transition pour les deux approches.
Nous allons maintenant d´efinir formellement le MOMDP suivant [Ong et al., 2009]. Un MOMDP est un n-uplet sp´ecifi´e par {X,Y, A,Ω, TX, TY, O, R,(x0, b0)}, o`u la fonction de
2.5. Les mod`eles POMDP factoris´es et avec observabilit´e mixte.
at r(st, at)
st st+1
ot ot+1
(a) Mod`ele classique de transition du POMDP.
at r(st, at)
st
xt
yt
st+1
xt+1
yt+1
ot ot+1
(b) Mod`ele de transition du MOMDP propos´e par [Onget al., 2009].
at r(st, at)
st
xt
yt
st+1
xt+1
yt+1
oxt oxt+1
oyt oyt+1
(c) Mod`ele de transition du MOMDP propos´e par [L´opez et al., 2010].
Figure 2.14 – Mod`ele factoris´e de la transitions d’´etat et d’observation d’un POMDP et d’un MOMDP pour une action at.
probabilit´e conditionnelle TX(x, y, a, x0) = p(x0|x, y, a) donne la probabilit´e que la variable compl`etement observable ait la valeurx0 sachant qu’on a r´ealis´e l’actionadans l’´etat (x, y).
La fonction de probabilit´e TY(x, y, a, x0, y0) = p(y0|x, y, a, x0) donne la probabilit´e que la variable partiellement observable prenne la valeury0 sachant qu’on a r´ealis´e l’actionadans l’´etat (x, y) et qu’on arrive `a l’´etat x0.
L’avantage du mod`ele MOMDP devient claire quand on regarde de plus pr`es les effets sur la repr´esentation de l’´etat de croyance. Comme la variablexest compl`etement observable, la distribution de probabilit´e sur les ´etats partiellement observables y est conditionn´ee par la valeur dex. Donc, l’agent a uniquement besoin de maintenir une distribution de probabilit´e sur les variables y, qui est not´e bY. De cette fa¸con, l’´etat de croyance du mod`ele MOMDP est not´e par le couple (x, bY). On notera BY l’espace d’´etats de croyance pour la variable y conditionn´ee par x : BY(x) = {(x, bY), bY ∈ BY} . BY(x) est un sous-espace de B, tel que B=S
x∈XBY(x).
La mise `a jour de l’´etat de croyance est maintenant d´efinie par : boY,a(y0) =η X
y0∈Y
p(o|y0, x0, a)p(y0|x, y, a, x0)p(x0|x, y, a)bY(y) (2.55) o`u η est une constante de normalisation.
Dans le mod`ele MOMDP, la fonction de valeur peut ˆetre aussi param´etr´ee par des α-vecteurs. Celle-ci est alors not´ee par :
V(x, bY) = max
α∈ΓY(x)(α·bY) (2.56)
o`u α est maintenant un hyperplan sur l’espace By(x). De cette fa¸con, la fonction de valeur sur l’espace complet d’´etats est param´etr´ee par un ensemble de ΓY(x), c’est-`a-dire Γ = {ΓY(x), x∈ X }.
Cette structure factoris´ee est utilis´ee de mani`ere `a r´ealiser toutes les op´erations de mise `a jour de l’´etat de croyance de la valeur sur un sous-espace plus petit. Dans [Onget al., 2009],
Algorithme 7:Op´eration de mise `a jour de la valeur (backup) pour le mod`ele MOMDP de [Onget al., 2009]
entr´ee: MOMDP ;
(x, bY) : ´etat de croyance dont la valeur est mise `a jour.
1 foreacha∈Ado
2 αa,x0,o←arg maxα∈ΓY(x0)(α·boY,a);
3 foreacha∈Ado
4 foreachy∈ Y do
5 αa(y)←
r(x, y, a) +γP
o∈Ω
P
x0∈X
P
y0∈Yp(o|y0, x0, a)p(y0|x, y, a, x0)p(x0|x, y, a)αa,x0,o(y0);
6 α0←arg maxa∈A(αa·bY);
7 ΓY(x)←α0;
la compression du mod`ele POMDP en MOMDP permet un gain tr`es important d’efficacit´e de l’algorithme d’it´eration approch´e sur la valeur, SARSOP, qui a ´et´e adapt´e `a l’approche.
L’op´eration de mise `a jour de la valeur (backup) pour un ´etat de croyance (x, bY) propos´ee dans [Onget al., 2009] est montr´ee dans l’algorithme 7. Les op´erations de mise `a jour des ´etats de croyance et de la valeur pr´esent´ees dans [L´opez et al., 2010] sont diff´erentes, puisque la factorisation de l’espace d’observation du mod`ele MOMDP n’est pas la mˆeme. Nous invitons le lecteur int´eress´e `a consulter directement [L´opez et al., 2010].