• Aucun résultat trouvé

2.5.1 Le mod `ele POMDP factoris ´e

Dans les POMDP, les fonctions de transition d’´etat, d’observation et de r´ecompense uti-lisent l’espace d’´etat pour la d´efinition des domaines. Pour les probl`emes avec un espace d’´etat important, des techniques ont ´et´e d´evelopp´ees pour repr´esenter ces fonctions de transition, d’observation et de r´ecompense de mani`ere compacte et structur´ee [Poupart, 2005].

Une des r´ecentes avanc´ees, en ce qui concerne la r´esolution des POMDP et la repr´esentation des probl`emes r´ealistes, exploite des propri´et´es structurelles du probl`eme [Poupart, 2005], afin de r´esoudre des probl`emes de grande taille sans ´enum´erer les ´etats individuels. Un lien avec ce qui a ´et´e d´evelopp´e pour les r´eseaux bay´esiens dynamiques (DBN) peut ˆetre fait ici.

Les r´eseaux bay´esiens permettent de repr´esenter des distributions de probabilit´e jointes sur un ensemble de variables `a partir d’une connaissance a priori entre la relation entre ces variables [Djian et al., 1995, Marchand et Chaumette, 1997]. En particulier, les r´eseaux bay´esiens dynamiques, DBN - Dynamic Bayesian Network, [Dean et Kanazawa, 1989, Mur-phy, 2002] sont une extension aux r´eseaux bay´esiens et permettent de repr´esenter l’´evolution des variables al´eatoires du r´eseau selon un axe temporel discret. Dans plusieurs domaines, il est possible de d´efinir les fonctions de transition d’´etat, d’observation, et de r´ecompense en fonction des variables d’´etats, variables d’observations et variables d’actions. Ceci permet une repr´esentation compacte du probl`eme sous forme de DBN, mais aussi graphique (voir figure 2.12).

L’´etat s ∈ S d’un POMDP factoris´e regroupe toutes les variables pertinentes pour d´ecrire l’univers du probl`eme. Une variable de cet univers est repr´esent´ee par une variable d’´etat si

avec un domaine dom(si). Donc, chaque ´etat s est une conjonction des N variables d’´etat instanci´ees s1, s2, .., sN. La taille des ´etats est exponentielle en N , avec |S| = |dom(s1)| × |dom(s2)| × ... × |dom(sN)|. De mˆeme, il est possible de d´ecomposer l’espace d’actions A et l’espace d’observations Ω : chaque action a correspondrait `a une instanciation jointe des variables d’action, et chaque observation o correspondrait `a une instanciation jointe des variables d’observation.

Les probabilit´es conditionnelles p(s0|s, a) et p(o|s0, a) peuvent ˆetre repr´esent´ees par un graphe acyclique dirig´e, comme celui de la figure 2.12. Dans ce graphe, les nœuds sont les variables d’´etat, d’action et d’observation, et les arˆetes repr´esentent les d´ependances probabilistes. Les nœuds sont dispos´es en deux colonnes successives dans le temps. Chaque nœud s0i a une table de probabilit´e conditionnelle associ´ee p(s0i | parents(s0i)), qui sp´ecifie

2.5. Les mod`eles POMDP factoris´es et avec observabilit´e mixte. t t + 1 s s0 s1 s2 s3 s01 s02 s03 p(s0|s, a) o1 o2 p(o| s0, a )

Figure 2.12 – Mod`ele factoris´e de la fonction de transition d’´etat et d’observation d’un POMDP `a 3 variables d’´etat et 2 variables d’observation pour une action a.

une distribution de probabilit´e conditionnelle par rapport `a ses variables d’´etats parentes. L’utilisation des DBN permet la d´ecomposition de la fonction de transition d’´etats sous forme d’un produit des distributions de probabilit´es conditionnelles de la fonction de transition de chaque variable d’´etat (voir figure 2.13(a)),

p(s0|s, a) = p(s01, s02, s3|s1, s2, s3, a)

= p(s01|s1, a)p(s02|s1, s2, a)p(s03|s3, a) et ceci `a condition que s01, s02 et s03 soient ind´ependantes.

De mˆeme, la fonction d’observation peut ˆetre d´ecompos´ee en produit des distributions de probabilit´es conditionnelles de chaque variable d’observation :

p(o|s0, a) = p(o1, o2|s01, s02, s03) = p(o1|s01, s02)p(o02|s3) `

a condition que o1 et o2 soient ind´ependantes.

De plus, pour la repr´esentation de la fonction de r´ecompense, d’autres propri´et´es des DBN peuvent ˆetre exploit´ees, comme par exemple l’additivit´e. Ainsi, la fonction de r´ecompense peut ˆetre d´efinie comme la somme de deux fonctions, o`u chacune est d´ependante de certaines variables d’´etat et de certaines actions. Ou encore, nous pouvons citer une autre propri´et´e : l’ind´ependance de contexte, bas´ee sur le fait que certains variables d’´etat, d’action ou d’ob-servation sont ind´ependantes les unes des autres dans certains contextes.

Par ailleurs, les fonctions de transition d’´etat et d’observation peuvent ˆetre repr´ esen-t´ees de mani`ere tr`es compactes `a partir des tables de probabilit´es conditionnelles des DBN encod´ees en tant que diagrammes de d´ecision. La taille des tables de probabilit´e est exponen-tielle en le nombre de parents d’une variable dans le pire cas, mais, en pratique, une variable al´eatoire a peu de parents.

En ce sens, les ADDs - Algebric Decision Diagrams [Bahar et al., 1997] proposent une repr´esentation compacte de tables de probabilit´e des DBN. Les ADD sont des graphes de d´ecision orient´es acycliques dont les sous-graphes identiques sont fusionn´es dans un seul sous-graphe, et les feuilles de valeur nulle ne sont pas stock´ees en m´emoire. La figure 2.13(b) illustre l’ADD r´esultant de la table de probabilit´e conditionnelle de la variable d’´etat bool´eenne s01 (voir figure 2.13).

Dans sa th`ese, [Poupart, 2005] propose de repr´esenter les fonctions de transition, d’ob-servation, de r´ecompense ainsi que l’´etat de croyance par des ADD et propose, entre autres

s1 s2 s02 p(s02|s1, s2, a) F F F 1.0 F F V 0.0 F V F 0.0 F V V 1.0 V F F 0.8 V F V 0.2 V V F 0.0 V V V 1.0

(a) Table de probabilit´e conditionnelle pour l’´etat s1 de la figure 2.12.

s02 s2 s2 s1 s1 0.8 0.0 0.2 1.0 1.0

(b) Diagramme alg´ebrique de d´ecision pour la va-riable d’´etat s02 de la figure 2.12

Figure 2.13 – Exemples : de table de probabilit´e conditionnelle et de diagramme alg´ebrique de d´ecision.

un des premiers algorithmes de r´esolution des POMDPs factoris´es : l’algorithme Symbolic PERSEUS, qui est un algorithme d’it´eration approximative sur la fonction de valeur. L’id´ee est de repr´esenter tous les vecteurs (dont les α-vecteurs) et matrices par des ADD, et de r´ealiser les op´erations de mise `a jour de la valeur et mise `a jour de l’´etat de croyance de mani`ere symbolique, en utilisant l’avantage de compacit´e des ADD.

D’autres chercheurs ont ´etendu les algorithmes HSVI [Sim et al., 2008b] et FSVI [Shani et al., 2008] de fa¸con `a travailler directement avec ce type de repr´esentation factoris´ee du probl`eme POMDP, sans avoir besoin d’´enum´erer tous sinon la plupart des ´etats dans les tables de probabilit´es des transition d’´etat, d’observation ou de r´ecompense. De plus, [Shani et al., 2008] propose des op´erations qui sont r´ealis´ees directement sur les ADD (ainsi tr`es efficaces) pour les diff´erents produits r´ealis´es lors de la mise `a jour de la valeur.

2.5.2 Les mod `eles POMDP avec observabilit ´e mixte

Une autre extension pour le mod`ele POMDP r´ecemment propos´ee est le mod`ele avec ob-servabilit´e mixte [Ong et al., 2009, L´opez et al., 2010], appel´ee MOMDP - Mixed Observabi-lity Markov Decision Process. Les MOMDP exploitent une structure particuli`ere o`u certaines variables d’´etat sont compl`etement observables, ce qui permet de d´ecoupler le probl`eme d’ob-servabilit´e partielle de celui d’observabilit´e totale. Ce mod`ele factoris´e met en ´evidence le fait que certaines variables d’´etat peuvent ˆetre observ´ees compl`etement, ce qui conduit `a un gain tr`es important dans le temps de calcul des politiques. Nous rappelons qu’en effet la complexit´e de la mise `a jours des algorithmes optimaux est exponentielle en le nombre d’observations du POMDP.

[Ong et al., 2009] et [L´opez et al., 2010] proposent de factoriser l’espace d’´etat du POMDP en deux parties : une partie compl`etement observable repr´esent´ee par une seule variable d’´etat x et une partie partiellement observable repr´esent´ee par une variable d’´etat y. De cette fa¸con, le couple (x, y) sp´ecifie l’espace d’´etat complet, avec |S| = |X | × |Y|, o`u X repr´esente l’espace avec toutes les valeurs possibles de la variable x (resp. Y pour y).

Une des diff´erences entre [Ong et al., 2009] et [L´opez et al., 2010], est que l’approche propos´ee par [L´opez et al., 2010] factorise aussi l’espace des observations en accord avec la division de l’espace d’´etat. Dans les figures 2.14(b) et 2.14(c), nous repr´esentons le mod`ele de transition pour les deux approches.

Nous allons maintenant d´efinir formellement le MOMDP suivant [Ong et al., 2009]. Un MOMDP est un n-uplet sp´ecifi´e par {X , Y, A, Ω, TX, TY, O, R, (x0, b0)}, o`u la fonction de

2.5. Les mod`eles POMDP factoris´es et avec observabilit´e mixte.

at r(st, at)

st st+1

ot ot+1

(a) Mod`ele classique de transition du POMDP. at r(st, at) st xt yt st+1 xt+1 yt+1 ot ot+1

(b) Mod`ele de transition du MOMDP propos´e par [Ong et al., 2009]. at r(st, at) st xt yt st+1 xt+1 yt+1 ox t ox t+1 oyt oyt+1

(c) Mod`ele de transition du MOMDP propos´e par [L´opez et al., 2010].

Figure 2.14 – Mod`ele factoris´e de la transitions d’´etat et d’observation d’un POMDP et d’un MOMDP pour une action at.

probabilit´e conditionnelle TX(x, y, a, x0) = p(x0|x, y, a) donne la probabilit´e que la variable compl`etement observable ait la valeur x0 sachant qu’on a r´ealis´e l’action a dans l’´etat (x, y). La fonction de probabilit´e TY(x, y, a, x0, y0) = p(y0|x, y, a, x0) donne la probabilit´e que la variable partiellement observable prenne la valeur y0 sachant qu’on a r´ealis´e l’action a dans l’´etat (x, y) et qu’on arrive `a l’´etat x0.

L’avantage du mod`ele MOMDP devient claire quand on regarde de plus pr`es les effets sur la repr´esentation de l’´etat de croyance. Comme la variable x est compl`etement observable, la distribution de probabilit´e sur les ´etats partiellement observables y est conditionn´ee par la valeur de x. Donc, l’agent a uniquement besoin de maintenir une distribution de probabilit´e sur les variables y, qui est not´e bY. De cette fa¸con, l’´etat de croyance du mod`ele MOMDP est not´e par le couple (x, bY). On notera BY l’espace d’´etats de croyance pour la variable y conditionn´ee par x : BY(x) = {(x, bY), bY ∈ BY} . BY(x) est un sous-espace de B, tel que B =S

x∈XBY(x).

La mise `a jour de l’´etat de croyance est maintenant d´efinie par : boY,a(y0) = η X

y0∈Y

p(o|y0, x0, a)p(y0|x, y, a, x0)p(x0|x, y, a)bY(y) (2.55)

o`u η est une constante de normalisation.

Dans le mod`ele MOMDP, la fonction de valeur peut ˆetre aussi param´etr´ee par des α-vecteurs. Celle-ci est alors not´ee par :

V (x, bY) = max

α∈ΓY(x)(α · bY) (2.56)

o`u α est maintenant un hyperplan sur l’espace By(x). De cette fa¸con, la fonction de valeur sur l’espace complet d’´etats est param´etr´ee par un ensemble de ΓY(x), c’est-`a-dire Γ = {ΓY(x), x ∈ X }.

Cette structure factoris´ee est utilis´ee de mani`ere `a r´ealiser toutes les op´erations de mise `a jour de l’´etat de croyance de la valeur sur un sous-espace plus petit. Dans [Ong et al., 2009],

Algorithme 7: Op´eration de mise `a jour de la valeur (backup) pour le mod`ele MOMDP de [Ong et al., 2009]

entr´ee : MOMDP ;

(x, bY) : ´etat de croyance dont la valeur est mise `a jour.

1 foreach a ∈ A do

2 αa,x0,o← arg maxα∈ΓY(x0)(α · bo

Y,a); 3 foreach a ∈ A do 4 foreach y ∈ Y do 5 αa(y) ← r(x, y, a) + γP o∈Ω P x0∈X P

y0∈Yp(o|y0, x0, a)p(y0|x, y, a, x0)p(x0|x, y, a)αa,x0,o(y0);

6 α0← arg maxa∈Aa· bY);

7 ΓY(x) ← α0;

la compression du mod`ele POMDP en MOMDP permet un gain tr`es important d’efficacit´e de l’algorithme d’it´eration approch´e sur la valeur, SARSOP, qui a ´et´e adapt´e `a l’approche.

L’op´eration de mise `a jour de la valeur (backup) pour un ´etat de croyance (x, bY) propos´ee dans [Ong et al., 2009] est montr´ee dans l’algorithme 7. Les op´erations de mise `a jour des ´etats de croyance et de la valeur pr´esent´ees dans [L´opez et al., 2010] sont diff´erentes, puisque la factorisation de l’espace d’observation du mod`ele MOMDP n’est pas la mˆeme. Nous invitons le lecteur int´eress´e `a consulter directement [L´opez et al., 2010].