• Aucun résultat trouvé

Le domaine grid

Dans le document The DART-Europe E-theses Portal (Page 152-155)

Prise en compte de contraintes de faisabilit´e d’actions dans le cadre POMDP

5.6 Evaluation Exp ´erimentale ´

5.6.3 Le domaine grid

(b) Taille de la fonction de valeur en nombre d’α-vecteurs.

Figure5.10 – ´Evaluation exp´erimentale pour le probl`eme de navigationhallway2.

consid´erer et `a g´en´erer plus deα-vecteurs que pour hallway2.

Dans la table 5.2 nous pr´esentons un r´esum´e de la performance des trois algorithmes (E[R], n.e.b, %but). Nous pouvons conclure une fois de plus que les politiques obtenues pour les deux version de PCVI sont fond´ees et ´equivalentes `a celle de PBVI. De plus, on voit que le temps de calcul n´ecessaire aux diff´erentes versions de PCVI est tr`es faible compar´e `a celui de PBVI. Ceci nous permet de d´emontrer, une fois encore, l’avantage de r´esoudre directement le mod`ele AC-POMDP au lieu de son POMDP ´equivalent. Comme pour le domaine maze, la politique de PBVI a un nombre moyen d’´etapes l´eg`erement sup´erieur `a celui de PCVI1 et PCVI2, ce qui est dˆu au fait que pour le POMDP classique nous avons besoin de rajouter une action suppl´ementaire qui n’est utilis´ee qu’`a la premi`ere ´etape de d´ecision.

algorithme E[R] n.e.b %but Table 5.2 – R´esum´e de performance des algorithmes pour hallway ethallway2.

5.6.3 Le domainegrid

Nous avons aussi test´e notre approche sur une classe de probl`emes de navigation dans des grilles. Ces diff´erentes grilles ont ´et´e g´en´er´ees al´eatoirement. Ce domaine, qui sera ici appel´e grid, est une extension des probl`emesmazeethallway. Dans le domainegridcertaines cellules de la grille sont des obstacles qui peuvent endommager le robot. Ces obstacles peuvent ˆetre observ´es comme des murs qui entourent le robot. Les ´etats sont les cellules libres de la grille.

Les actions de d´eplacement sont :nord,sud,estetouest, et elles ont un coˆut de−0.01. Pour le POMDP ´equivalent, il y a une action suppl´ementaire de type rester sur place, n´ecessaire lorsque le robot part d’un ´etat de croyance uniforme sur toutes les positions possibles (except´e le but). L’ensemble d’observationsO a deux symboles qui indiquent la pr´esence ou non du but. L’ensemble Θ est form´e par les diff´erents ensembles d’actions r´ealisables, qui peuvent ˆetre parfaitement observ´es, en utilisant par exemple un capteur consid´er´e suffisamment pr´ecis (d´etecteur d’obstacles de type laser circulaire par exemple). Notons que pour le POMDP

´equivalent l’ensemble d’observations ˜O est le produit cart´esien des deux ensembles O et Θ.

De plus, pour le mod`ele POMDP ´equivalent, la fonction de r´ecompense doit encoder le fait que se d´eplacer vers un obstacle peut endommager le robot : pour de telles paires ´etat-action un coˆut de 100 est ajout´e, sachant que R −100.

5.6. ´Evaluation Exp´erimentale Un exemple de grille g´en´er´ee est montr´ee sur la figure 5.11. Le but est d’arriver `a l’´etoile qui est plac´ee al´eatoirement dans une cellule libre, et atteindre cet ´etat rapporte une r´ecompense de 10.

?

Figure 5.11 – Exemple de grille de taille 10×10 g´en´er´ee al´eatoirement.

Nous pr´esentons la figure 5.12 le temps de planification (´echelle logarithmique), la taille de la fonction de valeur obtenue `a la convergence (= 0.5), et l’esp´erance des r´ecompenses accumul´ees lors de la simulation de la politique. Nous comparons aussi nos r´esultats avec HSVI, un algorithme de type point−based qui s’est montr´e tr`es efficace dans plusieurs domaines de la litt´erature. Les deux versions de PCVI ont ´et´e aussi ´evalu´ees.

Comme PCVI1 et PCVI2 sont des algorithmes inspir´es par PBVI, nous pourrions nous attendre `a ce que HSVI ait une performance meilleure en ce qui concerne le temps de calcul et les r´ecompenses accumul´ees. Mais, nous voyons que, pour certaines dimensions de la grille, les temps de planification de PCVI1 et PCVI2 sont meilleurs que celui de HSVI, en particulier pour la dimension 20×25, o`u les r´ecompenses de PCVI1 et HSVI sont ´equivalentes (figures 5.12(a) et 5.12(b)). PCVI2, ´etant sous-optimal, conduit `a une r´ecompense inf´erieure.

De plus, pour certaines dimensions de la grille, la politique de HSVI est tr`es mauvaise, accumulant des r´ecompenses n´egatives assez importantes, ce qui veut dire que l’heuristique utilis´ee par HSVI conduit l’agent `a heurter un obstacle. Nous croyons que, pour HSVI, qui est un algorithme de r´esolutionsous-optimal bas´e sur la recherche heuristique, la p´enalit´e de 100 associ´ee aux paires ´etat-action non faisables n’est pas suffisante. Dans ce cas, la p´enalit´e mˆeme en ´etant inf´erieure `a R ne garantit pas d’empˆecher de r´ealiser des actions consid´er´ees non faisables.

Nous pouvons en d´eduire que l’attribution d’une p´enalit´e d’infaisabilit´e de paire ´ etat-action pour le POMDP classique d´epend de l’algorithme de r´esolution utilis´e s’il n’est pas prouv´e optimal. Toutefois, PBVI n’utilise `a aucun moment des actions non r´ealisables. Mais ce r´esultat d´emontre qu’un r´eglage de coˆut de type potentiom`etre (convenablement th´eorique mais tout de mˆeme empirique) n’est pas tr`es convenable, surtout pour les algorithmes sous-optimaux, et renforce notre argument qui consid`ere que l’infaisabilit´e d’une paire ´etat-action est un crit`ere bool´een (et non num´erique) qui doit ˆetre explicitement d´ecrit dans le mod`ele avec une interpr´etation s´emantique claire.

Nous tenons `a souligner que la politique obtenue par PCVI1 ou PCVI2 n’utilise `a aucun moment des actions interdites, ind´ependamment du coˆut qu’on aurait pu associer `a ces actions. Pour les deux versions de PCVI, aucune valeur n’est attribu´ee aux paires ´ etat-action ind´esirables ; autrement dit, la valeur de ces ´etats n’intervient pas dans la d´efinition de l’α-vecteur.

La figure 5.12(a) utilise une ´echelle logarithmique afin d’illustrer le rapport de gain de temps de planification ; nous d´emontrons, une fois encore, l’int´erˆet d’optimiser directement le

0.1 1 10 100 1000 10000

10x10 15x10 15x15 15x20 20x20 20x25 25x25 25x30 30x30

temps (s)

dimension de la grille HSVI PBVI PCVI1 PCVI2

(a) Temps de planification en secondes pour= 0.5.

-10 -8 -6 -4 -2 0 2 4 6 8 10

10x10 15x10 15x15 15x20 20x20 20x25 25x25 25x30 30x30

recompenses

dimension de la grille HSVI

PBVI PCVI1 PCVI2

(b) L’esp´erance de r´ecompenses accumul´ees.

0 2000 4000 6000 8000 10000 12000 14000

10x10 15x10 15x15 15x20 20x20 20x25 25x25 25x30 30x30

|V|

dimension de la grille HSVI

PBVI PCVI1 PCVI2

(c) Taille de la fonction de valeur en nombre d’α-vecteurs.

Figure 5.12 – ´Evaluation exp´erimentale pour des probl`emes de navigation dans une grille.

5.6. ´Evaluation Exp´erimentale mod`ele AC-POMDP, puisque le temps de calcul de la politique est consid´erablement r´eduit ;

`

a noter que le gain est environ d’un facteur 2 pour PCVI1 et 20 pour PCVI2, tout en gardant un tr`es bon niveau de performance (r´ecompenses accumul´ees) compar´e `a la politique obtenue par PBVI ou HSVI. La taille de la fonction de valeur de PCVI1 est ´equivalente `a celle de PBVI, et pour PCVI2 la taille est beaucoup plus petite, ce qui peut ˆetre expliqu´e par le fait que les projections de PCVI2 concernent seulement l’ensemble des observations O, en g´en´erant moins d’α-vecteurs.

Dans le document The DART-Europe E-theses Portal (Page 152-155)

Outline

Documents relatifs