Le domaine grid - Evaluation Exp ´erimentale ´

Prise en compte de contraintes de faisabilit´e d’actions dans le cadre POMDP

5.6 Evaluation Exp ´erimentale ´

5.6.3 Le domaine grid

(b) Taille de la fonction de valeur en nombre d’α-vecteurs.

Figure5.10 – Évaluation expérimentale pour le problème de navigationhallway2.

considérer et à générer plus deα-vecteurs que pour hallway2.

Dans la table 5.2 nous présentons un résumé de la performance des trois algorithmes (E[R], n.e.b, %but). Nous pouvons conclure une fois de plus que les politiques obtenues pour les deux version de PCVI sont fondées et équivalentes à celle de PBVI. De plus, on voit que le temps de calcul nécessaire aux différentes versions de PCVI est très faible comparé à celui de PBVI. Ceci nous permet de démontrer, une fois encore, l’avantage de résoudre directement le modèle AC-POMDP au lieu de son POMDP équivalent. Comme pour le domaine maze, la politique de PBVI a un nombre moyen d’étapes légèrement supérieur à celui de PCVI1 et PCVI2, ce qui est dû au fait que pour le POMDP classique nous avons besoin de rajouter une action supplémentaire qui n’est utilisée qu’à la première étape de décision.

algorithme E[R] n.e.b %but Table 5.2 – R´esum´e de performance des algorithmes pour hallway ethallway2.

5.6.3 Le domainegrid

Nous avons aussi testé notre approche sur une classe de problèmes de navigation dans des grilles. Ces différentes grilles ont été générées aléatoirement. Ce domaine, qui sera ici appelé grid, est une extension des problèmesmazeethallway. Dans le domainegridcertaines cellules de la grille sont des obstacles qui peuvent endommager le robot. Ces obstacles peuvent être observés comme des murs qui entourent le robot. Les états sont les cellules libres de la grille.

Les actions de déplacement sont :nord,sud,estetouest, et elles ont un coût de−0.01. Pour le POMDP équivalent, il y a une action supplémentaire de type rester sur place, nécessaire lorsque le robot part d’un état de croyance uniforme sur toutes les positions possibles (excepté le but). L’ensemble d’observationsO a deux symboles qui indiquent la présence ou non du but. L’ensemble Θ est formé par les différents ensembles d’actions réalisables, qui peuvent être parfaitement observés, en utilisant par exemple un capteur considéré suffisamment précis (détecteur d’obstacles de type laser circulaire par exemple). Notons que pour le POMDP

équivalent l’ensemble d’observations Õ est le produit cartésien des deux ensembles O et Θ.

De plus, pour le modèle POMDP équivalent, la fonction de récompense doit encoder le fait que se déplacer vers un obstacle peut endommager le robot : pour de telles paires état-action un coût de 100 est ajouté, sachant que R −100.

5.6. Évaluation Expérimentale Un exemple de grille générée est montrée sur la figure 5.11. Le but est d’arriver à l’étoile qui est placée aléatoirement dans une cellule libre, et atteindre cet état rapporte une récompense de 10.

?

Figure 5.11 – Exemple de grille de taille 10×10 générée aléatoirement.

Nous présentons la figure 5.12 le temps de planification (échelle logarithmique), la taille de la fonction de valeur obtenue à la convergence (= 0.5), et l’espérance des récompenses accumulées lors de la simulation de la politique. Nous comparons aussi nos résultats avec HSVI, un algorithme de type point−based qui s’est montré très efficace dans plusieurs domaines de la littérature. Les deux versions de PCVI ont été aussi évaluées.

Comme PCVI1 et PCVI2 sont des algorithmes inspirés par PBVI, nous pourrions nous attendre à ce que HSVI ait une performance meilleure en ce qui concerne le temps de calcul et les récompenses accumulées. Mais, nous voyons que, pour certaines dimensions de la grille, les temps de planification de PCVI1 et PCVI2 sont meilleurs que celui de HSVI, en particulier pour la dimension 20×25, où les récompenses de PCVI1 et HSVI sont équivalentes (figures 5.12(a) et 5.12(b)). PCVI2, étant sous-optimal, conduit à une récompense inférieure.

De plus, pour certaines dimensions de la grille, la politique de HSVI est très mauvaise, accumulant des récompenses négatives assez importantes, ce qui veut dire que l’heuristique utilisée par HSVI conduit l’agent à heurter un obstacle. Nous croyons que, pour HSVI, qui est un algorithme de résolutionsous-optimal basé sur la recherche heuristique, la pénalité de 100 associée aux paires état-action non faisables n’est pas suffisante. Dans ce cas, la pénalité même en étant inférieure à R ne garantit pas d’empêcher de réaliser des actions considérées non faisables.

Nous pouvons en déduire que l’attribution d’une pénalité d’infaisabilité de paire ´ etat-action pour le POMDP classique dépend de l’algorithme de résolution utilisé s’il n’est pas prouvé optimal. Toutefois, PBVI n’utilise à aucun moment des actions non réalisables. Mais ce résultat démontre qu’un réglage de coût de type potentiomètre (convenablement théorique mais tout de même empirique) n’est pas très convenable, surtout pour les algorithmes sous-optimaux, et renforce notre argument qui considère que l’infaisabilité d’une paire état-action est un critère booléen (et non numérique) qui doit être explicitement décrit dans le modèle avec une interprétation sémantique claire.

Nous tenons à souligner que la politique obtenue par PCVI1 ou PCVI2 n’utilise à aucun moment des actions interdites, indépendamment du coût qu’on aurait pu associer à ces actions. Pour les deux versions de PCVI, aucune valeur n’est attribuée aux paires ´ etat-action indésirables ; autrement dit, la valeur de ces états n’intervient pas dans la définition de l’α-vecteur.

La figure 5.12(a) utilise une échelle logarithmique afin d’illustrer le rapport de gain de temps de planification ; nous démontrons, une fois encore, l’intérêt d’optimiser directement le

0.1 1 10 100 1000 10000

10x10 15x10 15x15 15x20 20x20 20x25 25x25 25x30 30x30

temps (s)

dimension de la grille HSVI PBVI PCVI1 PCVI2

(a) Temps de planification en secondes pour= 0.5.

-10 -8 -6 -4 -2 0 2 4 6 8 10

10x10 15x10 15x15 15x20 20x20 20x25 25x25 25x30 30x30

recompenses

dimension de la grille HSVI

PBVI PCVI1 PCVI2

(b) L’espérance de récompenses accumulées.

0 2000 4000 6000 8000 10000 12000 14000

10x10 15x10 15x15 15x20 20x20 20x25 25x25 25x30 30x30

|V|

dimension de la grille HSVI

PBVI PCVI1 PCVI2

Figure 5.12 – Évaluation expérimentale pour des problèmes de navigation dans une grille.

5.6. Évaluation Expérimentale modèle AC-POMDP, puisque le temps de calcul de la politique est considérablement réduit ;

a noter que le gain est environ d’un facteur 2 pour PCVI1 et 20 pour PCVI2, tout en gardant un très bon niveau de performance (récompenses accumulées) comparé à la politique obtenue par PBVI ou HSVI. La taille de la fonction de valeur de PCVI1 est équivalente à celle de PBVI, et pour PCVI2 la taille est beaucoup plus petite, ce qui peut être expliqué par le fait que les projections de PCVI2 concernent seulement l’ensemble des observations O, en générant moins d’α-vecteurs.

Dans le document The DART-Europe E-theses Portal (Page 152-155)