Le domaine grid - Evaluation Exp´ ´ erimentale

5.6 Evaluation Exp´ ´ erimentale

5.6.3 Le domaine grid

10 15 20 25 30 35 40 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 |V| temps (s) PBVI PCVI1 PCVI2

(b) Taille de la fonction de valeur en nombre d’α-vecteurs.

Figure 5.10 – Évaluation expérimentale pour le problème de navigation hallway2.

considérer et à générer plus de α-vecteurs que pour hallway2.

Dans la table 5.2 nous présentons un résumé de la performance des trois algorithmes (E[R], n.e.b, %but). Nous pouvons conclure une fois de plus que les politiques obtenues pour les deux version de PCVI sont fondées et équivalentes à celle de PBVI. De plus, on voit que le temps de calcul nécessaire aux différentes versions de PCVI est très faible comparé à celui de PBVI. Ceci nous permet de démontrer, une fois encore, l’avantage de résoudre directement le modèle AC-POMDP au lieu de son POMDP équivalent. Comme pour le domaine maze, la politique de PBVI a un nombre moyen d’étapes légèrement supérieur à celui de PCVI1 et PCVI2, ce qui est dû au fait que pour le POMDP classique nous avons besoin de rajouter une action supplémentaire qui n’est utilisée qu’à la première étape de décision.

algorithme E[R] n.e.b %but

PBVI 0.617846 10.706 100

PCVI1 0.658238 9.64 100

PCVI2 0.642681 10.33 100

algorithme E[R] n.e.b %but

PBVI 0.672065 9.012 100

PCVI1 0.707178 8.009 100

PCVI2 0.709952 7.923 100

Table 5.2 – R´esum´e de performance des algorithmes pour hallway et hallway2.

5.6.3 Le domaine grid

Nous avons aussi testé notre approche sur une classe de problèmes de navigation dans des grilles. Ces différentes grilles ont été générées aléatoirement. Ce domaine, qui sera ici appelé grid, est une extension des problèmes maze et hallway. Dans le domaine grid certaines cellules de la grille sont des obstacles qui peuvent endommager le robot. Ces obstacles peuvent être observés comme des murs qui entourent le robot. Les états sont les cellules libres de la grille. Les actions de déplacement sont : nord, sud, est et ouest, et elles ont un coût de −0.01. Pour le POMDP équivalent, il y a une action supplémentaire de type rester sur place, nécessaire lorsque le robot part d’un état de croyance uniforme sur toutes les positions possibles (excepté le but). L’ensemble d’observations O a deux symboles qui indiquent la présence ou non du but. L’ensemble Θ est formé par les différents ensembles d’actions réalisables, qui peuvent être parfaitement observés, en utilisant par exemple un capteur considéré suffisamment précis (détecteur d’obstacles de type laser circulaire par exemple). Notons que pour le POMDP équivalent l’ensemble d’observations Õ est le produit cartésien des deux ensembles O et Θ. De plus, pour le modèle POMDP équivalent, la fonction de récompense doit encoder le fait que se déplacer vers un obstacle peut endommager le robot : pour de telles paires état-action un coût de 100 est ajouté, sachant que R −100.

5.6. ´Evaluation Exp´erimentale

Un exemple de grille générée est montrée sur la figure 5.11. Le but est d’arriver à l’étoile qui est placée aléatoirement dans une cellule libre, et atteindre cet état rapporte une récompense de 10.

?

Figure 5.11 – Exemple de grille de taille 10 × 10 générée aléatoirement.

Nous présentons la figure 5.12 le temps de planification (échelle logarithmique), la taille de la fonction de valeur obtenue à la convergence ( = 0.5), et l’espérance des récompenses accumulées lors de la simulation de la politique. Nous comparons aussi nos résultats avec HSVI, un algorithme de type point − based qui s’est montré très efficace dans plusieurs domaines de la littérature. Les deux versions de PCVI ont été aussi évaluées.

Comme PCVI1 et PCVI2 sont des algorithmes inspirés par PBVI, nous pourrions nous attendre à ce que HSVI ait une performance meilleure en ce qui concerne le temps de calcul et les récompenses accumulées. Mais, nous voyons que, pour certaines dimensions de la grille, les temps de planification de PCVI1 et PCVI2 sont meilleurs que celui de HSVI, en particulier pour la dimension 20 × 25, où les récompenses de PCVI1 et HSVI sont équivalentes (figures 5.12(a) et 5.12(b)). PCVI2, étant sous-optimal, conduit à une récompense inférieure.

De plus, pour certaines dimensions de la grille, la politique de HSVI est très mauvaise, accumulant des récompenses négatives assez importantes, ce qui veut dire que l’heuristique utilisée par HSVI conduit l’agent à heurter un obstacle. Nous croyons que, pour HSVI, qui est un algorithme de résolution sous-optimal basé sur la recherche heuristique, la pénalité de 100 associée aux paires état-action non faisables n’est pas suffisante. Dans ce cas, la pénalité même en étant inférieure à R ne garantit pas d’empêcher de réaliser des actions considérées non faisables.

Nous pouvons en déduire que l’attribution d’une pénalité d’infaisabilité de paire ´ etat-action pour le POMDP classique dépend de l’algorithme de résolution utilisé s’il n’est pas prouvé optimal. Toutefois, PBVI n’utilise à aucun moment des actions non réalisables. Mais ce résultat démontre qu’un réglage de coût de type potentiomètre (convenablement théorique mais tout de même empirique) n’est pas très convenable, surtout pour les algorithmes sous-optimaux, et renforce notre argument qui considère que l’infaisabilité d’une paire état-action est un critère booléen (et non numérique) qui doit être explicitement décrit dans le modèle avec une interprétation sémantique claire.

Nous tenons à souligner que la politique obtenue par PCVI1 ou PCVI2 n’utilise à aucun moment des actions interdites, indépendamment du coût qu’on aurait pu associer à ces actions. Pour les deux versions de PCVI, aucune valeur n’est attribuée aux paires ´ etat-action indésirables ; autrement dit, la valeur de ces états n’intervient pas dans la définition de l’α-vecteur.

La figure 5.12(a) utilise une échelle logarithmique afin d’illustrer le rapport de gain de temps de planification ; nous démontrons, une fois encore, l’intérêt d’optimiser directement le

0.1 1 10 100 1000 10000 10x10 15x10 15x15 15x20 20x20 20x25 25x25 25x30 30x30 temps (s) dimension de la grille HSVI PBVI PCVI1 PCVI2

(a) Temps de planification en secondes pour = 0.5.

-10 -8 -6 -4 -2 0 2 4 6 8 10 10x10 15x10 15x15 15x20 20x20 20x25 25x25 25x30 30x30 recompenses dimension de la grille HSVI PBVI PCVI1 PCVI2

(b) L’espérance de récompenses accumulées.

0 2000 4000 6000 8000 10000 12000 14000 10x10 15x10 15x15 15x20 20x20 20x25 25x25 25x30 30x30 |V| dimension de la grille HSVI PBVI PCVI1 PCVI2

5.6. ´Evaluation Exp´erimentale

modèle AC-POMDP, puisque le temps de calcul de la politique est considérablement réduit ; `

a noter que le gain est environ d’un facteur 2 pour PCVI1 et 20 pour PCVI2, tout en gardant un très bon niveau de performance (récompenses accumulées) comparé à la politique obtenue par PBVI ou HSVI. La taille de la fonction de valeur de PCVI1 est équivalente à celle de PBVI, et pour PCVI2 la taille est beaucoup plus petite, ce qui peut être expliqué par le fait que les projections de PCVI2 concernent seulement l’ensemble des observations O, en générant moins d’α-vecteurs.

Dans le document Planification de perception et de mission en environnement incertain : Application à la détection et à la reconnaissance de cibles par un hélicoptère autonome (Page 152-155)