• Aucun résultat trouvé

5.6 Evaluation Exp´ ´ erimentale

5.6.3 Le domaine grid

10 15 20 25 30 35 40 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 |V| temps (s) PBVI PCVI1 PCVI2

(b) Taille de la fonction de valeur en nombre d’α-vecteurs.

Figure 5.10 – ´Evaluation exp´erimentale pour le probl`eme de navigation hallway2.

consid´erer et `a g´en´erer plus de α-vecteurs que pour hallway2.

Dans la table 5.2 nous pr´esentons un r´esum´e de la performance des trois algorithmes (E[R], n.e.b, %but). Nous pouvons conclure une fois de plus que les politiques obtenues pour les deux version de PCVI sont fond´ees et ´equivalentes `a celle de PBVI. De plus, on voit que le temps de calcul n´ecessaire aux diff´erentes versions de PCVI est tr`es faible compar´e `a celui de PBVI. Ceci nous permet de d´emontrer, une fois encore, l’avantage de r´esoudre directement le mod`ele AC-POMDP au lieu de son POMDP ´equivalent. Comme pour le domaine maze, la politique de PBVI a un nombre moyen d’´etapes l´eg`erement sup´erieur `a celui de PCVI1 et PCVI2, ce qui est dˆu au fait que pour le POMDP classique nous avons besoin de rajouter une action suppl´ementaire qui n’est utilis´ee qu’`a la premi`ere ´etape de d´ecision.

algorithme E[R] n.e.b %but

PBVI 0.617846 10.706 100

PCVI1 0.658238 9.64 100

PCVI2 0.642681 10.33 100

algorithme E[R] n.e.b %but

PBVI 0.672065 9.012 100

PCVI1 0.707178 8.009 100

PCVI2 0.709952 7.923 100

Table 5.2 – R´esum´e de performance des algorithmes pour hallway et hallway2.

5.6.3 Le domaine grid

Nous avons aussi test´e notre approche sur une classe de probl`emes de navigation dans des grilles. Ces diff´erentes grilles ont ´et´e g´en´er´ees al´eatoirement. Ce domaine, qui sera ici appel´e grid, est une extension des probl`emes maze et hallway. Dans le domaine grid certaines cellules de la grille sont des obstacles qui peuvent endommager le robot. Ces obstacles peuvent ˆetre observ´es comme des murs qui entourent le robot. Les ´etats sont les cellules libres de la grille. Les actions de d´eplacement sont : nord, sud, est et ouest, et elles ont un coˆut de −0.01. Pour le POMDP ´equivalent, il y a une action suppl´ementaire de type rester sur place, n´ecessaire lorsque le robot part d’un ´etat de croyance uniforme sur toutes les positions possibles (except´e le but). L’ensemble d’observations O a deux symboles qui indiquent la pr´esence ou non du but. L’ensemble Θ est form´e par les diff´erents ensembles d’actions r´ealisables, qui peuvent ˆetre parfaitement observ´es, en utilisant par exemple un capteur consid´er´e suffisamment pr´ecis (d´etecteur d’obstacles de type laser circulaire par exemple). Notons que pour le POMDP ´equivalent l’ensemble d’observations ˜O est le produit cart´esien des deux ensembles O et Θ. De plus, pour le mod`ele POMDP ´equivalent, la fonction de r´ecompense doit encoder le fait que se d´eplacer vers un obstacle peut endommager le robot : pour de telles paires ´etat-action un coˆut de 100 est ajout´e, sachant que R  −100.

5.6. ´Evaluation Exp´erimentale

Un exemple de grille g´en´er´ee est montr´ee sur la figure 5.11. Le but est d’arriver `a l’´etoile qui est plac´ee al´eatoirement dans une cellule libre, et atteindre cet ´etat rapporte une r´ecompense de 10.

?

Figure 5.11 – Exemple de grille de taille 10 × 10 g´en´er´ee al´eatoirement.

Nous pr´esentons la figure 5.12 le temps de planification (´echelle logarithmique), la taille de la fonction de valeur obtenue `a la convergence ( = 0.5), et l’esp´erance des r´ecompenses accumul´ees lors de la simulation de la politique. Nous comparons aussi nos r´esultats avec HSVI, un algorithme de type point − based qui s’est montr´e tr`es efficace dans plusieurs domaines de la litt´erature. Les deux versions de PCVI ont ´et´e aussi ´evalu´ees.

Comme PCVI1 et PCVI2 sont des algorithmes inspir´es par PBVI, nous pourrions nous attendre `a ce que HSVI ait une performance meilleure en ce qui concerne le temps de calcul et les r´ecompenses accumul´ees. Mais, nous voyons que, pour certaines dimensions de la grille, les temps de planification de PCVI1 et PCVI2 sont meilleurs que celui de HSVI, en particulier pour la dimension 20 × 25, o`u les r´ecompenses de PCVI1 et HSVI sont ´equivalentes (figures 5.12(a) et 5.12(b)). PCVI2, ´etant sous-optimal, conduit `a une r´ecompense inf´erieure.

De plus, pour certaines dimensions de la grille, la politique de HSVI est tr`es mauvaise, accumulant des r´ecompenses n´egatives assez importantes, ce qui veut dire que l’heuristique utilis´ee par HSVI conduit l’agent `a heurter un obstacle. Nous croyons que, pour HSVI, qui est un algorithme de r´esolution sous-optimal bas´e sur la recherche heuristique, la p´enalit´e de 100 associ´ee aux paires ´etat-action non faisables n’est pas suffisante. Dans ce cas, la p´enalit´e mˆeme en ´etant inf´erieure `a R ne garantit pas d’empˆecher de r´ealiser des actions consid´er´ees non faisables.

Nous pouvons en d´eduire que l’attribution d’une p´enalit´e d’infaisabilit´e de paire ´ etat-action pour le POMDP classique d´epend de l’algorithme de r´esolution utilis´e s’il n’est pas prouv´e optimal. Toutefois, PBVI n’utilise `a aucun moment des actions non r´ealisables. Mais ce r´esultat d´emontre qu’un r´eglage de coˆut de type potentiom`etre (convenablement th´eorique mais tout de mˆeme empirique) n’est pas tr`es convenable, surtout pour les algorithmes sous-optimaux, et renforce notre argument qui consid`ere que l’infaisabilit´e d’une paire ´etat-action est un crit`ere bool´een (et non num´erique) qui doit ˆetre explicitement d´ecrit dans le mod`ele avec une interpr´etation s´emantique claire.

Nous tenons `a souligner que la politique obtenue par PCVI1 ou PCVI2 n’utilise `a aucun moment des actions interdites, ind´ependamment du coˆut qu’on aurait pu associer `a ces actions. Pour les deux versions de PCVI, aucune valeur n’est attribu´ee aux paires ´ etat-action ind´esirables ; autrement dit, la valeur de ces ´etats n’intervient pas dans la d´efinition de l’α-vecteur.

La figure 5.12(a) utilise une ´echelle logarithmique afin d’illustrer le rapport de gain de temps de planification ; nous d´emontrons, une fois encore, l’int´erˆet d’optimiser directement le

0.1 1 10 100 1000 10000 10x10 15x10 15x15 15x20 20x20 20x25 25x25 25x30 30x30 temps (s) dimension de la grille HSVI PBVI PCVI1 PCVI2

(a) Temps de planification en secondes pour  = 0.5.

-10 -8 -6 -4 -2 0 2 4 6 8 10 10x10 15x10 15x15 15x20 20x20 20x25 25x25 25x30 30x30 recompenses dimension de la grille HSVI PBVI PCVI1 PCVI2

(b) L’esp´erance de r´ecompenses accumul´ees.

0 2000 4000 6000 8000 10000 12000 14000 10x10 15x10 15x15 15x20 20x20 20x25 25x25 25x30 30x30 |V| dimension de la grille HSVI PBVI PCVI1 PCVI2

(c) Taille de la fonction de valeur en nombre d’α-vecteurs.

5.6. ´Evaluation Exp´erimentale

mod`ele AC-POMDP, puisque le temps de calcul de la politique est consid´erablement r´eduit ; `

a noter que le gain est environ d’un facteur 2 pour PCVI1 et 20 pour PCVI2, tout en gardant un tr`es bon niveau de performance (r´ecompenses accumul´ees) compar´e `a la politique obtenue par PBVI ou HSVI. La taille de la fonction de valeur de PCVI1 est ´equivalente `a celle de PBVI, et pour PCVI2 la taille est beaucoup plus petite, ce qui peut ˆetre expliqu´e par le fait que les projections de PCVI2 concernent seulement l’ensemble des observations O, en g´en´erant moins d’α-vecteurs.