• Aucun résultat trouvé

5.6 Evaluation Exp´ ´ erimentale

5.6.4 Le domaine RockSample

a noter que le gain est environ d’un facteur 2 pour PCVI1 et 20 pour PCVI2, tout en gardant un tr`es bon niveau de performance (r´ecompenses accumul´ees) compar´e `a la politique obtenue par PBVI ou HSVI. La taille de la fonction de valeur de PCVI1 est ´equivalente `a celle de PBVI, et pour PCVI2 la taille est beaucoup plus petite, ce qui peut ˆetre expliqu´e par le fait que les projections de PCVI2 concernent seulement l’ensemble des observations O, en g´en´erant moins d’α-vecteurs.

5.6.4 Le domaine RockSample

Le domaine RockSample a ´et´e propos´e par [Smith et Simmons, 2004]. Ce domaine traite un probl`eme de navigation d’un robot d’exploration martien dont l’objectif est d’observer la nature des pierres, de les ramasser si ces pierres sont ”bonnes”, et ensuite d’atteindre un ´etat terminal. Le robot se d´eplace dans un environnement de type grille et r´ealise des actions de mesure pour recueillir des informations concernant les pierres. La figure 5.13 illustre l’environnement de navigation ainsi que la position a priori connue des pierres.

E X I T

Figure 5.13 – Exemple d’environnement de navigation du domaine RockSample. Nous avons modifi´e l’environnement de navigation en ajoutant des trous dans la grille, qui mod´elisent des zones dangereuses du terrain o`u le robot ne doit pas aller. Par exemple, une zone couverte de sable peut provoquer l’immobilisation temporaire ou mˆeme la mise hors service du robot. Ces zones sont repr´esent´ees par les rectangles en noir sur la figure 5.13.

Nous avons test´e notre approche sur trois instances diff´erentes de ce domaine. Dans RockSample 4 × 4 le robot navigue dans une grille de taille 4 × 4 et peut ramasser 4 pierres, dans RockSample 5 × 5, la grille a une taille de 5 × 5 et le robot peut ramasser 5 pierres, et ainsi de suite. Les actions de d´eplacement sont les mˆemes que pour les domaines pr´ec´edents et n’ont aucun coˆut, par contre ces d´eplacements sont d´eterministes.

De plus, dans RockSample, l’agent dispose d’une action de mesure par pierre ainsi que d’une action de prise. La pr´ecision de la mesure de la nature d’une pierre est li´ee `a la distance du robot `a la pierre qu’il cherche `a observer. Plus le robot est proche d’une pierre plus il a de bonnes chances de percevoir la vraie nature de cette pierre. Nous pouvons voir qu’une fois de plus, le mod`ele d’observation du probl`eme est naturellement d´ecoupl´e : L’ensemble O concerne les observations probabilistes de la nature des pierres, et l’ensemble Θ concerne la topographie du terrain entourant le robot.

Ramasser une pierre dite ”bonne” rapporte au robot une r´ecompense de 10, ramasser une pierre mauvaise le p´enalise de 10. Atteindre l’´etat final, repr´esent´e par exit dans la figure 5.13, lui rapporte une r´ecompense de 10. Pour mod´eliser le fait que le robot ne doit pas aller vers des zones dangereuses ou sortir du terrain ces mouvements sont p´enalis´es de 100 (R > −100) dans le cadre POMDP classique. Cette p´enalit´e n’est pas prise en compte dans le mod`ele AC-POMDP.

La figure 5.14 pr´esente le temps de planification en ´echelle logarithmique, la taille de la fonction de valeur obtenue `a la convergence ( = 0.7), et la r´ecompense accumul´ee lors de la simulation de la politique. Nous comparons aussi les r´esultats obtenus avec les deux

versions de PCVI avec HSVI. Ces politiques ont ´et´e calcul´ees pour un ´etat de croyance initial uniforme, c’est-`a-dire qu’au d´ebut de la mission le robot ne connaˆıt pas sa position dans la grille ni la nature des pierres qui sont pr´esentes dans l’environnement. Il doit se d´eplacer en toute s´ecurit´e en ramassant des pierres si elles sont bonnes.

Nous pouvons voir sur la figure 5.14(a) que le temps de planification n´ecessaire `a PBVI et aux deux versions de PCVI croˆıt exponentiellement avec la taille du probl`eme. HSVI est lar-gement plus performant que PBVI, PCVI1 et PCVI2 pour RockSample 4 × 4 et RockSample 5 × 5. Par contre HSVI ne fournit pas de politique pour RockSample 6 × 6, car pour cette ins-tance du probl`eme HSVI atteint la limite de m´emoire virtuelle allou´ee aux exp´erimentations (1.8Go).

Toutefois, nous tenons `a faire remarquer que PCVI1, atteint quasiment la mˆeme valeur de la politique (r´ecompenses) que HSVI pour RockSample 4 × 4 et RockSample 5 × 5, tout en utilisant un nombre inf´erieur d’α-vecteurs dans la fonction de valeur optimis´ee. Ceci montre que notre approche est capable de fournir des politiques fond´ees. A noter que PBVI a une performance tr`es pauvre, ce qui peut ˆetre expliqu´e par le fait que, pour certaines simulations de la politique, qui a ´et´e optimis´ee pour un ensemble |B| = 3000, il a retrouv´e des ´etats de croyance pour lesquels une action n’a pas ´et´e optimis´ee, ce qui veut dire que la politique obtenue ne se g´en´eralise pas bien `a des ´etats de croyance qui n’appartiennent pas `a B.

La comparaison de temps de calcul des politiques entre PCVI et HSVI n’est pas tout `a fait ´equitable, puisque PCVI (inspir´e par PBVI) ne r´ealise aucune recherche heuristique dans l’espace d’´etats de croyance contrairement `a HSVI. Les algorithmes bas´es sur la recherche heuristique se sont av´er´es d’ˆetre beaucoup plus efficaces que les algorithmes bas´es sur la recherche stochastique [Smith et Simmons, 2005, Shani et al., 2007, Kurniawati et al., 2008]. Ainsi, nous pensons que le temps de planification des deux versions de PCVI est comparable uniquement `a celui de PBVI. Il serait par ailleurs tout `a fait possible de concevoir une version AC-POMDP de HSVI, afin d’obtenir le mˆeme type de gains que pour PBVI. Cette piste de recherche sera discut´ee dans le chapitre 7.

Concernant le nombre d’α-vecteurs qui constituent la fonction de valeur obtenue pour les deux versions de PCVI, nous voyons qu’il est inf´erieur `a celui de PBVI et tr`es inf´erieur `

a celui de HSVI. Ceci peut ˆetre expliqu´e en s’appuyant sur les r´esultats th´eoriques de la section 5.4.1 : r´esoudre directement le mod`ele AC-POMDP conduit `a moins d’´evaluations (maxa∈Ab `a la place de maxa∈A) et `a moins de projections Γa,(o,θ), ce qui peut, pour certains domaines, repr´esenter moins d’α-vecteurs dominants dans la fonction de valeur. Nous tenons `

a remarquer que les α-vecteurs occupent chacun moins de place en m´emoire, puisqu’ils ont des valeurs d´efinies sur moins d’´etats.

5.6. ´Evaluation Exp´erimentale 10 100 1000 10000 100000

RockSample4x4 RockSample5x5 RockSample6x6

temps (s)

PBVI HSVI PCVI1 PCVI2

(a) Temps de planification en secondes pour un  = 0.7.

9 10 11 12 13 14 15 16 17 18

RockSample4x4 RockSample5x5 RockSample6x6

recompenses

PBVI HSVI PCVI1 PCVI2

(b) L’esp´erance de r´ecompenses accumul´ees.

100 200 300 400 500 600 700 800 900

RockSample4x4 RockSample5x5 RockSample6x6

|V|

PBVI HSVI PCVI1 PCVI2

(c) Taille de la fonction de valeur en nombre d’α-vecteurs.