Le domaine RockSample - Evaluation Exp´ ´ erimentale

5.6 Evaluation Exp´ ´ erimentale

5.6.4 Le domaine RockSample

a noter que le gain est environ d’un facteur 2 pour PCVI1 et 20 pour PCVI2, tout en gardant un très bon niveau de performance (récompenses accumulées) comparé à la politique obtenue par PBVI ou HSVI. La taille de la fonction de valeur de PCVI1 est équivalente à celle de PBVI, et pour PCVI2 la taille est beaucoup plus petite, ce qui peut être expliqué par le fait que les projections de PCVI2 concernent seulement l’ensemble des observations O, en générant moins d’α-vecteurs.

5.6.4 Le domaine RockSample

Le domaine RockSample a été proposé par [Smith et Simmons, 2004]. Ce domaine traite un problème de navigation d’un robot d’exploration martien dont l’objectif est d’observer la nature des pierres, de les ramasser si ces pierres sont ”bonnes”, et ensuite d’atteindre un état terminal. Le robot se déplace dans un environnement de type grille et réalise des actions de mesure pour recueillir des informations concernant les pierres. La figure 5.13 illustre l’environnement de navigation ainsi que la position a priori connue des pierres.

E X I T

Figure 5.13 – Exemple d’environnement de navigation du domaine RockSample. Nous avons modifié l’environnement de navigation en ajoutant des trous dans la grille, qui modélisent des zones dangereuses du terrain où le robot ne doit pas aller. Par exemple, une zone couverte de sable peut provoquer l’immobilisation temporaire ou même la mise hors service du robot. Ces zones sont représentées par les rectangles en noir sur la figure 5.13.

Nous avons testé notre approche sur trois instances différentes de ce domaine. Dans RockSample 4 × 4 le robot navigue dans une grille de taille 4 × 4 et peut ramasser 4 pierres, dans RockSample 5 × 5, la grille a une taille de 5 × 5 et le robot peut ramasser 5 pierres, et ainsi de suite. Les actions de déplacement sont les mêmes que pour les domaines précédents et n’ont aucun coût, par contre ces déplacements sont déterministes.

De plus, dans RockSample, l’agent dispose d’une action de mesure par pierre ainsi que d’une action de prise. La précision de la mesure de la nature d’une pierre est liée à la distance du robot à la pierre qu’il cherche à observer. Plus le robot est proche d’une pierre plus il a de bonnes chances de percevoir la vraie nature de cette pierre. Nous pouvons voir qu’une fois de plus, le modèle d’observation du problème est naturellement découplé : L’ensemble O concerne les observations probabilistes de la nature des pierres, et l’ensemble Θ concerne la topographie du terrain entourant le robot.

Ramasser une pierre dite ”bonne” rapporte au robot une récompense de 10, ramasser une pierre mauvaise le pénalise de 10. Atteindre l’état final, représenté par exit dans la figure 5.13, lui rapporte une récompense de 10. Pour modéliser le fait que le robot ne doit pas aller vers des zones dangereuses ou sortir du terrain ces mouvements sont pénalisés de 100 (R > −100) dans le cadre POMDP classique. Cette pénalité n’est pas prise en compte dans le modèle AC-POMDP.

La figure 5.14 présente le temps de planification en échelle logarithmique, la taille de la fonction de valeur obtenue à la convergence ( = 0.7), et la récompense accumulée lors de la simulation de la politique. Nous comparons aussi les résultats obtenus avec les deux

versions de PCVI avec HSVI. Ces politiques ont été calculées pour un état de croyance initial uniforme, c’est-à-dire qu’au début de la mission le robot ne connaˆıt pas sa position dans la grille ni la nature des pierres qui sont présentes dans l’environnement. Il doit se déplacer en toute sécurité en ramassant des pierres si elles sont bonnes.

Nous pouvons voir sur la figure 5.14(a) que le temps de planification nécessaire à PBVI et aux deux versions de PCVI croˆıt exponentiellement avec la taille du problème. HSVI est lar-gement plus performant que PBVI, PCVI1 et PCVI2 pour RockSample 4 × 4 et RockSample 5 × 5. Par contre HSVI ne fournit pas de politique pour RockSample 6 × 6, car pour cette ins-tance du problème HSVI atteint la limite de mémoire virtuelle allouée aux expérimentations (1.8Go).

Toutefois, nous tenons à faire remarquer que PCVI1, atteint quasiment la même valeur de la politique (récompenses) que HSVI pour RockSample 4 × 4 et RockSample 5 × 5, tout en utilisant un nombre inférieur d’α-vecteurs dans la fonction de valeur optimisée. Ceci montre que notre approche est capable de fournir des politiques fondées. A noter que PBVI a une performance très pauvre, ce qui peut être expliqué par le fait que, pour certaines simulations de la politique, qui a été optimisée pour un ensemble |B| = 3000, il a retrouvé des états de croyance pour lesquels une action n’a pas été optimisée, ce qui veut dire que la politique obtenue ne se généralise pas bien à des états de croyance qui n’appartiennent pas à B.

La comparaison de temps de calcul des politiques entre PCVI et HSVI n’est pas tout à fait équitable, puisque PCVI (inspiré par PBVI) ne réalise aucune recherche heuristique dans l’espace d’états de croyance contrairement à HSVI. Les algorithmes basés sur la recherche heuristique se sont avérés d’être beaucoup plus efficaces que les algorithmes basés sur la recherche stochastique [Smith et Simmons, 2005, Shani et al., 2007, Kurniawati et al., 2008]. Ainsi, nous pensons que le temps de planification des deux versions de PCVI est comparable uniquement à celui de PBVI. Il serait par ailleurs tout à fait possible de concevoir une version AC-POMDP de HSVI, afin d’obtenir le même type de gains que pour PBVI. Cette piste de recherche sera discutée dans le chapitre 7.

Concernant le nombre d’α-vecteurs qui constituent la fonction de valeur obtenue pour les deux versions de PCVI, nous voyons qu’il est inférieur à celui de PBVI et très inférieur `

a celui de HSVI. Ceci peut être expliqué en s’appuyant sur les résultats théoriques de la section 5.4.1 : résoudre directement le modèle AC-POMDP conduit à moins d’évaluations (maxa∈A_b à la place de maxa∈A) et à moins de projections Γâ,(o,θ), ce qui peut, pour certains domaines, représenter moins d’α-vecteurs dominants dans la fonction de valeur. Nous tenons `

a remarquer que les α-vecteurs occupent chacun moins de place en mémoire, puisqu’ils ont des valeurs définies sur moins d’états.

5.6. ´Evaluation Exp´erimentale 10 100 1000 10000 100000

RockSample4x4 RockSample5x5 RockSample6x6

temps (s)

PBVI HSVI PCVI1 PCVI2

(a) Temps de planification en secondes pour un = 0.7.

9 10 11 12 13 14 15 16 17 18

RockSample4x4 RockSample5x5 RockSample6x6

recompenses

PBVI HSVI PCVI1 PCVI2

(b) L’espérance de récompenses accumulées.

100 200 300 400 500 600 700 800 900

RockSample4x4 RockSample5x5 RockSample6x6

|V|

PBVI HSVI PCVI1 PCVI2

Dans le document Planification de perception et de mission en environnement incertain : Application à la détection et à la reconnaissance de cibles par un hélicoptère autonome (Page 155-158)