Evaluation de la politique calcul´ ´ ee avec le crit` ere classique des POMDP

4.2 POMDP et mission d’atterrissage

4.2.1 Evaluation de la politique calcul´ ´ ee avec le crit` ere classique des POMDP

Pour l’évaluation des politiques obtenues avec le critère classique des POMDP, nous avons utilisé l’algorithme PBVI [Pineau et al., 2003], que nous avons ré-implémenté, pour traiter trois variantes de la mission : (1) où l’on cherche à atterrir à côté de la voiture correspondant au modèle A ; (2) au modèle B ; et (3) au modèle C. Dans chaque mission, nous avons fixé le nombre de zones à 3. L’hélicoptère autonome se trouve au début de la mission dans la zone 1, à une altitude de 30 mètres. L’agent n’a aucune connaissance à priori sur le nombre ni sur la nature des cibles qui sont effectivement présentes dans la scène. Cette croyance subjective est modélisée par une distribution de probabilité uniforme sur les 64 états possibles. Ainsi l’état de croyance initial est défini tel que :

b₀ = {z = z₁, h = h₁, Id_{T a}_z1 = inconnu, Id_{T a}_z2 = inconnu, Id_{T a}_z3 = inconnu}. (4.43) Le calcul de la politique avec l’algorithme PBVI a été fait pour un nombre d’états de croyance égal à 5000, et avec une paramétrage de γ = 0.95 et de = 0.5. Ensuite, des simulations ont été réalisées afin de moyenner les résultats. Nous en avons réalisés 12000 avec un horizon de 30 étapes de décision.

La figure 4.15 montre l’évolution de la moyenne des récompenses (équation 4.40) et de l’entropie (négative) de l’état de croyance (équation 4.39). Nous pouvons voir que pour les trois missions, l’évolution de la moyenne de l’entropie tend vers zéro (figure 4.15(a)). Dans le cas de la mission (3) (atterrissage à côté de la voiture de modèle C), l’entropie diminue moins vite . Ceci peut s’expliquer par le fait que le modèle d’observation relatif à ce modèle de voiture est moins informatif que ceux associés aux autres modèles, ce qui conduit l’agent à prendre plus d’informations, donc à réaliser plus d’actions avant d’atterrir. La table 4.2 montre le modèle d’observation utilisé, qui a été appris à partir de données réelles (cf. chapitre 3). Nous pouvons y voir que la probabilité d’observer le modèle C, étant donné que l’on l’observe effectivement ce modèle est moins importante que pour les autres modèles (63% contre85% et même 92%).

4.2. POMDP et mission d’atterrissage

modèle, altitude non détecté détecté non ident. modèle A modèle B modèle C

modèle A, à 30 mètres 0.006103 0.117698 0.680907 0.060157 0.135135

modèle A, à 40 mètres 0.007340 0.067758 0.845285 0.000000 0.079616

modèle B, à 30 mètres 0.029536 0.111814 0.004219 0.848101 0.006329

modèle B, à 40 mètres 0.010526 0.044211 0.014737 0.915789 0.014737

modèle C, à 30 mètres 0.001000 0.027027 0.057432 0.280532 0.634009

modèle C, à 40 mètres 0.003589 0.022254 0.103374 0.241924 0.628859

aucune, `a 30 m`etres 0.882418 0.091308 0.008791 0.016484 0.001000

aucune, `a 40 m`etres 0.855918 0.140509 0.001000 0.001572 0.001000

Table 4.2 – Table avec les probabilit´es d’observation par mod`ele de voiture et altitude de vol. -6 -5 -4 -3 -2 -1 0 0 5 10 15 20 25 30

Evolution de la moyenne de l’entropie

PBVI (modele A) PBVI (modele B) PBVI (modele C)

(a) Moyenne de l’entropie de l’´etat de croyance `a chaque instant t. -6 -4 -2 0 2 4 6 8 10 0 5 10 15 20 25 30

Evolution de la moyenne de recompenses

PBVI (model A) PBVI (model B) PBVI (model C)

(b) Moyenne de la r´ecompense `a chaque instant t.

Figure 4.15 – Moyennes de l’entropie de l’´etat de croyance et de r´ecompenses.

Le fait de devoir réaliser plus d’actions pour accomplir la mission où l’on cherche à atterrir `

a côté de la voiture de modèle C est aussi mis en évidence dans les courbes de la figure 4.16 où les espérances des sommes pondérées des récompenses (figure 4.16(b)) et des entropies de l’état de croyance (figure 4.16(a)) sont tracées en fonction du temps. La courbe relative `

a la somme pondérée des récompenses pour la mission (3) est située en-dessous de celles relatives aux autres missions en raison des actions supplémentaires qui sont nécessaires pour mieux distinguer les modèles. La courbe caractérisant la mission (2) (modèle B) est située sous le tracé rouge qui correspond au résultat de la mission (1) (modèle A). Ceci peut être expliqué par le fait que le modèle d’observation est plus informatif pour le modèle de véhicule B (table 4.2). L’agent à tendance à changer de zone plus tôt dans la mission, ce qui pénalise la somme pondérée pour cette mission, étant donné que le changement de zone est l’action la plus coûteuse du modèle.

L’espérance de la somme pondérée des récompenses, dont les variations dans le temps sont tracées sur la figure 4.16(b), ne converge pas vers une valeur constante. Une explication possible reside dans le fait que pour certaines simulations où la voiture recherchée n’est pas présente dans l’environnement, l’hélicoptère n’a pas forcément atterri en utilisant ainsi continument des actions de déplacement, ce qui est mis en évidence par la pente descendante des courbes.

La figure 4.21 illustre le pourcentage de missions réussies, de missions manquées, ainsi que le nombre moyen d’étapes jusqu’à l’atterrissage. Le taux de réussite est d’environ 56% (figure 4.17(a)), ce qui est en accord avec les états initiaux possibles. Autrement dit, pour ces simulations nous avons tiré l’état initial caché selon b₀. Encore plus précisément, au début de la mission, l’état de croyance suit une loi uniforme sur les 64 états possibles. Et, parmi ces

-24 -22 -20 -18 -16 -14 -12 -10 -8 -6 0 5 10 15 20 25 30

Esperance de la somme ponderee d’entropies

PBVI (modele A) PBVI (modele B) PBVI (modele C)

(a) Espérance de la somme pondérée d’entropies de l’état de croyance pour chaque instant t.

-12 -10 -8 -6 -4 -2 0 2 4 6 0 5 10 15 20 25 30

Esperance de la somme ponderee de recompenses

PBVI (modele A) PBVI (modele B) PBVI (modele C)

(b) Espérance de la somme pondérée de récompenses pour chaque instant t.

Figure 4.16 – Espérance de la somme pondérée d’entropies de l’état de croyance et de récompenses.

64 états, il y a 37 états pour lesquels la voiture recherchée est bien présente, ce qui conduit `

a une probabilité de réussite (selon état de croyance) de 58%. Le pourcentage de mission manquées se situe aux alentours de 1, 5% (pourcentage de fois que l’hélicoptère a atterri sur une mauvaise cible).

Nous pouvons vérifier sur la figure 4.17(b) que le nombre moyen d’étapes jusqu’à l’atter-rissage pour la mission (3) est plus important que pour les autres missions, ce qui démontre que l’agent autonome a besoin d’acquérir plus d’information.

Ces résultats prouvent que pour cette application la politique obtenue avec le critère classique des POMDP gère de manière implicite une acquisition d’informations qui amène l’agent autonome à finaliser correctement sa mission, indépendamment de la nature de la cible recherchée. De plus, ces résultats démontrent aussi que le rapport choisit entre les récompenses R_l et C_l est, en quelque sorte, bien “réglé” permettent à la politique d’acquérir suffisamment d’information avant que l’agent décide ou non d’atterrir. Nous avons fixé R_l= 50 et Cl = 100, ces valeurs nous garantissent que la politique finira par y aller chercher l’information. 0 10 20 30 40 50 60 70 80

modele A modele B modele C

pourcentage

modele recherche

missions reussies missions manquees

(a) Pourcentage de missions r´eussies et manqu´ees.

0 1 2 3 4 5 6 7

modele A modele B modele C

nombre moyen d’etapes

modele recherche nombre moyen d’etapes

(b) Nombre moyen d’´etapes pour l’atterrissage.

Figure 4.17 – Pourcentages de missions réussies et manquées, et nombre d’étapes moyen avant l’atterrissage pour les 3 missions étudiées.

Dans la suite, nous nous intéressons au comportement que confère la politique calculée sur la base du critère mixte proposé dans le cadre de cette mission. Nous voulons vérifier si, pour ce type de mission, l’utilisation de ce type critère mixte peut favoriser convergence

4.2. POMDP et mission d’atterrissage

plus rapide de l’entropie de l’état de croyance, ou bien, si le fait de modéliser une action de type land, qui oriente l’agent vers une cible en particulier, est suffisant pour permettre une évolution rapide de la croyance de l’agent.

Dans le document Planification de perception et de mission en environnement incertain : Application à la détection et à la reconnaissance de cibles par un hélicoptère autonome (Page 120-123)