• Aucun résultat trouvé

4.2 POMDP et mission d’atterrissage

4.2.1 Evaluation de la politique calcul´ ´ ee avec le crit` ere classique des POMDP

Pour l’´evaluation des politiques obtenues avec le crit`ere classique des POMDP, nous avons utilis´e l’algorithme PBVI [Pineau et al., 2003], que nous avons r´e-impl´ement´e, pour traiter trois variantes de la mission : (1) o`u l’on cherche `a atterrir `a cˆot´e de la voiture correspondant au mod`ele A ; (2) au mod`ele B ; et (3) au mod`ele C. Dans chaque mission, nous avons fix´e le nombre de zones `a 3. L’h´elicopt`ere autonome se trouve au d´ebut de la mission dans la zone 1, `a une altitude de 30 m`etres. L’agent n’a aucune connaissance `a priori sur le nombre ni sur la nature des cibles qui sont effectivement pr´esentes dans la sc`ene. Cette croyance subjective est mod´elis´ee par une distribution de probabilit´e uniforme sur les 64 ´etats possibles. Ainsi l’´etat de croyance initial est d´efini tel que :

b0 = {z = z1, h = h1, IdT az1 = inconnu, IdT az2 = inconnu, IdT az3 = inconnu}. (4.43) Le calcul de la politique avec l’algorithme PBVI a ´et´e fait pour un nombre d’´etats de croyance ´egal `a 5000, et avec une param´etrage de γ = 0.95 et de  = 0.5. Ensuite, des simulations ont ´et´e r´ealis´ees afin de moyenner les r´esultats. Nous en avons r´ealis´es 12000 avec un horizon de 30 ´etapes de d´ecision.

La figure 4.15 montre l’´evolution de la moyenne des r´ecompenses (´equation 4.40) et de l’entropie (n´egative) de l’´etat de croyance (´equation 4.39). Nous pouvons voir que pour les trois missions, l’´evolution de la moyenne de l’entropie tend vers z´ero (figure 4.15(a)). Dans le cas de la mission (3) (atterrissage `a cˆot´e de la voiture de mod`ele C), l’entropie diminue moins vite . Ceci peut s’expliquer par le fait que le mod`ele d’observation relatif `a ce mod`ele de voiture est moins informatif que ceux associ´es aux autres mod`eles, ce qui conduit l’agent `a prendre plus d’informations, donc `a r´ealiser plus d’actions avant d’atterrir. La table 4.2 montre le mod`ele d’observation utilis´e, qui a ´et´e appris `a partir de donn´ees r´eelles (cf. chapitre 3). Nous pouvons y voir que la probabilit´e d’observer le mod`ele C, ´etant donn´e que l’on l’observe effectivement ce mod`ele est moins importante que pour les autres mod`eles (63% contre85% et mˆeme 92%).

4.2. POMDP et mission d’atterrissage

mod`ele, altitude non d´etect´e d´etect´e non ident. mod`ele A mod`ele B mod`ele C

mod`ele A, `a 30 m`etres 0.006103 0.117698 0.680907 0.060157 0.135135

mod`ele A, `a 40 m`etres 0.007340 0.067758 0.845285 0.000000 0.079616

mod`ele B, `a 30 m`etres 0.029536 0.111814 0.004219 0.848101 0.006329

mod`ele B, `a 40 m`etres 0.010526 0.044211 0.014737 0.915789 0.014737

mod`ele C, `a 30 m`etres 0.001000 0.027027 0.057432 0.280532 0.634009

mod`ele C, `a 40 m`etres 0.003589 0.022254 0.103374 0.241924 0.628859

aucune, `a 30 m`etres 0.882418 0.091308 0.008791 0.016484 0.001000

aucune, `a 40 m`etres 0.855918 0.140509 0.001000 0.001572 0.001000

Table 4.2 – Table avec les probabilit´es d’observation par mod`ele de voiture et altitude de vol. -6 -5 -4 -3 -2 -1 0 0 5 10 15 20 25 30

Evolution de la moyenne de l’entropie

t

PBVI (modele A) PBVI (modele B) PBVI (modele C)

(a) Moyenne de l’entropie de l’´etat de croyance `a chaque instant t. -6 -4 -2 0 2 4 6 8 10 0 5 10 15 20 25 30

Evolution de la moyenne de recompenses

t

PBVI (model A) PBVI (model B) PBVI (model C)

(b) Moyenne de la r´ecompense `a chaque instant t.

Figure 4.15 – Moyennes de l’entropie de l’´etat de croyance et de r´ecompenses.

Le fait de devoir r´ealiser plus d’actions pour accomplir la mission o`u l’on cherche `a atterrir `

a cˆot´e de la voiture de mod`ele C est aussi mis en ´evidence dans les courbes de la figure 4.16 o`u les esp´erances des sommes pond´er´ees des r´ecompenses (figure 4.16(b)) et des entropies de l’´etat de croyance (figure 4.16(a)) sont trac´ees en fonction du temps. La courbe relative `

a la somme pond´er´ee des r´ecompenses pour la mission (3) est situ´ee en-dessous de celles relatives aux autres missions en raison des actions suppl´ementaires qui sont n´ecessaires pour mieux distinguer les mod`eles. La courbe caract´erisant la mission (2) (mod`ele B) est situ´ee sous le trac´e rouge qui correspond au r´esultat de la mission (1) (mod`ele A). Ceci peut ˆetre expliqu´e par le fait que le mod`ele d’observation est plus informatif pour le mod`ele de v´ehicule B (table 4.2). L’agent `a tendance `a changer de zone plus tˆot dans la mission, ce qui p´enalise la somme pond´er´ee pour cette mission, ´etant donn´e que le changement de zone est l’action la plus coˆuteuse du mod`ele.

L’esp´erance de la somme pond´er´ee des r´ecompenses, dont les variations dans le temps sont trac´ees sur la figure 4.16(b), ne converge pas vers une valeur constante. Une explication possible reside dans le fait que pour certaines simulations o`u la voiture recherch´ee n’est pas pr´esente dans l’environnement, l’h´elicopt`ere n’a pas forc´ement atterri en utilisant ainsi continument des actions de d´eplacement, ce qui est mis en ´evidence par la pente descendante des courbes.

La figure 4.21 illustre le pourcentage de missions r´eussies, de missions manqu´ees, ainsi que le nombre moyen d’´etapes jusqu’`a l’atterrissage. Le taux de r´eussite est d’environ 56% (figure 4.17(a)), ce qui est en accord avec les ´etats initiaux possibles. Autrement dit, pour ces simulations nous avons tir´e l’´etat initial cach´e selon b0. Encore plus pr´ecis´ement, au d´ebut de la mission, l’´etat de croyance suit une loi uniforme sur les 64 ´etats possibles. Et, parmi ces

-24 -22 -20 -18 -16 -14 -12 -10 -8 -6 0 5 10 15 20 25 30

Esperance de la somme ponderee d’entropies

t

PBVI (modele A) PBVI (modele B) PBVI (modele C)

(a) Esp´erance de la somme pond´er´ee d’entropies de l’´etat de croyance pour chaque instant t.

-12 -10 -8 -6 -4 -2 0 2 4 6 0 5 10 15 20 25 30

Esperance de la somme ponderee de recompenses

t

PBVI (modele A) PBVI (modele B) PBVI (modele C)

(b) Esp´erance de la somme pond´er´ee de r´ecompenses pour chaque instant t.

Figure 4.16 – Esp´erance de la somme pond´er´ee d’entropies de l’´etat de croyance et de r´ecompenses.

64 ´etats, il y a 37 ´etats pour lesquels la voiture recherch´ee est bien pr´esente, ce qui conduit `

a une probabilit´e de r´eussite (selon ´etat de croyance) de 58%. Le pourcentage de mission manqu´ees se situe aux alentours de 1, 5% (pourcentage de fois que l’h´elicopt`ere a atterri sur une mauvaise cible).

Nous pouvons v´erifier sur la figure 4.17(b) que le nombre moyen d’´etapes jusqu’`a l’atter-rissage pour la mission (3) est plus important que pour les autres missions, ce qui d´emontre que l’agent autonome a besoin d’acqu´erir plus d’information.

Ces r´esultats prouvent que pour cette application la politique obtenue avec le crit`ere classique des POMDP g`ere de mani`ere implicite une acquisition d’informations qui am`ene l’agent autonome `a finaliser correctement sa mission, ind´ependamment de la nature de la cible recherch´ee. De plus, ces r´esultats d´emontrent aussi que le rapport choisit entre les r´ecompenses Rl et Cl est, en quelque sorte, bien “r´egl´e” permettent `a la politique d’acqu´erir suffisamment d’information avant que l’agent d´ecide ou non d’atterrir. Nous avons fix´e Rl= 50 et Cl = 100, ces valeurs nous garantissent que la politique finira par y aller chercher l’information. 0 10 20 30 40 50 60 70 80

modele A modele B modele C

pourcentage

modele recherche

missions reussies missions manquees

(a) Pourcentage de missions r´eussies et manqu´ees.

0 1 2 3 4 5 6 7

modele A modele B modele C

nombre moyen d’etapes

modele recherche nombre moyen d’etapes

(b) Nombre moyen d’´etapes pour l’atterrissage.

Figure 4.17 – Pourcentages de missions r´eussies et manqu´ees, et nombre d’´etapes moyen avant l’atterrissage pour les 3 missions ´etudi´ees.

Dans la suite, nous nous int´eressons au comportement que conf`ere la politique calcul´ee sur la base du crit`ere mixte propos´e dans le cadre de cette mission. Nous voulons v´erifier si, pour ce type de mission, l’utilisation de ce type crit`ere mixte peut favoriser convergence

4.2. POMDP et mission d’atterrissage

plus rapide de l’entropie de l’´etat de croyance, ou bien, si le fait de mod´eliser une action de type land, qui oriente l’agent vers une cible en particulier, est suffisant pour permettre une ´evolution rapide de la croyance de l’agent.