• Aucun résultat trouvé

3.4 Bilan

4.1.3 Adaptation du mod` ele POMDP de la mission d’exploration par ajout

rapport de l’´etat du syst`eme, appel´ees report si, de sorte qu’une action suppl´ementaire est d´esormais offert `a l’agent par ´etat. La d´efinition de telles actions est :

action report si: cette action permet `a l’h´elicopt`ere autonome d’affirmer que l’´etat r´eel du syst`eme qu’il observe est l’´etat si. Cette action conduit l’agent `a l’´etat terminal du POMDP.

– fonction de r´ecompense :

R(s, report si) = I{s=si}Rr− I{s6=si}Cr

o`u Rr > 0 repr´esente la r´ecompense associ´ee `a l’action de rapporter l’´etat si lorsque celui-ci correspond effectivement `a l’´etat cach´e du syst`eme que l’agent observe, et Cr  0 le coˆut associ´e `a cette action si l’´etat vrai n’est pas si.

4.1. POMDP et mission d’exploration

Notons que dans cette approche, il est n´ecessaire d’ajouter une action par ´etat, de fa¸con `

a garantir que l’agent ne soit r´ecompens´e que pour l’´etat si concern´e par l’action report si. L’avantage d’un tel mod`ele est que nous pouvons appliquer les algorithmes existants pour r´esoudre le POMDP et faire en suite des comparaisons avec les solutions obtenues par moyen d’un crit`ere mixte.

D’autre part, nous rappelons que la complexit´e de la proc´edure mise `a jour exacte de la valeur est li´ee au nombre d’α-vecteurs qui composent Vn−1, au nombre d’actions |A| et qu’elle d´epend de mani`ere exponentielle du nombre |Ω| d’observations : |Vn+1| = |A||Vn||Ω|. Ainsi, mˆeme si le facteur |A| est relativement n´egligeable au regard de |Ω|, nous pouvons ˆetre amen´ee `a ajouter un nombre important d’actions au mod`ele en plus des actions standards de d´eplacement et de changement d’angle de vue. En revanche, si on se ram`ene au POMDP clas-sique on peut appliquer des algorithmes efficaces bas´es sur la recherche heuristique, tels que HSVI [Smith et Simmons, 2005] et SARSOP [Kurniawati et al., 2008], qui focaliseront l’op-timisation de la valeur sur un petit nombre d’actions prometteuses selon l’´etat de croyance. Donc, le fait d’augmenter le nombre d’actions |A| n’est pas si grave.

Pour ´evaluer cet approche, nous avons calcul´e des politiques `a partir de diff´erents algo-rithmes : PBVI (avec |B| = 5000) que nous avons r´e-impl´ement´e ; HSVI1; et SARSOP2. La dur´ee de calcul de politiques a ´et´e limit´ee `a 4 heures pour HSVI et SARSOP. Au bout de 4 heures de calcul ces deux algorithmes ont atteint une diff´erence maximale entre les bornes sup´erieure et inf´erieure de la valeur de b0 (´etat de croyance initial) de  ≤ 13. Par suite, nous avons utilis´e cette valeur pour  comme crit`ere d’arrˆet de l’algorithme PBVI. Ainsi, pour PBVI, nous avons autoris´e le processus it´eratif `a se d´erouler jusqu’`a ce que l’erreur maxi-male sur la valeur des ´etats de croyance appartenant `a l’ensemble B soit ´egale ou inf´erieure `

a . Les r´esultats ont ´et´e obtenus au bout de 43 heures de calcul. Dans la table 4.1.3, nous quantifions le nombre d’α vecteurs |V |, le nombre d’´etats de croyance explor´ees |B| ainsi que le temps de calcul pour chacune des 3 r´esolutions.

algorithme |B| |V | temps (heures)

HSVI n.a 47359 4

SARSOP n.a 14783 4

PBVI 5000 2281 43

Table 4.1 – R´esum´e des performances associ´ees aux diff´erents algorithmes de r´esolution pour le mod`ele modifi´e (ajout d’actions de type report ). n.a signifie que cette donn´ee n’est pas disponible pour l’utilisateur lors de la r´esolution.

Nous pouvons constater que les algorithmes bas´es sur la recherche heuristique, c’est-` a-dire HSVI et SARSOP, ont des performances sup´erieures `a celle de l’algorithme PBVI qui repose sur une recherche stochastique. Il est indispensable de focaliser la recherche sur un nombre r´eduit d’actions. Nous avons augment´e le nombre d’´etats de croyance utilis´es dans l’algorithme PBVI, c’est-`a-dire B mais notre impl´ementation a atteint la limite de m´emoire disponible. La machine que nous avons utilis´e est un Intel Duo Core2 avec 2Gb de m´emoire et 2.13GHz. Nous tenons `a remarquer que le temps de calcul pour ces politiques est important, du `a la quantit´e d’actions `a ´evaluer.

Dans la figure 4.10, nous montrons la moyenne obtenue pour 12000 simulations `a chaque ´etape de d´ecision pour l’entropie n´egative (´equation 4.39) et la moyenne de r´ecompenses (´equation 4.40). Il est `a noter que le simulateur connait l’´etat cach´e du syst`eme en attribuant les r´ecompenses `a chaque ´etape de d´ecision.

1. disponible en http://www.cs.cmu.edu/~trey/zmdp/

Nous montrons dans la figure 4.10(a) l’entropie qui permet d’´evaluer l’incertitude de l’´etat de croyance de l’agent, illustrant ainsi l’´evolution de la connaissance de celui-ci. Nous pouvons ainsi v´erifier que l’incertitude de le l’´etat de croyance de l’agent tend vers z´ero au fur et `a mesure qu’il acquiert de l’information. Dans la figure 4.10(a), l’entropie moyenne de l’´etat de croyance tend vers z´ero pour HSVI et SARSOP, et vers −1 pour PBVI. Ceci peut ˆetre expliqu´e par le fait que l’algorithme PBVI, en ´etant limit´e en nombre d’´etats de croyance, ne dispose pas d’actions optimis´ees pour certains ´etats de croyance potentiellement rencontr´es lors des simulations. Il peut se retrouver ainsi dans l’incapacit´e d’appliquer une action optimale `a certains ´etats de croyance dans certaines simulations. L’action utilis´ee est alors une action sous-optimale qui ne permet pas d’acqu´erir l’information manquante vis-`a-vis de certains ´etats de croyance dans lesquels se retrouve l’agent.

Dans la figure 4.10(b) l’´evolution moyenne des r´ecompenses nous montre que l’agent d´ecide de rapporter l’´etat cach´e du syst`eme au bout de 10 ´etapes de d´ecision en moyenne. Ceci est mis en ´evidence par le pic observ´e sur les fonctions de r´ecompense observ´ees entre les ´etapes de d´ecision 5 et 10. La politique obtenue par l’algorithme PBVI a une courbe de valeur inf´erieure `a celles des algorithmes HSVI et SARSOP. Cette observation s’explique par la mˆeme analyse que celle faite pr´ec´edemment.

-6 -5 -4 -3 -2 -1 0 0 5 10 15 20 25 30

Evolution de la moyenne de l’entropie

t

PBVI HSVI SARSOP

(a) Moyenne de l’entropie de l’´etat de croyance `a chaque instant t. -8 -6 -4 -2 0 2 4 6 8 0 5 10 15 20 25 30

Evolution de la moyenne de recompenses

t

PBVI HSVI SARSOP

(b) Moyenne de la r´ecompense `a chaque instant t.

Figure 4.10 – Moyennes de l’entropie de l’´etat de croyance et des r´ecompenses. Il est `a noter que le moment de prise de d´ecision finale (action report s) est d´etermin´e par le choix a priori de mod´elisation des Cr et Rr, ce qui correspond `a une alternative au choix a priori d’une valeur de seuil η sur l’´etat de croyance.

Dans la figure 4.11, nous montrons les courbes de l’esp´erance de la somme pond´er´ee d’entropies n´egatives Hπ (´equation 4.41) et de r´ecompenses Vπ (´equation 4.42) pour chaque horizon t. L’esp´erance de la somme pond´er´ee des r´ecompenses est en effet le crit`ere optimis´e par la politique du POMDP lorsque celle-ci est simul´ee un nombre suffisant de foi. Ce crit`ere est g´en´eralement utilis´e comme mesure de la performance d’une politique. D’autre part, l’esp´erance de la somme pond´er´ee des entropies met en ´evidence la vitesse de convergence de la croyance de l’agent. Une fois de plus les r´esultats caract´erisant l’algorithme PBVI sont inf´erieurs `a ceux de HSVI et SARSOP, toujours pour la mˆeme raison : PBVI est limit´e en nombre d’´etats de croyance et ne dispose donc pas d’actions optimales pour certains ´etats de croyance rencontr´ees au cours des simulations.

Ces r´esultats nous permettent de conclure que cette approche, par ajouts de buts fictifs par moyen d’actions suppl´ementaires rend possible l’utilisation directe du crit`ere classique ainsi que des algorithmes classiques de r´esolution des POMDP. Nous pouvons mod´eliser des r´ecompenses sur ces actions report par des paires ´etat-action, et r´esoudre ainsi le probl`eme de perception active avec le formalisme classique de POMDP. Le point faible de la m´ethode

4.1. POMDP et mission d’exploration -35 -30 -25 -20 -15 -10 -5 0 5 10 15 20 25 30

Esperance de la somme ponderee d’entropies

t

PBVI HSVI SARSOP

(a) Esp´erance de la somme pond´er´ee d’entropies de l’´etat de croyance pour chaque instant t.

-25 -20 -15 -10 -5 0 5 10 0 5 10 15 20 25 30

Esperance de la somme ponderee de recompenses

t PBVI

HSVI SARSOP

(b) Esp´erance de la somme pond´er´ee de r´ecompenses pour chaque instant t.

Figure 4.11 – Esp´erance de la somme pond´er´ee des entropies de l’´etat de croyance et des r´ecompenses.

concerne le nombre d’´etats qui conditionne de la mˆeme mani`ere celui des actions. Ceci peut ˆetre un facteur limitant, au regard de l’algorithme de r´esolution employ´e. Toutefois, nous avons v´erifi´e que l’utilisation des algorithmes efficaces bas´es sur la recherche heuristique nous permet surmonter ce probl`eme. L’autre point faible de cette approche est qu’il faut choisir a priori la structure de r´ecompense Rr et Cr pour obtenir ensuite un certain comportement. Ce choix est souvent empirique.

En ´evitant une mod´elisation explicite des actions de type report, nous avons vu qu’il ´etait n´ecessaire d’encoder le besoin d’acqu´erir de l’information au sein du crit`ere d’optimisation autrement que par les paires ´etat-action. Dans ce cas, l’optimisation de l’incertitude associ´ee `a l’´etat de croyance de l’agent est explicite puisque celle-ci est retrouve directement mod´elis´ee dans la fonction de r´ecompenses ρ. De la sorte, l’optimisation de la politique peut tenir compte de l’incertitude de l’´etat de croyance ainsi que des coˆuts/r´ecompenses associ´es aux d´eplacement de l’agent. On met en ´evidence une limitation concr`ete du mod`ele POMDP classique qui ne permet pas de prendre en compte dans un mˆeme cadre l’optimisation de l’incertitude sur l’´etat de croyance et des coˆuts des actions.

Dans la suite, nous nous sommes int´eress´ee `a une comparaison des strat´egies obtenues par les diff´erentes approches pour la mission d’exploration. Cette comparaison particuli`ere reste cependant d´elicate, puisque l’approche par ajouts d’actions pr´esent´ee dans cette sous-section traduit directement au sein du mod`ele de r´ecompense le moment de la prise de d´ecision de rapporter l’´etat cach´e du syst`eme (Rret Cr). De plus, la formulation du probl`eme d’optimisation fond´ee sur un crit`ere mixte, pr´esent´ee dans la sous-section 4.1.2, n´ecessite de fixer un seuil sur l’´etat de croyance de l’agent pour la d´ecision finale. La d´efinition de ce seuil, qui implique d’arrˆeter toute observation pour identifier l’´etat cach´e, revient `a l’utilisateur lors de l’application (simulation) de la politique. De la mˆeme fa¸con, le choix des r´ecompenses Rr et Cr est aussi fait par l’utilisateur, mais au moment de la mod´elisation.

4.1.4 Comparaison entre les approches par ajout d’action et de r ´esolution avec un