• Aucun résultat trouvé

La mission de d ´etection et reconnaissance de cibles

Dans le document The DART-Europe E-theses Portal (Page 158-163)

Prise en compte de contraintes de faisabilit´e d’actions dans le cadre POMDP

5.6 Evaluation Exp ´erimentale ´

5.6.5 La mission de d ´etection et reconnaissance de cibles

Nous nous sommes `a bien sˆur int´eress´ee `a tester notre approche sur la mission d’atterris-sage pr´esent´ee dans le chapitre 3. Nous rappelons que dans cette mission l’agent h´elicopt`ere cherche `a d´etecter et `a reconnaˆıtre un mod`ele de voiture en particulier parmi ceux contenus dans la base de donn´ees et `a atterrir `a cˆot´e de cette cible. Cette mission est particuli`erement int´eressante puisque certaines actions de l’agent ne sont applicables que sur un sous-ensemble d’´etats, dˆu `a des contraintes de s´ecurit´e li´ees au vol, comme par exemple le risque d’atter-rissage dans une zone dangereuse, ou aux contraintes sur les altitudes pour les diff´erentes phases de vol. Nous supposons ici que l’agent doit explorer 3 zones. Chaque zone peut soit ne pas contenir de voiture, soit contenir un des 3 mod`eles de voiture de la base de donn´ees.

L’agent cherchera le mod`ele C dans l’environnement.

Les contraintes li´ees aux actions de l’agent l’h´elicopt`ere sont d´ecrites dans la suite : – L’agent h´elicopt`ere ne peut atterrir que si la zone est consid´er´ee comme sˆure. Pour cela,

des variables d’´etat bool´eennes doivent ˆetre ajout´ees au mod`ele, ces variables indiquent si l’on peut ou non atterrir dans la zone concern´ee ;

– L’agent h´elicopt`ere peut changer de zone seulement `a une altitude de 40 m`etres, pour des questions de s´ecurit´e li´ees `a la zone d’exp´erimentation, comme la pr´esence d’obs-tacles (des bˆatiments, ou des arbres) ;

– L’agent h´elicopt`ere peut changer d’angle de vue seulement `a une altitude de 30 m`etres ; le changement d’angle de vue pour une altitude de 40 m`etres n´ecessiterait un rayon de 40 m`etres au tour de la zone, ce qui n’est pas r´ealisable sur le terrain de test ;

– L’agent h´elicopt`ere ne peut atterrir qu’`a partir de l’altitude de 30 m`etres, ce qui suppose le besoin d’une phase d’approche.

Pour tenir compte des contraintes suppl´ementaires, le mod`ele d’observation du POMDP doit ˆetre ´etendu. Il est n´ecessaire pour l’agent d’observer s’il est possible d’atterrir dans la zone o`u il se trouve (d´etection d’obstacles), et il est aussi n´ecessaire pour l’agent d’observer l’altitude de vol. Ces symboles d’observation, pour le mod`ele AC-POMDP, sont encod´es dans l’ensemble Θ. L’espace d’´etat des deux mod`eles est agrandi, en raison de l’ajout des variables d’´etats bool´eennes qui caract´erisent le fait que l’on puisse ou non atterrir dans les diff´erentes zones. Nous avons au total 3073 ´etats. La fonction de r´ecompense attribue une r´ecompense de 100 si l’agent atterrit pr`es de la bonne cible et de−100 sinon. Les actions de d´eplacement ont un coˆut proportionnel `a la distance parcoure. A noter que ces coˆuts de d´eplacement sont dans un intervalle de [−1;−15]. Ainsi pour le mod`ele POMDP ´equivalent la p´enalit´e associ´ee `a des actions infaisables a ´et´e fix´ee `a 100 (R >−100). Dans ce probl`eme, les actions sont d´eterministes, sauf le changement d’altitude. Ceci est dˆu au fait que la diff´erence de 10 m`etres entre les deux altitudes du mod`ele n’est pas tr`es grande, ce qui peut poser un probl`eme lors de l’envoi de la consigne de d´eplacement au contrˆoleur d’ex´ecution, qui peut interpr´eter que l’h´elicopt`ere est d´ej`a arriv´e `a la destination, selon le rayon de pr´ecision li´e au d´eplacement ´el´ementairego to(interpr´etation de l’action changer d’altitude).

Dans les figures 5.15(a) et 5.15(b) nous pr´esentons les r´esultats obtenus lors de l’optimisa-tion de la politique pour la mission d’atterrissage du domaine de d´etection et reconnaissance de cibles pour un ensembleB d’´etats de croyance de taille 3000, et pour un temps de calcul fix´e `a 7200 secondes. Nous pouvons v´erifier que les vitesses de convergence des deux ver-sions de PCVI sont plus importantes que celle de PBVI, et que le nombre d’α-vecteurs qui constituent la fonction de valeur de PCVI1 et PCVI2 est moins important. Ces r´esultats permettent de mettre en ´evidence notre ´etude th´eorique de complexit´e, puisque moins d’ac-tions sont ´evalu´ees en r´ealisant ainsi plus d’it´erations sur la valeur des ´etats de croyance qui constituent B. Les it´erations sont repr´esent´ees par les points sur les courbes de la figure 5.15. Le nombre d’α-vecteurs d´ecoule directement de ces mˆemes raisons, puisque comme moins de projections Γa,(o,θ) sont g´en´er´ees pour PCVI1, ce qui repr´esente moins d’α-vecteurs

5.7. Conclusion dominants dans la fonction de valeur.

0

(a) ´Evolution de l’erreur de Bellman avec temps limite de planification de 7200 secondes.

0

(b) Taille de la fonction de valeur en nombre d’α-vecteurs.

Figure5.15 – ´Evaluation exp´erimentale pour le probl`eme de d´etection et reconnaissance de cible.

Nous avons r´ealis´e 30000 simulations avec un horizon de 50 ´etapes de d´ecision pour chacune des politiques obtenues, en piochant l’´etat initial selon l’´etat de croyance initialb0. Notez que l’´etat de croyance initial ne suppose aucune connaissance a priori sur la pr´esence au non de cibles dans les diff´erentes zones, et sur le fait que les zones soient consid´er´ees comme atterrissables. Ceci est mod´elis´e par une croyance initial uniforme sur 512 ´etats. En regardant la valeur, le nombre moyen d’´etapes pour attendre le but et le pourcentage de missions r´eussies obtenus pour ces politiques (conform´ement le tableau 5.3), nous voyons que la politique obtenue par PCVI1 a une valeur l´eg`erement sup´erieure `a celle obtenu par PBVI, ce qui confirme le fait que les politiques obtenues pour le mod`ele AC-POMDP sont

´equivalentes `a celle du POMDP. De plus, PCVI1 a un pourcentage l´eg`erement plus haut de missions r´eussies, en d´emontrant que la politique obtenue par PCVI1 est fond´ee. D’autre part, on v´erifie que PCVI2 fournit effectivement une borne inf´erieure de la valeur avec un taux de r´eussite inf´erieur.

algorithme E[R] n.e.b (min,max) %but PBVI -8.0249 5.11948 (3, 19) 30.8 PCVI1 -7.9429 5.46384 (3, 22) 31.8 PCVI2 -17.679 3.78463 (3, 18) 12.9

Table 5.3 – R´esum´e de performance des algorithmes pour le probl`eme de d´etection et de reconnaissance de cibles.

Dans la figure 5.6.5 nous montrons des diff´erentes trajectoires obtenues en simulant les politiques de PBVI et PCVI1. Ces trajectoires mettent en ´evidence le respect des diff´erentes contraintes sur l’altitude de vol. On v´erifie que les changements de zone s’effectuent `a une altitude de 40 m`etres et que les actions de changement d’angle de vue et d’atterrissage s’effectuent `a partir d’un altitude de 30 m`etres. La contrainte concernant le fait qu’une zone soit consid´er´ee comme atterrissable n’est pas montr´ee dans ces figures.

5.7 Conclusion

Dans ce chapitre nous avons ´etudi´e une sous-classe de probl`emes de d´ecision s´equentielle sous observabilit´e partielle, pour lesquels l’observation de l’agent est constitu´ee en partie de

-30

(a) Trajectoires de l’h´elicopt`ere autonome pour 100 simulations de la politique de PBVI.

-40

(b) Trajectoires de l’h´elicopt`ere autonome pour 100 simulations de la politique de PCVI1.

Figure 5.16 – Trajectoires de l’h´elicopt`ere autonome. Les trois croix en noire repr´esentent le centre des diff´erentes zones.

symboles qui repr´esentent l’ensemble d’actions r´ealisables dans l’´etat cach´e du syst`eme. Nous avons vu que cette information ne supprime pas l’observabilit´e partielle de l’´etat, puisque plusieurs ´etats peuvent avoir le mˆeme ensemble d’actions r´ealisables.

Nous avons formellement d´efini cette sous-classe en tant que AC-POMDP, pour laquelle nous avons fourni des ´equations d’optimalit´e, de mise `a jour de l’´etat de croyance et une trans-formation vers le mod`ele POMDP ´equivalent afin de pouvoir comparer l’approche propos´ee avec le mod`ele classiquement utilis´e. Cette transformation ´equivalente repose sur l’hypoth`ese commun´ement admise que l’on peut choisir des r´ecompenses ´equivalentes `a des valeurs−∞

dans le mod`ele POMDP. `A cette r´ecompense est g´en´eralement associ´ee une valeur qui cor-respond `a la borne inf´erieure des valeurs des ´etats.

Nous avons propos´e un algorithme appel´e PCVI, qui optimise directement le mod`ele AC-POMDP en tirant directement profit des propri´et´es du mod`ele telles que l’´evaluation d’un sous-ensemble d’actions pour un ´etat de croyance donn´e (maxa∈Ab) et le calcul de projections Γa,(o,θ) seulement pour les α-vecteurs de V0 qui sont coh´erents avec l’ensemble θ observ´e. De plus, lesα-vecteur ont des valeurs d´efinies seulement sur les ´etats o`u l’action associ´ee auα-vecteur est applicable. Ce qui nous permet de tirer profit des vecteurs creux lors du calcul. Nous avons d´emontr´e l’avantage, en ce qui concerne le temps de calcul, d’optimiser le mod`ele AC-POMDP au lieu de son POMDP ´equivalent, tout en garantissant le respect des contraintes sur les actions.

Toutefois, une question se pose : est-il utile de mod´eliser des contraintes sur des actions par des relations de faisabilit´e ou par des pr´econditions ou est-ce seulement une convenance ou un moyen algorithmique ? Nous pensons que les observations concernant les ensembles d’actions r´ealisables doivent ˆetre clairement s´epar´es dans le mod`ele afin de garder la riche s´emantique des ces observations. Nous avons aussi d´emontr´e l’int´erˆet d’un telle mod´elisation en ce qui concerne le gain d’efficacit´e en temps de calcul. Dans le cadre POMDP mono-agent, notre mod`ele permet de garder l’interpr´etation s´emantique des pr´econditions et montre finalement que la fa¸con classique de mod´eliser le probl`eme n’est pas la plus efficace en comparaison de notre algorithme PCVI qui exploite directement la structure sp´ecifique des AC-POMDP.

De plus, dans le cadre multi-agent, l’artifice d’associer une p´enalit´e assez importante aux actions ind´esirables n’est pas ´equivalent [Pralet et al., 2010a] `a l’approche que nous avons propos´e. Par exemple, dans un jeu `a somme nulle et `a deux joueurs A et B o`u les deux joueurs utilisent une mˆeme fonction de r´ecompense, cette mod´elisation n’a pas de sens. Le joueur A cherchant `a maximiser son crit`ere et le joueur B cherchant `a le minimiser : le joueur B aura tout int´erˆet `a choisir des actions inacceptables.

5.7. Conclusion En conclusion, nous croyons que les AC-POMDP s’av`erent tr`es utiles en robotique mobile, o`u les symboles d’observation concernant la faisabilit´e des actions sont typiquement obte-nus par des capteurs sp´ecifiques. Cette information souvent d´ecoupl´ee de la planification est g´en´eralement trait´ee directement par le contrˆoleur d’ex´ecution. Avec le mod`ele AC-POMDP, nous pouvons int´egrer ce type d’information dans le mod`ele en gardant sa s´emantique na-turelle, et, avec le sch´ema d’optimisation propos´e, nous pouvons exploiter la structure du mod`ele afin d’acc´el´erer certaines op´erations dans le calcul de la politique.

Dans le chapitre suivant nous traiterons un probl`eme diff´erent, mais cependant compl´ e-mentaire, qui consiste `a r´esoudreen ligne, en respectant les contraintes de temps de r´eponse du planificateur, le probl`eme de planification sous incertitude et observabilit´e partielle. Nous proposerons un cadre original d’optimisation (sous-optimal) durant l’ex´ecution de la politique qui anticipe l’´evolution probabiliste des ´etats d’ex´ecution en planifiant constamment pendant l’ex´ecution des actions. Ce cadre diff`ere des approches de r´esolution en ligne utilis´ees en robotique.

Chapitre

6

Utilisation des POMDP sous contraintes

Dans le document The DART-Europe E-theses Portal (Page 158-163)

Outline

Documents relatifs