Vol exp´ erimental : mission de d´ etection et de reconnaissance de cibles par un

cibles par un drone h ´elicopt `ere autonome

Pendant nous travaux de thèse, nous avons effectué un vol expérimental avec l’hélicoptère autonome Yamaha Rmax de l’Onera (montré sur la figure 6.7). Nous présenterons dans cette section les résultats obtenus pendant ce vol, où nous avons embarquée notre cadre d’optimi-sation anticipée et exécution en parallèle. Nous allons par la suite décrire la configuration de l’environnement lors de ce vol.

Figure 6.7 – Photo de l’hélicoptère Yamaha Rmax de l’Onera adapté au vol autonome. La configuration expérimentale suit le schéma présenté sur la figure 6.8. Nous considérons 2 altitudes de vol (30 et 40 mètres), 3 modèles de voitures et 3 zones, ce qui nous ramène `

a 385 états. Les zones sont alignées, et la distance entre les zones est de 70 mètres. Le but est d’atterrir à côté du modèle de voiture C, par contre le nombre et la nature de cibles effectivement dans la scène est inconnu de l’hélicoptère autonome au début de la mission, ceci est modélisé par une croyance initiale uniforme sur les possibles états initiaux, conforme :

b0= {z = 1, h = 30, IdT a_z1 = inconnu, IdT a_z2 = inconnu, IdT a_z3 = inconnu}.

ainsi, b0 correspond à une distribution de probabilité uniforme sur les 64 états initiaux possibles.

Notons que l’état de croyance initial uniforme modélise la méconnaissance subjective de l’agent par rapport à l’état caché du système. Cet état de croyance subjectif n’est pas une approximation fréquentielle des états initiaux possibles. Ce choix résulte du fait que l’hélicoptère autonome ne connaˆıt rien sur l’environnement initialement. Mais est-ce que l’équiprobabilité est satisfaisante pour représenter la méconnaissance totale ? Nous pensons qu’on ne peut pas faire mieux avec une modèle POMDP.

Des voitures ont été mises en place dans le terrain. La configuration, c’est-à-dire l’état caché du système était le suivant : aucune voiture dans la zone 1, une voiture de modèle A dans la zone 2 et une voiture de modèle C dans la zone 3. Le temps de booststrap a été fixé à 30 secondes, la durée de chaque action est représentée par une distribution uniforme

6.4. Vol expérimental : mission de détection et de reconnaissance de cibles par un drone hélicoptère autonome

sur [T_minâ , T_maxâ ], avec T_minâ = 8s et T_maxâ = 10s. Ces valeurs nous sont nécessaires pour que AMPLE puisse estimer la durée d’exécution des actions. La politique par défaut utilisée est le résultat de l’approximation QMDP [Littman et al., 1995], calculée au début de la mission. L’algorithme de résolution de POMDP utilisé lors de cette expérimentation a été l’algorithme AEMS [Ross et Chaib-Draa, 2007].

Nous avons choisi d’implémenter notre cadre d’optimisation en parallèle de l’exécution avec l’algorithme AEMS⁵ parce que nous avons pu constater lors de simulations (présentées dans la prochaine section) qu’AEMS est particulièrement adapté à notre approche. Avec AEMS, nous pouvons arrêter le calcul d’une action pour un état de croyance donné quand l’on veut, contrairement à PBVI par exemple, qui ne peut être arrêté que à la fin d’une mise à jour de la valeur pour l’ensemble complet B. Nous tenons, tout de même, à attirer l’attention sur le fait que notre but n’est pas d’améliorer des algorithmes existants, mais de les incorporer dans un cadre plus flexible, qui traite des requêtes de planification de manière réactive comme toutes les autres fonctionnalités embarquées sur l’hélicoptère autonome. Ceci nous semble primordial, afin de permettre à des techniques d’intelligence artificielle, telles que les POMDP, d’être utilisées dans des applications robotiques réelles. En effet, il existera toujours des applications suffisamment complexes qui ne pourront pas être résolues dans le temps imparti de la mission avec les meilleures méthodes existantes.

Figure 6.8 – Schéma représentatif de l’état caché sur le terrain pour le vol expérimental : la croix représente la position initial de l’agent hélicoptère, le point rouge représente la position de la cible de modèle A, et le point bleu, la position de la cible de modèle C (cible recherchée). Comme décrit dans la section 6.1.1, lors de la génération automatique du problème POMDP à résoudre, la fonction de récompense du modèle est basée sur la distance entre le centre des zones. Les zones sont supposées alignées sur la piste du terrain d’essai, et la distance entre deux zones est de 70 mètres. Le changement d’angle de vue, est fait par de pas de 10 dégrées (voir angle φ dans la modélisation de l’action change view dans le chapitre 3).

La architecture Orocos utilisé pour ce vol a été montrée dans la section 6.1.2, cette

5. AEMS a les bornes inférieure et supérieure initialisées respectivement par une approximation par politique myope et par une approximation de type QMDP (cf. section 2.3 du chapitre 2) dans notre implémentation.

5 10 _{15 20} 25 30 _{35 40} 45 50 _{55 -20}⁰ 20⁴⁰ 60⁸⁰ 100¹²⁰ 140¹⁶⁰ 0 10 20 30 40 50 z x y z

Figure 6.9 – Trajectoire de l’agent hélicoptère pendant le vol expérimental (en rouge). La croix noire représente la zone 1, la croix orange la zone 2, et l’étoile bleu la zone 3, zone dans laquelle la cible se trouve. La fine ligne en noire montre la projection au niveau du sol de la trajectoire réalisée pendant le vol : la cible correct a donc pu être trouvé par l’hélicoptère.

architecture nous permet de générer automatiquement le problème POMDP à résoudre, une fois que le nombre de zones et le modèle de cible recherché ont été définis. Elle nous permet aussi via le superviseur de mission (AmpleExecute dans la figure 6.2) de mettre en place le cadre d’optimisation anticipée et d’exécution en parallèle développé.

6.4.1 R ´esultats

La trajectoire qui a été effectuée par l’hélicoptère autonome est illustrée sur la figure 6.9. Les coordonnées sont exprimées dans le repère local du terrain d’essai de l’agent hélicoptère. La figure 6.10 montre la séquence d’actions réalisée par l’agent hélicoptère autonome lors du vol expérimental. Initialement, l’agent hélicoptère est dans la zone 1 à une altitude de vol de 30 mètres. Dans les deux premières étapes, l’agent observe qu’aucune cible n’est dans la zone 1, puis choisit d’aller vers la zone 2. Après trois étapes de décision, l’agent observe que la cible dans la zone 2 est celle de modèle A, il décide donc d’aller vers la zone 3. Après 2 observations supplémentaires, l’agent hélicoptère croit (à raison) que la cible dans la zone 3 est le modèle C, qui est le modèle recherché, et décide donc d’atterrir, terminant, ainsi, correctement sa mission. Notons que la trajectoire de l’agent, montrée sur la figure 6.9, ne se termine pas à la hauteur du sol : ceci est dû au fait que, pour ce vol expérimental, l’agent hélicoptère n’a pas atterri, en réalité pour des raison de sécurité dues à l’expérimentation, mais il a en fait survolé la cible (action land). L’atterrissage automatique est en effet risquée. Cet exemple impliquait peu d’états, mais nous attirons l’attention sur le fait que la réussite et l’intérêt d’une telle mission de robotique autonome repose avant tout sur l’ex-pressivité de la fonction d’observation et non nécessairement sur la taille du problème à résoudre. Dans de telles applications robotiques, la précision du modèle d’observation liée `

a l’algorithme de traitement d’image et la réactivité des requêtes de planification sont pri-mordiales, comme montré dans ce chapitre. Nous pensons que notre approche supportera le passage à l’échelle, puisque si l’algorithme sous-jacent ne fournit pas d’action optimisée dans le temps, des actions seront toujours retournées en temps et en heure, s’il le faut des actions par défaut. Donc, dans notre approche comme dans beaucoup d’approches de planification en ligne, le passage à l’échelle est aussi impacté par la durée des actions.

6.4. Vol expérimental : mission de détection et de reconnaissance de cibles par un drone hélicoptère autonome

t = 0 :a = go to(h₂)

o = détecté non identifié.

t = 1 :a = change view o = non détecté t = 2 :a = goto zone(z2) o = modèle A t = 3 :a = change view o = modèle A t = 4 :a = change view o = modèle A t = 5 : a = go to(z3) o = modèle C t = 6 :a = change view o = modèle C t = 7 :a = land o = non détecté

Figure 6.10 – Séquence d’étapes de décision. Chaque image représente l’image d’entrée re¸cu par l’algorithme de traitement d’image après réalisation d’action. Les observations représentent les réponses successives de la classification donnée par le traitement d’image.

réalistes, où nous avons utilisé l’architecture fonctionnelle embarquée et les algorithmes uti-lisés à bord de notre hélicoptère autonome. Ces simulations ont été mènes afin de : (1) compa-rer des différents algorithmes sous-jacents de résolution de POMDP, et (2) démontrer l’intérêt de l’approche alternative que nous proposons pour l’optimisation anticipée et l’exécution en parallèle vis-à-vis de l’approche classique de résolution en ligne.

Dans le document Planification de perception et de mission en environnement incertain : Application à la détection et à la reconnaissance de cibles par un hélicoptère autonome (Page 176-180)