D ´efinition de l’application robotique - Utilisation des POMDP sous contraintes temporelles :

Utilisation des POMDP sous contraintes temporelles : optimisation anticip´ee et

6.1 D ´efinition de l’application robotique

Dans ce chapitre nous étudions la mission de détection, reconnaissance et atterrissage, présentée dans le chapitre 3 section 3.3.2, qui se rapporte à une problématique de décision séquentielle sous incertitude et observabilité partielle de détection et de reconnaissance de cible par un hélicoptère autonome. Cette mission est modélisée sous forme d’un POMDP défini en ligne, une fois que le nombre de zones à explorer a été analysé en ligne, en utilisant des techniques de traitement d’image. Le nombre de cibles, ainsi que leurs identités ne sont pas connus de l’hélicoptère autonome. Nous rappelons que le but de la mission est de trouver une cible particulière, parmi celles connues de la base de données et d’atterrir à côté de cette cible.

Cette application robotique est stimulante et originale pour deux raisons principales : – la mission de détection et reconnaissance de cibles est considérée comme un problème

de planification séquentielle àlong terme, avec des actions à la fois de perception (chan-gement d’angle de vue, chan(chan-gement d’altitude, chan(chan-gement de zone) et d’aboutissement de mission (atterrissage) ; Dans le cadre général de la perception active, les applications existantes optimisent plutôt une mesure de l’incertitude de l’état de croyance à court terme [Eidenbergeret al., 2009].

– le POMDP est résolu en ligne pendant le vol, en tenant compte des contraintes de temps requises par la durée de la mission et de l’anticipation des états futurs possibles du système robotique.

Mener entièrement de fa¸con automatique une mission de ce type requiert plusieurs briques, techniques et théoriques : la modélisation duale du traitement d’image et de la décision, la résolution (interprétation d’image et optimisation de la politique) et le contrôle de l’exécution du plan. En ce qui concerne la modélisation, nous avons vu dans le Chapitre 3 que l’appren-tissage d’un modèle d’observation à partir de données réelles est un facteur très important si l’on veut traiter le problème de fa¸con réaliste. Pour cela, nous avons appris le modèle d’obser-vation pour cette application robotique à partir d’une étude statistique des images collectées lors de campagnes de prise de vue. Ce modèle appris est adapté à cette application, puisqu’il

6.1. Définition de l’application robotique ne suppose pas un nombre fixé de zones. Il se base seulement sur le fait qu’une cible est ou non dans une zone particulière sachant la zone et l’altitude de vol de l’agent hélicoptère.

Toutefois, le modèle ne peut pas être considéré comme parfaitement réaliste puisque l’ap-prentissage dépend des conditions de prise de vue (ensoleillement, ombre, etc). Comme déjà discuté dans le chapitre 3 nous ne supposons pas d’inférence en ligne du modèle d’observa-tion, ceci a été appris hors ligne à partir des données acquises dans des vols expérimentaux préalables. A noter que l’attention de ce travail de thèse a porté sur la faisabilité de méthodes de décision séquentielle àlong terme pour des applications robotiques d’identification et re-connaissance de cibles en environnement incertain et pas sur le développement de nouvelles techniques de traitement d’image.

6.1.1 G én ération en ligne du probl ème à r ésoudre

Comme dans notre application robotique nous supposons que le nombre de zones à ex-plorer est inconnu au début de mission, il était nécessaire de mettre en place, en complément du cadre de planification et d’exécution en parallèle de la politique, une fonction responsable de la génération automatique du modèle POMDP à résoudre. Cette fonction suppose qu’une phase initiale de balayage du terrain est effectuée en début de mission, afin d’extraire les zones d’intérêt, au moyen d’un traitement d’image. Une fois que le nombre et les coordonnées des zones ont été obtenus, et que le modèle de voiture recherché a été fixé, le problème POMDP est généré. Cette génération automatique, implémentée en C++, est un service disponible dans le composant superviseur de la mission (l’architecture embarquée sera présentée dans la section suivante). Dans la suite, nous détaillerons la génération automatique du problème POMDP à résoudre.

Conformément le chapitre 3, nous disposons de variables d’état qui dépendent : du nombre de zonesNz, d’altitudes de volNh et de modèles connus de la base de donnéesNmodels. Nous avons donc :

– z, avec N_z valeurs possibles, qui indique la position de l’hélicoptère autonome ; – h, avec N_h valeurs possibles, qui indique l’altitude de vol de l’hélicoptère autonome ; – IdT az1 (respectivement IdT az2, IdT az3, etc), avec Nmodels+ 1 valeurs possibles, qui

indique l’identit´e ou l’absence d’une cible dans la zone 1 (respectivement dans la zone 2, dans la zone 3, etc.)

Nous rappelons que la fonction de transition d’états est considérée comme déterministe. Pour chaque variable d’état, nous définissons sa matrice de transition selon l’action. Par exemple, pour Nz = 3 et pour l’action go to(z1), la matrice de transition d’état T_z^z¹ de la variable d’état z sera donnée par :

T_z^z¹ =





1 0 0 1 0 0 1 0 0





Pour les autres variables, une matrice de transition égale à la matrice identité est définie.

Ainsi la construction de la matrice de transition d’état complète pour l’actiongo to(z1)est donné par le produit de Kronecker entre les matrices de transition des variables d’état :

T_{go to(z}₁₎=T_z^z¹O I_hO

I_Id_{T az}

OI_Id_{T az}

Pour tenir compte de l’état terminal, qui est atteint lors que l’action d’atterrissage est réalisée, on ajoute une ligne et une colonne à cette matrice avec une composante égale à 1 dans la diagonale. Ceci parce qu’une fois que l’on est dans l’état terminal, l’action go to(z₁) n’a aucun effet (cf. chapitre 3).

La même procédure est utilisée pour la génération de la fonction de récompense. Par exemple, pour la génération de la fonction de récompense de l’actiongo to(z₁), la distance entre le centre des zones est calculée et la matrice distance entre zonesD_zest construite. Ceci est possible parce que les coordonnées de zones sont des données d’entrée pour la génération automatique. La matrice coût associée au changement de zone C_z,z₁ est donc obtenue par :

C_z,z₁(i, j) =

_D_z_(i,j)

10 , si i6=j 100, sinon

où la valeur de 100 modélise le fait que si on est dans une zone ion ne veut pas aller vers cette même zonei(le point de rendez-vous d’entrée dans une zone est fixé, voir figure 3.1(a) du chapitre 3). Puis, le produit élément par élément entre T_z^z¹ et C_z,z₁ est réalisé, et la matriceR^s_s⁰(a) est obtenue par le produit de Kronecker. Pour obtenir la fonction r(s, a) on somme les colonnes de R^s_s⁰(a), pour chaque s. Le même calcul est utilisé pour les action de changement d’altitude. Pour l’action de changement d’angle de vue, un coût constant est considéré C_view = ^H₁₀^m^φ, proportionnel à l’altitude moyenne de vol H_m (par exemple 35 mètres), et à l’arc de cercle parcouru par l’agent hélicoptère, qui dépend de la valeur de l’angle φfixé par le concepteur (par exempleφ= 10 dégrées), conformément la définition de l’action change view donnée dans la section 3.2.2 du chapitre 3 (voir figure 3.1(b) du chapitre 3).

Pour toutes les actions de déplacement (sauf atterrissage), un coût constantCproc= 0.5 est aussi ajouté à chaque état, qui modélise le coût du traitement d’image engendré une fois que l’action est exécutée.

La génération de la fonction d’observation, qui est la même pour toutes les actions du modèle, est faite à partir d’une méthode récursive. Cette méthode identifie pour chaque état sla valeur des variables d’état au moyen d’une division euclidienne. A partir des valeurs des variables d’étatz,h etIdT az, la table de probabilité apprise est consultée et les probabilités de toutes les observations sont copiées en tant que ligne de la matrice O_sô. Par exemple, si l’hélicoptère est dans la zone z₁, à une altitude h₁, et que Id_{T a}_z

1 = modèle A, la première ligne de la table 4.2 (chapitre 4) est copiée dans la matrice O_sô. Dans cette même procédure récursive, la fonction de récompense associée à l’action d’atterrissage est générée, puisque dans cette fonction l’on peut tester les valeurs des variables z et Id_{T a}_z, conformément la définition de la fonction de récompense de l’action land, donnée dans la section 3.3.2 du chapitre 3. La récompense attribuée à l’atterrissage proche de la cible recherchée est fixée à 50, et une pénalité de 100 est associée à une atterrissage manquée.

Le résultat de la génération automatique est un fichier texte où le modèle POMDP est décrit selon le format standard Cassandra¹.

Maintenant que nous avons décrit la génération automatique du problème à résoudre, nous présentons l’architecture Orocos, qui est l’architecture embarquée sur les drones de l’Onera. Nous focaliserons l’attention sur les différents composants créés pour la mission de détection et de reconnaissance de cibles.

6.1.2 Pr ésentation de l’architecture Orocos impl ément é pour l’application robotique L’architecture embarquée sur l’hélicoptère autonome est une architecture Orocos² [Soe-tens et Bruyninckx, 2005]. Orocos est une librairie pour la robotique implémenté en C++.

Elle fournit un cadre de développement temps réel et modulaire. Orocos est basé sur des composants qui facilitent le développement des applications robotiques, en reposant sur la séparation des fonctions : calcul, communication, configuration et coordination.

1. disponible enhttp://www.pomdp.org/pomdp/code/pomdp-file-spec.shtml 2. http://www.orocos.org/

Dans le document The DART-Europe E-theses Portal (Page 164-167)