Dynamique du mod` ele - Mod´ elisation du sc´ enario en tant que POMDP

3.2 Mod´ elisation du sc´ enario en tant que POMDP

3.2.2 Dynamique du mod` ele

Les actions de haut niveau réalisées par l’hélicoptère autonome sont : changer de zone, changer d’altitude de vol, changer d’angle de vue. Le nombre d’actions de changement de zone dépend du nombre de zones considérées. Ces actions sont appelées go to(ˆz), où ˆz représente la zone de destination. Changer l’altitude de vol dépend aussi du nombre d’altitudes considérées pour le vol de l’hélicoptère autonome. Ces actions sont appelées go to(ˆh), où ˆh représente l’altitude désirée. L’action change view change l’angle de vue de l’observation d’une zone,

la cam´era pointant toujours au centre de cette zone. Donc le nombre total d’actions est : |A| = N_z+ N_h+ 1.

Avant de décrire la dynamique du modèle, nous présentons la notation utilisée : les variables primées représentent la variable de l’état successeur, et les variables non primées l’état courant. Ainsi nous définissons une fonction indicatrice et une fonction delta δ_x(x⁰), comme suit :

D´efinition 3.2.1 I{cond} est la fonction indicatrice telle que :

I{cond}=

1, si cond est vraie; 0, sinon.

D´efinition 3.2.2 δ_x(x⁰) est la fonction Dirac telle que :

δ_x(x⁰) =

1, si x = x⁰;

0, sinon. ^(3.1)

Cette notation nous permet d’exprimer les diff´erentes valeurs possibles prises par la variable de l’´etat successeur x⁰.

D’expérience, nous savons que le changement de zone, d’altitude et le changement d’angle de vue peuvent être considérées comme des actions déterministes. Cependant, le problème reste de type POMDP, car les observations des modèles des voitures sont probabilistes. De plus il est prouvé que la complexité pour résoudre un POMDP est essentiellement liée aux effets probabilistes des observations plutôt qu’aux effets probabilistes des actions [Sabbadin et al., 2007].

En outre, chaque action du POMDP (changement de zone, d’altitude ou d’angle de vue, etc) donne lieu à une acquisition d’image et à l’exécution de l’algorithme de traite-ment d’image, qui fournit alors le symbole d’observation (voiture détectée, identifiée comme modèle A, etc) résultant de l’action du modèle POMDP. Comme la caméra est fixe, il est important de contrôler l’orientation de l’hélicoptère afin d’observer les différentes parties de l’environnement.

Nous allons maintenant décrire les modèles de fonctions de transition et de récompense du POMDP, formalisées par des équations mathématiques, qui reposent sur les variables d’état du problème.

Fonctions de transition et de r ´ecompense

Pour définir la dynamique du modèle, nous caractérisons chaque action par une descrip-tion textuelle expliquant comment les variables d’état évoluent une fois l’action appliquée, ainsi que la fonction de transition T , et la fonction de récompense R.

action go to(ˆz) : cette action amène l’hélicoptère autonome à la zone désirée. La dyna-mique est décrite ci-après, mais notez que si l’hélicoptère est dans un état terminal (T_s), cette action n’a ni effet ni coût associé (cas particulier non formalisé).

– fonction de transition : T (s⁰, go to(^z), s) = δ_z_ˆ(z⁰)δ_h(h⁰)δ_Id T az1(Id⁰_{T a} z1) ... δ_Id T azNz(Id⁰_{T a} zNz)

Conformément à la définition de la fonction δ mentionnée précédemment, la fonction est différente de zéro seulement pour la transition vers l’état s⁰ dans lequel les variables d’état “post-action” sont toutes égales aux variables d’état “pré-action”, sauf la variable “zone” z⁰ qui est égale à ˆz, la zone désirée.

3.2. Mod´elisation du sc´enario en tant que POMDP centre z1 position actuelle z1 centre z2 position future z2 N

(a) Changement de zone dans le plan horizontal.

centre z1

position future z1

position actuelle z1

(b) Changement d’angle de vue dans le plan hori-zontal.

Figure 3.1 – Sch´ema pour les actions de changement de zone et changement de vue pour une vue dans le plan horizontal.

– Fonction de r´ecompense :

R(s, go to(^z)) = −Cz,ˆz− C_proc,

où C_z,ˆ_z représente le coût du vol de z à ˆz. Ce coût modélise la consommation de carburant qui dépend de la distance entre les zones. La génération du POMDP prend en compte les coordonnées des zones. Ces coordonnées sont nécessaires pour générer un coût proportionnel à la distance entre zones. C_proc modélise le coût concernant le traitement d’information dans la zone d’arrivée (observation) qui suit l’exécution de l’action. Le temps de calcul de l’algorithme de traitement d’image est généralement assez court, si bien que C_z,ˆ_z > C_proc.

Il est important de noter qu’à chaque changement de zone, indépendamment de la position actuelle en cordonnées locales, l’hélicoptère autonome ira vers un point de rendez-vous dans la nouvelle zone avec une orientation déterminée (nord magnétique). La figure 3.1(a) illustre le schéma de l’action de changement de zone.

action go to(ˆh) : cette action amène l’hélicoptère autonome à l’altitude de vol désirée. Comme pour l’action go to(ˆz), si l’hélicoptère est dans un état terminal (T_s), cette action n’a ni effet ni coût.

– fonction de transition : T (s⁰, go to(^h), s) = δ_z(z⁰)δ_ˆ_h(h⁰)δ_Id T az1(Id⁰_{T a} z1) ... δ_Id T azNz(Id⁰_{T a} zNz) – Fonction de r´ecompense : R(s, go to(^h)) = −C_h,ˆ_h− C_proc,

où C_h,ˆ_h représente le coût associé au changement d’altitude de h à ˆh et modélise la consommation de carburant qui dépend de la différence d’altitude. C_proc modélise le coût du traitement de l’information qui a lieu à la fin de l’exécution de l’action (observation résultant du traitement d’image à partir de la nouvelle altitude de vol). Ces coûts sont typiquement moins élevés que le changement de zone. Nous avons C_z,ˆ_z> C_h,ˆ_h > C_proc.

action change view : cette action est une action de haut niveau qui change l’angle de vue de l’hélicoptère autonome par rapport au centre de la zone explorée. Cette action de haut niveau ne change pas l’état du POMDP, parce que l’état du POMDP ne dépend que de la position z et de l’altitude h de l’hélicoptère. Mais, dans la réalité, cette action est traduite dans les composants d’exécution et de navigation du drone hélicoptère comme un déplacement circulaire autour du centre de la zone en question. Ce déplacement circulaire dépend de l’angle φ défini par le concepteur du système. Cette formalisation faisant abstrac-tion du déplacement angulaire de l’hélicoptère nous permet d’éviter de rajouter une variable d’état dans le modèle, dont l’influence sur la valeur de la stratégie de haut niveau (POMDP) n’est pas sensible a priori. De cette fa¸con, nous modélisons le message envoyé par le compo-sant d’exécution de la politique du POMDP au composant de navigation comme un nouveau point de rendez-vous (wait point : W^p), qui est défini par :

W_x^p = (x − zone_x)cos(φ) + (y − zone_y)sin(φ) + zone_x Wy^p = −(x − zone_x)sin(φ) + (y − zoney)cos(φ) + zoney

Wcap^p = cap − φ

où, {x, y} (respectivement {zone_x, zone_y}) définit la position de l’hélicoptère autonome (res-pectivement du centre de la zone) dans le plan horizontal par rapport aux coordonnées locales, et cap l’orientation de l’hélicoptère autonome par rapport au nord magnétique (voir figure 3.1(b)). Le coût de cette action est aussi proportionnel à la distance parcourue entre la position actuelle de l’UAV et le nouveau point de rendez-vous, et au coût du traitement d’information.

– fonction de r´ecompense :

R(s, change view) = −Cview− C_proc.

Le coût Cview dépend de l’angle φ : plus l’angle qui définit le déplacement circulaire est important, plus ce coût est élevé. Nous avons Cview > Cproc.

Dans la suite nous pr´esentons le mod`ele d’observation de notre application.

Dans le document Planification de perception et de mission en environnement incertain : Application à la détection et à la reconnaissance de cibles par un hélicoptère autonome (Page 83-86)