• Aucun résultat trouvé

3.2 Mod´ elisation du sc´ enario en tant que POMDP

3.2.2 Dynamique du mod` ele

Les actions de haut niveau r´ealis´ees par l’h´elicopt`ere autonome sont : changer de zone, changer d’altitude de vol, changer d’angle de vue. Le nombre d’actions de changement de zone d´epend du nombre de zones consid´er´ees. Ces actions sont appel´ees go to(ˆz), o`u ˆz repr´esente la zone de destination. Changer l’altitude de vol d´epend aussi du nombre d’altitudes consid´er´ees pour le vol de l’h´elicopt`ere autonome. Ces actions sont appel´ees go to(ˆh), o`u ˆh repr´esente l’altitude d´esir´ee. L’action change view change l’angle de vue de l’observation d’une zone,

la cam´era pointant toujours au centre de cette zone. Donc le nombre total d’actions est : |A| = Nz+ Nh+ 1.

Avant de d´ecrire la dynamique du mod`ele, nous pr´esentons la notation utilis´ee : les variables prim´ees repr´esentent la variable de l’´etat successeur, et les variables non prim´ees l’´etat courant. Ainsi nous d´efinissons une fonction indicatrice et une fonction delta δx(x0), comme suit :

D´efinition 3.2.1 I{cond} est la fonction indicatrice telle que :

I{cond}= 

1, si cond est vraie; 0, sinon.

D´efinition 3.2.2 δx(x0) est la fonction Dirac telle que :

δx(x0) = 

1, si x = x0;

0, sinon. (3.1)

Cette notation nous permet d’exprimer les diff´erentes valeurs possibles prises par la variable de l’´etat successeur x0.

D’exp´erience, nous savons que le changement de zone, d’altitude et le changement d’angle de vue peuvent ˆetre consid´er´ees comme des actions d´eterministes. Cependant, le probl`eme reste de type POMDP, car les observations des mod`eles des voitures sont probabilistes. De plus il est prouv´e que la complexit´e pour r´esoudre un POMDP est essentiellement li´ee aux effets probabilistes des observations plutˆot qu’aux effets probabilistes des actions [Sabbadin et al., 2007].

En outre, chaque action du POMDP (changement de zone, d’altitude ou d’angle de vue, etc) donne lieu `a une acquisition d’image et `a l’ex´ecution de l’algorithme de traite-ment d’image, qui fournit alors le symbole d’observation (voiture d´etect´ee, identifi´ee comme mod`ele A, etc) r´esultant de l’action du mod`ele POMDP. Comme la cam´era est fixe, il est important de contrˆoler l’orientation de l’h´elicopt`ere afin d’observer les diff´erentes parties de l’environnement.

Nous allons maintenant d´ecrire les mod`eles de fonctions de transition et de r´ecompense du POMDP, formalis´ees par des ´equations math´ematiques, qui reposent sur les variables d’´etat du probl`eme.

Fonctions de transition et de r ´ecompense

Pour d´efinir la dynamique du mod`ele, nous caract´erisons chaque action par une descrip-tion textuelle expliquant comment les variables d’´etat ´evoluent une fois l’action appliqu´ee, ainsi que la fonction de transition T , et la fonction de r´ecompense R.

action go to(ˆz) : cette action am`ene l’h´elicopt`ere autonome `a la zone d´esir´ee. La dyna-mique est d´ecrite ci-apr`es, mais notez que si l’h´elicopt`ere est dans un ´etat terminal (Ts), cette action n’a ni effet ni coˆut associ´e (cas particulier non formalis´e).

– fonction de transition : T (s0, go to(^z), s) = δzˆ(z0h(h0Id T az1(Id0T a z1) ... δId T azNz(Id0T a zNz)

Conform´ement `a la d´efinition de la fonction δ mentionn´ee pr´ec´edemment, la fonction est diff´erente de z´ero seulement pour la transition vers l’´etat s0 dans lequel les variables d’´etat “post-action” sont toutes ´egales aux variables d’´etat “pr´e-action”, sauf la variable “zone” z0 qui est ´egale `a ˆz, la zone d´esir´ee.

3.2. Mod´elisation du sc´enario en tant que POMDP centre z1 position actuelle z1 centre z2 position future z2 N

(a) Changement de zone dans le plan horizontal.

centre z1

position future z1

position actuelle z1

N

(b) Changement d’angle de vue dans le plan hori-zontal.

Figure 3.1 – Sch´ema pour les actions de changement de zone et changement de vue pour une vue dans le plan horizontal.

– Fonction de r´ecompense :

R(s, go to(^z)) = −Cz,ˆz− Cproc,

o`u Cz,ˆz repr´esente le coˆut du vol de z `a ˆz. Ce coˆut mod´elise la consommation de carburant qui d´epend de la distance entre les zones. La g´en´eration du POMDP prend en compte les coordonn´ees des zones. Ces coordonn´ees sont n´ecessaires pour g´en´erer un coˆut proportionnel `a la distance entre zones. Cproc mod´elise le coˆut concernant le traitement d’information dans la zone d’arriv´ee (observation) qui suit l’ex´ecution de l’action. Le temps de calcul de l’algorithme de traitement d’image est g´en´eralement assez court, si bien que Cz,ˆz > Cproc.

Il est important de noter qu’`a chaque changement de zone, ind´ependamment de la position actuelle en cordonn´ees locales, l’h´elicopt`ere autonome ira vers un point de rendez-vous dans la nouvelle zone avec une orientation d´etermin´ee (nord magn´etique). La figure 3.1(a) illustre le sch´ema de l’action de changement de zone.

action go to(ˆh) : cette action am`ene l’h´elicopt`ere autonome `a l’altitude de vol d´esir´ee. Comme pour l’action go to(ˆz), si l’h´elicopt`ere est dans un ´etat terminal (Ts), cette action n’a ni effet ni coˆut.

– fonction de transition : T (s0, go to(^h), s) = δz(z0ˆh(h0Id T az1(Id0T a z1) ... δId T azNz(Id0T a zNz) – Fonction de r´ecompense : R(s, go to(^h)) = −Ch,ˆh− Cproc,

o`u Ch,ˆh repr´esente le coˆut associ´e au changement d’altitude de h `a ˆh et mod´elise la consommation de carburant qui d´epend de la diff´erence d’altitude. Cproc mod´elise le coˆut du traitement de l’information qui a lieu `a la fin de l’ex´ecution de l’action (observation r´esultant du traitement d’image `a partir de la nouvelle altitude de vol). Ces coˆuts sont typiquement moins ´elev´es que le changement de zone. Nous avons Cz,ˆz> Ch,ˆh > Cproc.

action change view : cette action est une action de haut niveau qui change l’angle de vue de l’h´elicopt`ere autonome par rapport au centre de la zone explor´ee. Cette action de haut niveau ne change pas l’´etat du POMDP, parce que l’´etat du POMDP ne d´epend que de la position z et de l’altitude h de l’h´elicopt`ere. Mais, dans la r´ealit´e, cette action est traduite dans les composants d’ex´ecution et de navigation du drone h´elicopt`ere comme un d´eplacement circulaire autour du centre de la zone en question. Ce d´eplacement circulaire d´epend de l’angle φ d´efini par le concepteur du syst`eme. Cette formalisation faisant abstrac-tion du d´eplacement angulaire de l’h´elicopt`ere nous permet d’´eviter de rajouter une variable d’´etat dans le mod`ele, dont l’influence sur la valeur de la strat´egie de haut niveau (POMDP) n’est pas sensible a priori. De cette fa¸con, nous mod´elisons le message envoy´e par le compo-sant d’ex´ecution de la politique du POMDP au composant de navigation comme un nouveau point de rendez-vous (wait point : Wp), qui est d´efini par :

Wxp = (x − zonex)cos(φ) + (y − zoney)sin(φ) + zonex Wyp = −(x − zonex)sin(φ) + (y − zoney)cos(φ) + zoney

Wcapp = cap − φ

o`u, {x, y} (respectivement {zonex, zoney}) d´efinit la position de l’h´elicopt`ere autonome (res-pectivement du centre de la zone) dans le plan horizontal par rapport aux coordonn´ees locales, et cap l’orientation de l’h´elicopt`ere autonome par rapport au nord magn´etique (voir figure 3.1(b)). Le coˆut de cette action est aussi proportionnel `a la distance parcourue entre la position actuelle de l’UAV et le nouveau point de rendez-vous, et au coˆut du traitement d’information.

– fonction de r´ecompense :

R(s, change view) = −Cview− Cproc.

Le coˆut Cview d´epend de l’angle φ : plus l’angle qui d´efinit le d´eplacement circulaire est important, plus ce coˆut est ´elev´e. Nous avons Cview > Cproc.

Dans la suite nous pr´esentons le mod`ele d’observation de notre application.