• Aucun résultat trouvé

Conclusion et intuitions

Dans le document The DART-Europe E-theses Portal (Page 43-47)

Planification, perception et formalismes de d´ecision

1.5 Conclusion et intuitions

et al., 2011], les approches pr´esent´ees ont pour vocation d’ˆetre appliqu´ees en temps r´eel mais elles ne sont pas encore viables, ni embarqu´ees. De plus, dans ces applications, le probl`eme POMDP est suppos´e connu avant que la mission ne commence, permettant aux concepteurs d’optimiser la politique du drone hors-ligne sans contrainte de temps. Ce n’est clairement pas notre cas, car nous ne connaissons ni la topologie des zones, ni le nombre de cibles `a d´etecter.

Toutefois, dans une mission de d´etection et de reconnaissance [Wanget al., 2012], certains param`etres du probl`eme sont inconnus avant le vol. En effet, le nombre de cibles ou le nombre de zones qui composent l’environnement, sont des exemples de param`etres g´en´eralement inconnus avant le vol et qui doivent ˆetre automatiquement extraits au d´ebut de la mission afin de d´efinir le probl`eme de d´ecision s´equentielle `a optimiser. Pour un traitement r´ealiste, la probl´ematique en soi impose donc une planification en temps r´eel et en environnement incertain.

Dans la suite nous pr´esentons la conclusion de cette ´etude bibliographique, la justification de notre choix du mod`ele POMDP comme formalisme de d´ecision pour notre application, ainsi que les pistes de recherche explor´ees lors de cette th`ese.

1.5 Conclusion et intuitions

Deux contraintes nous sont impos´ees pour le probl`eme g´en´eral de la perception active : l’une est relative au traitement du signal, qui ram`ene les ´etats de l’agent et de son environ-nement `a des distributions de probabilit´e autour de ses variables d’´etat, et l’autre est li´ee `a des incertitudes sur les effets des actions de l’agent autonome. Pour traiter les incertitudes probabilistes li´ees aux capteurs, aux actions de l’agent robot et de l’environnement, plu-sieurs probl`emes de d´ecision en robotique peuvent ˆetre mod´elis´es sous forme d’un Processus D´ecisionnel Markovien Partiellement Observable (POMDP).

De plus, le probl`eme d´ecisionnel trait´e ici exige un compromis entre une planification court terme associ´ee `a la perception de l’environnement, et une planification long terme associ´ee

`

a l’accomplissement de la mission. Il est n´ecessaire de pouvoir prendre en compte dans un mˆeme cadre formel la planification des actions de l’agent visant la r´ealisation des objectifs qui lui sont assign´es (mission), et des actions visant `a recueillir l’information n´ecessaire `a la mise en œuvre de ces actions (perception). Si les actions suivent un plan conditionnel (une politique), le probl`eme est souvent mod´elis´e comme un POMDP. Ceci peut ˆetre d´efini pour un horizon de raisonnement fini ou infini. Il existe une r´ecompense associ´ee `a chaque ´etat et `a chaque action prise dans cet ´etat. L’objectif ´etant de trouver les actions (politique optimale) qui maximisent la r´ecompense tenant compte de leurs effets `a long terme.

Ces arguments justifient le choix des Processus D´ecisionnels Markoviens Partiellement Observables comme mod`ele de l’agent et de son environnement pour le probl`eme d’optimi-sation trait´e dans ce sujet de th`ese. Ce mod`ele sera formellement d´efini dans le chapitre 2, ainsi que les algorithmes de r´esolution disponibles dans la litt´erature.

Le mod`ele POMDP semble ˆetre une bonne approche pour traiter le probl`eme de la perception active, puisque celui-ci peut fournir une politique optimale `a long terme, ou quasi-optimale si la m´ethode de r´esolution est une m´ethode approch´ee. Par contre, pour les applications purement ´epist´emiques, o`u l’on cherche `a identifier l’´etat cach´e du syst`eme, [Araya-L´opezet al., 2010, Eidenbergeret al., 2009, Candido et Hutchinson, 2011] d´emontrent qu’il est possible d’adapter le crit`ere de performance classique des POMDP afin de tenir compte d’une mesure d’incertitude li´ee `a la m´econnaissance de l’´etat du syst`eme par l’agent.

Les travaux pr´esent´es pr´ec´edemment traitent de nouveaux crit`eres de performance dans un cadre POMDP, toutefois [Candido et Hutchinson, 2011,Eidenbergeret al., 2009] ne prennent pas en compte dans le calcul de la politique les effets `a long terme des actions : horizon limit´e

dans le calcul de politiques locales, ou politique aveugle (h=1).

Une premi`ere piste de recherche dans notre th`ese a donc ´et´e d’´etudier le compromis entre la prise d’information et la d´ecision dans deux cadres applicatifs, `a partir d’une impl´ementation d’un crit`ere mixte pour les POMDP. Notons qu’une ´etude similaire a ´et´e men´ee dans la th`ese de [Araya L´opez, 2013] en parall`ele de notre th`ese. Alors que la th`ese de [Araya L´opez, 2013] a ´etudi´e diff´erentes mesures d’incertitude pour la perception pure, nous avons plutˆot ´etudi´e l’int´erˆet de combiner une mesure d’incertitude entropique `a des r´ecompenses classiques d´efinies sur les ´etats. Ainsi, nous proposons un crit`ere mixte qui fournit des politiques (quasi-)optimales `a long terme contrairement aux politiques r´eactives de [Eidenbergeret al., 2009]. D’autre part, on pourrait affirmer que l’acquisition d’informa-tion est toujours un moyen, pas une fin, et donc qu’un probl`eme bien d´efini de d´ecision avec observabilit´e partielle doit ˆetre mod´elis´e sous forme d’un POMDP classique [Spaan et Lima, 2009]. Nous pensons en effet que si l’on ajoute au mod`ele des ´etats buts fictifs (au moyen d’actions de classification ou d’une action d’atterrissage), un tel crit`ere mixte bas´e sur une mesure de l’incertitude de l’´etat de croyance ne serait plus n´ecessaire dans de nombreux cas pratiques (y compris en perception active pure). Un tel crit`ere mixte permettrait en fait d’ajuster les r´ecompenses d’un mod`ele POMDP classique (crit`ere non mixte) ´equivalent. Ces deux approches seraient donc, en pratique, compl´ementaires. Ces ´etudes sont d´eclin´ees dans le chapitre 4 de cette th`ese.

D’autre part, la prise en compte des contraintes de sˆuret´e dans des applications utili-sant le mod`ele POMDP est actuellement tr`es limit´ee. Comme d´ej`a discut´e, dans les Proces-sus D´ecisionnels Markoviens (MDPs), des pr´econditions bool´eennes ont ´et´e introduites de mani`ere formelle [Younes et Littman, 2003], dans le but de produire des politiques conte-nant seulement des actions faisables ou d´esirables pour chaque ´etat. `A notre connaissance, l’utilisation formelle de pr´econditions n’a jamais ´et´e adapt´ee pour des Processus D´ecisionnels de Markov Partiellement Observables, en d´epit des besoins pratiques encore plus marqu´es : l’observabilit´e partielle de l’environnement de l’agent robot impose de prendre de pr´ecautions accrues quant aux cons´equences `a long terme en termes de sˆuret´e des actions ex´ecut´ees. La v´erification `a l’optimisation et `a l’ex´ecution des pr´econditions n’est imm´ediate que lorsque l’´etat du syst`eme est compl`etement observable. Dans des syst`emes partiellement observables, la v´erification de l’applicabilit´e d’une action n’est pas une tˆache facile [Praletet al., 2010b] : il s’agit, `a l’optimisation comme `a l’ex´ecution, d’inf´erer efficacement `a partir du mod`ele un ensemble d’actions applicable dans un ´etat de croyance donn´e. La recherche sur les POMDP reste tr`es focalis´ee sur les moyens d’am´eliorer l’efficacit´e des algorithmes visant `a produire une politique pour le mod`ele POMDP standard (discut´ees dans le chapitre 2), plutˆot que sur des am´eliorations permettant de confronter le mod`ele standard aux applications r´eelles.

En cons´equence, une seconde piste de recherche, trait´ee dans le chapitre 5 de cette th`ese, a ´et´e de formaliser la prise en compte des pr´econditions dans un cadre POMDP.

Les pr´econditions permettent de tenir compte des contraintes de sˆuret´e li´ees `a la mission robotique, contrairement `a [Bai et al., 2011], o`u la mod´elisation d’une infaisabilit´e sur les actions est faite par un r´eglage de coˆuts de type potentiom`etre, c’est-`a-dire, en associant un coˆut tr`es ´elev´e associ´e aux paires ´etat-action ind´esirables.

De plus, tr`es peu de travaux se sont int´eress´es `a la r´esolution en ligne du probl`eme de d´etection et reconnaissance de cibles [Wanget al., 2012] par un UAV autonome, ce qui est abord´e dans une troisi`eme piste de recherche. Dans [Carvalho Chanel et al., 2012c, Car-valho Chanel et al., 2013] nous avons ´etudi´e une mission de d´etection et reconnaissance de cible par un UAV autonome, mod´elis´ee par un POMDP d´efini en ligne une fois que le nombre de zones `a explorer a ´et´e observ´e en d´ebut de mission. Nous croyons que ce travail pr´esente l’une des premi`eres impl´ementations d’une mission de d´etection et de reconnaissance de cibles bas´ee sur un mod`ele de type POMDP, qui est optimis´e en ligne par une approche original.

1.5. Conclusion et intuitions Celle-ci consiste `a ex´ecuter et optimiser en parall`ele la politique sur des ´etats de croyance futurs probables. L’exp´erimentation en vol de cette approche est discut´e dans le chapitre 6 de cette th`ese.

Chapitre

2

Processus D´ecisionnels de Markov

Dans le document The DART-Europe E-theses Portal (Page 43-47)

Outline

Documents relatifs