• Aucun résultat trouvé

7.2.1 Mod ´elisation (cf. chapitre 3)

Dans le chapitre 3, nous avons pu mod´eliser le probl`eme dual de perception-d´ecision en tant que POMDP, car ce mod`ele propose un sch´ema g´en´eral applicable `a notre probl´ematique, et optimal pour les tˆaches de perception et de d´ecision `a long terme. Une attention sp´eciale a ´et´e donn´ee `a l’apprentissage (hors ligne) du mod`ele d’observation du POMDP `a partir de donn´ees r´eelles de l’environnement, obtenues lors de campagnes de prise d’images de voitures (nos cibles) par le drone h´elicopt`ere. Ces donn´ees nous ont permis d’obtenir un mod`ele sta-tistique et r´ealiste de l’application. Deux sc´enarios de mission ont ´et´e ainsi propos´es : une mission d’exploration et une mission d’atterrissage. La premi`ere consiste `a identifier l’´etat cach´e de l’environnement dans lequel l’agent autonome ´evolue tout en tenant compte des coˆuts li´es aux d´eplacements de l’agent (perception active). La deuxi`eme mission consiste `a identifier une cible en particulier parmi les diff´erentes cibles connues de la base de donn´ees afin d’atterrir `a proximit´e de la cible recherch´ee (perception active et satisfaction de but symbolique).

7.2.2 Etude du compromis perception-action (cf. chapitre 4)´

Dans le chapitre 4, nous avons mis en ´evidence une ´etude du compromis entre la prise d’in-formation et la d´ecision dans les deux contextes applicatifs d´ecrits pr´ec´edemment. L’int´erˆet d’´etudier la politique d’action r´esultant de l’optimisation d’un crit`ere mixte d’optimisation (ρPOMDP) a ´et´e illustr´e pour des probl`emes de diagnostic ou d’identification de l’´etat cach´e de l’environnement (mission d’exploration du chapitre 3). Le crit`ere mixte propos´e couple le crit`ere d’optimisation classique des POMDP avec un crit`ere d’optimisation tr`es utilis´e par la communaut´e de perception active bas´e sur l’entropie de l’´etat de croyance de l’agent. Nous avons impl´ement´e cette approche en modifiant un algorithme issu de l’´etat de l’art du domaine des POMDP, en tenant compte du fait que la fonction de valeur r´esultante de ce couplage n’est plus lin´eaire.

Nous avons donc propos´e un sch´ema algorithmique de r´esolution et d’optimisation de la politique pour ce crit`ere mixte non-lin´eaire. En ce qui concerne l’optimisation de la politique pour le crit`ere non-lin´eaire, nous pensons qu’il serait souhaitable de changer la forme de param´etrisation de la fonction de valeur : la param´etrisation `a base d’α-vecteurs n’est pas bien adapt´ee `a ce genre de crit`ere non-lin´eaire dˆu `a la difficult´e d’approximation lin´eaire lors des op´erations de mise `a jour de la valeur des ´etats de croyance. D’autre part, la d´etermination de la bonne valeur de la pond´eration λ d´epend du mod`ele de r´ecompense/coˆut et du concepteur, puisque lui seul pourra d´efinir quel point du front de Pareto doit ˆetre consid´er´e comme optimal. Nous avons aussi d´emontr´e qu’il est possible de mod´eliser ce probl`eme de perception active par un mod`ele classique de POMDP o`u l’on rajoute des buts fictifs par des actions suppl´ementaires dites report s pour chaque ´etat s du syst`eme, de fa¸con `a ce que l’agent d´ecideur soit r´ecompens´e si et seulement s’il r´ealise l’action report s quand l’´etat s est le v´eritable ´etat. Sur la base du sch´ema algorithmique propos´e nous avons pu mener `a bien

7.2. Contributions

des comparaisons entre ces deux approches du point de vue de la politique d’acquisition d’information.

Notre proposition est une contribution originale `a trois titres diff´erents :

– nous avons propos´e, d´evelopp´e et exp´eriment´e pour le crit`ere mixte non-lin´eaire un algorithme de r´esolution de type point-based qui permet une optimisation g´en´erique de ce type de crit`ere non-lin´eaire ;

– nous avons propos´e une mod´elisation POMDP classique ´equivalente (au mod`ele avec crit`ere mixte) par ajout de r´ecompenses classiques suppl´ementaires sur chaque ´etat devant ˆetre correctement identifi´e, r´ecompenses obtenues par les actions terminales suppl´ementaires de type report s traduisant explicitement des buts d’identification de l’´etat de l’environnement (qui sont trait´es par la mesure d’incertitude de l’´etat de croyance dans le mod`ele avec crit`ere mixte) ;

– nous avons r´ealis´e une ´evaluation comparative objective entre ces deux mod`eles par si-mulation de la politique obtenue sur une mˆeme base de r´ecompenses re¸cues `a l’ex´ecution. Les r´esultats comparatifs nous permettent de conclure que la fonction de r´ecompense uti-lis´ee dans le mod`ele est le facteur d´ecisif pour l’obtention d’une politique pertinente. ´Etant donn´e que l’utilisation d’un crit`ere mixte non-lin´eaire est possible d’un point de vue algorith-mique, il est possible d’´evaluer et de comparer les politiques obtenues par un crit`ere mixte avec celle obtenue en choisissant des r´ecompenses pour le mod`ele classique (ajout d’actions). Il ressort de la comparaison que le crit`ere mixte permet de d´efinir de mani`ere intuitive (par l’utilisateur) des taux acceptables de bonnes et de mauvaises classifications. Ainsi, il est pos-sible de revenir vers une mod´elisation classique POMDP par ajout des buts fictifs en ayant des ´el´ements objectifs de comparaison pour fixer le bon rapport entre les r´ecompenses et les coˆuts du mod`ele. Plus pr´ecis´ement, le choix de ce bon rapport est d´eterminant vis-`a-vis des taux intuitifs de bonnes classifications que l’utilisateur souhaite obtenir au moment de l’ex´ecution de la politique. Ainsi, en pratique, les deux approches (mod´elisation par crit`ere mixte ou mod´elisation par POMDP classique ´equivalent) peuvent ˆetre utilis´ees en parfaite compl´ementarit´e de fa¸con `a permettre : de caract´eriser une politique correspondant aux taux acceptables des bonnes et mauvaises classifications, de d´eterminer les bonnes valeurs des coˆuts et des r´ecompenses, et de garantir la convergence vers une politique -optimale de la politique obtenue.

En outre, les travaux effectu´es dans ce chapitre nous ont aussi permis d’´evaluer l’applica-bilit´e des POMDP dans le cadre d’une mission d’atterrissage. Nous avons vu que l’incertitude de l’´etat de croyance, mesur´ee par l’entropie de l’´etat de croyance, est intrins`equement r´eduite avec le crit`ere classique dans ce genre de mission en amenant l’agent `a acqu´erir suffisamment d’information pour bien la mener `a terme, ind´ependamment du mod`ele de cible recherch´ee. Ceci a ´et´e d´emontr´e par le fait que, mˆeme pour un mod`ele d’observation moins pr´ecis, l’agent h´elicopt`ere a atteint un pourcentage de r´eussite de mission ´equivalent `a celui obtenu avec des mod`eles plus pr´ecis, au d´etriment de quelques ´etapes suppl´ementaires de prise d’infor-mation. De plus, notre ´etude du comportement d’une politique calcul´ee avec le crit`ere mixte propos´e nous a amen´e `a conclure que, pour ce type de mission, l’optimisation explicite d’une mesure d’incertitude de l’´etat de croyance n’est clairement pas n´ecessaire. Nous avons vu que la vitesse de convergence de l’incertitude de l’´etat de croyance, mesur´ee par l’entro-pie de l’´etat de croyance, ne peut ˆetre am´elior´ee que pour des valeurs importantes de la pond´eration λ, avec une perte non n´egligeable d’efficacit´e de la politique en ce qui concerne le pourcentage de r´eussite de la mission. Toutefois, les diff´erentes politiques obtenues par le crit`ere mixte mettent en ´evidence que si l’on souhaite “garantir” que le taux de missions manqu´ees est inf´erieur `a un certain seuil, le rapport entre les r´ecompenses et coˆuts du mod`ele de r´ecompense doit ˆetre raffin´e.

r´ecompense est d´eterminante par rapport `a l’int´erˆet ou `a l’utilit´e d’ajouter une mesure d’in-certitude pour guider l’optimisation de la politique. Les deux missions ´etudi´ees – explora-tion et atterrissage – ne sont pas de nature diff´erente. Une r´eflexion approfondie lors de la mod´elisation du probl`eme et en particulier dans le choix du mod`ele de r´ecompense `a utiliser est d´eterminante. Nous montrons dans cette th`ese que si l’on ajoute au mod`ele des actions terminales (actions de classification ou d’atterrissage) avec des r´ecompenses classiques sur les ´etats `a identifier correctement pour bien r´ealiser la mission (´etats buts fictifs), il n’est plus n´ecessaire d’utiliser un crit`ere mixte (bas´e sur des mesures de r´ecompense et d’incertitude), y compris pour des probl`emes de perception active pure. Un crit`ere de type mixte peut ˆetre consid´er´e comme une approche intuitive qui vient en compl´ement du cadre classique des POMDP. L’utilisateur du syst`eme peut plus facilement indiquer au concepteur le taux de bonnes classifications ou le taux de missions r´eussies qu’il souhaite. Ainsi, la mod´elisation des r´ecompenses du POMDP classique, qui est faite dans la plupart de cas, de mani`ere empi-rique, peut ˆetre guid´ee par une comparaison objective avec un mod`ele ´equivalent ρPOMDP afin de d´efinir le bon rapport entre les r´ecompenses et les coˆuts du mod`ele.

7.2.3 POMDP et pr ´econdition d’action (cf. chapitre 5)

Dans le chapitre 5, nous avons propos´e une approche qui nous permet de prendre en compte dans un cadre d’observabilit´e partielle certaines contraintes physiques et de sˆuret´e li´ees `a la mission du drone h´elicopt`ere. Ces contraintes sont par exemple : atterrir seulement si une zone est “atterrissable” mˆeme si la cible recherch´ee se retrouve dans cette zone ; ou garantir que le changement de zone se fera `a une altitude de vol donn´ee. Cette approche nous a amen´e `a proposer une extension du mod`ele POMDP, appel´ee AC-POMDP, pour la-quelle l’observation de l’agent est constitu´ee pour une partie de l’observation classique de l’´etat de l’environnement et pour une autre partie de symboles qui repr´esentent l’ensemble des actions r´ealisables dans le domaine des ´etats possibles du syst`eme. Ainsi, le mod`ele AC-POMDP nous conduit `a un nouvel algorithme qui exploite explicitement la s´eparation entre l’information concernant la v´erification des propri´et´es du mod`ele (les pr´econditions), et celle qui renseigne sur la pr´esence du but de mission ou sur la nature des objets de l’environne-ment. Une propri´et´e fondamentale des AC-POMDP, qui permet de r´eduire significativement la complexit´e, est que les α-vecteurs sont d´efinis chacun sur des sous-espaces de croyance diff´erents et r´eduits. Ceci permet de n’´evaluer qu’un sous-ensemble d’actions pour un ´etat de croyance donn´e, et de ne calculer des projections que pour les α-vecteurs de la fonction de valeur qui sont coh´erents avec l’ensemble d’actions r´ealisables. Il est `a noter que le processus de d´ecision est toujours partiellement observable, puisque plusieurs ´etats peuvent avoir le mˆeme ensemble d’actions r´ealisables. Nous avons fourni des ´equations d’optimalit´e, de mise `

a jour de l’´etat de croyance et une transformation vers le mod`ele POMDP ´equivalent afin de pouvoir comparer l’approche propos´ee avec le mod`ele classiquement utilis´e. Cette trans-formation ´equivalente repose sur l’hypoth`ese commun´ement admise que l’on peut choisir des r´ecompenses ´equivalentes `a des valeurs −∞ dans le mod`ele POMDP, tout du moins `a une valeur qui correspond `a la borne inf´erieure des valeurs des ´etats.

Notre contribution dans ce chapitre porte aussi sur l’´etude th´eorique et sur des exp´ erimen-tations r´ealis´ees grˆace `a l’adaptation d’un algorithme de l’´etat de l’art du domaine POMDP. Notre algorithme PCVI1 permet de tirer profit des propri´et´es du mod`ele telles que l’´evaluation d’un sous-ensemble d’actions pour un ´etat de croyance donn´e (op´eration maxa∈Ab), et le calcul des projections Γa,(o,θ) seulement pour les α-vecteurs de V qui sont coh´erents avec l’ensemble θ. Les α-vecteurs de la fonction de valeur n’ont leurs valeurs d´efinies que sur les ´etats o`u l’action associ´ee est r´ealisable. Ceci nous ram`ene `a une fonction de valeur pa-ram´etr´ee par des α-vecteurs d´efinis chacun sur diff´erents sous-espaces de croyances diff´erents

7.2. Contributions

et r´eduits. Par ailleurs, l’algorithme PCVI2 utilise une borne inf´erieure de la fonction de valeur optimale, et qui donne lieu `a une optimisation exponentiellement plus rapide.

Nos r´esultats exp´erimentaux d´emontrent qu’il est possible d’explorer le d´ecouplage opti-mal des diff´erentes observations lors de l’optimisation de la politique, en r´eduisant le temps de calcul de mani`ere significative. Nous obtenons bien plus rapidement des politiques fond´ees et ´equivalentes `a celles du mod`ele classique POMDP ´equivalent, tout en respectant les contraintes physiques et de sˆuret´e mod´elis´ees par des pr´econditions s´emantiquement fond´ees et ne d´ependant d’aucun r´eglage arbitraire des coˆuts et r´ecompenses du mod`ele. Dans le cadre POMDP mono-agent, notre mod`ele permet de garder l’interpr´etation s´emantique des pr´econditions et montre finalement que la fa¸con classique de mod´eliser le probl`eme n’est pas la plus efficace en comparaison de notre algorithme PCVI qui exploite directement la structure sp´ecifique des AC-POMDP.

7.2.4 Planification anticip ´ee et ex ´ecution en parall `ele des politiques partielles (cf. chapitre 6)

Dans le chapitre 6, nous avons pr´esent´e l’une des premi`eres impl´ementations en temps r´eel, sur syst`eme robotique a´erien avec validation en vol exp´erimental, d’une mission de d´etection et de reconnaissance de cibles bas´ee sur l’approche POMDP pour un drone h´elicopt`ere au-tonome (mission d’atterrissage). Nous avons embarqu´e nos composants de d´ecision `a bord d’un drone h´elicopt`ere autonome, un Yamaha Rmax de l’Onera. Ceci a n´ecessit´e la mise en place de la g´en´eration automatique du probl`eme POMDP `a r´esoudre, puis la conception d’un cadre algorithmique permettant d’optimiser en anticipation et d’ex´ecuter en parall`ele la politique afin de concevoir un superviseur de mission charg´e d’assurer la coordination entre les diff´erents composants de l’architecture, indispensables au bon d´eroulement de la mission. Le cœur de notre contribution repose sur la proposition, le d´eveloppement et la mise en œuvre pratique d’un sch´ema algorithmique, baptis´e AMPLE, pour optimiser et ex´ecuter en parall`ele des politiques POMDP sous contraintes de temps de r´eponse du planifica-teur. L’optimisation de la politique n´ecessite l’utilisation d’un solveur POMDP sous-jacent (par exemple PBVI ou AEMS), capable d’optimiser localement des bouts de politique. Des exp´erimentations r´ealistes de type “hardware in the loop” nous ont permis de d´emontrer que le choix de l’algorithme sous-jacent utilis´e reste d´ecisif pour que les techniques de planifi-cation POMDP puissent s’attaquer `a des missions de robotique a´erienne assez complexes. Nous avons aussi d´emontr´e que le cadre propos´e d’optimisation en parall`ele de l’ex´ecution permet en moyenne d’obtenir un temps de mission plus court et un pourcentage de r´eussite de mission plus ´elev´e (dans certains cas) pour des missions tr`es contraintes en temps, que l’approche classique d’optimisation, qui entrelace les phases d’optimisation et d’ex´ecution. Cependant, notre sch´ema algorithmique AMPLE repose sur la d´efinition d’une politique par d´efaut, par exemple une politique param´etrique et d´efinie en laboratoire en pr´eparation de la mission, permettant de garantir un certain niveau d’exigence en termes d’efficacit´e et de sˆuret´e.

Nous sommes ainsi ramen´ee `a la question de garantir le comportement de la politique d’action par rapport aux objectifs de la mission, en termes de temps de r´eponse du planifi-cateur, aussi bien qu’en termes de conformit´e `a la sˆuret´e ou `a la s´ecurit´e, ou en termes de respect d’un certain seuil de confiance dans l’´etat de croyance avant d´ecision (taux de bonne et mauvaise classification par exemple).

Nous avons ainsi apport´e par nos travaux des contributions en termes de mod´elisation et de sch´emas algorithmiques pour la d´ecision et la perception autonomes adaptables aux architectures robotiques et applicables dans des situations exigeantes en termes de garantie

d’efficacit´e, sˆuret´e et fiabilit´e. Il nous reste `a proposer des pistes pour poursuivre ces travaux, peut ˆetre vers un cadre formel de perception-action plus unifi´e.