• Aucun résultat trouvé

Vers des am ´eliorations des outils algorithmiques

Dans le document The DART-Europe E-theses Portal (Page 197-200)

Utilisation des POMDP sous contraintes temporelles : optimisation anticip´ee et

7.1 Conclusion g ´en ´erale

7.3.2 Vers des am ´eliorations des outils algorithmiques

a l’Onera, porte sur l’´etude et la proposition d’un mod`ele fin capable de tenir compte des incertitudes (fr´equentistes, impr´ecises et subjectives) concernant tant la croyance initiale que la dynamique du syst`eme, et ce afin d’am´eliorer les propri´et´es des politiques d´ecisionnelles obtenues.

Cette seconde proposition de perspective de recherche nous semble la plus ambitieuse afin de tenter d’unifier les approches et mod`eles pour la perception et la prise de d´ecision en contexte incertain et partiellement observable dans des applications robotiques.

7.3.2 Vers des am ´eliorations des outils algorithmiques

Nouvelle param ´etrisation de la fonction de valeur pour le calcul de politiques obtenues par des crit `eres non-lin ´eaires

Dans le chapitre 4, nous avons propos´e un crit`ere mixte pour l’optimisation de politiques POMDP. Nous avons impl´ement´e cette approche en modifiant un algorithme de l’´etat de l’art (PBVI) du domaine des POMDP. Cette adaptation a ´et´e tr`es d´elicate, puisque la fonction de valeur associ´ee `a ce crit`ere mixte n’est pas lin´eaire, contrairement `a celle utilis´e dans PBVI, qui est lin´eaire par morceaux et param´etr´ee par desα-vecteurs. Pour r´ealiser cette adaptation, nous avons utilis´e des approximations lin´eaires du premier ordre. Ces approximations lin´eaires engendrent des erreurs dans l’approximation de la valeur des ´etats de croyance, en limitant fortement l’approche. Ceci a ´et´e ´egalement observ´e dans la th`ese r´ecente de M. Araya L´opez [Araya L´opez, 2013].

Nous pensons qu’en param´etrant la fonction de valeur autrement que par desα-vecteurs,

c’est-`a-dire par un autre type de fonction plus g´en´erale (non n´ecessairement lin´eaire), il se-rait possible d’explorer d’autres types de crit`eres, en particulier des crit`eres non-lin´eaires de fa¸con `a ne plus reposer sur des approximations lin´eaires du premier ordre. Ce type de crit`ere non-lin´eaire peut s’av´erer utile pour des applications purement ´epist´emiques, o`u l’utilisation du crit`ere mixte non-lin´eaire permet dans certains cas de gagner en efficacit´e algorithmique par rapport `a une mod´elisation POMDP classique avec ajout d’actions terminales de classi-fication.

Couplage du mod `ele AC-POMDP avec le mod `ele MOMDP

Nous avons vu dans le chapitre 5 que le mod`ele AC-POMDP peut s’av´erer tr`es utile en robotique mobile, o`u le type de symbole d’observation concernant la faisabilit´e d’une action est typiquement obtenu par des capteurs sp´ecifiques. Cette information, souvent d´ecoupl´ee de la planification, est g´en´eralement trait´ee directement par le contrˆoleur d’ex´ecution. Avec le mod`ele AC-POMDP, nous pouvons int´egrer ce type d’information directement dans le mod`ele de d´ecision en gardant sa s´emantique naturelle. De plus, avec le sch´ema d’optimisation propos´e, nous pouvons exploiter la structure du mod`ele afin d’acc´el´erer certaines op´erations dans le calcul de la politique.

Le mod`ele MOMDP explore aussi certaines propri´et´es structurelles du mod`ele afin de s´eparer les variables observables de celles partiellement observables. Cette nouvelle structure permet de d´efinir l’espace d’´etat de croyance de mani`ere plus compacte, et d’acc´el´erer le calcul de la politique.

Dans le chapitre 5, nous avons soulign´e que le mod`ele AC-POMDP diff`ere du mod`ele MOMDP dans un aspect fondamental. Dans le mod`ele AC-POMDP, la fonction d’obser-vation de l’ensemble Θ est une fonction surjective, c’est-`a-dire qu’une observation θ ∈ Θ peut ˆetre la mˆeme pour diff´erents ´etats. Au contraire, dans le mod`ele MOMDP, la fonction d’observation Ox est une fonction injective, l’observation ox ∈ Ox ´etant ´egale `a la valeur de la variable visible ox = x (cf. la section 2.5.2 du chapitre 2). Toutefois, nous pensons qu’un couplage des deux mod`eles peut ˆetre possible. Le mod`ele AC-POMDP, qui est plus g´en´eral que le mod`ele MOMDP, peut aussi explorer le fait que certaines variables d’´etat sont visibles ; toutefois, la v´erification des pr´econditions peut d´ependre des variables d’´etats qui sont compl`etement observables et aussi des variables d’´etat qui ne le sont pas. Ainsi, si la v´erification des pr´econditions doit se faire sur des variables partiellement observables, l’´etat de croyance du mod`ele d´ependra aussi de ces variables. Mais cette piste de recherche intuitive n´ecessite une ´etude plus approfondie des ´equations d’optimisation.

Adaptation des algorithmes de recherche heuristique pour les AC-POMDP

L’´evaluation du mod`ele AC-POMDP que nous avons men´ee dans le chapitre 5 impl´emente un algorithme de r´esolution de typepoint-based bas´e sur une recherche stochastique (PCVI).

Toutefois, nous pensons que les algorithmes de recherche heuristique de r´esolution hors ligne et en ligne peuvent aussi ˆetre adapt´es au mod`ele AC-POMDP. Cette piste de recherche requiert une ´etude approfondie des heuristiques qui guident la recherche dans l’espace d’´etat de croyance. Nous pensons que la version relax´ee de l’algorithme PCVI, appel´e PCVI2 et d´evelopp´ee dans le chapitre 5, qui repose sur une borne inf´erieure de la valeur des ´etats de croyance, peut proposer une piste pour une approximation de la borne inf´erieure des algorithmes de recherche heuristique. L’obtention d’une borne sup´erieure´etroite nous semble par contre plus compliqu´ee. L’approximation QMDP par exemple se base sur le MDP sous-jacent, et dans ce cas la v´erification de l’applicabilit´e d’une action est directe ; toutefois, dans le cadre partiellement observable, les v´erifications ne sont pas si ´evidentes (cf. discussion de la section 5.1).

Bibliographie

[Akmal Butt et Maragos, 1998] Akmal Butt, M. etMaragos, P. (1998). Optimum design of chamfer distance transforms.IEEE Transactions on Image Processing, 7(10):1477–1484.

[Araya L´opez, 2013] Araya L´opez, M. (2013). Des algorithmes presque optimaux pour les probl`emes de d´ecision s´equentielle `a des fins de collecte d’information. Th`ese de doctorat, Universit´e de Lorraine.

[Araya-L´opez et al., 2010] Araya-L´opez, M., Buffet, O., Thomas, V. et Charpillet, F. (2010). A POMDP Extension with Belief-dependent Rewards. Advances in Neural Information Processing Systems, 23.

[Baharet al., 1997] Bahar, R.,Frohm, E.,Gaona, C.,Hachtel, G.,Macii, E.,Pardo, A. et Somenzi, F. (1997). Algebric decision diagrams and their applications. Formal methods in system design, 10(2):171–206.

[Baiet al., 2011] Bai, H., Hsu, D., Kochenderfer, M. et Lee, W. S. (2011). Unman-ned Aircraft Collision Avoidance using Continuous-State POMDPs. In Proceedings of Robotics : Science and Systems, Los Angeles, CA, USA.

[Barto et al., 1995] Barto, A., Bradtke, S. et Singh, S. (1995). Learning to act using real-time dynamic programming. Artificial Intelligence, 72(1):81–138.

[Bass, 1967] Bass, J. (1967). El´´ements de calcul des probabilit´es t´eorique et appliqu´e. Mas-son.

[Bertsekas et Castanon, 1999] Bertsekas, D. etCastanon, D. (1999). Rollout algorithms for stochastic scheduling problems. Journal of Heuristics, 5(1):89–108.

[Bonet et Geffner, 2003] Bonet, B. et Geffner, H. (2003). Labeled rtdp : Improving the convergence of real-time dynamic programming. In Proc. ICAPS, volume 3.

[Bonet et Geffner, 2009] Bonet, B. et Geffner, H. (2009). Solving POMDPs : RTDP-bel vs. point-based algorithms. In Proceedings of the 21st International Joint Conference on Artifical intelligence (IJCAI), page 1641–1646, San Francisco, CA, USA. Morgan Kauf-mann Publishers Inc.

[Bonet et Gefner, 1998] Bonet, B. etGefner, H. (1998). Solving large pomdps using real time dynamic programming. In AAAI Fall Symposium on POMDPs.

[Boutilieret al., 2000] Boutilier, C.,Dearden, R. etGoldszmidt, M. (2000). Stochastic dynamic programming with factored representations.Artificial Intelligence, 121(1):49–107.

[Bouyssouet al., 2009] Bouyssou, D., Dubois, D., Pirlot, M. et Prade, H. (2009).

Decision-making process (cf. chapitre 3). ISTE, London, UK & Wiley, Hoboken, NJ USA.

[Bradski et Kaehler, 2008] Bradski, G. et Kaehler, A. (2008). Learning OpenCV : Com-puter vision with the OpenCV library. O’Reilly Media, Incorporated.

[Buffet et Aberdeen, 2005] Buffet, O. et Aberdeen, D. (2005). Robust planning with (L)RTDP. In Proceedings of the Nineteenth International Joint Conference on Artificial Intelligence (IJCAI).

[Buffet et Aberdeen, 2009] Buffet, O. et Aberdeen, D. (2009). The factored policy-gradient planner. Artificial Intelligence, 173(5):722–747.

[Burgardet al., 1997] Burgard, W., Fox, D. et Thrun, S. (1997). Active mobile robot localization. In Proc. of International Joint Conference on Artificial Intelligence (IJCAI).

Morgan Kaufmann.

[Candido et Hutchinson, 2011] Candido, S. et Hutchinson, S. (2011). Minimum uncer-tainty robot navigation using information-guided POMDP planning. In IEEE Internatio-nal Conference on Robotics and Automation (ICRA), pages 6102–6108.

[Carvalho Chanelet al., 2010a] Carvalho Chanel, C., Farges, J., Teichteil-K¨ onig-sbuch, F. etG.Infantes(2010a). POMDP solving : what rewards do you really expect at execution ? In Proc. of the 5th Starting AI Researchers’ Symposium.

[Carvalho Chanelet al., 2010b] Carvalho Chanel, C.,Farges, J.-L.,Teichteil-K¨ onig-sbuch, F. etInfantes, G. (2010b). Optimisation de pomdp : quelles r´ecompenses sont r´eellement attendues `a l’ex´ecution de la politique ? In 5`emes Journ´ees Francophones Pla-nification, D´ecision, et Apprentissage pour la conduite de syst`emes (JFPDA).

[Carvalho Chanelet al., 2010c] Carvalho Chanel, C.,Farges, J.-L.,Teichteil-K¨ onig-sbuch, F. et Infantes, G. (2010c). Optimisation des processus d´ecisionnels de markov partiellement observables avec prise en compte explicite du gain d’information. In 17`eme congr`es francophone AFRIF-AFIA Reconnaissance des Formes et Intelligence Artificielle.

[Carvalho Chanelet al., 2011a] Carvalho Chanel, C., Teichteil-K¨onigsbuch, F., In-fantes, G. et Fabiani, P. (2011a). Modeling action feasibility in pomdps with boolean-valued preconditions. In IJCAI Workshop on Decision Making in Partially Observable, Uncertain Worlds : Exploring Insights from Multiple Communities.

[Carvalho Chanelet al., 2011b] Carvalho Chanel, C., Teichteil-K¨onigsbuch, F., In-fantes, G. et Fabiani, P. (2011b). Mod´elisation de la faisabilit´e d’action dans le pomdp avec des pr´econditions bool´eennes. In 6`emes Journ´ees Francophones Planifica-tion, D´ecision, et Apprentissage pour la conduite de syst`emes (JFPDA).

[Carvalho Chanelet al., 2012a] Carvalho Chanel, C., Teichteil-K¨onigsbuch, F. et Lesire, C. (2012a). D´etection et reconnaissance de cibles en ligne pour des UAV auto-nomes avec un mod`ele de type POMDP. In 7`emes Journ´ees Francophones Planification, D´ecision, et Apprentissage pour la conduite de syst`emes (JFPDA).

[Carvalho Chanelet al., 2012b] Carvalho Chanel, C., Teichteil-K¨onigsbuch, F. et Lesire, C. (2012b). Planning for perception and perceiving for decision : POMDP-like online target detection and recognition for autonomous UAVs.In Scheduling and Planning Applications woRKshop (SPARK) of ICAPS.

[Carvalho Chanelet al., 2012c] Carvalho Chanel, C., Teichteil-K¨onigsbuch, F. et Lesire, C. (2012c). POMDP-based online target detection and recognition for autonomous UAVs. In 20th European Conference on Artificial Intelligence (ECAI). Including Pres-tigious Applications of Artificial Intelligence (PAIS) and System Demonstrations Track, volume 242 de Frontiers in Artificial Intelligence and Applications, pages 955–960. IOS Press.

[Carvalho Chanelet al., 2013] Carvalho Chanel, C.,Teichteil-K¨onigsbuch, F. et Le-sire, C. (2013). Multi-target detection and recognition by UAVs using online POMDPs.

In Proceedings of the Twenty-Seventh Conference on Artificial Intelligence (AAAI), July 14–18, Bellevue, Washington, USA (to appear). AAAI Press.

Dans le document The DART-Europe E-theses Portal (Page 197-200)

Outline

Documents relatifs