Planification multiagent sous incertitude orientée interactions : modèle et algorithmes

(1)

HAL Id: tel-01107565

https://hal.archives-ouvertes.fr/tel-01107565

Submitted on 21 Jan 2015

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

interactions : modèle et algorithmes

Arnaud Canu

To cite this version:

Arnaud Canu. Planification multiagent sous incertitude orientée interactions : modèle et algorithmes.

Intelligence artificielle [cs.AI]. Université de Caen, 2011. Français. �tel-01107565�

(2)

U.F.R. : Sciences

ECOLE DOCTORALE ´ : SIMEM

TH` ESE

pr´ esent´ ee par

Arnaud Canu

et soutenue le 28 novembre 2011

en vue de l’obtention du

DOCTORAT de l’UNIVERSIT´ E de CAEN

sp´ ecialit´ e : Informatique et applications (Arrˆ et´ e du 7 aoˆ ut 2006)

Planification multiagent sous incertitude orient´ ee interactions :

mod` ele et algorithmes.

MEMBRES du JURY

Brahim Chaib-Draa Professeur Universit´ e Laval (Quebec) (rapporteur)

G´ erard Verfaillie Directeur de Recherches ONERA (rapporteur)

Raja Chatila Directeur de Recherches CNRS, Paris Eva Cruck Resp. Recherche Innovation DGA-DS-MRIS

Bruno Patin Chef de Projet Dassault Aviation

Jo¨ el Morillon Resp. Technologies Amont Thales Optronic S.A.

Abdel-Illah Mouaddib Professeur Universit´ e de Caen (directeur)

Th` ese DGA/CNRS, financ´ ee par la Direction G´ en´ erale de l’Armement (DGA),

soutenue par les groupes THALES Optronics S.A. et Dassault Aviation.

(3)

(4)

Remerciements

Je remercie, pour commencer, Abdel-Illah Mouaddib pour ses conseils et son encadrement durant ces trois derni` eres ann´ ees. J’ai particuli` erement appr´ eci´ e notre collaboration : tu as su me conseiller lorsque c’´ etait n´ ecessaire, me laisser travailler librement le reste du temps. S’il est vrai, au vu de tes responsabilit´ es chronophages, qu’il fut parfois difficile de nous voir aussi r´ eguli` erement que nous l’aurions voulu, j’ai malgr´ e tout appr´ eci´ e cette libert´ e, qui m’a permis de mener mes travaux comme je l’entendais. J’esp` ere que notre collaboration ` a venir sera tout aussi fructueuse.

Mes remerciements vont ´ egalement ` a la DGA (merci ` a Eva Cr¨ uck), qui a rendu possible la r´ ealisation de cette th` ese, ainsi qu’` a Jo¨ el Morillon (de Thales) et ` a Bruno Patin (de Das- sault). Nos discussions furent tr` es int´ eressantes, et auront apport´ e ` a mes travaux une coloration diff´ erente de l’habituelle approche purement acad´ emique. J’ai, grˆ ace ` a vous, d´ ecouvert l’int´ erˆ et qu’il y a ` a travailler sur des probl` emes plus concrets.

Je remercie, de mˆ eme, mon jury d’avoir accept´ e ce rˆ ole exigeant. Merci en particulier ` a Brahim Chaib-Draa et G´ erard Verfaillie pour avoir accept´ e d’ˆ etre mes rapporteurs : vos remarques ont ouvert certaines questions que je ne m’´ etais pas forc´ ement pos´ ees.

D’un point de vue plus personnel, je remercie les gens avec qui j’ai pass´ e ces trois derni` eres ann´ ees. Je pense en particulier ` a Lamia et Boris, avec qui j’ai partag´ e un bureau, ainsi que Guillaume qui nous a rejoint un an plus tard et Nicolas, le

petit dernier

, Thesard-Prospect pour quelques temps encore. J’ai vraiment eu plaisir ` a passer ces journ´ ees avec vous. De mˆ eme, merci ` a Benoˆıt pour ces interminables discussions sur Gtalk, tu as ´ et´ e un vecteur de procrasti- nation incomparable. Merci enfin ` a Abir, Mathieu, Jean-Philippe, Laetitia, Gr´ egory, et tous les autres. Tous, vous ˆ etes pour moi des amis, bien plus que des coll` egues.

Merci pour finir ` a ceux qui me sont les plus proches, je pense ici ` a mes parents, ` a ma soeur et ` a mon fr` ere, ainsi qu’` a toute ma famille. C’est probablement grˆ ace ` a vous plus qu’` a quiconque que j’en suis l` a aujourd’hui. C’est ` a Am´ elie en particulier que je souhaite d´ edier cette th` ese : tu as fait de moi le plus heureux des hommes en acceptant de devenir ma femme l’´ et´ e dernier, tu as su me re-motiver lorsque ma motivation faiblissait, tu m’as donn´ e la force n´ ecessaire ` a la r´ eussite du doctorat.

ps : merci ` a Simba et Isis, mes chats, qui auront su m’empˆ echer de dormir le matin, ne me

laissant d’autre choix que d’aller travailler...

(5)

(6)

Table des mati` eres

Introduction 1

I Etat de l’art ´ 9

1 G´ en´ eralit´ es autour de la planification 13

1.1 Concept de planification . . . . 13

1.1.1 Notion d’agent . . . . 13

1.1.2 Environnement et mission . . . . 16

1.2 Cadre formel . . . . 17

1.2.1 Notion d’´ etat, d’action et de transition . . . . 17

1.2.2 Utilit´ e et agent rationnel . . . . 18

1.3 Maximisation de la valeur esp´ er´ ee . . . . 20

1.3.1 Agir sous incertitude . . . . 20

1.3.2 Valeur esp´ er´ ee d’un comportement . . . . 21

1.3.3 Notion de politique optimale . . . . 23

2 Planification sous incertitude 25 2.1 Processus de d´ ecision markovien . . . . 25

2.1.1 Le mod` ele MDP . . . . 26

2.1.2 R´ esolution d’un MDP . . . . 27

2.2 Le cas partiellement observable . . . . 30

2.2.1 Processus de d´ ecision markovien partiellement observable . . . . 30

2.2.2 R´ esolution d’un POMDP . . . . 31

2.3 Probl` eme multiagent . . . . 33

2.3.1 Contrˆ ole d´ ecentralis´ e : MDP multiagent . . . . 33

2.3.2 Complexit´ e des probl` emes multiagent partiellement observables . . . 35

(7)

3 Les mod` eles de DEC-POMDPs 39

3.1 Le mod` ele classique . . . . 39

3.1.1 Description formelle . . . . 40

3.1.2 R´ esolution d’un DEC-POMDP . . . . 41

3.2 Classes de DEC-POMDP . . . . 44

3.2.1 Hypoth` eses d’ind´ ependance et impact sur la complexit´ e . . . . 44

3.2.2 Influence de l’observabilit´ e . . . . 45

3.2.3 Classification des DEC-POMDPs . . . . 47

3.3 Mod` eles d´ eriv´ es . . . . 48

3.3.1 Mod` eles bas´ es ind´ ependance (interactions statiques) . . . . 48

3.3.2 Mod` eles bas´ es interaction (interactions dynamiques) . . . . 51

4 Les diff´ erentes familles d’algorithmes de r´ esolution 57 4.1 Approches classiques . . . . 57

4.1.1 R´ esolution exacte ` a horizon fini . . . . 58

4.1.2 R´ esolution approch´ ee ` a horizon fini . . . . 59

4.1.3 R´ esolution ` a horizon infini . . . . 61

4.2 Approches bas´ ees ind´ ependance . . . . 63

4.2.1 R´ esolution des DEC-POMDPs factoris´ es . . . . 63

4.2.2 R´ esolution des ND-POMDPs . . . . 63

4.3 Approches bas´ ees interactions . . . . 65

4.3.1 R´ esolution des DPCL . . . . 65

4.3.2 R´ esolution des IDMG . . . . 66

4.3.3 R´ esolution de DEC-SIMDP . . . . 67

(8)

II DyLIM : un mod` ele d’interactions locales et dynamiques 71

5 Motivations 75

5.1 Point de d´ epart : le probl` eme de Thales . . . . 75

5.1.1 Probl` eme ` a r´ esoudre . . . . 76

5.1.2 Sp´ ecificit´ es techniques . . . . 77

5.2 Cons´ equences sur la mod´ elisation . . . . 78

5.2.1 Des mod` eles existants insatisfaisants . . . . 78

5.2.2 Nos besoins en mod´ elisation . . . . 80

5.3 Autres applications envisageables . . . . 81

5.3.1 Le probl` eme de Dassault . . . . 82

5.3.2 Benchmarks diverses . . . . 83

6 Pr´ eliminaires 85 6.1 D´ ecomposition du probl` eme . . . . 85

6.1.1 Extraction des diff´ erentes composantes . . . . 86

6.1.2 D´ ependances entre composantes . . . . 87

6.2 S´ eparer la tˆ ache et les interactions . . . . 88

6.2.1 Probl` eme individuel, ou probl` eme inter-agents ? . . . . 88

6.2.2 Tˆ ache et interactions : distincts, mais interd´ ependants . . . . 90

6.3 Interactions locales et dynamiques . . . . 91

6.3.1 Notion de relation entre agents, ´ etat relatif . . . . 92

6.3.2 Manipulation des ´ etats joints relatifs dans le probl` eme de Thal` es . . . 95

7 Cadre formel 99 7.1 Le mod` ele : DyLIM . . . . 99

7.1.1 Composante individuelle . . . 100

7.1.2 Composante d’interaction . . . 101

7.2 Notion de cluster d’interactions . . . 102

7.2.1 Cluster d’interactions : d´ efinition . . . 102

7.2.2 D´ efinir un

bon

ensemble de clusters . . . 104

7.3 Types d’interactions envisageables . . . 105

7.3.1 Interactions exactes . . . 106

7.3.2 Interactions approch´ ees . . . 107

(9)

III Algorithmes de r´ esolution 113

8 Construction du probl` eme via DyLIM 117

8.1 Principe des algorithmes envisag´ es . . . 117

8.1.1 R´ esolution compl` etement d´ ecentralis´ ee . . . 118

8.1.2 Traiter la tˆ ache ind´ ependamment des interactions . . . 119

8.2 G´ en´ erer des donn´ ees manipulables . . . 120

8.2.1 Associer un MDP ` a chaque cluster d’interactions . . . 120

8.2.2 Calcul des transitions et r´ ecompenses entre ´ etats joints relatifs . . . . 122

8.3 Interactions exactes ou approch´ ees ? . . . 125

8.3.1 Impact sur les algorithmes employ´ es . . . 126

8.3.2 Notion de

diffusion

des agents en interaction . . . 126

9 R´ esolution du probl` eme pr´ ec´ edemment construit 129 9.1 Approche r´ eactive : POMDP+MDPs . . . 130

9.1.1 R´ esolution du POMDP et des MDPs . . . 130

9.1.2 Maintient des ´ etats de croyance et fonction de valeur . . . 132

9.1.3 Avantages et inconv´ enients de l’approche . . . 133

9.2 Deuxi` eme approche : POMDP Augment´ e . . . 133

9.2.1 G´ en´ eration du POMDP augment´ e . . . 134

9.2.2 R´ esolution, ´ etat de croyance et fonction de valeur . . . 135

9.3 Apport du calcul parall` ele . . . 136

9.3.1 Parall´ elisation des algorithmes employ´ es . . . 136

9.3.2 Gains en temps attendus/obtenus . . . 137

10 Analyse de complexit´ e 141 10.1 Complexit´ e de la g´ en´ eration du probl` eme d’interaction . . . 141

10.1.1 Approche classique . . . 142

10.1.2 Approche parall` ele . . . 144

10.2 Complexit´ e de la r´ esolution par POMDP+MDP . . . 144

10.2.1 Coˆ ut de la r´ esolution . . . 144

10.2.2 Coˆ ut de maintien des ´ etats de croyance . . . 147

10.3 Complexit´ e de la r´ esolution par POMDP augment´ e . . . 148

10.3.1 Coˆ ut de la r´ esolution . . . 149

10.3.2 Coˆ ut de maintien de l’´ etat de croyance . . . 150

(10)

11 Exp´ erimentations 153

11.1 ´ Etude comparative : validation sur Benchmarks . . . 153

11.1.1 Le probl` eme de navigation . . . 154

11.1.2 R´ esultats obtenus . . . 155

11.1.3 R´ esolution via les algorithmes existants . . . 156

11.2 ´ Etude de performances : passage ` a l’´ echelle . . . 158

11.2.1 Choix du benchmark . . . 158

11.2.2 Influence du nombre d’agents . . . 160

11.2.3 Influence de la taille du voisinage . . . 162

11.3 ´ Etude d’applicabilit´ e : le probl` eme de Thales . . . 166

11.3.1 Probl` eme trait´ e . . . 166

11.3.2 Formalisation du probl` eme . . . 167

11.3.3 Faisabilit´ e . . . 171

Conclusion et perspectives 175

Annexes 183

A Algorithmes de calcul des transitions (p

^out

, p

^stay

et p

ⁱⁿ

) 185

B Protocole exp´ erimental 193

C Simulation du probl` eme de Thales 195

Bibliographie 197

(11)

(12)

Introduction

Savoir prendre la bonne d´ ecision au bon moment est un probl` eme auquel toute entit´ e intel- ligente doit constamment faire face. Lorsque l’on conduit une voiture par exemple, la question de la meilleur action ` a effectuer se pose sans arrˆ et : dois-je doubler ` a gauche ou ralentir ? Vaut-il mieux passer par Paris ou contourner la ville ? D` es l’instant o` u on tente de donner une auto- nomie ` a une intelligence artificielle (qu’il s’agisse d’un robot ou simplement d’un logiciel), le probl` eme de la prise de d´ ecision devient central. On peut par exemple consid´ erer le cas des Mars Rovers, ces robots ´ evoluant sur Mars afin d’en analyser la surface : en raison des contraintes techniques (la distance Terre-Mars rend tout pilotage du robot impossible), de telles applications n´ ecessitent une ind´ ependance totale des agents (robots ou logiciels) vis-` a-vis de l’humain.

Ce terme d’intelligence artificielle, particuli` erement large, recoupe plusieurs th´ ematiques de recherche. Dans le livre Artificial intelligence : a modern approach, Russel et Norvig d´ efinissent l’intelligence artificielle comme l’´ etude d’agents qui re¸ coivent des perceptions relatives ` a leur en- vironnement, et ex´ ecutent des actions. Certains agents se contentent de r´ eagir ` a leur perceptions, tandis que d’autres suivent un raisonnement visant ` a d´ eterminer la meilleure action possible.

Ces agents peuvent, dans certains cas, apprendre afin d’am´ eliorer leurs connaissances initiales

¹

. Il existe d’autres d´ efinitions au terme d’intelligence artificielle. Certains rapprochent intel- ligence artificielle et robotique, via l’´ etude de probl` emes propres ` a la perception par exemple (tels que la

compr´ ehension

d’une image, en rep´ erant les objets, les ˆ etres humains, etc.). On pourrait ´ egalement inclure les probl` emes de langage (comprendre le langage parl´ e, ´ ecrit, com- muniquer avec l’humain), la question de la repr´ esentation des connaissances (que sais-je, que puis-je en d´ eduire), etc. En ce qui nous concerne, nous nous baserons sur la d´ efinition donn´ ee par Russel et Norvig et ´ etudierons le probl` eme de la prise de d´ ecision.

Au vu de cette d´ efinition, on peut identifier trois grands axes de recherche : observer l’environ- nement (perception), raisonner afin de d´ eterminer quelle action ex´ ecuter (d´ ecision) et ex´ ecuter l’action choisie (contrˆ ole). Nous nous contenterons, dans cette th` ese, d’´ etudier le probl` eme de la d´ ecision. Cette courte introduction vise ` a introduire le contexte scientifique de nos travaux, puis l’objectif de recherche que nous nous sommes fix´ es et finalement la solution envisag´ ee.

1. We define AI as the study of agents that receive percepts from the environment and perform actions. Each

such agent implements a function that maps percept sequences to actions, and we cover different ways to represent

these functions, such as reactive agents, real-time planners, and decision-theoretic systems. We explain the role

of learning as extending the reach of the designer into unknown environments (...)

, [Russell et Norvig, 2009]

(13)

1 Contexte scientifique

Prendre une d´ ecision est fondamentalement simple : celui qui conduit sa voiture pourra, sans raison particuli` ere, choisir de contourner Paris plutˆ ot que de traverser la ville par exemple, il aura ainsi pris une d´ ecision. Le fait de prendre une bonne d´ ecision est nettement plus dur, et soul` eve de nombreuses questions :

– Qu’est-ce qu’une bonne ou une mauvaise d´ ecision ? – Existe t’il toujours une bonne d´ ecision ?

– Comment choisir entre deux bonnes d´ ecisions ?

– Savoir reconnaˆıtre qu’une d´ ecision est bonne est-il suffisent pour choisir cette d´ ecision, parmi toutes les d´ ecisions possibles ?

– etc.

En intelligence artificielle, il est courant de planifier ses actions, afin de d´ eterminer les bonnes (voir les meilleurs) d´ ecisions. Ainsi, si on se donne un objectif, une bonne d´ ecision sera une d´ ecision qui nous rapproche de l’accomplissement de cet objectif. On choisira donc toujours la d´ ecision la plus efficace, pour atteindre l’objectif fix´ e. On ´ etudiera notamment l’efficacit´ e ` a long terme de chaque d´ ecision possible (je vais faire ceci, puis cela, puis cela, et j’atteindrai finalement mon objectif). Le raisonnement classique est le suivant :

1. je per¸cois mon environnement,

2. j’´ enum` ere toutes mes possibilit´ es d’action, au vu de ma situation actuelle,

3. pour chaque action possible, j’´ etudie ` a quel point elle me rapproche de mon objectif, 4. je d´ ecide d’une action ` a ex´ ecuter (la plus efficace, pour atteindre mon objectif), 5. j’ex´ ecute cette action et reprend ` a l’´ etape 1.

On parle donc bien de planification, puisqu’il s’agit de raisonner sur les diff´ erentes suites d’actions possibles afin d’atteindre l’objectif au plus vite. Ce type d’approche se retrouve dans de nombreuses applications concr` etes, qu’il s’agisse de robotique (avec l’exemple classique des Mars Rovers, pour l’exploration de Mars) ou d’applications logicielles. Prenons un exemple de la vie courante : la r´ eservation d’un voyage sur internet. En r´ eservant ce voyage, les agences en ligne vont proposer un hˆ otel pour passer la nuit, un billet de train ou d’avion pour se rendre sur place, un service de taxi pour atteindre l’hˆ otel... Pourtant, aucun de ces choix n’est trivial : quel hˆ otel choisir, quel type de transport emprunter pour se rendre sur place, etc. ? Il s’agit l` a d’un probl` eme relativement

simple

de planification, mais on peut envisager des situations nettement plus complexes, pour lesquelles les techniques actuelles sont insuffisantes.

Ainsi, dans cette th` ese, nous avons choisi d’´ etudier une cat´ egorie de probl` emes pour lesquels

il n’existe pas, actuellement, de m´ ethode de d´ ecision suffisamment performante. Il nous a donc

fallu identifier ces probl` emes (qu’est-ce qui rend un probl` eme de planification difficile ?), puis en

extraire un ensemble de caract´ eristiques permettant de simplifier leur r´ esolution, afin de proposer

finalement une m´ ethode de d´ ecision applicable ` a des probl` emes r´ eels. Dans cette optique, les

(14)

groupes Dassault Aviation et Thales TOSA ont fourni un cadre industriel ` a nos travaux de recherche, notamment via deux applications concr` etes :

1. Le probl` eme de Thales - il s’agit ici de rendre autonome un convoi (c’est-` a-dire un en- semble de v´ ehicules) devant se rendre ` a un endroit donn´ e. Les v´ ehicules, au sein de ce convoi, doivent respecter certaines contraintes. Ils devront par exemple ´ eviter toute colli- sion, respecter une formation particuli` ere, etc. Notre objectif ´ etait donc de permettre ` a ces v´ ehicules de se

piloter

automatiquement, sans intervention de l’humain, tout en res- pectant ces diff´ erentes contraintes. Il s’agit bien d’un probl` eme de planification, puisqu’il faut ´ etudier l’impact ` a long terme de chaque d´ ecision (typiquement, si un v´ ehicule fait un

´

ecart pour ´ eviter une collision, il faut s’assurer qu’il ne se mettra pas sur la trajectoire d’un autre v´ ehicule, ce qui engendrerait une seconde collision apr` es quelques instants).

2. Le probl` eme de Dassault - il s’agit de contrˆ oler des avions au sol, lorsqu’ils se d´ eplacent sur un a´ eroport afin d’atteindre leur piste de d´ ecollage. Ces avions doivent, l` a encore, respecter certaines contraintes (tel avion doit d´ ecoller en premier, deux avions ne peuvent ˆ etre trop proches l’un de l’autre, etc.). Il s’agit donc bien ` a nouveau d’un probl` eme de planification, dans lequel chaque avion doit pr´ evoir une trajectoire compatible avec l’ensemble des autres avions, tout en prenant en compte le risque qu’un ´ ev´ enement ext´ erieur vienne perturber le trafic (un orage par exemple, rendant certaines pistes impraticables).

Plusieurs verrous scientifiques rendent ces probl` emes particuli` erement complexes. Il y a, pour commencer, les probl` emes propres ` a la robotique : les robots (qu’il s’agisse des v´ ehicules au sein du convoi, des avions sur la piste ou d’une autre application) sont imparfaits :

– lorsqu’un robot ex´ ecute une action, celle-ci peut ´ echouer ou produire un r´ esultat l´ eg` erement diff´ erent de celui attendu (les roues d’un v´ ehicule, par exemple, peuvent

patiner

, maintenant le robot sur place alors que celui-ci avait pr´ evu d’avancer),

– de mˆ eme, un robot observant son environnement peut recevoir des perceptions erron´ ees ou incompl` etes. Une cam´ era, par exemple, ne donnera pas au robot une vision parfaite du monde dans lequel il ´ evolue : certaines parties ne seront pas observ´ ees (ce qui est derri` ere un mur par exemple), et l’image de la cam´ era pourra ˆ etre bruit´ ee.

Il y a ´ egalement le probl` eme de la d´ ecision multiagent : d` es l’instant o` u on manipule non-plus un agent, mais un groupe (par exemple, le convoi), il faut prendre en compte les d´ ecisions de chacun afin que l’un n’entre pas en conflit avec l’autre. Il faut ´ egalement prendre en compte les capacit´ es de calcul limit´ ees des robots : il faut parfois r´ ealiser certains calculs

offline

, sur une machine puissante, avant d’embarquer le r´ esultat au sein du robot (d’autant plus qu’on attend des r´ eactions en

temps-r´ eel

de la part du robot).

2 Le probl` eme de la d´ ecision d´ ecentralis´ ee sous incertitude

Nous avons finalement identifi´ e une classe particuli` ere de probl` emes ` a traiter : il s’agit des

probl` emes de d´ ecision d´ ecentralis´ ee, et sous incertitude. La d´ ecision sous incertitude repr´ esente

(15)

une branche ` a part enti` ere du domaine g´ en´ eral qu’est la planification. On s’int´ eresse ici aux probl` emes pour lesquels tout n’est pas maˆıtrisable. On a vu comment les robots pouvaient commettre des erreurs, en ex´ ecutant leurs actions (roue qui glisse) : il faut alors prendre en compte cette possibilit´ e, dans le processus de d´ ecision. Imaginons par exemple deux actions, ayant ` a priori le mˆ eme effet, mais dont l’une des deux a un risque ´ elev´ e d’´ echouer. Dans une telle situation, il sera pr´ ef´ erable d’ex´ ecuter l’action ne pouvant pas ´ echouer... Il s’agit donc bien de planifier ses actions, en prenant en compte l’incertitude quant ` a l’ex´ ecution de celles-ci. Il est en g´ en´ eral plus difficile de d´ ecider sous incertitude, que dans un probl` eme totalement maˆıtris´ e : il y a en effet beaucoup plus de situations possibles ` a prendre en compte (chaque action ayant plusieurs r´ esultats possibles, il faut tous les prendre en compte).

Il n’est pas toujours possible, dans ce genre de probl` eme, de fixer un but unique ` a atteindre.

Prenons l’exemple du probl` eme de Thales (gestion de convoi) : les agents doivent se d´ eplacer vers l’objectif, maintenir la formation voulue, ´ eviter les collisions avec les autres v´ ehicules...

On a alors un ensemble de buts devant ˆ etre atteints. Dans certains cas, il faudra atteindre la totalit´ e des buts. Dans d’autres cas, il pourra y avoir des buts critiques (´ eviter les collisions) et d’autres moins importants (maintenir la formation). On choisit en g´ en´ eral de repr´ esenter ces buts par un ensemble de r´ ecompenses et de coˆ uts : chaque situation jug´ ee

positive

apportera une r´ ecompense ` a l’agent, plus ou moins ´ elev´ ee selon le but atteint, et chaque situation n´ egative (par exemple, une collision) sera coˆ uteuse pour l’agent. On planifiera alors des actions permettant de maximiser les r´ ecompenses obtenues et de minimiser les coˆ uts : le mod` ele des processus de d´ ecision markoviens, ou MDP, permet de repr´ esenter ce type de probl` emes et de calculer facilement (complexit´ e dans P) une d´ ecision optimale.

L’usage du mod` ele MDP implique toutefois le respect d’une hypoth` ese implicite : on consid` ere que le probl` eme trait´ e est compl` etement observable. L’agent doit donc pouvoir percevoir la totalit´ e de son environnement (on imaginera par exemple une

super-cam´ era

, capable de tout voir et tout connaˆıtre), ce qui lui permet de prendre des d´ ecisions optimales au vu de la situation dans laquelle il se trouve. Pourtant, une telle hypoth` ese d’observabilit´ e totale est rarement v´ erifi´ ee. Dans la plupart des applications robotiques par exemple, l’agent doit se contenter des capteurs qu’il embarque (sonar, cam´ era, etc.) pour observer son environnement, dont il n’a alors qu’une vision partielle. On utilise alors le mod` ele POMDP (MDP partiellement observable) pour d´ ecrire le probl` eme, ce qui permet ` a l’agent de raisonner ` a partir des informations partielles dont il dispose. Le temps n´ ecessaire pour prendre une d´ ecision augmente alors consid´ erablement.

On traite donc des probl` emes dans lesquels on maximise les r´ ecompenses, tout en prenant en

compte l’incertitude sur l’ex´ ecution des actions et l’observabilit´ e partielle sur l’environnement. Il

s’agit l` a d’un probl` eme typique de d´ ecision sous incertitude. Ces probl` emes sont complexes, mais

la difficult´ e augmente encore lorsque l’on manipule non-plus un seul agent, mais un ensemble

d’agents. En g´ en´ eral, chaque agent est responsable du choix de ses actions : on parle alors

d’ex´ ecution d´ ecentralis´ ee, puisqu’il n’y a pas d’´ el´ ement central pouvant piloter l’ensemble du

groupe. Ces probl` emes multiagents sont particuli` erement difficiles, puisque chaque agent doit,

avant de prendre une d´ ecision, ´ emettre des suppositions quant aux actions qui seront choisies par

(16)

les autres agents (on ne connaˆıt pas, ` a priori, leurs intentions). De plus, l’observabilit´ e partielle implique en g´ en´ eral que l’agent ne connaˆıt pas avec certitude l’´ etat des autres agents. Cela augmente donc la difficult´ e qu’il y a ` a ´ emettre des suppositions sur leurs actions ` a venir. Ainsi, on repr´ esente en g´ en´ eral ce type de probl` emes via le mod` ele DEC-POMDP, pour lequel le temps n´ ecessaire avant de prendre une d´ ecision est doublement exponentiel (notamment en le nombre d’agents). Il s’agit donc d’un mod` ele extrˆ emement complexe ` a manipuler.

3 Objectif de recherche

Nous nous sommes int´ eress´ e ` a la r´ esolution de probl` emes de d´ ecision d´ ecentralis´ ee, sous in- certitude et en environnement partiellement observable (DEC-POMDP). Comme nous le mon- trerons dans la suite de ce document, la plupart des approches existantes ne permettent pas de traiter ce type de probl` emes, ` a moins de se limiter ` a certaines sous-cat´ egories de probl` emes bien particuli` eres. Nous nous sommes fix´ es, pour la r´ esolution de ces probl` emes, plusieurs objectifs : 1. Prendre en compte l’observabilit´ e partielle - nous l’avons expliqu´ e pr´ ec´ edemment, l’agent d´ epend de ses capteurs pour observer la situation dans laquelle il se trouve. Il y a donc des choses qu’il ignore, qu’il s’agisse de son environnement ou de l’´ etat des autres agents.

Il faudra donc employer une approche permettant de g´ erer cette observabilit´ e partielle.

2. Prendre en compte les autres agents - l’agent ´ evolue au milieu d’un groupe. Afin d’optimiser son comportement, il faudra non-seulement ´ etudier l’impact de ses actions sur son ´ etat, mais ´ egalement sur l’´ etat des autres agents (va-t’on les aider, les p´ enaliser ?). De mˆ eme, il faudra envisager les diff´ erentes actions pouvant ˆ etre ex´ ecut´ ees par les autres agents, afin de voir si l’un d’eux ne peut pas nous aider (y’a t’il une action qui ne peut ˆ etre accomplie qu’avec l’aide d’un autre agent ?). L’ex´ ecution ´ etant d´ ecentralis´ ee, il faudra faire des pr´ evisions sur les actions des autres agents, tout en int´ egrant la possibilit´ e que ceux-ci prennent une d´ ecision que l’on n’avait pas pr´ evue.

3. S’assurer que l’on prend des bonnes d´ ecisions - il ne suffit pas de prendre des d´ ecisions, il faut ´ egalement que celles-ci soient bonnes, voir optimales. Ainsi, on tentera de maximiser l’esp´ erance de gain, c’est-` a-dire de maximiser les r´ ecompenses et de minimiser les coˆ uts. On pourra par exemple comparer les d´ ecisions prises par l’agent avec les d´ ecisions qu’aurait pris un agent

id´ eal

, b´ en´ eficiant d’une observabilit´ e totale sur son environnement.

4. Assurer une prise de d´ ecision suffisamment rapide - nous avons pour objectif de pouvoir traiter des applications

r´ eelles

, telles que celles fournies par Thales et Dassault. Il faut donc pouvoir prendre des d´ ecisions rapides (le robot ´ evoluant au sein d’un convoi par exemple, ne peut pas se permettre de s’arrˆ eter quelques minutes avant chaque d´ ecision).

Ainsi, l’approche choisie devra permettre l’ex´ ecution de tous les calculs

lourds

durant

une ´ etape pr´ eliminaire au d´ eroulement de la mission, afin de rendre possible la prise de

d´ ecision en temps-r´ eel.

(17)

5. R´ esoudre les probl` emes de Thales et Dassault - ces probl` emes ayant guid´ e notre r´ eflexion durant la r´ ealisation de cette th` ese, il sera int´ eressant de voir les r´ esultats obtenus sur ceux- ci. Actuellement, aucune approche existante n’est ` a mˆ eme de les r´ esoudre : ils serviront donc de

validation

` a nos travaux, de par leur complexit´ e ´ elev´ ee.

Nous avons donc un objectif de recherche clairement ´ etabli : permettre une prise de d´ ecision d´ ecentralis´ ee

de qualit´ e

pour des probl` emes multiagents, sous incertitude et en environ- nement partiellement observable. Il faudra de plus que les r´ esultats soient suffisamment

ou- verts

pour pouvoir s’appliquer aux probl` emes complexes fournis par Thales et Dassault.

4 Solution propos´ ee

Nous sommes partis d’une ´ evidence : l’ˆ etre humain, dans sa vie de tous les jours, doit constam- ment prendre des d´ ecisions (qu’il esp` ere de qualit´ e), alors qu’il n’a qu’une connaissance partielle du monde dans lequel il ´ evolue et qu’il doit prendre en compte les autres humains avec qui il entre en interaction. Nous avons alors tent´ e de s’inspirer du comportement qu’a cet humain, afin de permettre la prise de d´ ecision pour nos agents.

Lorsque l’agent ´ evolue dans son environnement, il commence par observer celui-ci. Il obtient donc des informations partielles quant ` a sa situation, mais aussi concernant les autres agents.

Pour ˆ etre exact, l’agent observe rarement la totalit´ e de la population au sein de laquelle il ´ evolue, mais plutˆ ot une portion de cette population (agents que l’on nommera voisins). De mˆ eme, un humain ´ evoluant dans une foule par exemple n’observe que ses voisins (il ne s’int´ eresse pas ` a l’´ etat ni aux actions du reste de la foule). Cet humain va alors, pour se d´ eplacer, ´ eviter d’entrer en collision avec ces voisins.

On peut appliquer ce comportement ` a notre m´ ethode de d´ ecision : l’agent qui doit choisir une action ` a ex´ ecuter n’a pas forc´ ement besoin de prendre en compte la totalit´ e de la population au sein de laquelle il ´ evolue. Il peut, au contraire, se contenter d’analyser l’impact de ses actions sur ses voisins. Cette notion de voisinage est ` a prendre au sens large : dans le cas du convoi par exemple, il s’agira bien d’un voisinage au sens g´ eographique du terme, mais tout crit` ere de voisinage pourra ˆ etre acceptable (sur le probl` eme de Dassault par exemple, deux avions seront

voisins

s’ils doivent d´ ecoller l’un apr` es l’autre, peut importe leur position g´ eographique). Il s’agira alors, pour d´ eterminer le voisinage, d’´ etudier les interactions entre agents : un agent a-t’il une influence sur mon ´ etat ? Ai-je une influence sur le sien ? Si oui, nous sommes en interaction, ce qui en fait un de mes voisins.

Revenons ` a l’humain, qui se d´ eplace au sein d’une foule. Celui-ci peut, potentiellement, entrer

en interaction avec n’importe qui, et ce n’importe quand. Pourtant, durant son d´ eplacement,

l’humain n’entre en interaction qu’avec quelques autres personnes, et seulement ` a certains mo-

ments. De la mˆ eme fa¸ con, il faudra pr´ evoir qu’un agent puisse entrer en interaction avec n’im-

porte quel autre agent impliqu´ e dans le probl` eme, et ce dans n’importe quel ´ etat, alors mˆ eme

qu’` a l’ex´ ecution ces interactions seront certainement rares.

(18)

Il faudra donc, pour r´ esumer, permettre ` a l’agent de planifier ses actions, tout en prenant en compte l’impact qu’auront les interactions sur l’int´ erˆ et de chaque action possible. Cette notion d’interaction sera centrale dans notre approche : plus le nombre d’interactions ` a prendre en compte au mˆ eme moment sera ´ elev´ e, et plus il sera dur de prendre une d´ ecision. L` a encore, on peut se baser sur l’humain pour d´ eterminer comment agir : lorsque celui-ci ´ evolue au sein d’une foule, il ne consid` ere que tr` es peu d’interactions ` a la fois. Si l’humain avance par exemple, il n’a pas besoin de prendre en compte la pr´ esence d’une autre personne derri` ere lui. De mˆ eme, nous minimiserons les interactions prises en compte par l’agent durant son processus de d´ ecision.

Nous proposerons donc un mod` ele, d´ eriv´ e de l’approche DEC-POMDP, permettant d’int´ egrer explicitement les interactions entre agents. Nous proposerons ´ egalement un ensemble d’algo- rithmes, pour le calcul d’une politique de comportement ` a partir de ce mod` ele. Nous verrons alors que cette approche permet de traiter des probl` emes jusqu’` a pr´ esent non-r´ esolus (tout d’abord en augmentant la dimension de certains benchmarks classiques du domaine, puis en traitant une application industrielle fournie par Thales).

5 Organisation du document

Ce document s’articule autour de trois grande parties, que nous pr´ esentons ici bri` evement.

Partie I - ´ Etat de l’art

Cette premi` ere partie propose une analyse pr´ eliminaire ` a nos travaux de recherche. Ainsi, nous commencerons par y d´ ecrire les principaux ´ el´ ements n´ ecessaires ` a la bonne compr´ ehension de nos travaux : nous rappellerons bri` evement quelques g´ en´ eralit´ es autour de la notion de plani- fication, avant de pr´ esenter plus en d´ etails le domaine qui nous int´ eresse, c’est-` a-dire la planifi- cation sous incertitude via les MDPs. Nous en viendrons rapidement au mod` ele DEC-POMDP que nous avons choisi d’utiliser, ce qui nous permettra de pr´ esenter plus en d´ etails les travaux existants relatifs ` a ce domaine d’´ etude. Ceux-ci ´ etant particuli` erement nombreux, cet ´ etat de l’art ne se veut pas exhaustif. Il s’agira plutˆ ot d’une pr´ esentation des grandes tendances, afin de comprendre les avantages et inconv´ enients de chaque approche existante.

Nous pr´ esenterons principalement, dans cette partie, les travaux relatifs ` a l’usage des inter-

actions dans la prise de d´ ecision, ceux-ci ´ etant directement corr´ el´ es ` a nos recherches. Cela nous

permettra de mettre en avant les limitations de ces travaux, principalement en ce qui concerne

leur applicabilit´ e. En effet, les travaux les plus prometteurs dans le domaine reposent tous sur

des hypoth` eses fortes quant aux interactions possibles entre les agents. Une hypoth` ese souvent

effectu´ ee consiste par exemple ` a limiter ces interactions, en sp´ ecifiant que tel agent ne peut ˆ etre

en interaction qu’avec tel autre, ou seulement dans tel ´ etat, etc. Il est ´ egalement courant de

supposer une observabilit´ e tr` es forte sur le voisinage (voir totale), ce qui est rarement v´ erifi´ e

dans une application

r´ eelle

. Nous en d´ eduirons finalement que les approches existantes sont

insuffisantes pour traiter des probl` emes tels que ceux fournis par Thales et Dassault.

(19)

Partie II - DyLIM : un mod` ele d’interactions locales et dynamiques

Dans cette seconde partie, nous montrerons comment l’agent peut repr´ esenter ses connais- sances sur le monde et sur son voisinage. Les approches existantes ne nous permettant pas de traiter les probl` emes complexes fournis par Thales et Dassault, nous proposerons notre propre fa¸ con de mod´ eliser l’environnement de l’agent. Ainsi, nous commencerons cette partie par une analyse des ´ el´ ements n´ ecessaires ` a une bonne repr´ esentation de l’environnement et des interac- tions entre agents. Nous en d´ eduirons les caract´ eristiques d’un mod` ele

id´ eal

, permettant de repr´ esenter tout probl` eme de d´ ecision sous incertitude, tout en int´ egrant la notion d’interactions.

Apr` es cette analyse, nous proposerons DyLIM (Dynamic Local Interaction Model), un mod` ele th´ eorique correspondant ` a notre d´ efinition du mod` ele id´ eal. DyLIM propose une autre fa¸ con de mod´ eliser un probl` eme de type DEC-POMDP, en int´ egrant une description explicite des interac- tions, afin de faciliter le processus de r´ esolution. Nous r´ ealiserons tout d’abord une pr´ esentation formelle de ce mod` ele, de chacun de ses composants et de la fa¸ con dont on peut l’utiliser pour repr´ esenter un probl` eme r´ eel (nous verrons notamment son instanciation au probl` eme de Thales).

Nous verrons alors que ce mod` ele b´ en´ eficie d’une applicabilit´ e forte, tout en permettant d’ex- ploiter les interactions entre agents pour simplifier la repr´ esentation du probl` eme.

Partie III - Algorithmes de r´ esolution

Cette troisi` eme et derni` ere partie traitera du cœur du probl` eme : la prise de d´ ecision. Ainsi, nous y pr´ esenterons un ensemble d’algorithmes, permettant de planifier les actions de l’agent en se basant sur le mod` ele DyLIM introduit pr´ ec´ edemment. Nous donnerons les algorithmes en question et proposerons plusieurs m´ ethodes possibles, selon le type de probl` eme trait´ e. Nous ver- rons notamment que certains probl` emes permettent une r´ esolution optimale tandis que d’autres, plus complexes, n´ ecessitent une r´ esolution approch´ ee.

Nous proposerons finalement une analyse de complexit´ e de nos algorithmes, ainsi qu’un en- semble d’exp´ erimentations visant ` a montrer la qualit´ e des d´ ecisions effectu´ ees par les agents.

Nous verrons alors que ces algorithmes peuvent passer ` a l’´ echelle et r´ esoudre de mani` ere ap-

proch´ ee des probl` emes de taille

r´ eelle

, tout en produisant des comportements de bonne

qualit´ e. Nous montrerons finalement les r´ esultats obtenus sur le probl` eme de Thales, afin de

valider l’applicabilit´ e de notre approche.

(20)

Premi` ere partie

Etat de l’art ´

(21)

Isocrate, vers 400 av. J.-C., qui avait tout compris aux MDPs...

(22)

Introduction ` a la partie I

La notion d’intelligence artificielle regroupe de nombreux probl` emes, qu’il s’agisse de robo- tique, d’analyse d’informations, de cognition, de probl` emes de m´ emorisation... Les probl` emes

´ etudi´ es dans cette th` ese s’inscrivent dans le domaine, plus r´ eduit, de la prise de d´ ecision (et plus particuli` erement dans le cadre multiagent). Nous allons, dans cet ´ etat de l’art, d´ efinir ces probl` emes de fa¸ con formelle : pour cela, nous commencerons par introduire un certain nombre d’´ el´ ements classiques du domaine, puis nous introduirons progressivement des donn´ ees suppl´ ementaires pour arriver finalement ` a une description pr´ ecise du cadre auquel nous nous sommes int´ eress´ es. Ce cadre de la d´ ecision multiagent ´ etant particuli` erement large, il existe plusieurs fa¸cons de nommer et repr´ esenter les ´ el´ ements que nous allons ˆ etre amen´ es ` a mani- puler. Nous insisterons donc tout particuli` erement sur le sens que nous donnons, dans cette th` ese, aux diff´ erentes notions propres au domaine. Ainsi, cet ´ etat de l’art n’a pas pour vocation de r´ epertorier la totalit´ e des approches existantes, mais plutˆ ot de fixer le cadre formel de nos travaux afin non seulement de mettre ceux-ci en contexte, mais aussi et surtout d’´ eviter toute mauvaise compr´ ehension des ´ el´ ements pr´ esent´ es.

Nous commencerons, dans le premier chapitre, par donner une d´ efinition des notions

de base

employ´ ees par la suite (principalement : agent, environnement et mission), ce qui nous permettra de comprendre en quoi le probl` eme ´ etudi´ e s’inscrit dans le cadre g´ en´ eral de l’intelli- gence artificielle. Une fois ces ´ el´ ements introduits, nous pr´ esenterons la notion de planification, c’est-` a-dire le choix non pas d’une action ` a effectuer, mais d’une s´ equence d’actions permet- tant d’accomplir une mission donn´ ee. Nous terminerons par une pr´ esentation du domaine qui nous int´ eresse, ` a savoir la planification probabiliste (lorsque l’´ evolution du probl` eme n’est pas totalement maˆıtris´ ee mais soumise ` a une part d’incertitude).

Le second chapitre est consacr´ e aux diff´ erents formalismes possibles de planification proba- biliste. Nous pr´ esenterons tout d’abord le mod` ele des processus de d´ ecision markoviens (MDP), et la fa¸ con dont on peut utiliser un MDP pour repr´ esenter le probl` eme de d´ ecision d’un agent donn´ e. Nous verrons en quoi ce mod` ele est parfaitement adapt´ e aux types de probl` emes que l’on traite, et la fa¸con dont on peut se baser sur un MDP pour planifier les actions de l’agent.

Nous nous int´ eresserons ensuite ` a une g´ en´ eralisation des MDPs aux situations o` u l’agent n’a

qu’une connaissance partielle du monde dans lequel il ´ evolue. Nous pr´ esenterons finalement le

cas multiagent, l` a encore via une g´ en´ eralisation des MDPs. Nous verrons notamment pourquoi

cette g´ en´ eralisation augmente la difficult´ e du probl` eme ` a traiter.

(23)

Le troisi` eme chapitre de cet ´ etat de l’art introduit le mod` ele des processus de d´ ecision marko- viens partiellement observables et d´ ecentralis´ es (DEC-POMDP). Celui-ci offre la repr´ esentation la plus g´ en´ erique possible pour un MDP, puisqu’il permet de consid´ erer ` a la fois une connaissance partielle du monde et une situation multiagent. Nous donnerons tout d’abord une description du mod` ele en lui-mˆ eme, puis nous verrons qu’il existe plusieurs classes de probl` emes repr´ esentables par ce mod` ele, selon que l’on admette ou non un certain nombre d’hypoth` eses. Nous verrons alors plusieurs mod` eles d´ eriv´ es des DEC-POMDPs, tirant parti de ces hypoth` eses.

Nous verrons finalement, dans un dernier chapitre, comment planifier les actions des agents

`

a partir d’un DEC-POMDP. Nous ferons un tour d’horizon des approches existantes, en mettant

en avant les avantages et inconv´ enients de chacune. Nous montrerons alors qu’aucune approche

r´ eellement efficace n’existe pour le cas le plus g´ en´ eral, lorsqu’aucune hypoth` ese n’est ´ emise au

sein du DEC-POMDP. Cette constatation sera le point de d´ epart de nos travaux, pr´ esent´ es dans

le reste de ce document.

(24)

Chapitre 1

G´ en´ eralit´ es autour de la planification

Sommaire

1.1 Concept de planification . . . . 13 1.1.1 Notion d’agent . . . . 13 1.1.2 Environnement et mission . . . . 16 1.2 Cadre formel . . . . 17 1.2.1 Notion d’´ etat, d’action et de transition . . . . 17 1.2.2 Utilit´ e et agent rationnel . . . . 18 1.3 Maximisation de la valeur esp´ er´ ee . . . . 20 1.3.1 Agir sous incertitude . . . . 20 1.3.2 Valeur esp´ er´ ee d’un comportement . . . . 21 1.3.3 Notion de politique optimale . . . . 23

Avant de pr´ esenter la planification ` a proprement parler, il est n´ ecessaire d’introduire un certain nombre d’´ el´ ements. Nous d´ ebuterons donc ce chapitre par une pr´ esentation des concepts de base de la planification, apr` es quoi nous pr´ esenterons les deux domaines principaux que sont la planification d´ eterministe et probabiliste.

1.1 Concept de planification

Nous consid´ erons, dans cette th` ese, la planification comme le fait pour un agent ou un ensemble d’agents de calculer un plan (une s´ equence d’actions) ou une politique de comportement permettant d’accomplir une mission donn´ ee, au sein d’un environnement en particulier.

1.1.1 Notion d’agent

Il existe de nombreuses d´ efinitions pour le terme d’agent, et plusieurs synth` eses en ont ´ et´ e r´ ealis´ ees [Beynier, 2006]. Russell et Norvig d´ efinissent un agent [Russell et Norvig, 2009] comme

simplement quelque chose qui agit

²

. Cette d´ efinition est un bon point de d´ epart mais s’av` ere

2. An agent is just something that acts.

(25)

insuffisante d` es lors que l’on s’int´ eresse aux agents en informatique (ce qui est bien entendu notre cas). Russell et Norvig ajoutent d’ailleurs ` a leur d´ efinition qu’un agent informatique doit r´ epondre ` a un certain nombre de crit` eres

³

, notamment ˆ etre capable de prendre des d´ ecisions de mani` ere autonome ou encore de percevoir son environnement et de s’adapter aux changements afin d’atteindre un objectif donn´ e.

Ces notions d’agent autonome, d’environnement ou encore d’objectif sont pr´ esentes dans la d´ efinition de Wooldridge et Jennings

⁴

[Wooldridge et Jennings, 1995], qui est celle que nous retiendrons dans cette th` ese.

D´ efinition 1 (Agent) Un agent est un syst` eme informatique situ´ e dans un environnement et capable d’agir de mani` ere autonome dans cet environnement afin d’atteindre les objectifs pour lesquels il a ´ et´ e con¸ cu.

Ainsi, un agent est consid´ er´ e comme situ´ e au sein de son environnement. Ce concept d’en- vironnement sera d´ etaill´ e par la suite : consid´ erons pour l’instant qu’il s’agit tout simplement du monde dans lequel l’agent ´ evolue. Le fait que l’agent soit situ´ e et capable d’agir dans cet environnement implique un certain nombre de choses. Tout d’abord, l’agent doit ˆ etre capable d’observer son environnement : lorsqu’un ˆ etre humain se d´ eplace, il voit des objets, entend des bruits, sent des odeurs, etc. De la mˆ eme fa¸ con, l’agent est muni de capteurs : qu’il s’agisse d’une cam´ era mont´ ee sur un robot, ou de donn´ ees analys´ ees par un logiciel, les capteurs four- nissent un ensemble de perceptions. Ce sont ces perceptions qui permettent ` a l’agent d’analyser la situation, afin de prendre la d´ ecision la plus adapt´ ee.

Prendre une d´ ecision se manifeste syst´ ematiquement par l’ex´ ecution d’une action. Un robot pourra par exemple faire le choix de se d´ eplacer, ou de saisir un objet, tandis qu’un logiciel pourra par exemple choisir d’afficher quelque chose ` a l’´ ecran. Dans tous les cas, l’agent agit par le biais de ses effecteurs (roues, pinces, ´ ecran, etc.). On voit alors se dessiner le comportement de base de tout agent, que nous nommerons boucle de vie.

D´ efinition 2 (Boucle de vie) La boucle de vie de tout agent consiste en la r´ ep´ etition de trois

´

el´ ements successifs : observer, raisonner, agir.

Cette d´ efinition (voir figure 1.1) correspond au comportement d’un agent autonome, c’est ` a dire capable d’´ evoluer dans son environnement sans aucune intervention de l’humain. Un agent n’est pas n´ ecessairement compl` etement autonome : l’agent peut ˆ etre semi-autonome (pilot´ e par l’humain lors de phases critiques), voir compl` etement pilot´ e [Goodrich et al., 2001]. ` A l’inverse, un agent peut apprendre de ses exp´ eriences pass´ ees : il sera alors capable d’am´ eliorer progressi-

3. But computer agents are expected to have other attributes that distinguish them from mere programs, such as operating under autonomous control, perceiving environment, persisting over a prolonged period, adapting to change and being capable of tacking on another’s goals.

4. An agent is a computer system that is situated in some environment and that is capable of autonomous

action in this environment in order to meet its design objectives.

(26)

1.1. Concept de planification

ENVIRONNEMENT Raisonnement

Observation

Action AGENT

Figure 1.1 – Boucle de vie d’un Agent

vement son comportement. En ce qui nous concerne, nous nous int´ eresserons au cas d’un agent compl` etement autonome, mais qui ne poss` ede pas la capacit´ e d’apprendre.

La boucle de vie de l’agent comporte une phase de raisonnement : c’est cette phase qui doit permettre ` a l’agent de planifier ses actions, afin d’atteindre ses objectifs. Intervient ici la notion de rationalit´ e : un agent rationnel est tel qu’il prendra les meilleurs d´ ecisions possibles.

Il est ´ evident qu’` a un instant donn´ e, certaines actions seront pr´ ef´ erables ` a d’autres (un agent au bord d’un pr´ ecipice ´ evitera par exemple de continuer d’avancer) : l’agent rationnel sera ` a mˆ eme d’identifier et choisir ces actions. Afin d’estimer l’int´ erˆ et d’une action, l’agent a besoin d’une mesure de performance, c’est ` a dire d’un crit` ere qui estime si une action est bonne ou non : on peut alors introduire la notion de comportement optimal.

D´ efinition 3 (Comportement optimal) Un comportement est optimal si, ` a tout moment, l’agent choisit l’action qui maximise sa mesure de performance.

Au del` a de cette notion de rationalit´ e, on peut ´ egalement sp´ ecifier le type de raisonnement employ´ e par l’agent : r´ eactif, ou pro-actif. Un agent r´ eactif sera tel que chaque observation entraˆınera une r´ eaction de l’agent, sans n´ ecessiter de temps de r´ eflexion. Ce type d’agent, ayant un comportement plutˆ ot

r´ eflexe

, sera particuli` erement rapide ` a prendre des d´ ecisions mais aura plus de difficult´ es ` a atteindre un comportement optimal. ` A l’inverse, un agent pro-actif sera tel qu’il anticipera les ´ ev´ enements ` a venir, afin d’agir non pas en r´ eaction ` a ses observations mais en pr´ evisions des observations futures. L’agent pro-actif aura alors un raisonnement ` a long terme de qualit´ e, mais n´ ecessitera parfois d’importants moments de r´ eflexion. Finalement, il existe aussi des agents mixtes, adoptant un comportement r´ eactif lorsque cela s’av` ere n´ ecessaire (´ eviter un obstacle pour un robot) et pro-actif lorsque c’est possible (r´ efl´ echir au meilleur chemin

`

a emprunter pour se rendre ` a un point donn´ e).

(27)

1.1.2 Environnement et mission

On consid` ere qu’un agent est situ´ e dans un environnement donn´ e : cet environnement repr´ esente le monde dans lequel l’agent ´ evolue. Pour un robot, l’environnement sera souvent le monde ext´ erieur, ou une portion de ce monde (une ville en particulier par exemple). Pour un logiciel, l’environnement pourra ˆ etre un ordinateur, Internet, etc. Un logiciel de domotique par exemple aura pour environnement une maison qu’il observera via des thermom` etres, cam´ eras, et dans lequel il agira via le chauffage, la t´ el´ evision, etc. Parfois, les capteurs dont dispose l’agent ne seront pas suffisants pour observer la totalit´ e de l’environnement (un robot par exemple ne verra pas ce qui se passe de l’autre cˆ ot´ e d’une porte), on parle alors d’observabilit´ e partielle.

D´ efinition 4 (Observabilit´ e) L’observabilit´ e d’un agent d´ ecrit la portion de l’environnement qu’il est ` a mˆ eme de percevoir par ses propres moyens. On parle d’observabilit´ e partielle ou totale.

Nous reviendrons sur la question de l’observabilit´ e plus loin dans cet ´ etat de l’art. Pour l’instant, consid´ erons que l’on parle d’un environnement compl` etement observable. Dans la plu- part des cas, cela permettra ` a l’agent de connaˆıtre ` a tout moment la situation dans laquelle il se trouve. Il existe cependant des environnements dynamiques, c’est ` a dire tels que certains

´

el´ ements peuvent ´ evoluer ind´ ependamment de toute action de l’agent : ainsi, l’agent pourra observer l’environnement, puis raisonner pour prendre une d´ ecision, mais r´ ealiser au moment d’ex´ ecuter cette d´ ecision que l’environnement a ´ evolu´ e et que l’action choisie n’est plus optimale.

D´ efinition 5 (Environnement statique/dynamique) Un environnement est dit statique si il n’´ evolue pas tant que l’agent n’ex´ ecute aucune action. Sinon, il est dynamique.

Qu’il soit ou non statique, l’environnement peut ´ egalement s’av´ erer stochastique : cela signifie que les actions des agents n’ont pas toujours l’effet attendu. A l’oppos´ e, un environnement d´ eterministe sera tel que l’agent pourra pr´ edire avec certitude l’effet de ses actions.

D´ efinition 6 (D´ eterminisme) Un environnement est dit stochastique, ou non-d´ eterministe, lorsque l’ex´ ecution d’une action dans une situation donn´ ee ne produit pas syst´ ematiquement le mˆ eme r´ esultat mais est soumis ` a une distribution de probabilit´ es parmi un ensemble de possibi- lit´ es. ` A l’inverse, un environnement dans lequel on connaˆıt ` a l’avance le r´ esultat est d´ eterministe.

Dans le cadre de cette th` ese, nous consid´ ererons l’environnement comme ´ etant statique, mais

stochastique et partiellement observable. De telles suppositions sont assez classiques lorsque l’on

tente de d´ ecrire un probl` eme

r´ eel

. En effet, supposer l’environnement statique est en g´ en´ eral

acceptable d` es lors que l’on contrˆ ole l’ensemble des agents, tandis que supposer l’environnement

d´ eterministe impliquerait que l’agent dispose d’effecteurs parfaits (ce qui est rarement le cas : les

roues d’un robot ont par exemple tendance ` a d´ eraper). Au del` a de ces trois crit` eres intrins` eques ` a

l’environnement (observabilit´ e, staticit´ e et stochasticit´ e), on peut ´ egalement caract´ eriser celui-ci

par la fa¸ con dont l’agent le per¸ coit : discret, ou continu. Pour des raisons de faisabilit´ e, nous

choisissons de traiter l’environnement comme ´ etant discret.

(28)

1.2. Cadre formel D´ efinition 7 (Environnement discret) Un environnement est dit

discret

si il existe un nombre fini de perceptions et d’actions possibles. Sinon, il est continu.

L’agent, situ´ e dans son environnement, a une mission (ou un ensemble de buts) ` a accomplir.

En g´ en´ eral, accomplir sa mission signifie faire ´ evoluer l’environnement vers l’´ etat voulu. L’agent devra donc raisonner de fa¸ con ` a d´ eterminer l’action (ou la s´ equence d’actions) lui permettant d’atteindre, le plus vite possible, cet ´ etat but. On parle alors de planification.

1.2 Cadre formel

La planification d´ esigne le proc´ ed´ e par lequel l’agent va calculer l’action, ou la s´ equence d’actions, qui lui permettra d’atteindre son but. Nous nous contenterons ici de pr´ esenter les notions de base n´ ecessaires ` a la compr´ ehension de notre domaine d’´ etude : la planification stochastique (c’est-` a-dire en environnement non-d´ eterministe).

1.2.1 Notion d’´ etat, d’action et de transition

Nous avons, dans la section pr´ ec´ edente, d´ efini les notions de base que sont l’agent et l’envi- ronnement. Nous avons ´ egalement vu, intuitivement, que l’agent prend des d´ ecisions en fonction de la situation dans laquelle il se trouve et que ces d´ ecisions font ´ evoluer la situation. Nous allons maintenant introduire ces notions de fa¸ con plus formelle.

Etat ´

L’agent, lorsqu’il ´ evolue dans son environnement, a besoin d’une fa¸ con de repr´ esenter cet environnement afin de prendre ses d´ ecisions. Un humain entrain de conduire une voiture par exemple, se dira

je suis sur l’Autoroute 13, il y a une voiture ` a environ 10 m` etres devant moi, je roule ` a 130 km/h...

. Ces informations ne constituent pas n´ ecessairement l’ensemble de l’environnement, mais plutˆ ot la repr´ esentation que s’en fait l’agent. Il existe plusieurs fa¸cons de repr´ esenter ces informations, mais la plus couramment utilis´ ee est la notion d’´ etat.

D´ efinition 8 ( ´ Etat) On appelle ´ etat l’ensemble des informations dont dispose un agent, ` a un instant donn´ e.

Traditionnellement, l’´ etat d´ ecrit ` a la fois l’environnement et l’agent en lui mˆ eme. Ainsi, si on prend ` a nouveau l’exemple de l’automobiliste, l’´ etat d´ ecrira non seulement sa situation sur la route (vitesse, position, etc.), mais aussi la quantit´ e d’essence restante, son niveau de fatigue, etc. Id´ ealement, l’´ etat regroupe l’ensemble des informations dont l’agent peut avoir besoin pour prendre une d´ ecision.

D’un point de vue formel, il existe plusieurs fa¸ cons de repr´ esenter un ´ etat. On peut imaginer

par exemple un ensemble de variables (vitesse, position, essence). On peut ´ egalement imaginer

disposer d’un ensemble fini de situations (s

1

, s

2

, . . . ), tel que chaque s

i

repr´ esente un ´ etat donn´ e,

une telle repr´ esentation s’appliquant surtout ` a des probl` emes non d´ ecomposables en variables.

(29)

Action

Nous avons expliqu´ e que, lors de sa boucle de vie, l’agent prend des d´ ecisions en fonction de la situation actuelle. Litt´ eralement, cela signifie qu’` a tout ´ etat s, l’agent associe une action a ` a ex´ ecuter. On aura donc, en g´ en´ eral, un ensemble (a

₁

, a

₂

, . . . ) d’actions possibles (par exemple : acc´ el´ erer, ralentir, tourner, etc.). On pourra de plus supposer que toute action est toujours applicable, ou au contraire que l’ensemble des actions applicables d´ epende de l’´ etat actuel.

Transition

Lorsque l’agent ex´ ecute une action, il modifie en g´ en´ eral son ´ etat. L’automobiliste qui acc´ el` ere par exemple, va voir sa position changer ainsi que sa vitesse, son niveau de carburant, etc. Cette modification de l’´ etat est appel´ ee transition.

D´ efinition 9 (Transition) On appelle transition l’acte de passer d’un ´ etat s ` a un ´ etat s

⁰

, via l’application d’une action a.

Selon les cas, cette transition pourra se traduire par une modification de certaines variables (la vitesse passe de 110 ` a 130), ou par le passage d’une situation ` a une autre (on passe de s

7

`

a s

₃

). Les transitions en environnement stochastique impliquent de plus certaines particularit´ es que nous d´ etaillerons par la suite.

1.2.2 Utilit´ e et agent rationnel

On a vu pr´ ec´ edemment que l’agent ´ etait amen´ e ` a raisonner, pour choisir le comportement

`

a adopter au vu de son environnement (figure 1.1, page 15). Ce raisonnement implique que l’agent ait un objectif ` a atteindre, sans quoi n’importe quelle action serait acceptable, ` a tout moment. Une repr´ esentation simple de cet objectif consisterait ` a fournir ` a l’agent un but ` a atteindre (un ´ etat dans lequel l’agent doit se rendre par exemple). On peut ´ egalement envisager une repr´ esentation plus

g´ en´ erale

, en associant ` a chaque ´ etat :

– un gain, d´ ecrivant ce que l’agent gagne lorsqu’il arrive dans cet ´ etat (en g´ en´ eral, une fonction g associant ` a tout ´ etat s un r´ eel positif ou nul g(s) ≥ 0),

– un coˆ ut, d´ ecrivant ce que l’agent perd en arrivant dans cet ´ etat (en g´ en´ eral, une fonction c associant ` a tout ´ etat s un r´ eel n´ egatif ou nul c(s) ≤ 0).

Cette repr´ esentation est plus g´ en´ erale, puisque l’on peut l’utiliser pour d´ ecrire un ´ etat but (avec g(but) > 0 et ∀s 6= but, g(s) = 0) ou des probl` emes plus complexes dans lesquels plusieurs ´ etats sont int´ eressants, sans que l’on puisse d´ eterminer un but en particulier. On peut alors introduire la notion d’utilit´ e.

D´ efinition 10 (Utilit´ e) Une fonction d’utilit´ e U est une fonction qui, ` a tout ´ etat s, associe

un r´ eel U (s) repr´ esentant le degr´ e de satisfaction de l’agent lorsqu’il arrive dans cet ´ etat.

(30)

1.2. Cadre formel Ainsi, la fonction d’utilit´ e permettra d’exprimer des pr´ ef´ erences sur les ´ etats. Pour cela, on posera simplement :

∀s, U (s) = g(s) − c(s)

Cette fonction se pr´ esente donc comme une agr´ egation des fonctions de gain et de coˆ ut. Nous avions vu pr´ ec´ edemment que la rationalit´ e d’un agent ´ etait d´ efinie par sa capacit´ e ` a prendre des d´ ecisions optimales, selon un crit` ere de performance donn´ e. Comment, alors, mettre au point un agent rationnel selon ce concept d’utilit´ e ?

Lorsque l’agent ex´ ecute une action, il transite vers un nouvel ´ etat s, d’utilit´ e U (s). Il ex´ ecutera ensuite une nouvelle action, transitant vers un ´ etat s

⁰

d’utilit´ e U (s

⁰

), etc. Une approche na¨ıve, dans ce cas, serait d’ex´ ecuter ` a chaque fois l’action menant vers l’´ etat d’utilit´ e maximale (nous verrons par la suite, plus formellement, comment int´ egrer dans ce raisonnement l’aspect stochas- tique de l’environnement). On parle ici de raisonnement

` a horizon 1

, puisque l’on se contente de maximiser l’utilit´ e ` a court terme. Cette strat´ egie n’est toutefois pas forc´ ement judicieuse : imaginons que l’on puisse transiter vers deux ´ etats, s

₁

ou s

₂

. Posons U (s

₁

) = 10 et U (s

₂

) = 3.

Dans ce cas, transiter vers l’´ etat s

1

semble plus int´ eressant. Imaginons maintenant que, depuis l’´ etat s

₁

, on ne puisse atteindre qu’un ´ etat s

⁰₁

d’utilit´ e U (s

⁰₁

) = −1000, tandis que l’´ etat s

₂

m` ene

`

a un ´ etat s

⁰₂

d’utilit´ e U (s

⁰₂

) = 50. Il serait alors plus int´ eressant de passer par s

2

, pour atteindre ensuite s

⁰₂

: on raisonne ici ` a horizon 2. On peut, de mˆ eme, raisonner ` a horizon 3, 4, etc.

On d´ ecide donc de l’horizon sur lequel on va raisonner, puis on choisit un comportement (c’est-` a-dire, pour chaque ´ etat, une action ` a appliquer). On introduit alors la notion de valeur d’un ´ etat : pour un comportement donn´ e, la valeur V d’un ´ etat s correspond au cumul, sur l’horizon choisi, des utilit´ es de s et des ´ etats suivants. Ainsi, si :

1. on connaˆıt l’horizon (c-` a-d le nombre de pas de temps) sur lequel s’ex´ ecute le probl` eme, 2. on parvient ` a calculer, pour tout comportement possible, la valeur de chaque ´ etat, alors, on peut d´ eterminer le comportement id´ eal, maximisant cette fonction de valeur. Un agent sera donc rationnel si il peut calculer ce comportement id´ eal. On en d´ eduit une d´ efinition formelle du concept de planification :

D´ efinition 11 (Planification) Le probl` eme de planification consiste ` a calculer un plan, c’est-

`

a-dire une fonction qui associe ` a tout ´ etat une action ` a ex´ ecuter. Ce probl` eme de planification se r´ esout via un processus de d´ ecision. Le calcul d’une fonction de valeur est un exemple de processus de d´ ecision.

Ainsi, on pourra calculer un plan tel que l’agent choisisse, en tout ´ etat, l’action qui maximise l’utilit´ e ` a long terme. Ce plan aura la forme d’une fonction qui, ` a tout ´ etat s, associe l’action a

`

a ex´ ecuter.

(31)

1.3 Maximisation de la valeur esp´ er´ ee

Nous avons pr´ esent´ e, dans la partie pr´ ec´ edente, les concepts d’utilit´ e et de planification.

Voyons maintenant comment calculer une fonction de valeurs en environnement stochastique.

On parlera ici de maximisation de la valeur esp´ er´ ee.

1.3.1 Agir sous incertitude

Un agent ´ evoluant en environnement stochastique sera soumis ` a une difficult´ e : l’impact d’une action est incertain. Litt´ eralement, cela signifie qu’appliquer une action a, dans un ´ etat s, ne se traduira pas syst´ ematiquement par une transition vers un nouvel ´ etat s

⁰

. On aura plutˆ ot un ensemble de transitions possibles vers les ´ etats de S = {s

⁰₁

, s

⁰₂

, . . .} et on notera P(s

⁰_i

|s,a) la probabilit´ e d’arriver dans l’´ etat s

⁰_i

apr` es avoir appliqu´ e a dans l’´ etat s. Prenons l’exemple d’un robot : celui-ci pourra appliquer l’action avancer et, dans la majorit´ e des cas, cette action lui permettra de se d´ eplacer vers l’avant (P = 0.9). Le risque existe pourtant que ses roues d´ erapent, et qu’il ne bouge pas de sa position actuelle (P = 0.1). Une propri´ et´ e importante des environnements stochastiques est que l’on a, pour tout ´ etat s et action a :

X

s⁰_i∈S

P (s

⁰_i

|s,a) = 1

Andre¨ı Andre¨ıevitch Markov (1856-1922) a introduit la propri´ et´ e de Markov. Un syst` eme respectant cette propri´ et´ e sera tel que la probabilit´ e de transiter vers un nouvel ´ etat ne d´ epend pas des ´ etats pr´ ec´ edents, mais uniquement de l’´ etat actuel. Litt´ eralement, cela signifie qu’` a tout instant t, la probabilit´ e de passer de l’´ etat s

t

` a l’´ etat s

t+1

ne d´ ependra pas des ´ etats s

i

, 0 ≤ i < t.

On peut donc formaliser cette propri´ et´ e de la fa¸ con suivante : P (s

_t+1

= s

⁰

|s

₀

,s

₁

, . . . ,s

_t

) = P (s

_t+1

|s

_t

)

Cette propri´ et´ e a donn´ e naissance ` a la notion de chaˆ ıne de Markov, qui permet de repr´ esenter un probl` eme respectant la propri´ et´ e de Markov.

D´ efinition 12 (Chaˆ ıne de Markov) Une chaˆıne de Markov est un ensemble d’´ etats S, muni d’une fonction de transition T telle que ∀(s,s

⁰

) ∈ S

²

, T (s,s

⁰

) = P(s

⁰

|s) donne la probabilit´ e de passer d’un ´ etat s ` a un ´ etat s

⁰

(ind´ ependamment des ´ etats ant´ erieurs ` a s).

Ainsi, une chaˆıne de Markov permet de repr´ esenter un probl` eme dans lequel les probabilit´ es de transition ne d´ ependent que de l’´ etat actuel. On peut repr´ esenter une chaˆıne de Markov via un graphe, dans lequel les noeuds repr´ esenteront les ´ etats, et les arˆ etes repr´ esenteront les transitions. On indiquera alors, sur chaque arˆ ete, la probabilit´ e de la transition correspondante.

La figure 1.2 est un exemple de chaˆıne de Markov pour un probl` eme ` a quatre ´ etats.

Cette repr´ esentation est cependant insuffisante pour un probl` eme de planification sous in-

certitude. En effet, r´ esoudre un probl` eme de planification implique de raisonner sur les actions,