• Aucun résultat trouvé

Partie I Deux domaines 11

4.4 Discussion

4.4.5 Dernière réflexion

La séparation qui a été faite entre la progression en complexité et la progression en nombre peut d’une certaine façon paraître quelque peut artificielle. En effet, on pourrait plus simplement identifier ici 2 dimensions différentes de l’espace des problèmes auxquels on s’est intéressé ici. Là où [Asada et al, 1996] distinguait des sous-états tels que la taille et l’angle du but, c’est selon les deux dimensions de la

distance à la fusion de deux blocs et du nombre d’objets dans l’environnement que peuvent être faites

Conclusion

Cette deuxième partie a permis d’aborder la question de la complémentarité entre systèmes multi-agents et apprentissage par renforcement sous l’angle de l’utilisation de l’A/R pour concevoir des multi-agents coopérants au sein d’un groupe.

Travail accompli

On a pu appronfondir à travers le chapitre 3 quelques problèmes soulevés dans ce cadre :

– Pour s’assurer de la collaboration des agents dans le sens souhaité, il faudrait savoir définir des fonctions de récompense individuelles qui reflètent l’objectif fixé au groupe. On n’en est hélas pour l’instant pas capable.

– Chaque agent ayant son propre point de vue (et entre autres des perceptions partielles), il leur est difficile de s’accorder sur des comportements joints à adopter. Le groupe tombe ainsi facilement dans des comportements sous-optimaux.

– Modéliser les autres permet souvent une meilleure adaptation d’un agent à ses congénères. – Un problème de type DEC-POMDP est, de manière générale, d’une grande complexité temporelle. Ces grandes difficultés nous ont amené à proposer une méthode pratique pour aider à la conception de systèmes multi-agents, tout en utilisant un algorithme de recherche directe de politique (puisque l’on ne peut raisonnablement considérer la situation des agents comme markovienne). Nous nous sommes ainsi dirigés vers les approches d’apprentissage progressif (shaping) dans le chapitre 4. Après une pré-sentation du domaine en section 4.1, nous avons présenté et évalué une étape d’apprentissage progressif en complexité (du problème) (section 4.2), ainsi qu’une autre étape d’apprentissage progressif en nombre (d’objets et d’agents présents) (section 4.3).

Comme expliqué dans la discussion de la section 4.4, les deux étapes ne sont pas si distinctes l’une de l’autre que l’on pourrait le croire. Quoi qu’il en soit, elles s’avèrent assez efficaces (au problème de “désapprentissage” près) et feraient presque oublier qu’on a dû passer outre la centralisation de la phase de conception pour pouvoir ainsi améliorer l’apprentissage du groupe.

Problématique soulevée

Une notion importante qui est apparue est celle de “scalabilité”, méchant anglicisme utilisé pour traduire le besoin qu’un agent soit capable de se mettre à l’échelle quand le nombre d’objets l’environ-nant ou les dimensions du problème auquel il est confronté changent, comme c’est souvent le cas dans un cadre multi-agents. Cette idée a en partie guidé les travaux présentés dans la troisième partie de ce mémoire à laquelle nous allons maintenant passer.

Combinaison de comportements

Introduction

« Les moyens peuvent être comparés à une graine et la fin à un arbre ; et il existe le même rapport intangible entre les moyens et la fin qu’entre la graine et l’arbre. »

Gandhi

A l’inverse de la partie précédente, c’est à des approches multi-agents pour la conception d’un agent apprenant par renforcement que nous allons nous intéresser dans cette troisième et dernière partie. On pourra aussi parler plus simplement d’approches par décomposition.

Le chapitre 5 fera un aperçu assez rapide de l’existant dans ce domaine, lequel recouvre une grande variété de travaux. Une des difficultés que l’on rencontrera sera d’organiser ces travaux de manière à avoir une classification claire. Mais nous y reviendrons en temps utile.

Notre travail va en fait chercher à répondre à un problème précis apparu dans le chapitre 4 : comment réaliser un agent “scalable” (c’est-à-dire pouvant faire face à des situations plus complexes qu’à son habitude, mais de même nature) ? La question qui nous préoccupe est plus précisément de concevoir un agent capable de s’adapter à des environnements de dimensions variables, ces dimensions concernant entre autres le nombre d’objets présents. Cette question a été d’abord soulevée parce que nos agents (dans le problème de fusion de blocs vu en section 4.2.2.1) n’étaient pas en mesure de percevoir, et donc de gérer, des objets en nombre variable. Nous étions ainsi contraints d’utiliser une heuristique simpliste : choisir les objets les plus proches, pour ne sélectionner qu’un nombre fixe d’objets à prendre en considération dans les perceptions.

L’apport que nous proposons ici se base sur une situation particulière. On va faire l’hypothèse d’un agent confronté à une tâche complexe, fruit d’une accumulation de tâches simples. On verra donc dans le chapitre 6 comment on peut combiner des politiques dédiées à différentes sous-tâches de l’agent. Puis, les chapitres 7 et 8 montreront comment on peut efficacement apprendre un comportement plus complexe via cette méthode de combinaison et, de là, comment l’agent “combinant” peut acquérir une plus grande autonomie en trouvant de lui même les tâches simples qui vont servir de briques pour recomposer un comportement complexe.

SMA pour PDM

Sommaire

5.1 Introduction . . . 124 5.2 Décomposition de PDM . . . 124

5.2.1 Principe . . . 124 5.2.2 Quelles sont ces approches ? . . . 124 5.2.3 Difficultés . . . 126

5.3 Sélection d’action . . . 126

5.3.1 Qu’est-ce ? . . . 127 5.3.2 Le monde des tuiles . . . 128 5.3.2.1 Problème . . . 128 5.3.2.2 Caractéristiques de l’agent . . . 128 5.3.2.3 La sélection d’action dans ce problème . . . 129 5.3.3 Le gagnant prend tout . . . 129 5.3.3.1 Raisons pour trouver une autre approche . . . 130 5.3.3.2 Flux-libre . . . 131 5.3.4 Politique stochastique ou déterministe ? . . . 131 5.3.5 Bilan intermédiaire . . . 131

5.4 Sélection d’action et apprentissage par renforcement . . . 132

5.4.1 Exemple : W -learning . . . 132 5.4.2 Problème posé . . . 133

5.5 Est-ce bien SMA ? . . . 134 5.6 Conclusion . . . 135

5.1 Introduction

Dans la deuxième partie de ce mémoire, l’apprentissage par renforcement a été vu comme un outil pour la conception de systèmes multi-agents. Dans cette troisième partie nous allons, de manière symé-trique, nous intéresser à l’utilisation de la “méthodologie SMA” pour concevoir un système apprenant par renforcement (ce système pouvant lui aussi revendiquer l’appellation d’“agent”).

Evoquons pour commencer le cas du Q-learning. Celui-ci peut en effet être présenté comme un algorithme mettant en jeu un groupe d’entités autonomes, chacune responsable de la prise de décision (du groupe) dans une situation donnée. Pourtant, on considère généralement un agent qui fonctionne selon le principe du Q-learning comme constituant une unique entité apprenante.

Dans le même ordre d’idée, [Meuleau et Dorigo, 2002] comme [Birattari et al., 2002] ont étudié des phénomènes émergents au sein de groupes de fourmis (voir la présentation faite en section 1.2.2), c’est-à-dire des phénomènes dans lesquels la solution d’un problème est élaborée par le travail d’un groupe. De là, ils ont mis en évidence le lien qui peut être fait entre de tels phénomènes émergents et des algorithmes d’optimisation (appliquables à l’apprentissage par renforcement).

Mais, outre ces deux idées, on peut chercher à ré-organiser explicitement l’architecture interne d’un agent apprenant sous une forme multi-agents. Nous allons ainsi voir dans la section qui suit une vaste classe d’approches des PDM (puisque l’hypothèse de Markov est souvent faite), laquelle s’appuie sur l’idée de les décomposer d’une manière ou d’une autre. Après un aperçu de cette classe en section 5.2, nous allons présenter un domaine connexe en section 5.3, celui de la sélection d’action, et pourrons ainsi nous restreindre en section 5.4 aux approches par décomposition qui entrent dans ce cadre.