Qu’est-ce ? - Sélection d’action

Partie I Deux domaines 11

5.3 Sélection d’action

5.3.1 Qu’est-ce ?

5.3.2.1 Problème . . . 128 5.3.2.2 Caractéristiques de l’agent . . . 128 5.3.2.3 La sélection d’action dans ce problème . . . 129 5.3.3 Le gagnant prend tout . . . 129 5.3.3.1 Raisons pour trouver une autre approche . . . 130 5.3.3.2 Flux-libre . . . 131 5.3.4 Politique stochastique ou déterministe ? . . . 131 5.3.5 Bilan intermédiaire . . . 131

5.4 Sélection d’action et apprentissage par renforcement . . . 132

5.4.1 Exemple : W -learning . . . 132 5.4.2 Problème posé . . . 133

5.5 Est-ce bien SMA ? . . . 134 5.6 Conclusion . . . 135

5.1 Introduction

Dans la deuxième partie de ce mémoire, l’apprentissage par renforcement a été vu comme un outil pour la conception de systèmes multi-agents. Dans cette troisième partie nous allons, de manière symé-trique, nous intéresser à l’utilisation de la “méthodologie SMA” pour concevoir un système apprenant par renforcement (ce système pouvant lui aussi revendiquer l’appellation d’“agent”).

Evoquons pour commencer le cas du Q-learning. Celui-ci peut en effet être présenté comme un algorithme mettant en jeu un groupe d’entités autonomes, chacune responsable de la prise de décision (du groupe) dans une situation donnée. Pourtant, on considère généralement un agent qui fonctionne selon le principe du Q-learning comme constituant une unique entité apprenante.

Dans le même ordre d’idée, [Meuleau et Dorigo, 2002] comme [Birattari et al., 2002] ont étudié des phénomènes émergents au sein de groupes de fourmis (voir la présentation faite en section 1.2.2), c’est-à-dire des phénomènes dans lesquels la solution d’un problème est élaborée par le travail d’un groupe. De là, ils ont mis en évidence le lien qui peut être fait entre de tels phénomènes émergents et des algorithmes d’optimisation (appliquables à l’apprentissage par renforcement).

Mais, outre ces deux idées, on peut chercher à ré-organiser explicitement l’architecture interne d’un agent apprenant sous une forme multi-agents. Nous allons ainsi voir dans la section qui suit une vaste classe d’approches des PDM (puisque l’hypothèse de Markov est souvent faite), laquelle s’appuie sur l’idée de les décomposer d’une manière ou d’une autre. Après un aperçu de cette classe en section 5.2, nous allons présenter un domaine connexe en section 5.3, celui de la sélection d’action, et pourrons ainsi nous restreindre en section 5.4 aux approches par décomposition qui entrent dans ce cadre.

5.2 Décomposition de PDM

5.2.1 Principe

Les méthodes d’apprentissage par renforcement souffrent souvent d’être appliquées dans des espaces trop grands : soit on ne peut plus stocker les informations nécessaires, soit il devient irréaliste d’obtenir les expériences suffisantes pour un bon apprentissage, soit (à supposer qu’on travaille avec un modèle) les calculs sont simplement trop coûteux.

Devant de telles difficultés, une démarche possible est de “diviser pour régner”, c’est-à-dire en l’oc-currence de décomposer le problème d’apprentissage en morceaux plus petits et donc plus faciles à traîter.

5.2.2 Quelles sont ces approches ?

Une étude approfondie des approches par décomposition de l’apprentissage par renforcement serait trop laborieuse et encombrante pour être présentée ici. On se contentera donc de regarder assez briève-ment les formes qu’elles peuvent prendre, sachant que la décomposition peut être menée selon différentes dimensions du problème, et de citer des travaux existant dans ce domaine.

On peut distinguer deux principales dimensions employées dans la décomposition d’un PDM : la tâche globale de l’agent est soit vue comme un ensemble de tâches séquentielles, soit comme un en-semble de tâches concurrentes ([Meuleau et al., 1998] fait aussi cette distinction).

Des formes séquentielles simples sont les méthodes cherchant à scinder une tâche complexe en sous-tâches successives, les sous-PDM associés devant être exécutés l’un après l’autre (à chacun étant associée une condition de terminaison). Ce genre d’approches est souvent aussi présenté comme une structuration de politiques en sous-politiques, d’actions en sous-actions ou, dans l’autre sens, d’actions en macro-actions.

Il s’agit aussi de considérer le systèmes à différentes échelles de temps : les sous-tâches sont des problèmes de moindre envergure, mais de plus fine granularité, et une fois ces sous-tâches maîtrisées, c’est à leur “assemblage” qu’il faut s’intéresser.

Les approches apparentées aux SMDP de Sutton [Precup et Sutton, 97; Sutton et al., 1998; Mc-Govern et al., 1998] sont des exemples d’approches de ce type. On peut aussi citer le formalisme MAXQ de [Dietterich, 2000] (voir figure 5.1) ou l’utilisation de sous-espaces d’états faite dans [Drummond, 2002] par exemple (des politiques étant connues pour des salles types, ce qui permet de planifier à l’intérieur d’un bâtiment complet).

1 2 3 4 0

R V

B

J

0 1 2 3 4

Ici, un taxi doit s’occuper de clients allant d’une des positions marquées R(ouge), V(ert), J(aune) ou B(leu) à une autre. Les actions primitives correspondent aux 4 déplacements élémentaires ainsi qu’à chargeret déposer. Les récompenses sont de -1 à chaque dé-placement, de -10 pour toute prise en charge ou toute dépose inutile, et +20 pour un service accompli. Les deux principales sous-tâches correspondent à al-ler prendreetaller déposerun client, cha-cune nécessitant la capacité d’aller à l’une des 4 posi-tions puis d’exécuter une actionchargerou dépo-ser.

FIG. 5.1 – Problème du taxi tiré de [Dietterich, 2000].

Dans les formes “concurrentes”, plusieurs contrôleurs (associés chacun à un PDM) sont présents si-multanément. Ces contrôleurs peuvent correspondre à des objectifs distincts, comme c’est généra-lement le cas, ou à diverses manières d’atteindre un même but ([Scherrer, 2003] met ainsi en œuvre des PDM qui se spécialisent chacun sur une partie de l’espace d’états). Quoi qu’il en soit, il faut alors gérer leurs interactions, soit en construisant un PDM unique sur la base des connaissances des sous-PDM (voir [Dixon et al., 2000] ou [Singh et Cohn, 1998], ce dernier étant illustré par la figure 5.2), soit en se limitant à une heuristique qui “élit” l’action à effectuer.

. . .

. . . .

n

A

.

P

.

L’agent (A) erre dans une grille n par n. Il obtient une récompense de 0, 5 à chaque pas de temps où il échappe au prédateur (P), et gagne une récompense de 1, 0 à chaque morceau de nourriture (n) qu’il trouve. Quand de la nourriture est trouvée, elle réapparaît à une position au hasard au prochain pas de temps. A chaque pas de temps, S a 10% de chances d’ignorer sa politique est de faire un mouvement aléatoire.

L’algorithme présenté dans [Singh et Cohn, 1998] “fu-sionne” les comportements assez facilement appris pour les deux tâches élémentaires évite-le-prédateur et mange-la-nourriture.

FIG. 5.2 – Problème agent-prédateur-nourriture tiré de [Singh et Cohn, 1998].

La distinction entre ces deux domaines n’est en fin de compte qu’une distinction de principe entre un cas où les agents attendent la terminaison de l’exécution de l’agent en activité et un autre cas où

les agents sont constamment en compétition. Elle correspond surtout à des besoins différents, mais les principes de fonctionnement restent assez proches.

Une dernière remarque est que, si l’on n’a évoqué pour l’instant que des architectures à un seul niveau d’abstraction, il faut garder à l’esprit qu’il peut y en avoir un plus grand nombre, formant ainsi des hiérarchies assez complexes.

5.2.3 Difficultés

Un premier problème crucial dans toutes ces approches est la définition même de la décomposition qui va être employée. Malheureusement, la plupart d’entre elles se limite à une mise au point manuelle par un concepteur (qui va donc définir les sous-tâches à apprendre). Seuls quelques travaux tels que ceux de [Laurent, 2002] essaient de se passer d’une telle intervention (en l’occurrence en utilisant des apprentissages parallèles).

Un autre aspect qui pose des difficultés est le fait que, selon le niveau d’abstraction auquel on se place (dans la hiérarchie de politiques de l’agent), l’espace d’observation peut lui aussi être plus ou moins abstrait, ne retenir que les éléments utiles au choix du prochain sous-comportement à adopter par exemple. Mais ici encore, la détermination de l’espace d’observation à employer reste le domaine d’un concepteur humain.

Pour terminer, insistons sur un défaut inhérent à l’approche par décomposition. A moins de se trouver dans des situations particulières assez idéales, on risque très souvent de ne plus être capable de trouver une solution optimale. En effet, si chaque sous-PDM peut certes être résolu optimalement, la recompo-sition en un comportement “global” n’est pas toujours bonne. L’exemple fourni par [Dietterich, 2000] et reproduit à travers la figure 5.3 illustre assez bien ce point.

maison

magasin B

magasin A

(cassettes vidéo, lait)

(lait)

parcours optimal

parcours long

Si l’on veut acheter du lait et une cassette vidéo, aller acheter du lait au magasin le plus proche (ici A) et aller acheter une cassette après (nécessaire-ment en B) peut constituer une mauvaise solution si les deux achats peuvent être effectués dans un seul et même établissement (B dans le cas pré-sent).

FIG. 5.3 – Problème de l’optimisation de courses tiré de [Dietterich, 2000].

Point de vue

Comme on l’a dit en introduction de cette troisième partie du manuscrit, nous avons pour notre part décidé de porter notre intérêt vers une décomposition en tâches concurrentes. Mais cette problématique se rapproche aussi du domaine de la sélection d’action dont il va être maintenant sujet.

5.3 Sélection d’action

Dans la présentation des approches “concurrentes” (section 5.2.2), nous avons évoqué sans plus de détails la possibilité d’utiliser une heuristique qui “élit” l’action à effectuer en observant les choix que

feraient des contrôleurs chacun guidé par son propre but. Le problème soulevé ici entre dans le champ de ce que l’on appelle la “sélection d’action” (notée S/A). Nous allons présenter ici ce domaine, en profiter pour décrire le problème qui nous servira de référence dans cette troisième partie du présent mémoire (le monde des tuiles), et discuter de quelques points importants en S/A.

Note : les principales sources employées ici dans le domaine de la sélection d’action sont les thèses

de Tyrrell et Humphrys [Tyrrell, 1993; Humphrys, 1997], l’introduction qui suit est d’ailleurs largement inspirée des écrits de ce dernier.

5.3.1 Qu’est-ce ?

Par “sélection d’action”, nous n’entendons pas le problème de bas-niveau du choix d’une action dans la poursuite d’un unique but cohérent (tel que trouver la sortie d’un labyrinthe). Nous entendons plutôt le problème de haut-niveau du choix d’une action dans le cadre de buts conflictuels et hétérogènes (voir figure 5.4). Ces objectifs sont poursuivis en parallèle. Ils peuvent parfois se combiner pour accomplir des objectifs à plus grande échelle, mais généralement ils interfèrent simplement entre eux. Ils peuvent ne pas avoir de conditions de terminaison.

Comportement de recherche de nourriture Environnement S/A Comportement de fuite du prédateur

contrôleur

Le problème agent-prédateur-nourriture de la figure 5.2 est typiquement un problème de sélec-tion d’acsélec-tion. Si l’agent sait d’une part éviter le prédateur et d’autre part se nourrir, poursuivre ces deux buts parallèlement pose problème si le prédateur est entre l’agent et sa nourriture (c’est là que les objectifs interfèrent : ils risquent de se contredire quant au déplacement à effectuer).

FIG. 5.4 – Le problème agent-prédateur-nourriture vu comme un problème de sélection d’action. La sélection d’action apparaît comme un problème central dans la simulation de créatures complètes. Il est clair que de nombreux systèmes intéressants poursuivent de multiples buts parallèles et conflictuels, entre lesquels l’attention doit continuellement alterner (ou plutôt qu’il faut prendre en compte simulta-nément). Les animaux sont le premier exemple de tels systèmes.

Généralement, les modèles de sélection d’action proposés en éthologie ne sont pas assez détaillés pour spécifier une implémentation algorithmique (voir [Tyrrell, 1993] pour un aperçu, et pour les nom-breuses difficultés de la traduction de modèles conceptuels en modèles computationnels). Les modèles de sélection d’action qui se prêtent à des implémentations algorithmiques (voir [Brooks, 1991b; Rosenblatt, 1995; Blumberg, 1994; Sahota, 1994; Aylett, 1995]) requièrement généralement un effort de conception

considérable. Dans la littérature, on voit des formules utilisant des sommes pondérées de quantités di-verses dans une tentative d’estimer l’utilité des actions. Il y a beaucoup de mises au point et réglages manuels de paramètres (voir [Tyrrell, 1993, chapitre 9]) avant que le concepteur soit satisfait et que les estimations d’utilité délivrées par les formules soient assez bonnes.

Dans le document Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs (Page 146-151)