Blocage avec 2 tuiles et 1 trou (et des cases interdites à l’ouest)

Partie I Deux domaines 11

5.9 Blocage avec 2 tuiles et 1 trou (et des cases interdites à l’ouest)

Nous en avons donné ici un premier aperçu qui suffira à notre propos dans les sections et chapitres qui suivent. Pour ne donner que cet exemple, nous avons omis les mécanismes non-hiérarchiques tels que ceux proposés dans [Maes, 1989] (il s’agit d’un réseau de modules qui peuvent s’inhiber ou s’activer mutuellement, ce qui ressemble à l’architecture à subsumption de Brooks décrite en section 1.1.5.3).

Pour l’instant, nous avons exprimé le choix de travailler sur des architectures à flux-libre, et en produisant des politiques stochastiques. Nous allons voir maintenant le lien qui peut être fait avec le domaine de l’apprentissage par renforcement qui reste la base de nos travaux.

5.4 Sélection d’action et apprentissage par renforcement

Les sections 5.2 et 5.3 ont permis de présenter d’une part les travaux visant à décomposer des pro-cessus de décision markoviens pour en rendre le traîtement plus efficace, et d’autre part le domaine de la sélection d’action. Le sujet qui nous motive dans ce chapitre est à l’intersection de ces deux domaines. Nous allons donc voir à présent ce qui a déjà été fait sur ce thème alliant A/R et S/A, en ayant comme principale référence la thèse de Humphrys, laquelle est centrée sur ce sujet.

5.4.1 Exemple : W -learning

Une fois n’est pas coutume, commençons par un exemple. Les travaux présentés dans [Humphrys, 1996] et développés de manière plus complète dans [Humphrys, 1997] présentent (séparément) les deux approches dont il a été sujet en section 5.3.3 : avec et sans winner-take-all.

Tous les algorithmes présentés emploient un contrôleur nourri non seulement des actions souhaitées par chaque comportement, mais aussi d’informations sur l’utilité de ces actions. Différentes stratégies ont été étudiées pour effectuer la sélection d’action. Elles sont présentées en deux catégories (on note ici Qiles Q-valeurs de l’agent-comportement i, et aila meilleure action pour le même agent) :

1. les W -learnings individualistes (avec winner-take-all : un des agents-comportements est maître de la décision) :

– maximiser la plus grande joie

max

a∈A max

i∈1,...,nQi(s, a), et (5.1)

– minimiser le plus grand regret min

a∈A max

i∈1,...,n[Qi(s, ai)− Qi(s, a)]; et (5.2) 2. les W -learnings collectifs (sans winner-take-all : la décision vient d’un concensus entre les

– maximiser la joie collective max a∈A n X i=1 Q_i(s, a), et (5.3)

– minimiser le regret collectif

min a∈A n X i=1 [Qi(s, ai)− Qi(s, a)]. (5.4)

Note : Si les secondes approches sont de type flux-libre, elles ont le défaut signalé en section 5.3.4

de fournir des politiques déterministes.

L’intérêt des travaux de Humphrys réside dans le fait que les poids à donner aux différents compor-tements sont appris, ce qui permet d’ajuster la combinaison effectuée. Toutefois, même si le but était ici que les agents puissent se passer de toute fonction de récompense globale, il a fallut qu’une adaptation des fonctions de récompense locales (à chaque comportement de base) soit faite (à l’aide d’un algorithme génétique dans lequel la récompense globale ré-apparaît). Ainsi, cette adaptation s’avère très spécifique à la situation courante.

Le procédé auto-adaptatif utilisé dans le mécanisme de sélection d’action encourage toutefois à em-ployer des méthodes de combinaison dans lesquelles les paramètres puissent être appris par renforce-ment.

5.4.2 Problème posé

On rejoint en fait ici la problématique de la décomposition d’un PDM en sous-tâches concurrentes (introduite en section 5.2.2), ce qui transparaît dans le travail de Humphrys. A partir de sa lecture, nous allons essayer ici de préciser l’objectif que nous visons, ainsi que la manière de l’atteindre.

En effet, Humphrys cherche justement dans sa thèse [Humphrys, 1997] à mettre au point une mé-thode pour organiser automatiquement la sélection d’actions sur la base de comportements élémentaires. Il choisit pour cela (comme on vient de le voir dans la section précédente) d’utiliser des méthodes d’ap-prentissage par renforcement, mais fait aussi référence à des travaux issu plus directement du champ des processus de décision markoviens. Il cite ainsi dans le chapitre 3 des méthodes d’apprentissage par renforcement multi-modules [Moore, 1990; Singh, 1992; Tham et Prager, 1994] (ces deux derniers concernant des approches séquentielles et non concurrentes), et plus particulièrement le Q-learning hié-rarchique de [Lin, 1993]. Ce dernier travail est assez typique du domaine, puisqu’il s’agit d’apprendre par Q-learning :

– d’abord les n sous-tâches définies (chacune associée à un “agent” Ai),

– puis un contrôleur dont l’action soit de choisir l’agent à utiliser (dans chaque état possible du système).

La lecture de la thèse de Humphrys montre une certaine diversité des approches rencontrées, entre autres du fait d’objectifs et de cadres divers. Il est ainsi difficile d’en tirer de réelles conclusions. C’est d’autant plus vrai de notre point de vue, car tous se basent sur le formalisme des PDM, alors que l’hypo-thèse de Markov devient irréaliste dans les cas auxquels nous souhaitons nous attacher.

Mais, de manière générale, on peut extraire un principe assez simple, celui d’apprendre séparément à résoudre des tâches indépendantes, puis d’apprendre un contrôleur pour les recombiner. La forme du contrôleur à employer est souvent le principal sujet de discussion. C’est d’ailleurs le cas dès qu’il s’agit de sélection d’action, mais ici s’ajoute le fait que des paramètres viennent prendre place et qu’un algorithme pour les optimiser (les apprendre) doit être mis au point.

En plus de ces aspects, auxquels nous n’échapperons pas en proposant notre approche, nous es-saierons de déterminer de manière automatique quelles sont les sous-tâches à savoir accomplir, ou plus précisément les comportements de base à utiliser.

5.5 Est-ce bien SMA ?

Avant de clore ce chapitre, revenons à son intitulé : “SMA pour PDM”.

Aucun système multi-agents au sens qu’on a donné à ce terme dans la section 1.2 n’a été ici évoqué, puisqu’on a toujours supposé distinctes une phase de conception de “modules” élémentaires et une phase d’utilisation combinée de ces modules (dès lors fixés), alors qu’un agent devrait toujours être capable de s’adapter. Notons qu’il existe quelques travaux, tels que ceux de [Laurent, 2002], qui cherchent à faire un apprentissage en parallèle et en situation de comportements élémentaires. Il est donc envisageable de pallier ce défaut.

Un autre aspect qui peut rendre le terme SMA discutable est qu’il y a toujours un mécanisme cen-tralisateur reliant les différents agents élémentaires au sein de l’agent “englobant” cette asssemblée. Si l’on se place du point de vue de ses agents parlementaires, le mécanisme centralisateur fait toutefois partie de l’environnement. En revenant au modèle influences-réaction vu en section 1.2.1 (page 28), les actions des agents vont correspondre aux influences, et le mécanisme centralisateur sera en grande partie l’opérateur Π de combinaison de ces influences. La figure 5.10 illustre ce lien en prenant l’exemple d’un agent dans le monde des tuiles.

Agent évitant trou Environnement poussant tuile dans trou Agent

contrôleur

FIG. 5.10 – Forme d’un mécanisme de sélection d’action d’après le point de vue du modèle influences-réaction (fait référence à la figure 1.10).

Pour dire un dernier mot de la question “Peut-on parler de SMA ?”, on retrouve dans ce principe de décomposition d’un agent en sous-agents l’idée de Minsky [Minsky, 1986] d’une “société de l’esprit”, même si sa vision concerne un système plus général et plus complexe. Cette référence se rencontre d’ailleurs assez régulièrement dans les écrits sur la sélection d’action.

Ayant conscience que le qualificatif de SMA reste discutable, et surtout dans le but de ne pas être ambigu en parlant d’agent, nous parlerons de préférence de comportements de base (ou élémentaires) plutôt de d’agents ou sous-agents, le mot “agent” étant réservé au seul système complexe qu’on cherche à réaliser.

Ce qui manque principalement à l’architecture de sélection d’action que nous allons proposer pour pouvoir être réellement considérée comme un SMA est une véritable forme adaptative. Mais nous gar-dons pour des travaux futurs l’idée d’élaborer un véritable contrôleur à géométrie variable, moins cen-tralisateur que celui choisi dans la présente thèse.

5.6 Conclusion

Nous avons rappelé dans ce chapitre qu’un processus de décision markovien (et même non-markovien à vrai dire) se trouve facilement confronté à des difficultés liées à l’explosion de l’espace d’observation. Partant du principe de “diviser pour régner”, différentes approches de décomposition d’un PDM ont été exposées (les cas non-markoviens étant rarement discutés).

Parmi ces approches, nous proposons de nous intéresser à celles qui mettent en œuvre des tâches concurrentes, ce qui amène naturellement à examiner les travaux du domaine de la sélection d’action. Sur la base de tout cela, il a été décidé de chercher à concevoir une approche de sélection d’action de type hiérarchie à flux libre, produisant une politique stochastique, la mise au point étant faite par

apprentissage par renforcement autant pour les comportements de base que pour le contrôleur. C’est le

sujet du chapitre 6 qui suit.

De plus, on a souhaité automatiser le choix des sous-tâches à savoir résoudre. Dans ce sens, le cha-pitre 7 commence par montrer comment créer un nouveau comportement à partir des ceux déjà connus, ce procédé étant employé dans l’algorithme proposé au chapitre 8 pour effectivement déterminer les comportements de base à utiliser.

Simple combinaison de comportements

Sommaire

6.1 Principe de la décomposition . . . 138

6.1.1 Comment une tâche est décomposée . . . 138 6.1.2 Combinaison de comportements . . . 140 6.1.3 A propos de la sélection d’action . . . 140

6.2 Détails de la combinaison . . . 141

6.2.1 Définitions formelles autour des comportements . . . 141 6.2.2 Formulation générale . . . 143 6.2.3 Réflexions sur les poids . . . 144 6.2.3.1 Utilisation des Q-valeurs dans les poids . . . 144 6.2.3.2 A quoi servent les paramètres ? . . . 146 6.2.3.3 Apprentissage . . . 146 6.2.4 Formes spécifiques de fcombi . . . 147 6.2.4.1 Combinaison directe de Q-valeurs . . . 147 6.2.4.2 Un poids par configuration (+) . . . 147 6.2.4.3 Un poids par configuration et par action (+) . . . 148 6.2.4.4 Un poids par configuration et par action (+)→ correction . . . 148

6.2.4.5 Un poids par configuration (∗) . . . 149

6.2.4.6 Un poids par configuration et par action (∗) → correction . . . 150 6.3 Application/Expériences . . . 152

6.3.1 Les diverses combinaisons . . . 152 6.3.1.1 Expériences effectuées . . . 152 6.3.1.2 Analyse des résultats . . . 152 6.3.2 Un comportement aléatoire ? . . . 154 6.3.2.1 Expériences effectuées . . . 154 6.3.2.2 Analyse des résultats . . . 155 6.3.3 Réutilisabilité et “scalabilité” . . . 155 6.3.3.1 Expériences effectuées . . . 155 6.3.3.2 Analyse des résultats . . . 157

6.4 Conclusion . . . 157

La discussion sur la décomposition de PDM et sur le domaine de la sélection d’action qui a été menée dans le chapitre précédent (chapitre 5) a conduit à vouloir réaliser un mécanisme de sélection d’action de type hiérarchie à flux libre, et qui permette d’obtenir une politique stochastique. On reste ici dans l’optique d’un agent sans mémoire et avec perceptions partielles, en cherchant à automatiser sa conception à travers un apprentissage par renforcement.

Le présent chapitre va proposer une méthode de sélection d’action adaptative que nous avons élaborée de manière à ce qu’elle réponde à nos vœux. Les deux premières sections présentent les deux principales phases du mécanisme qui va être réalisé :

1. En guise d’introduction, la section 6.1 présentera le principe de décomposition d’une tâche (et donc d’analyse de la scène courante, ce qui constitue la première phase de l’algorithme) qui sera adopté.

2. Ceci permettra de poursuivre dans la section 6.2 en proposant pour la seconde phase, de “re-composition”, une méthode générique de combinaison de comportements, ainsi que les formes spécifiques qui ont été étudiées.

Les expériences menées et leurs résultats sont alors présentés en section 6.3, avant évidemment de faire un bilan (section 6.4).

6.1 Principe de la décomposition

Dans un premier temps, nous allons voir à la fois comment une tâche complexe est décomposée en sous-tâches, et comment est faite l’analyse des perceptions de l’agent pour déterminer les sous-buts courants. Ces deux aspects sont en réalité très liés l’un à l’autre, ce qui fait qu’on ne les distinguera pas clairement.

On verra aussi dans cette section l’algorithme que nous proposons dans ses grandes lignes (à la fois les phases de décomposition et de combinaison), de manière à introduire justement les détails de l’approche, et la combinaison elle-même, dans la section suivante.

6.1.1 Comment une tâche est décomposée

Nous introduisons ici un formalisme assez précis pour décrire ce que perçoit un agent, et comment l’agent analyse ses perceptions.

Ce que perçoit l’agent

Nous supposerons que l’agent considéré est dans un monde d’objets de types définis. L’étude com-plète menée ici pourrait en fait prendre directement en compte des perceptions typées au lieu d’objets, mais cette approche objet sera préférée pour simplifier la compréhension.

Ainsi, l’agent perçoit la scène courante (la partie accessible de son environnement) comme une

ob-servation, ensemble composé de percepts, chacun lié à un objet voisin. Il n’a donc accès qu’à une

information partielle sur l’état du système. Supposant, par exemple, que la figure 6.1 ne montre que les trois objets (2 tuiles et 1 trou) visibles, l’observation de l’agent est ici constituée des percepts de chacun de ces trois objets.

Comment l’agent analyse ses perceptions

L’hypothèse principale faite dans notre approche est que la tâche d’un agent peut être vue comme la composition de tâches plus élémentaires (sous-buts), chacune n’impliquant qu’un ensemble limité

d’ob-O2 O1

O3 agent

trou tuiles

FIG. 6.1 – Une scène avec quelques objets voisins, d’autres objets peuvent être présents dans

Dans le document Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs (Page 155-162)