• Aucun résultat trouvé

Discrétisations Classifications

Algorithme 1 Processus général du modèle

4.4 Étude du modèle

4.4.3.2 Adaptation à différents contextes

Au long de son existence, un système autonome est confronté à plusieurs contextes (ou plusieurs environnements). La tâche d’apprentissage ne se limite pas à la discrimination de ces contextes et à l’apprentissage d’une représentation associée à chaque contexte. Le comportement d’adaptation permet en fait au système de réutiliser les connaissances acquises précédemment dans un contexte variable. Notre modèle utilise une combinaison dynamique de représentations individuelles qui peuvent être fixes (données a priori) ou dynamiques (intégrées dans le processus global d’appren-tissage). La représentation du système peut alors se re-construire dynamiquement en exploitant des éléments re-combinés à partir des représentations individuelles. Dans cette expérimentation, nous réutilisons les deux contextes (A et B) avec 9 actions définies dans l’expérimentation précédente (figure 4.14). Les discrétisations générées dans chacun des contextes ne changent pas (elles sont toujours modélisées par 3 agents avec 7, 9 et 11 classes fixes). Et les politiques d’action des deux implémentations sont apprises séparément dans les deux contextes. En utilisant le modèle, nous proposons une implémentation utilisant tous les agents discrétiseurs, soit 6 représentations concur-rentes. L’objectif de l’expérimentation est de montrer le comportement du modèle lorsqu’il fait face à des situations qui diffèrent quelque peu des contextes originaux qu’il connait (par l’intermédiaire des représentations de ses agents discrétiseurs).

La figure 4.16 décrit les performances moyennes obtenues par les différentes implémentations dans différents contextes. Les valeurs extrêmes (droite et gauche) correspondent aux contextes A et B originaux. Les valeurs intermédiaires correspondent à une interpolation linéaire des positions originales des centres de classes entre les contextes A et B (pour les états affectés à la même action). Ces performances sont obtenues après les 100000 itérations. Les agents discrétiseurs utilisés dans les trois implémentations embarquent leurs expériences acquises dans leurs contextes respectifs. Chaque point représente le résultat d’une simulation. Chacune des trois implémentations est testée dans tous les contextes générés (11 contextes, y compris les contextes A et B originaux). Par exemple, "20% A - 80% B" décrit un contexte où les positions des centroïdes des états correspondant à chacune des actions sont calculées comme la moyenne pondérée des positions du contexte A (0,2) et du contexte B (0,8). Les contextes A et B ont été sélectionnés pour qu’ils soient suffisamment différents et mènent à des politiques d’actions incompatibles. Les résultats obtenus montrent que le modèle obtient de meilleures performances (ou au moins égales) qu’avec les représentations initiales dans les contextes interpolés. Cela confirme que le modèle est capable d’adapter dynamiquement sa représentation à des contextes proches de ceux précédemment rencontrés. Comme prévu, les représentations apprises dans un contexte spécifique donnent des performances décroissantes à

0 20 40 60 80 100

Interpolation between Context A and Context B

A

v

er

age perf

or

mance (%), last 10000 iter

ations

100% A 80% A−20% B 60% A−40% B 40% A−60% B 20% A−80% B 100% B

Conte

xt A

Conte

xt B

Strategy learned in Context A Strategy learning in Context B Merged strategy (from Contexts A and B)

Fig. 4.16:Performance moyenne des trois implémentations face à des interpolations entre les contextes A et B.

mesure que l’on s’éloigne du contexte original. Un autre résultat inattendu correspond au scénario "90% A - 10% B", où la performance obtenue par les agents ayant appris dans le contexte A est meilleure que dans le cas "100% A". L’explication se situe dans la précision de la discrétisation : elle est plus proche de la représentation absolue de l’environnement dans ce cas.

100% A 80% A−20% B 60% A−40% B 40% A−60% B 20% A−80% B 100% B Interpolation between Context A and Context B

A

v

er

age agents implication (top: Conte

xt A, bottom: Conte xt B) 0 20 40 60 80 100 Conte xt A Conte xt B

Fig. 4.17:Pourcentage de participation des agents spécialisés dans les contextes A et B face à des contextes

interpolés.

La figure 4.17 permet de visualiser la participation de chacun des agents dans la construction de la représentation du système pour chaque contexte simulé. Cette participation est estimée en comptant le nombre de sélections de lien perception-action émanant d’un agent en particulier. La partie gauche du diagramme montre que les agents spécialisés dans le contexte A contribuent quasiment exclusivement à la construction de la représentation du système. Le mélange des agents est moins prévisible lorsque le contexte se rapproche de B. On aurait d’ailleurs pu s’attendre à ce que les agents du contexte B atteignent quasiment 100% d’implication dans le cas du contexte B. En réalité, certains éléments des politiques d’action respectives des agents peuvent être les mêmes. Dans ce cas, le

modèle choisit la politique qui, en moyenne, donne les meilleures récompenses. Cela passe par l’adéquation de la discrétisation à l’environnement rencontré. Il y a en effet deux façons d’améliorer la performance d’un système : se rapprocher d’un contexte proche de la discrétisation disponible, ou permettre au modèle d’affiner sa représentation en générant de nouvelles discrétisations.

4.4.4 Affinage de la représentation

La construction de la représentation d’un agent autonome est itérative et son apprentissage s’effectue en réalité tout au long de son existence. La phase d’amorçage de cette construction est cruciale pour permettre au système de démarrer sur de bonnes bases. Nous avons proposé des mécanismes concurrents permettant de réaliser cette tâche, en profitant des expériences individuelles des agents discrétiseurs. Le système est donc capable d’interagir précisément dans les contextes qu’il a déjà rencontrés. Sa capacité d’adaptation (section précédente) lui permet de faire dynamiquement et temporairement évoluer sa représentation pour des contextes proches. En revanche, la performance atteinte par le système semble bornée. Cela est du au modèle de discrétisation qui repose sur un découpage statique. On peut bien sûr imaginer d’utiliser des algorithmes de discrétisation en-ligne (type GNG [68]) qui convergeront quand même au bout d’un certain temps et limiteront donc l’amélioration du découpage (même dans le cas d’un couplage de la discrétisation et des récompenses [204]). Notre solution passe par la proposition d’un nouveau type d’agent nommé "associateur" et présenté en détail dans la partie 4.3.5. Le principe de base est de considérer l’ajout des intersections entre les états des agents discrétiseurs.

L’objectif de cette expérimentation est de montrer l’effet des agents associateurs sur l’évolution de la performance. Pour cela, nous proposons de reprendre le cadre de l’expérimentation menée en section 4.4.2.1 et la figure 4.12 associée. Les résultats ont donc aussi été produits en répétant 100 fois des scénarios de 100000 itérations avec un environnement aléatoire différent. Trois implémentations du modèle sont comparées : une implémentation avec 3 discrétiseurs (ayant respectivement 3, 5 et 7 classes ; même cas que dans la figure 4.12) et deux implémentations avec un agent associateur. La différence entre ces deux dernières implémentations réside dans la méthode d’activation des états intersection : dans le premier cas ils sont tous activés dès le début (en vert sur la figure 4.18) et dans le second cas (en bleu), la stratégie d’activation présentée dans la section 4.3.5 est en place. Les paramètres choisis sont :

— niveau de l’associeur : 1

— bonus d’activation : 500 itérations — bonus d’usage : 2 itérations — valeur de décroissance : 1 itération

Ces paramètres (voir section 4.3.5) permettent de s’assurer qu’un état activé dispose de suffisam-ment de temps pour qu’il puisse prendre le dessus sur d’autres états (temps minimum d’assimilation garanti) tout en limitant ses effets néfastes s’il détériore la représentation. Le bonus d’usage est logiquement supérieur à la valeur de décroissance pour encourager l’utilisation des états agrégés. Ces paramètres peuvent être ajustés pour limiter la baisse de performance ou au contraire favoriser l’exploration des nouveaux états créés par les associateurs.

Les résultats obtenus dans la figure 4.18 sont présentés à différents stades des simulations. Le com-portement du modèle montre en effet deux phases relativement distinctes : une phase d’exploration

0.0

0.2

0.4

0.6

0.8

1.0

Temps

Performance

0 10000 30000 50000 75000 100000

Pas d'agent associateur (3 discrétiseurs avec 3-5-7 classes)