Réutilisabilité et “scalabilité” - Application/Expériences

Partie I Deux domaines 11

6.3 Application/Expériences

6.3.3 Réutilisabilité et “scalabilité”

L’intérêt d’une méthode de sélection d’action ne réside pas uniquement dans sa capacité à résoudre un problème donné. On va donc voir ici si notre approche permet de réutiliser les paramètres appris, c’est-à-dire voir dans quelle mesure elle est “scalable”.

6.3.3.1 Expériences effectuées

Pour l’instant, les tests se sont concentrés sur l’efficacité de la combinaison de comportements de base. Un point qui n’a pas encore été pris en compte est la possibilité de réutiliser des paramètres d’une situation à l’autre. C’est le sujet de ces dernières expériences, qui s’organisent en deux parties :

1. Dans la table 6.3 est comparé l’apprentissage de paramètres dans le cas 2-tuiles/2-trous (désormais noté (2 + 2)) quand ils sont initialisés soit avec des valeurs nulles, soit avec la valeur moyenne des meilleurs paramètres appris dans les cas (1 + 2) et (2 + 1).

2. Puis, la table 6.4 montre l’efficacité des différentes combinaisons quand on réutilise les meilleurs paramètres pour (2 + 2) dans des situations mettant en jeu un plus grand nombre d’objets.

TAB. 6.3 – L’apprentissage est-il meilleur quand on réutilise des paramètres ?

Initialisation combinaisons normales ...avec comportement aléatoire

en partant de zéro 0 5000 10000 15000 1 2 3 4 5 6 error mean Q-learning 0 5000 10000 15000 1 2 3 4 5 6 error mean Q-learning

en réutilisant des paramètres

0 5000 10000 15000 1 2 3 4 5 6 error mean Q-learning 0 5000 10000 15000 1 2 3 4 5 6 error mean Q-learning

TAB. 6.4 – A quel point peut-on réutiliser des paramètres ?

#tuiles + trous combinaisons normales ...avec comportement aléatoire

2 + 2 0 5000 10000 15000 1 2 3 4 5 6 mean 0 5000 10000 15000 1 2 3 4 5 6 mean 3 + 2 0 5000 10000 15000 1 2 3 4 5 6 mean 0 5000 10000 15000 1 2 3 4 5 6 mean 2 + 3 0 5000 10000 15000 1 2 3 4 5 6 mean 0 5000 10000 15000 1 2 3 4 5 6 mean

6.3.3.2 Analyse des résultats

La première table de figures montre clairement l’intérêt qu’on a à ne pas commencer l’adaptation des paramètres en partant de zéro. Les paramètres de départ calculés donnent de bonnes initialisations : les niveaux moyens d’efficacité obtenus sont notablement meilleurs et plus stables. Même s’il peut être nécessaire d’apprendre avec précaution les paramètres dans les deux cas simples ((1 + 2) et (2 + 1)), c’est un travail effectué pour le long terme.

Comme l’illustre la dernière table, quelques combinaisons semblent mieux “passer à l’échelle”, puis-qu’une simple réutilisation de bons paramètres du cas (2 + 2) amène à des résultats très stables et très satisfaisants. C’est particulièrement remarquable dans les approches 4 et 6, ce qui fournit un argument en faveur de ces deux méthodes dans lesquelles les poids dépendent aussi de l’action. Ces algorithmes computationnellement plus complexes peuvent s’avérer intéressants avec un nombre croissant de com-portements à combiner. D’autres exemples que le monde des tuiles devront toutefois être expérimentés pour renforcer cette hypothèse.

6.4 Conclusion

Après avoir discuté des approches existantes dans le domaine de la sélection d’action et de la dé-composition de PDM (chapitre 5), le présent chapitre a proposé une architecture de sélection d’action se basant sur des comportements de base appris par renforcement, et répondant aux souhaits que nous avions formulés :

– que ce soit une hiérarchie de type flux libre (de façon à trouver un compromis parmi les compor-tements concurrents),

– que le comportement produit soit stochastique (ce qui évite dans une certaine mesure de provoquer des blocages), et enfin

– que les paramètres de la combinaison soient, dans la mesure du possible, réglés automatiquement (en faisant appel à des outils classiques d’optimisation).

Les travaux effectués ont dans l’ensemble répondu à ces attentes, même s’il ne s’agit que d’heuris-tiques, et qu’on peut toujours se demander si une autre forme de combinaison ne serait pas meilleure. Ils ont aussi soulevé quelques difficultés persistantes ou aspects intéressants, parmi lesquels on peut citer :

– la réutilisabilité des paramètres θ appris : ils peuvent efficacement servir de base dans des situations plus complexes que celles auxquelles ils étaient dédiés ;

– l’intérêt, même s’il reste limité, d’ajouter un comportement de base “aléatoire” qui permet d’ajou-ter du bruit, et de sortir de blocages persistants ; et

– ces mêmes blocages qui font penser que, si un comportement combiné peut être très loin des performances optimales, il est probablement assez proche d’un bon comportement (à ces situations de blocages près).

De cette dernière remarque est venue l’idée de faire un apprentissage de politique sur la base d’une politique combinée. C’est cette idée que le chapitre 7 va aborder.

Apprentissage incrémental sur la base

d’une combinaison

Sommaire

7.1 Motivation . . . 160

7.1.1 Apprendre des règles d’“exception” . . . 160

7.1.2 Apprendre de nouveaux comportements de base . . . 161

7.2 Description . . . 161

7.2.1 Principe . . . 162

7.2.2 Compléments . . . 162

7.2.2.1 Estimation des Q-valeurs . . . 162

7.2.2.2 Et en ce qui concerne les récompenses ? . . . 163

7.3 Expériences . . . 164

7.3.1 Méthodologie . . . 165

7.3.2 Résultats et Analyse . . . 165

7.3.2.1 Chute dans des optima locaux . . . 166

7.3.2.2 Temps de calcul . . . 167

7.4 Conclusion . . . 168

Au cours du chapitre précédent a été menée une étude sur notre approche de combinaison de com-portements. Cette étude a révélé que, pour les formes de combinaisons efficaces trouvées, la politique obtenue est généralement “proche d’une bonne politique” : la grande majorité des actions proposées sont de bonnes décisions, et seules quelques situations sont mal traîtées, provoquant de coûteux blocages (des culs-de-sac dont l’agent ne sait sortir).

Cette constatation nous a conduit à l’idée que, comme une politique ainsi produite “ressemble” a une bonne solution, elle pourrait efficacement faire office d’initialisation pour une recherche directe de politique (un apprentissage complet, et non plus une simple combinaison). Cela permettrait même de calculer un nouveau comportement simple (voir définition 8 en page 141), dans la perspective de s’en servir éventuellement comme nouveau comportement de base.

En suivant cette idée, ce court chapitre va, en section 7.1, appeler l’attention de manière approfondie sur les raisons de ce nouveau développement, montrer dans la section 7.2 le principe sur lequel il est basé, et finalement discuter (section 7.3) de son efficacité en pratique sur le banc d’essai qu’est pour nous le monde des tuiles.

Note : Le travail présenté dans ce chapitre (comme dans le chapitre suivant d’ailleurs) ne s’applique

pas de manière exclusive à l’une ou l’autre combinaison étudiée au chapitre précédent47. Ainsi, on se limitera à une étude effectuée dans le cadre de la combinaison 4 (voir table 6.1). Si ce n’est pas de manière évidente la meilleure combinaison, elle reste une des plus satisfaisante (et des plus naturelles, du fait de son caractère additif).

7.1 Motivation

La raison principale ayant motivé un nouvel algorithme est la nécessité de dépasser des situations que l’on peut qualifier de “non-linéaires”. Comme on l’a expliqué en section 6.3.1.2 (et comme illustré sur les figures 6.6 et 6.7) certaines configurations ne peuvent trouver de solution par l’intermédiaire d’une combinaison linéaire de comportements de base. Ces configurations requièrent la prise en compte

simultanée d’un plus grand nombre d’éléments parmi ceux présents dans la perception à gérer.

Pour répondre à cette difficulté, deux solutions ont été considérées :

Dans le document Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs (Page 178-183)