• Aucun résultat trouvé

à la distinction des diérentes actions jointes. Cependant, une limitation évidente est l'explosion combinatoire de la taille des listes. Une version par  liste réduite  est donc proposée par [LR04]. Elle utilise une taille limite pour les listes et réinitialise une partie de la liste après un certain nombre d'épisodes. Seuls les indices avec les meilleures éva- luations sont donc conservés. Cet algorithme a été testé expérimentalement avec succès sur le jeu Climbing bruité. Malgré cela, son utilisation dans des jeux de Markov semble dicile. C'est pourquoi les auteurs proposent l'utilisation de fonctions d'approximation avec cet algorithme dans [GR06].

6.8 Bibliothèque d'outils pour l'apprentissage par renforce-

ment

L'ensemble des expérimentations eectuées dans ce mémoire ont été réalisées avec une bibliothèque d'outils pour Matlab-Simulink pour l'apprentissage par ren- forcement, nommée BOSAR. Cette bibliothèque est sous licence GNU GPL et a été développée en C/C++ durant cette thèse. Elle est disponible en libre accès sur le site http ://www.lab.cnrs.fr/openblockslib/. C'est une bibliothèque de fonctions qui permet de développer et d'étudier les algorithmes d'apprentissage par renforcement. L'ensemble des algorithmes présentés dans ce mémoire ainsi que tous les benchmarks qui y sont uti- lisés sont implantés dans BOSAR et documentés dans une aide en ligne. Ces benchmarks sont aussi détaillés à l'annexe B.

Table 6.6  Caractéristiques des algorithmes décentralisés d'apprentissage par renfor- cement pour agents indépendants dans les jeux d'équipe.  NT  signie que la caracté- ristique n'a pas été testée.

Jeux matriciels Jeux deMark

ov

Sélection d'équilibres Équilibres cac

hés En viron neme nt sto chastique Stratégie d'exploration Q-Learning 3 3 3 3 GLIE

décentralisé [WD92] avec GLIE partiellement

Q-Learning 3 3 3 3 stationnaire

distribué [LR00]

Agents indulgents 3 NT NT NT GLIE

[PSL06]

WoLF PHC [BV02] 3 3 3 NT stationnaire

FMQ [KK02] 3 3 3 3 GLIE

avec GLIE partiellement

Q-learning 3 3 3 3 stationnaire

indicé [LR04]

6.9 Conclusion

Dans ce chapitre a été proposé un état de l'art des algorithmes d'apprentissage par renforcement pour agents indépendants dans le cadre des jeux de Markov d'équipe. Les caractéristiques de ces algorithmes sont synthétisées à la table6.6. Notamment sont pré- cisés les facteurs de non coordination que chaque algorithme surmonte parmi les trois facteurs identiés dans le chapitre précédent. De plus, la stratégie d'exploration utilisée avec chaque algorithme est précisée. En eet, un des enjeux de l'apprentissage d'agents indépendants est la robustesse face à l'exploration. Nous avons vu dans ce chapitre qu'une stratégie d'exploration GLIE est dicile à régler car elle nécessite le plus souvent une forte expertise du comportement de l'algorithme d'apprentissage. La robustesse des algorithmes d'apprentissage utilisant une stratégie GLIE est donc faible. De plus, une telle stratégie est aussi dicilement utilisable dans la pratique.

Au vu de cette synthèse, nous pouvons mettre en avant certains de ces algorithmes qui vont se révéler intéressants pour la suite de notre travail. Tout d'abord, le Q-learning distribué est le seul algorithme applicable dans les jeux de Markov d'équipe déterministes et qui possède une preuve de convergence vers un équilibre de Nash Pareto optimal dans ce cadre. Il est de plus robuste face à l'exploration. Son unique handicap est de ne pas surmonter la diculté d'environnements stochastiques. Les deux algorithmes capables de maîtriser cet obstacle sont le Q-learning indicé et le FMQ. Le premier n'est pas appli- cable dans les jeux de Markov à cause d'une explosion combinatoire de la taille des listes

utilisées. Le second a quant à lui deux limitations principales : son manque de robustesse face à la stratégie d'exploration et son cadre d'application limité aux jeux matriciels. Ces deux limitations seront étudiées dans le chapitre suivant.

L'état de l'art et la notation uniforme qui ont été proposés dans ce chapitre ont aussi permis de mettre en avant de nombreux points communs entre certains algorithmes, et notamment entre le Q-learning distribué et le FMQ. Nous nous intéressons donc dans le chapitre suivant à ces deux algorithmes, et plus particulièrement au FMQ, dont l'intérêt majeur est d'être capable de faire la distinction entre le bruit dû aux récompenses sto- chastiques et le bruit dû aux comportements des autres agents dans des jeux partiellement bruités.

Chapitre

7

SOoN et Q-learning hyst´er´etique

Ce chapitre décrit deux algorithmes d'apprentissage par renforcement pour agents indépendants développés dans le cadre des jeux de Markov d'équipe : le Q-learning hystérétique et le Swing between Optimistic or Neutral (SOoN). La démarche de développement de ces deux méthodes est détaillée, notamment à travers l'étude du Frequency Maximum Q-value et l'étude de la robustesse de ces algorithmes face aux diérents enjeux de l'apprentissage. Les résultats expérimentaux obtenus sur divers jeux de Markov sont également présentés.

7.1 Introduction

C

e chapitre est consacré à l'étude de nouveaux algorithmes d'apprentissage par ren- forcement multiagents situés dans le cadre des jeux de Markov d'équipe. Les hypo- thèses retenues dans ce chapitre sont que les agents sont indépendants, ont une observa- bilité totale et doivent apprendre à se coordonner. Pour cela, ils doivent notamment faire face à diérents enjeux de l'apprentissage présentés précédemment dans ce mémoire (cf. chapitre5). Parmi ces dicultés, nous nous intéressons aux facteurs de non-coordination et à la robustesse face à l'exploration. Les environnements stochastiques sont particuliè- rement étudiés dans ce chapitre. L'objectif est donc de trouver des algorithmes robustes face à l'exploration et capables de surmonter les facteurs de non-coordination dans les jeux de Markov d'équipe.

L'état de l'art proposé au chapitre précédent a mis en évidence deux algorithmes : le Q-learning distribué qui possède une preuve de convergence vers un équilibre de Nash Pareto optimal dans tous jeux de Markov d'équipe déterministes, et l'algorithme du Fre- quency Maximum Q-value (FMQ), capable de découpler le bruit dû à la non-coordination des agents du bruit dû à l'environnement dans les jeux matriciels. Cet algorithme propose donc une technique intéressante de détection de la stochasticité d'un jeu. An d'atteindre notre objectif, nous nous intéressons à ces deux algorithmes qui présentent de nombreux points communs et dont la réunion des caractéristiques de chacun va permettre de faire

face à diérents enjeux de l'apprentissage.

Deux algorithmes sont proposés dans ce chapitre. Le premier repose sur une ex- tension du Q-learning décentralisé. La modication apportée consiste à utiliser deux vitesses d'apprentissage de sorte à obtenir des agents  à forte tendance optimiste , ap- pelés agents hystérétiques. Le second algorithme est issu d'une étude de l'algorithme du FMQ. En eet, celui-ci présente diverses limitations qui doivent être améliorées an d'envisager une extension au cadre multi-état. Cette étude aboutit au développement d'une version modiée du FMQ plus robuste à l'exploration. Elle associe une nouvelle heuristique à une fréquence détectant la stochasticité du jeu. Grâce à ses modications, une extension aux jeux de Markov est proposée. L'étude de cette nouvelle heuristique et du calcul adapté de la fréquence selon le cadre choisi est l'élément fondamental de l'algorithme proposé. Ces deux algorithmes sont testés sur diérentes applications mul- tiagents.