Résultats sur des jeux matriciels d'équipe

7.4 Frequency Maximum Q-value récursif

7.4.3 Résultats sur des jeux matriciels d'équipe

Nous testons l'algorithme du FMQ récursif sur divers jeux matriciels à deux agents et plus. Ces jeux regroupent certains facteurs de non-coordination et permettent de tester si le FMQ récursif surmonte ces enjeux. Un paramètre important de ces essais concerne la stratégie d'exploration et le nombre de répétitions de chaque jeu. Comme précisé pré- cédemment, nous utilisons une stratégie d'exploration stationnaire, plus simple à régler et permettant un choix de αf moins complexe. Cependant, cela implique, lorsque les

agents sont nombreux, un nombre important de répétitions du jeu. En eet, l'exploration de l'espace des actions jointes doit être susante pour que les agents trouvent le ou les actions jointes optimales parmi l'ensemble des actions jointes. Mais l'exploration globale doit être limitée pour éviter un bruit trop important. Or, le nombre d'actions

jointes est exponentiel avec le nombre d'agents. Le nombre de répétitions eectuées est donc croissant avec le nombre d'agents.

Résultats sur des jeux matriciels d'équipe à 2 agents

Tout d'abord, l'algorithme du FMQ récursif est testé sur les jeux matriciels des - gures 5.3à 5.7. Les résultats sont donnés à la table 7.5(méthode de décision -greedy). Cette version récursive converge vers l'action jointe optimale dans les jeux déterministes car les agents sont optimistes et parviennent à se coordonner. Elle parvient aussi à surmonter la diculté de récompenses partiellement bruitées. Par contre, elle ne surmonte pas toujours la diculté de jeux fortement bruités tel que le Climbing bruité. Les raisons sont identiques à celles qui mettent en défaut le FMQ original dans ce jeu (cf. 6.4).

Ainsi, les résultats sont équivalents à ceux obtenus avec le FMQ initial. Mais l'intérêt majeur de cette version récursive est qu'elle est plus robuste face à l'exploration, grâce à un choix du coecient d'apprentissage de la fréquence qui a été précisé selon l'exploration globale choisie. Cela permet d'assurer que la fréquence ne soit pas détruite par l'exploration.

Résultats sur des jeux matriciels d'équipe à n > 2 agents

An de vérier que la fréquence d'occurrence découple bien les diverses causes de bruit, nous choisissons de tester l'algorithme sur des jeux matriciels à plus de 2 agents. En eet, lorsque le nombre d'agents augmente, le bruit dû à l'exploration des agents est alors plus important et donc plus dicile à distinguer du bruit dû à l'environnement. Nous proposons donc d'étendre l'étude au cas où plus de deux agents doivent se coordonner dans des jeux complexes présentant un ou plusieurs facteurs de non-coordination. Nous utilisons une version dérivée du jeu penalty avec un nombre d'agents n > 2. Les agents ont chacun trois actions possibles a, b ou c. Si la moitié des agents ou plus jouent l'action a et que les autres jouent l'action c, ils reçoivent une récompense de 10. Si moins de la moitié des agents jouent l'action a et que les autres jouent l'action c, ils reçoivent une pénalité de −100 car ils ont échoué à se coordonner. Si la moitié des agents ou plus jouent l'action b et que les autres jouent l'action c, ils reçoivent 2. Dans tous les autres cas, une récompense de 0 est reçue. On retrouve dans ce jeu plusieurs équilibres de Nash Pareto optimaux qui correspondent au cas où la moitié des agents ou plus jouent l'action a et que les autres jouent l'action c. Ces équilibres optimaux sont cachés par les pénalités en cas de non-coordination. Sont aussi présents plusieurs équilibres de Nash sous-optimaux lorsque la moitié des agents ou plus jouent l'action b et que les autres jouent l'action c. Ce jeu présente donc plusieurs facteurs compliquant la coordination. De plus, la récompense peut être partiellement bruitée. Dans ce cas, au lieu de recevoir une récompense de 2, les récompenses 12 et 6 sont reçues de manière équiprobable.

Table 7.6 Pourcentage d'épisodes convergeant vers l'une des actions jointes optimales dans le jeu matriciel penalty à n > 2 agents (moyenne sur 500 épisodes indépendants). Les paramètres choisis pour chaque expérience sont disponibles à l'annexe A. A chaque n d'un épisode, on détermine si l'action jointe gloutonne est optimale (x% de convergence vers un équilibre de Nash Pareto optimal) ou sous-optimale (y% de convergence vers un équilibre de Nash sous-optimal). Les résultats sont notés x% [y%].

Q-learning Q-learning WoLF FMQ

décentralisé distribué PHC récursif

n = 3 déterministe 100% [0%] 100% [0%] 100% [0%] 100% [0%] stochastique 98% [2%] 0% [100%] 87% [13%] 99% [1%] n = 4 déterministe 100% [0%] 100% [0%] 100% [0%] 91% [9%] stochastique 6% [94%] 0% [100%] 0% [100%] 92% [8%] n = 5 déterministe 100% [0%] 100% [0%] 100% [0%] 97% [3%] stochastique 10% [90%] 0% [100%] 1% [99%] 94% [6%] Nous testons les algorithmes du Q-learning décentralisé, du Q-learning distribué, du WoLF-PHC et du FMQ récursif dans ce jeu. Les trois premiers algorithmes ont été présentés au chapitre 6. Pour le Q-learning décentralisé, nous utilisons une stratégie d'exploration GLIE car cela permet, si elle est bien paramétrée, d'obtenir de meilleurs résultats avec cet algorithme. Concernant les autres algorithmes, nous choisissons une stratégie stationnaire. Dans chaque cas, l'exploration doit permettre une visite uniforme de l'ensemble des actions jointes. A l'annexe A sont détaillées les valeurs choisies pour ces stratégies. Les résultats sont quant à eux donnés à la table 7.6.

Tout d'abord, le Q-learning décentralisé converge vers l'une des actions jointes optimales dans tous les jeux déterministes avec une stratégie GLIE correctement choisie. Mais lorsque le nombre d'agents augmente, ses performances dans les jeux stochastiques diminuent considérablement. Il est cependant dicile de déterminer si cela est dû à un mauvais choix de la stratégie GLIE ou à une non-robustesse de l'algorithme face à la diculté de récompenses bruitées. De même, le WoLF-PHC est mis en défaut dès que des récompenses stochastiques sont utilisées. Il est cependant intéressant de remarquer que dans les environnements bruités, ces algorithmes convergent alors vers les équilibres de Nash sous-optimaux.

Les résultats obtenus avec le Q-learning distribué sont conformes à l'étude eectuée au 6.3 : les agents optimistes convergent vers une des actions jointes optimales dans tous les jeux déterministes. Par contre, dans les jeux stochastiques, ils convergent vers les équilibres de Nash sous-optimaux car ce sont ces équilibres qui ont la récompense (bruitée) maximale.

Enn, le FMQ récursif obtient les meilleurs résultats sur l'ensemble des jeux testés : il converge vers l'une des actions jointes optimales plus de 9 fois sur 10 avec tous les jeux déterministes et stochastiques. Notamment, lorsque n > 3, on peut remarquer

que le FMQ surpasse largement le Q-learning décentralisé dans les jeux stochastiques. L'évaluation des actions n'est donc pas ici égale aux valeurs de Q mais se situe entre les bornes Q et Qmax. L'interpolation linéaire pour évaluer les actions est donc une

bonne heuristique de mesure des valeurs réelles des actions. 7.4.4 Conclusion

L'algorithme du FMQ récursif proposé dans cette section présente de nombreux inté- rêts. Tout d'abord, contrairement au FMQ original, il peut être utilisé avec une stratégie d'exploration stationnaire, ce qui permet d'éviter le choix parfois complexe des para- mètres de décroissance d'une stratégie GLIE. Cela évite de plus le risque de manque de robustesse face à ces paramètres. Ensuite, un moyen de découpler les diverses causes de bruit dans un jeu multiagent a été proposé et étudié. La fréquence récursive permet notamment de découpler le bruit dû à l'exploration des agents dans des jeux multiagents faiblement bruités. Le réglage du coecient de cette fréquence a été précisé dans cette section en fonction de l'exploration globale choisie, de sorte à obtenir une fréquence robuste à l'exploration des autres.

L'algorithme du FMQ récursif obtenu est proche du Q-learning distribué dans les jeux déterministes. Il est de plus capable de surmonter l'enjeu de récompenses faiblement bruitées, surpassant ainsi les performances des autres algorithmes. L'algorithme du FMQ récursif est donc un algorithme facile d'utilisation capable de résoudre des jeux matriciels d'équipe complexes. Sa robustesse face à l'exploration et face à certains facteurs de non- coordination a été démontrée sur des jeux multiagents (n > 2). Cet algorithme est toutefois restreint au cadre des jeux matriciels. Une extension aux jeux de Markov est donc proposée dans la section suivante.

Dans le document Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement.<br />Application à la commande d'un système distribué de micromanipulation. (Page 160-163)