Choix de β et exploration globale - Le Q-learning hystérétique

7.2 Le Q-learning hystérétique

7.2.3 Choix de β et exploration globale

Lors de notre étude sur les enjeux de l'apprentissage, nous avons évoqué le phéno- mène d'exploration concurrente, c'est-à-dire le bruit perçu par un agent indépendant et causé par l'exploration des autres agents (cf. 5.4.4). An de quantier ce bruit dû à l'exploration, une notion importante dans les systèmes multiagents est celle d'exploration globale. L'exploration globale peut être dénie comme la probabilité qu'au moins un des agents du système explore. Elle peut être exprimée en fonction de l'exploration individuelle de chaque agent. L'exploration individuelle d'un agent est la probabilité que l'agent explore. Elle correspond par exemple à la valeur du paramètre avec la méthode de décision -greedy.

Propriété 7.1 Soit un système à n agents dans lequel chaque agent explore avec une probabilité . Alors, la probabilité qu'au moins l'un d'entre eux explore est ψ = 1−(1−)n_.

ψ est appelé l'exploration globale.

Cette exploration globale ne doit pas dépasser une certaine valeur an d'éviter un bruit trop important. Typiquement, nous suggérons de limiter l'exploration globale à une valeur limite de 0, 2.

Choix de β

Le rôle du coecient d'apprentissage β est de prendre en compte la diminution de la valeur courante d'une action au cas où la récompense serait bruitée, mais ce coecient doit rester assez faible car cette diminution peut aussi être causée par de mauvais comportements des congénères. Notamment, lorsqu'un des autres agents explore, cela peut entraîner une pénalité que l'agent ne doit pas considérer. Donc, plus l'exploration des autres agents est élevée, plus le bruit dû à leurs comportements est important, et donc plus l'agent doit être optimiste. Si une stratégie d'exploration stationnaire est choisie avec le Q-learning hystérétique, on peut alors préconiser de choisir un rapport α

β d'autant plus

grand que l'exploration globale sera élevée. Typiquement et après expérimentations, un rapport de α

β = 10 est conseillé pour une exploration globale de ψ = 0, 1. Cependant,

une étude plus approfondie du choix de ce paramètre pourrait être envisagée. 7.2.4 Résultats sur des jeux matriciels

Nous testons le Q-learning hystérétique sur les jeux matriciels des gures 5.3 à 5.7. La stratégie d'exploration choisie est GLIE. Les résultats sont donnés à la table7.1. Si la stratégie d'exploration est bien réglée, le Q-learning hystérétique converge vers l'une des actions jointes optimales dans les jeux déterministes. Ses résultats sont donc équivalents à ceux du Q-learning distribué et dépassent ceux du Q-learning décentralisé, qui ne converge dans le jeu Climbing déterministe que dans 3% des cas.

Dans le jeu Climbing partiellement bruité, ses résultats sont supérieurs à ceux obtenus avec le Q-learning décentralisé ou le Q-learning distribué. 82% des épisodes convergent

Table 7.1 Pourcentage d'épisodes convergeant vers l'action jointe optimale avec le Q- learning hystérétique (moyenne sur 100 épisodes indépendants). Un épisode consiste en 3000 répétitions. La stratégie d'exploration choisie est GLIE. On pose α = 0, 1, β = 0, 01 et τ = 5000e−0,003t_{. A chaque n d'un épisode, on détermine si l'action jointe gloutonne}

est optimale (x% de convergence vers un équilibre de Nash Pareto optimal) ou sous- optimale (y% de convergence vers un équilibre de Nash sous-optimal). Les résultats sont notés x% [y%].

Jeu simple Jeu Penalty Jeu Climbing

(k = −100) déterministe partiellement bruité bruité

Q-learning 100% 100% 100% 82%[18%] 0%[100%]

hystérétique

vers l'équilibre de Nash Pareto optimal et 18% vers l'équilibre de Nash sous-optimal. Les évaluations hystérétiques semblent donc plus proches des valeurs réelles.

Par contre, dans le jeu Climbing bruité, le Q-learning hystérétique converge à 100% vers l'équilibre de Nash sous-optimal.

Le Q-learning hystérétique surpasse donc le Q-learning décentralisé en déjouant la diculté d'équilibres cachés grâce à ses deux vitesses d'apprentissage. De plus, dans les jeux partiellement bruités, le fait de ne pas ignorer totalement les pénalités permet aux agents hystérétiques d'obtenir de meilleurs résultats que les agents optimistes.

D'autres tests du Q-learning hystérétique seront eectués sur divers jeux de Markov multiagents à la section 7.6.

7.2.5 Conclusion

Grâce à deux coecients d'apprentissage, l'algorithme du Q-learning hystérétique donne la possibilité d'inuencer diéremment les vitesses de croissance et de décrois- sance des valeurs de Qi. En d'autres termes, il procure l'avantage de pouvoir doser

l'optimisme des agents. De cette manière, le Q-learning hystérétique peut surmonter la diculté d'équilibres cachés. Il réussit aussi la coordination d'agents indépendants dans certains jeux partiellement bruités.

Cependant, le Q-learning hystérétique, de même que le Q-learning décentralisé, est sensible à la stratégie d'exploration choisie, qui inue fortement sur la convergence. Dans les jeux matriciels, la convergence de l'algorithme dépend d'une stratégie d'exploration GLIE bien choisie. Les meilleurs résultats dans les jeux matriciels ont été obtenus avec une stratégie GLIE. Le choix du paramètre β doit aussi être fait en fonction de l'exploration globale. Or, avec une stratégie GLIE, ce choix peut s'avérer complexe alors qu'il pourrait être précisé de manière simple avec une stratégie stationnaire.

Cet algorithme ne satisfait donc pas à l'objectif de robustesse xé au départ. La robustesse de cet algorithme face à l'exploration doit donc être améliorée.

Malgré ses limitations et les améliorations qu'il reste à apporter à cet algorithme, le principe des agent hystérétiques est une manière simple de mettre en oeuvre une évaluation qui se situe entre l'optimiste et la moyenne. Les résultats obtenus sur les jeux matriciels ainsi que sur les jeux de Markov (cf. 7.6) conrment la pertinence de cette évaluation hystérétique. Le principe des agents hystérétiques pourrait aussi être étendu à d'autres algorithmes décentralisés d'apprentissage par renforcement. Particulièrement, il pourrait être appliqué à des versions décentralisées des algorithmes TD(λ).

Dans le document Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement.<br />Application à la commande d'un système distribué de micromanipulation. (Page 149-151)