Martin Lauer et Martin Riedmiller [LR00] proposent un algorithme décentralisé pour agents indépendants dans le cadre des jeux de Markov d'équipe appelé Q-learning dis- tribué3. Les politiques calculées par cet algorithme sont des politiques déterministes.
Cet algorithme est capable de résoudre les deux facteurs de non-coordination présents dans les environnements déterministes. Le phénomène d'équilibres cachés est évité grâce
à l'emploi d'agents indépendants optimistes qui apprennent des politiques indivi- duelles optimales. Dans le cas où diérents équilibres optimaux existent, un mécanisme de sélection d'équilibres est utilisé pour régler le second facteur de non-coordination. 6.3.1 Agents indépendants optimistes
La caractéristique d'agents optimistes est d'ignorer dans leur équation de mise à jour les pénalités reçues qui sont souvent dues à une non-coordination des agents. Ainsi, un agent optimiste met à jour la valeur d'un couple état-action selon le Q-learning seulement si la mise à jour entraîne une amélioration de la valeur courante de ce couple. L'environnement est déterministe par hypothèse donc le coecient d'apprentissage α est choisi égal à 1. Un agent optimiste i maintient les valeurs de sa table individuelle Qipour
un couple état-action (s, ai)selon l'équation de mise à jour du Q-learning distribué, i.e. :
Qi(s, ai) ← max Qi(s, ai), R(s, hai,a−ii) + γ max b∈Ai Qi(s0, b) . (6.2)
Les tables Qi d'agents optimistes vérient l'hypothèse optimiste (cf. équation5.11).
En eet, on a le théorème suivant :
Théorème 6.1 [LR00] Soit M = hm, S, A1, ..., Am, T, Ri un jeu de Markov d'équipe
déterministe. Si :
∀s ∈ S ∀a ∈ A R(s, a) ≥ 0,
∀i ∀s ∈ S ∀ai ∈ Ai les valeurs des tables Qi(s, ai) sont initialisées à 0,
∀i les fonctions locales Qi sont mises à jour selon l'équation 6.2,
la fonction globale Q est mise à jour selon l'équation du Q-learning et initialisée à 0,
les tables Q et Qi sont mises à jour avec les mêmes séquences d'états et d'actions,
alors, à chaque itération :
∀i ∀s ∈ S ∀ai∈ Ai Qi(s, ai) = max
u−i∈A−i
Q(s, hai,u−ii). (6.3)
Preuve 6.1 [LR00]
A l'état initial t = 0, les deux tables sont initialisées à 0 donc l'équation 6.3 est vraie.
L'égalité étant supposée vraie à l'instant t, nous devons démontrer l'égalité 6.3 à l'instant t + 1. Soit un agent j dans l'état st à l'instant t, ayant eectué l'action
individuelle aj,t, dont l'action jointe at = haj,t,a−j,ti fait évoluer le système dans
un nouvel état st+1 et où tous les agents reçoivent la récompense R(st,at). On a :
Qj,t(st, aj,t) = max
u−j∈A−j
La fonction Qj est mise à jour selon l'équation du Q-learning distribué (équa- tion 6.2) donc : Qj,t+1(st, aj,t) = max Qj,t(st, aj,t), R(st,at) + γ max b∈Aj Qj,t(st+1, b) = max max u−j∈A−j Qt(st, haj,t,u−ji), R(st,at) + γ max v∈AQt(st+1,v) (6.5) d'après l'hypothèse de récurrence (équation 6.4).
La fonction globale Q est mise à jour selon l'équation du Q-learning centralisé en environnement déterministe donc :
Qt+1(st,at) = R(st,at) + γ max v∈AQt(st+1,v). (6.6) On obtient alors : Qj,t+1(st, aj,t) = max max u−j∈A−j Qt(st, haj,t,u−ji), Qt+1(st,at) = max Qt(st,at), max u−j∈A−j u−j6=a−j,t Qt(st, haj,t,u−ji), Qt+1(st,at) (6.7) Étant donnée l'équation de mise à jour de la fonction Q en environnement dé- terministe, la positivité de la fonction R et l'initialisation à zéro de Q pour tout couple du système, on en déduit que les valeurs de la fonction Q sont monotones par rapport à t, i.e. Qt(s,a) ≤ Qt+1(s,a) ∀(s, a) ∈ S × A. D'où :
Qj,t+1(st, aj,t) = max max u−j∈A−j u−j6=a−j,t Qt(st, haj,t,u−ji), Qt+1(st,at) (6.8) De plus, la valeur de la fonction Q pour le couple (st,ut) avec ut 6=at n'est pas
modiée entre l'instant t et l'instant t + 1, donc :
Qj,t+1(st, aj,t) = max max u−j∈A−j u−j6=a−j,t Qt+1(st, haj,t,u−ji), Qt+1(st,at) = max u−j∈A−j Qt+1(st, haj,t,u−ji) (6.9)
Ainsi, tout agent optimiste est capable de déterminer la fonction de valeur locale optimale dans un jeu de Markov d'équipe déterministe. Dans ce cas, les actions individuelles gloutonnes sur la fonction de valeur locale optimale d'un agent appartiennent aux actions jointes optimales.
Cependant, nous avons précisé au 5.2.4 que cette condition n'était pas susante. Un mécanisme de sélection d'équilibres doit être mis en place pour éviter l'ambiguïté sur le choix d'un équilibre.
6.3.2 Mécanisme de sélection d'équilibres pour agents optimistes Un mécanisme additionnel de sélection d'équilibres est utilisé pour les agents opti- mistes par Martin Lauer et Martin Riedmiller [LR00]. Ce mécanisme, inspiré par les travaux de Craig Boutilier [Bou96], consiste à poser des règles permettant de lever l'am- biguïté sur le choix d'une action individuelle optimale. Un tel mécanisme est appelé une convention [ST92].
Une convention est donc utilisée pour mettre à jour la politique πi de chaque agent,
maintenue parallèlement aux tables Qi. La contrainte imposée par la convention est que
chaque agent i mette à jour sa politique courante déterministe πidans un état s seulement
si l'action choisie ai entraîne une amélioration dans l'évaluation de la valeur Qi(s, ai).
Dans ce cas, la probabilité de choisir cette action dans l'état s est mise à 1. Ainsi, lors de la première occurrence d'une action jointe optimale, les actions individuelles optimales correspondantes sont mémorisées par les politiques et celles-ci ne sont plus jamais modiées.
La loi de mise à jour de chaque politique individuelle est donnée à l'algorithme 5qui détaille le Q-learning distribué pour un agent. Étant donnée l'initialisation, nous suppo- sons que les récompenses sont positives. Toute politique jointe déterministe π calculée par ce mécanisme de coordination avec des agents indépendants optimistes est assurée d'être une politique gloutonne sur la fonction globale Q, i.e. :
∀s ∈ S Q(s, π(s)) = max
u∈AQ(s,u). (6.10)
Une preuve est disponible dans [LR00].
Un des enjeux de l'apprentissage d'agents indépendants, évoqué au 5.4.4, est de maîtriser l'inuence de l'exploration sur l'apprentissage des politiques. Or, l'intérêt prin- cipal du mécanisme de coordination du Q-learning distribué est que la politique optimale apprise par un agent optimiste est indépendante de l'exploration car elle ne peut pas être détruite par des actions d'exploration des autres, contrairement au Q-learning dé- centralisé par exemple (cf. 6.2.1). L'algorithme du Q-learning distribué est donc robuste face à l'exploration dans le sens où l'apprentissage d'une politique peut être simultanée à l'exploration.
Algorithme 5 : Algorithme du Q-learning distribué pour un agent indépendant i dans un jeu de Markov d'équipe
début
Initialiser Qmax,i(s, ai)à 0 et πi(s, ai)arbitrairement pour tout (s, ai)de S × Ai Initialiser l'état initial s
tant que s n'est pas un état absorbant faire
Dans l'état s choisir l'action aiselon la méthode de décision -greedy basée sur πi Exécuter l'action ai et observer le nouvel état s0et la récompense r
q ← r + γ max u∈Ai
Qmax,i(s0, u) si q > Qmax,i(s, ai)alors
Qmax,i(s, ai) ← q . mise à jour optimiste
si Qmax,i(s, arg max u∈Ai
πi(s, u)) 6= max u∈Ai
Qmax,i(s, u)alors Sélectionner amax∈ arg max
u∈Ai
Qmax,i(s, u)aléatoirement
pour tous les u ∈ Ai . sélection d'équilibres
faire si u = amaxalors πi(s, u) ← 1 sinon πi(s, u) ← 0 s ← s0 n
6.3.3 Résultats sur des jeux matriciels
Le Q-learning distribué est donc assuré de surmonter les facteurs de non-coordi- nation présents dans les jeux déterministes. L'autre intérêt de cet algorithme est que grâce à la mise à jour optimiste, la fonction de valeur d'un agent ne peut pas être dé- truite par l'exploration d'un autre agent. La stratégie d'exploration est donc simple ; il sut de permettre un minimum d'exploration pour que tous les couples du système soient visités. Si c'est le cas, l'action jointe optimale aura été choisie au moins une fois et mémorisée par les politiques individuelles. Le Q-learning distribué est donc robuste à l'exploration.
Des résultats sont donnés à la table 6.3. La convergence est eective dans les jeux penalty et Climbing déterministe où sont présents les facteurs d'équilibres cachés et de sélection d'équilibres. Naturellement, les agents échouent dans le jeu Climbing partielle- ment bruité. En eet, pour l'action jointe hb, bi, les récompenses 7 et 14 sont obtenues de manière équiprobable. La récompense moyenne pour cette action jointe est donc infé- rieure à celle de l'action jointe optimale ha, ai. Cependant, des agents optimistes évaluent la valeur de l'action jointe hb, bi par la récompense maximale, c'est-à-dire 14, et donc se coordonnent sur cet équilibre sous-optimal.
Table 6.3 Pourcentage d'épisodes convergeant vers l'action jointe optimale avec le Q-learning distribué (moyenne sur 500 épisodes indépendants). Un épisode consiste en 3000 répétitions et on prend = 0.05. A chaque n d'un épisode, on détermine si l'action jointe gloutonne est optimale.
Jeu simple Jeu Penalty Jeu Climbing
(k = −100) déterministe partiellement bruité
Q-learning 100% 100% 100% 7%
distribué 6.3.4 Synthèse
L'algorithme du Q-learning distribué est donc capable de résoudre les deux facteurs de non-coordination présents dans les environnements déterministes : les équilibres ca- chés et la sélection d'équilibres. De plus, l'enjeu de l'exploration est surmonté grâce au mécanisme de sélection d'équilibres. Chaque agent suit sa politique avec un minimum d'exploration, mais les problèmes d'exploration concurrente et de destruction de poli- tique sont ici évités. Donc, cet algorithme est assuré de converger vers une action jointe optimale dans tous jeux déterministes tout en étant robuste à l'exploration et aux facteurs de non-coordination.