Q-learning distribué - Synthèse d'agents adaptatifs et coopératifs par apprentissage par renfor

Martin Lauer et Martin Riedmiller [LR00] proposent un algorithme décentralisé pour agents indépendants dans le cadre des jeux de Markov d'équipe appelé Q-learning dis- tribué3_{. Les politiques calculées par cet algorithme sont des politiques déterministes.}

Cet algorithme est capable de résoudre les deux facteurs de non-coordination présents dans les environnements déterministes. Le phénomène d'équilibres cachés est évité grâce

à l'emploi d'agents indépendants optimistes qui apprennent des politiques individuelles optimales. Dans le cas où diérents équilibres optimaux existent, un mécanisme de sélection d'équilibres est utilisé pour régler le second facteur de non-coordination. 6.3.1 Agents indépendants optimistes

La caractéristique d'agents optimistes est d'ignorer dans leur équation de mise à jour les pénalités reçues qui sont souvent dues à une non-coordination des agents. Ainsi, un agent optimiste met à jour la valeur d'un couple état-action selon le Q-learning seulement si la mise à jour entraîne une amélioration de la valeur courante de ce couple. L'environnement est déterministe par hypothèse donc le coecient d'apprentissage α est choisi égal à 1. Un agent optimiste i maintient les valeurs de sa table individuelle Qipour

un couple état-action (s, ai)selon l'équation de mise à jour du Q-learning distribué, i.e. :

Qi(s, ai) ← max Qi(s, ai), R(s, hai,a−ii) + γ max b∈Ai Qi(s0, b) . (6.2)

Les tables Qi d'agents optimistes vérient l'hypothèse optimiste (cf. équation5.11).

En eet, on a le théorème suivant :

Théorème 6.1 [LR00] Soit M = hm, S, A1, ..., Am, T, Ri un jeu de Markov d'équipe

déterministe. Si :

∀s ∈ S ∀a ∈ A R(s, a) ≥ 0,

∀i ∀s ∈ S ∀ai ∈ Ai les valeurs des tables Qi(s, ai) sont initialisées à 0,

∀i les fonctions locales Qi sont mises à jour selon l'équation 6.2,

la fonction globale Q est mise à jour selon l'équation du Q-learning et initialisée à 0,

les tables Q et Qi sont mises à jour avec les mêmes séquences d'états et d'actions,

alors, à chaque itération :

∀i ∀s ∈ S ∀ai∈ Ai Qi(s, ai) = max

u−i∈A−i

Q(s, hai,u−ii). (6.3)

Preuve 6.1 [LR00]

A l'état initial t = 0, les deux tables sont initialisées à 0 donc l'équation 6.3 est vraie.

L'égalité étant supposée vraie à l'instant t, nous devons démontrer l'égalité 6.3 à l'instant t + 1. Soit un agent j dans l'état st à l'instant t, ayant eectué l'action

individuelle aj,t, dont l'action jointe at = haj,t,a−j,ti fait évoluer le système dans

un nouvel état st+1 et où tous les agents reçoivent la récompense R(st,at). On a :

Qj,t(st, aj,t) = max

u−j∈A−j

La fonction Qj est mise à jour selon l'équation du Q-learning distribué (équa- tion 6.2) donc : Qj,t+1(st, aj,t) = max Qj,t(st, aj,t), R(st,at) + γ max b∈Aj Qj,t(st+1, b) = max max u−j∈A−j Qt(st, haj,t,u−ji), R(st,at) + γ max v∈AQt(st+1,v) (6.5) d'après l'hypothèse de récurrence (équation 6.4).

La fonction globale Q est mise à jour selon l'équation du Q-learning centralisé en environnement déterministe donc :

Qt+1(st,at) = R(st,at) + γ max v∈AQt(st+1,v). (6.6) On obtient alors : Qj,t+1(st, aj,t) = max max u−j∈A−j Qt(st, haj,t,u−ji), Qt+1(st,at) = max      Qt(st,at), max u−j∈A−j u−j6=a−j,t Qt(st, haj,t,u−ji), Qt+1(st,at)      (6.7) Étant donnée l'équation de mise à jour de la fonction Q en environnement dé- terministe, la positivité de la fonction R et l'initialisation à zéro de Q pour tout couple du système, on en déduit que les valeurs de la fonction Q sont monotones par rapport à t, i.e. Qt(s,a) ≤ Qt+1(s,a) ∀(s, a) ∈ S × A. D'où :

Qj,t+1(st, aj,t) = max      max u−j∈A−j u−j6=a−j,t Qt(st, haj,t,u−ji), Qt+1(st,at)      (6.8) De plus, la valeur de la fonction Q pour le couple (st,ut) avec ut 6=at n'est pas

modiée entre l'instant t et l'instant t + 1, donc :

Qj,t+1(st, aj,t) = max      max u−j∈A−j u−j6=a−j,t Qt+1(st, haj,t,u−ji), Qt+1(st,at)      = max u−j∈A−j Qt+1(st, haj,t,u−ji) (6.9)

Ainsi, tout agent optimiste est capable de déterminer la fonction de valeur locale optimale dans un jeu de Markov d'équipe déterministe. Dans ce cas, les actions individuelles gloutonnes sur la fonction de valeur locale optimale d'un agent appartiennent aux actions jointes optimales.

Cependant, nous avons précisé au 5.2.4 que cette condition n'était pas susante. Un mécanisme de sélection d'équilibres doit être mis en place pour éviter l'ambiguïté sur le choix d'un équilibre.

6.3.2 Mécanisme de sélection d'équilibres pour agents optimistes Un mécanisme additionnel de sélection d'équilibres est utilisé pour les agents optimistes par Martin Lauer et Martin Riedmiller [LR00]. Ce mécanisme, inspiré par les travaux de Craig Boutilier [Bou96], consiste à poser des règles permettant de lever l'am- biguïté sur le choix d'une action individuelle optimale. Un tel mécanisme est appelé une convention [ST92].

Une convention est donc utilisée pour mettre à jour la politique πi de chaque agent,

maintenue parallèlement aux tables Qi. La contrainte imposée par la convention est que

chaque agent i mette à jour sa politique courante déterministe πidans un état s seulement

si l'action choisie ai entraîne une amélioration dans l'évaluation de la valeur Qi(s, ai).

Dans ce cas, la probabilité de choisir cette action dans l'état s est mise à 1. Ainsi, lors de la première occurrence d'une action jointe optimale, les actions individuelles optimales correspondantes sont mémorisées par les politiques et celles-ci ne sont plus jamais modiées.

La loi de mise à jour de chaque politique individuelle est donnée à l'algorithme 5qui détaille le Q-learning distribué pour un agent. Étant donnée l'initialisation, nous suppo- sons que les récompenses sont positives. Toute politique jointe déterministe π calculée par ce mécanisme de coordination avec des agents indépendants optimistes est assurée d'être une politique gloutonne sur la fonction globale Q, i.e. :

∀s ∈ S Q(s, π(s)) = max

u∈AQ(s,u). (6.10)

Une preuve est disponible dans [LR00].

Un des enjeux de l'apprentissage d'agents indépendants, évoqué au 5.4.4, est de maîtriser l'inuence de l'exploration sur l'apprentissage des politiques. Or, l'intérêt prin- cipal du mécanisme de coordination du Q-learning distribué est que la politique optimale apprise par un agent optimiste est indépendante de l'exploration car elle ne peut pas être détruite par des actions d'exploration des autres, contrairement au Q-learning dé- centralisé par exemple (cf. 6.2.1). L'algorithme du Q-learning distribué est donc robuste face à l'exploration dans le sens où l'apprentissage d'une politique peut être simultanée à l'exploration.

Algorithme 5 : Algorithme du Q-learning distribué pour un agent indépendant i dans un jeu de Markov d'équipe

début

Initialiser Qmax,i(s, ai)à 0 et πi(s, ai)arbitrairement pour tout (s, ai)de S × Ai Initialiser l'état initial s

tant que s n'est pas un état absorbant faire

Dans l'état s choisir l'action aiselon la méthode de décision -greedy basée sur πi Exécuter l'action ai et observer le nouvel état s0et la récompense r

q ← r + γ max u∈Ai

Qmax,i(s0, u) si q > Qmax,i(s, ai)alors

Qmax,i(s, ai) ← q . mise à jour optimiste

si Qmax,i(s, arg max u∈Ai

πi(s, u)) 6= max u∈Ai

Qmax,i(s, u)alors Sélectionner amax∈ arg max

u∈Ai

Qmax,i(s, u)aléatoirement

pour tous les u ∈ Ai . sélection d'équilibres

faire si u = amaxalors πi(s, u) ← 1 sinon πi(s, u) ← 0 s ← s0 n

6.3.3 Résultats sur des jeux matriciels

Le Q-learning distribué est donc assuré de surmonter les facteurs de non-coordination présents dans les jeux déterministes. L'autre intérêt de cet algorithme est que grâce à la mise à jour optimiste, la fonction de valeur d'un agent ne peut pas être dé- truite par l'exploration d'un autre agent. La stratégie d'exploration est donc simple ; il sut de permettre un minimum d'exploration pour que tous les couples du système soient visités. Si c'est le cas, l'action jointe optimale aura été choisie au moins une fois et mémorisée par les politiques individuelles. Le Q-learning distribué est donc robuste à l'exploration.

Des résultats sont donnés à la table 6.3. La convergence est eective dans les jeux penalty et Climbing déterministe où sont présents les facteurs d'équilibres cachés et de sélection d'équilibres. Naturellement, les agents échouent dans le jeu Climbing partiellement bruité. En eet, pour l'action jointe hb, bi, les récompenses 7 et 14 sont obtenues de manière équiprobable. La récompense moyenne pour cette action jointe est donc infé- rieure à celle de l'action jointe optimale ha, ai. Cependant, des agents optimistes évaluent la valeur de l'action jointe hb, bi par la récompense maximale, c'est-à-dire 14, et donc se coordonnent sur cet équilibre sous-optimal.

Table 6.3 Pourcentage d'épisodes convergeant vers l'action jointe optimale avec le Q-learning distribué (moyenne sur 500 épisodes indépendants). Un épisode consiste en 3000 répétitions et on prend = 0.05. A chaque n d'un épisode, on détermine si l'action jointe gloutonne est optimale.

Jeu simple Jeu Penalty Jeu Climbing

(k = −100) déterministe partiellement bruité

Q-learning 100% 100% 100% 7%

distribué 6.3.4 Synthèse

L'algorithme du Q-learning distribué est donc capable de résoudre les deux facteurs de non-coordination présents dans les environnements déterministes : les équilibres ca- chés et la sélection d'équilibres. De plus, l'enjeu de l'exploration est surmonté grâce au mécanisme de sélection d'équilibres. Chaque agent suit sa politique avec un minimum d'exploration, mais les problèmes d'exploration concurrente et de destruction de politique sont ici évités. Donc, cet algorithme est assuré de converger vers une action jointe optimale dans tous jeux déterministes tout en étant robuste à l'exploration et aux facteurs de non-coordination.

Dans le document Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement.<br />Application à la commande d'un système distribué de micromanipulation. (Page 128-133)