• Aucun résultat trouvé

7.5 Algorithme Swing between Optimistic or Neutral

7.5.1 Étude de l'extension directe du FMQ récursif aux jeux de Markov

L'extension directe aux jeux de Markov du FMQ récursif, donnée à l'algorithme 11, est assez évidente. La principale diérence réside dans le calcul de la fréquence d'occur- rence Fi(s, a) d'un agent i.

La fréquence immédiate ou  myope  Fi(a) calculée de façon récursive dans les jeux

matriciels correspond à la probabilité de recevoir la récompense maximale après avoir exécuté une action a :

Fi(a) = Pr{rt+1= Qmax,i(at)|at= a} . (7.5)

Dans les jeux de Markov, on donne la dénition suivante de la fréquence immédiate. Dénition 7.1 Lorsque l'action a est eectuée dans l'état s, la fréquence immédiate Fi(s, a) pour l'agent i est la probabilité que la transition immédiate fournisse une récom-

Figure 7.4  Jeu de Markov d'équipe à deux agents. la valeur maximale prévue Qmax,i(s, a), i.e. :

Fi(s, a) = Pr  rt+1+ γ max b∈Ai Qmax,i(st+1, b) = Qmax,i(st, at)|st= s, at= a  . (7.6) On retrouve dans l'extension directe du FMQ récursif les fonctions suivantes, dénies pour chaque agent individuel i sur l'ensemble des couples état-action :

 la fonction de valeur locale Qi mise à jour selon le Q-learning décentralisé,

 la fonction de valeur locale Qmax,i mise à jour selon le Q-learning distribué,

 la fréquence immédiate Ficalculée de la manière suivante : pour chaque transition,

on calcule la valeur courante du couple selon le Q-learning distribué, que nous ap- pellerons valeur courante optimiste. Cette valeur courante optimiste correspond à la somme de la récompense immédiate reçue et de la valeur optimiste de la politique gloutonne dans l'état suivant. Si la transition eectuée entraîne une amélioration de la valeur courante optimiste de ce couple, la fréquence est réinitialisée à 1. Si la valeur courante optimiste est égale à l'évaluation optimiste, la fréquence augmente. Dans le cas contraire, la fréquence diminue. Ainsi, l'estimation Fi correspond bien

à sa dénition 7.1,

 la fonction d'évaluation Ei qui utilise une heuristique basée sur une interpolation

linéaire entre les valeurs de Qi et Qmax,i. Cette évaluation doit être égale à Qmax,i

si le jeu est déterministe et si les agents se coordonnent. Dans le cas d'un jeu stochastique, les valeurs de la fonction Ei se rapprochent de celles de la fonction

Qi,

 la politique courante πi mise à jour selon un mécanisme de sélection d'équilibres

basé sur un choix aléatoire parmi les actions qui maximisent la fonction d'évalua- tion Ei.

Avec cette extension directe, la fréquence issue de la version en jeux matriciels est une mesure immédiate car elle ne prend en compte que la fréquence dans l'état courant. Ce raisonnement  myope  peut cependant être insusant dans le cas des jeux multi-états. Nous allons donc nous intéresser aux possibles limitations entraînées par cette vision  myope  de la fréquence.

7.5.2 Fréquence immédiate et limitations

Cette extension directe de l'algorithme du FMQ récursif présente des défaillances dans certains jeux de Markov. An d'illustrer ces défaillances, nous testons cet algo- rithme sur le jeu de Markov d'équipe à deux agents de la gure 7.4 et nous y étudions

notamment l'évolution de la fréquence immédiate. Ce jeu est particulièrement dicile car les agents doivent coordonner leurs actions dans chaque état. Chaque agent a le choix parmi deux actions a et b. Le jeu débute avec les deux agents dans l'état s1. Les transi-

tions sur la gure sont indiquées par un couple d'actions où se retrouvent respectivement l'action de l'agent 1 et celle de l'agent 2. Le sigle ∗ est un joker représentant une action quelconque. Si les deux agents se coordonnent sur l'action jointe ha, ai dans l'état sk, ils

se déplacent alors dans l'état suivant sk+1. Si au moins un des agents joue l'action b, les

deux agents restent dans leur état actuel. Aucune récompense n'est reçue sauf lorsque l'état absorbant sj est atteint ; la récompense reçue est alors égale à 10.

Les valeurs optimales de la fonction Qmax,ipour chaque agent i, dans l'état sk, sont :



Q∗max,i(sk, a) = 10 × γj−k−1

Q∗max,i(sk, b) = 10 × γj−k (7.7)

Nous nous plaçons du point de vue d'un agent. Deux cas sont alors étudiés :

 l'agent joue l'action b dans l'état sk, donc, quelle que soit l'action jouée par l'autre

agent, l'état suivant s0 est l'état s

k et pour chaque agent i :

qi = γ max u={a,b}Qmax,i(s 0, u) = γ max u={a,b}Qmax,i(sk, u) = 10 × γj−k = Q∗max,i(sk, b) (7.8)

Ainsi, du point de vue d'un agent, l'action b est sûre et la fréquence d'occurrence de la valeur optimiste Qmaxpour l'action b, notée Fi(sk, b), augmente à chaque fois

que l'action b est jouée dans l'état s par un agent i. De plus, elle ne diminue jamais donc Fi(sk, b) tend vers 1.

 l'agent joue l'action a dans l'état sk. Si l'autre agent joue aussi l'action a, la

coordination est réussie et l'état suivant s0 est alors s

k+1 : qi = γ max u={a,b}Qmax,i(s 0, u) = γ max u={a,b}Qmax,i(sk+1, u) = 10 × γj−k−1 = Q∗max,i(sk, a) (7.9)

0 50 100 150 200 0 100 200 300 400 500 600 Nombre d épisodes

Nombre de pas par épisodes

Figure 7.5  Expériences sur le jeu de Markov d'équipe à deux agents de la gure 7.5

avec l'extension directe du FMQ récursif (moyennées sur 200 essais indépendants). Le jeu a 10 états et on choisit α = 0, 1, γ = 0, 9, αf = 0, 05,  = 0, 05.

Si l'autre agent joue l'action b, il y a non-coordination et l'état suivant s0 est alors

sk : qi = γ max u={a,b}Qmax,i(s 0, u) = γ max u={a,b}Qmax,i(sk, u) = 10 × γj−k < Q∗max,i(sk, a) (7.10)

Donc Fi(sk, a) diminue à chaque fois que l'autre agent joue b.

D'une part, Fi(s, b)augmente à chaque fois que l'action b est jouée dans l'état s par

un agent i et ne diminue jamais. D'autre part, Fi(s, a) diminue à chaque fois que les

agents échouent à se coordonner dans l'état s. Donc, du point de vue d'un agent, comme

Q∗max,i(s, a) est assez proche de Q∗max,i(s, b) (Q∗max,i(s, b) = 0 + γQ∗max,i(s, a)), on a ra-

pidement E(s, b) > E(s, a). L'action b est mieux évaluée que l'action a. L'action jointe choisie en exploitation par les agents est hb, bi ; ils échouent à se coordonner et restent sur place ! Ce problème est illustré sur les résultats de la gure7.5. Le nombre de pas par épisode augmente rapidement car les agents restent sur place et ont beaucoup de mal à se coordonner. Au début de l'apprentissage, les agents ont un comportement aléatoire donc le nombre de pas par épisode est faible durant les premiers épisodes.

Cet exemple a permis de mettre en avant une défaillance de l'extension directe du FMQ récursif aux jeux de Markov due à l'utilisation d'une mesure locale de la fréquence. La fréquence Ficalculée par l'algorithme est une fréquence immédiate ou  myope  étant

raisonnement  myope  centré sur l'état courant est insusant dans le cadre multiagent. La fréquence doit être considérée globalement en prenant en compte les fréquences des états futurs. En eet, la fréquence immédiate d'une action peut être élevée dans un état, mais cette action peut alors mener dans un état où l'action optimale a une fréquence immédiate faible. En d'autres termes, une action peut paraître intéressante dans un état selon sa fréquence immédiate mais peut être un mauvais choix en ce qui concerne le futur. L'utilisation d'une mesure immédiate de la fréquence est donc dangereuse car elle peut induire en erreur l'algorithme. Nous allons donc maintenant proposer une méthode de calcul pour raisonner à long terme à partir de cette mesure immédiate.