• Aucun résultat trouvé

7.5 Algorithme Swing between Optimistic or Neutral

7.5.3 Fréquence distante

L'utilisation d'une fréquence immédiate doit être évitée, comme nous l'avons illustré précédemment. Nous proposons donc de calculer une fréquence  sur le long terme  dénie comme suit.

Dénition 7.2 Lorsque l'action a est eectuée dans l'état s, la fréquence distante Gi(s, a) pour l'agent i est la probabilité que toutes les transitions futures fournissent des

récompenses et des états dont les évaluations, selon une politique gloutonne sur Qmax,i,

sont égales à la valeur maximale prévue Qmax,i pour ces états, i.e. :

Gi(s, a) = Prπmax  rt+1+ γ max b∈Ai Qmax,i(st+1, b) = Qmax,i(st, at) ∧ rt+2+ γ max b∈Ai Qmax,i(st+2, b) = Qmax,i(st+1, at+1) ∧ . . . |st= s, at= a  (7.11) Nous allons maintenant proposer une estimation récursive de cette fréquence distante.

Nous faisons l'hypothèse que les évènements précédents sont indépendants, c'est-à- dire que la réalisation de l'un n'inue pas sur la probabilité de réalisation d'un autre. L'égalité précédente est donc équivalente à :

Gi(s, a) = Prπmax  rt+1+ γ max b∈Ai Qmax,i(st+1, b) = Qmax,i(st, at)|st= s, at= a  × Pπmax r  rt+2+ γ max b∈Ai Qmax,i(st+2, b) = Qmax,i(st+1, at+1) ∧ . . . |st= s, at= a  . (7.12) Le premier terme de l'égalité est égal à Fi(s, a) d'après la dénition 7.1. D'après le

selon : Pπmax r  rt+2+ γ max b∈Ai Qmax,i(st+2, b) = Qmax,i(st+1, at+1) ∧ . . . |st= s, at= a  = X s0∈S Pπmax r  rt+2+ γ max b∈Ai Qmax,i(st+2, b) = Qmax,i(st+1, at+1) ∧ . . . |st= s, at= a, st+1= s0  × Prst+1= s0|st= s, at= a . (7.13)

La politique πmax est suivie donc at+1∈ arg max

b∈Ai Qmax,i(st+1, b)et : Gi(s, a) = Fi(s, a) X s0∈S Prst+1= s0|st= s, at= a Gi(s0, arg max b∈Ai Qmax,i(st+1, b)) (7.14) Si on note Pa

ss0 la probabilité de chaque état suivant possible s0 étant donné un état s et

une action a, on aboutit à :

Gi(s, a) = Fi(s, a) X s0∈S Pssa0Gi(s0, arg max u∈Ai Qmax,i(s0, u)) (7.15) Comme Pa

ss0 est inconnue, nous proposons pour estimer la fréquence distante le calcul

récursif suivant : Gi(s, a) ← (1 − αg)Gi(s, a) + αgFi(s, a) max v∈arg max u∈Ai Qmax,i(s0,u) Gi(s0, v) (7.16)

où αg∈]0; 1]est le coecient d'apprentissage de la fréquence distante. Cette mise à jour

de la fréquence distante repose sur le principe de diérence temporelle. L'amélioration apportée à la fréquence distante à travers cette méthode est le produit de la fréquence immédiate du couple état-action eectué par la fréquence immédiate de l'action optimale dans l'état suivant. Ainsi, si une action a dans l'état courant une fréquence immédiate élevée mais peut mener dans un état où l'action optimale a une faible fréquence immé- diate, alors cette action aura une fréquence distante faible.

L'idée générale est proche du principe de propagation des bonus d'exploration pro- posé par Nicolas Meuleau et Paul Bourgine [MB99]. Cette méthode permet notamment une exploration plus complète de l'environnement grâce à un mécanisme de rétro pro- pagation de mesures locales de bonus d'exploration. Dans notre cas, ce sont les valeurs des fréquences immédiates qui sont propagées : pour chaque état visité, l'agent  regarde en avant 2 vers les états futurs pour prendre en compte les valeurs de fréquences des

Algorithme 12 : Algorithme SOoN pour un agent indépendant i dans un jeu de Markov d'équipe

début

Initialiser Qi(s, ai), Qmax,i(s, ai)et Ei(s, ai)à 0, Fi(s, ai)et Gi(s, ai)à 1 ∀(s, ai) ∈ S × Ai Initialiser πi(s, ai)arbitrairement ∀(s, ai) ∈ S × Ai

Initialiser l'état initial s

tant que s n'est pas un état absorbant faire

Dans l'état s choisir l'action aiselon la méthode de décision -greedy basée sur πi Exécuter l'action ai et observer le nouvel état s0et la récompense r

Qi(s, ai) ← (1 − α)Qi(s, ai) + α(r + γ max u∈Ai Qi(s0, u)) q ← r + γ max u∈Ai Qmax,i(s0, u) si q > Qmax,i(s, ai)alors

Qmax,i(s, ai) ← q . mise à jour optimiste

Fi(s, ai) ← 1 . réinitialisation de la fréquence immédiate

Gi(s, ai) ← 1 . réinitialisation de la fréquence distante

sinon si q = Qmax,i(s, ai)alors

Fi(s, ai) ← (1 − αf)Fi(s, ai) + αf . calcul récursif de la fréquence sinon

Fi(s, ai) ← (1 − αf)Fi(s, ai)

. mise à jour de la fréquence distante

Gi(s, ai) ← [1 − αg]Gi(s, ai) + αgFi(s, ai) max v∈arg max

u∈Ai

Qmax,i(s0,u)

Gi(s0, v)

. heuristique par interpolation linéaire

Ei(s, ai) ← [1 − Gi(s, ai)]Qi(s, a) + Gi(s, ai)Qmax,i(s, ai) si Ei(s, arg max u∈Ai πi(s, u)) 6= max u∈Ai Ei(s, u)alors Choisir amax∈ arg max

u∈Ai

Ei(s, u)aléatoirement ∀b ∈ Ai πi(s, b) ←



1 si b = amax

0 sinon . sélection d'équilibres

s ← s0 n

7.5.4 Algorithme Swing between Optimistic or Neutral

La mesure globale de la fréquence distante est mieux adaptée au cadre des jeux de Markov. Nous utilisons cette mesure de la fréquence dans un nouvel algorithme baptisé Swing between Optimistic or Neutral (SOoN) et décrit à l'algorithme 12. On y retrouve l'ensemble des fonctions dénies au Ÿ7.5.1. La diérence principale réside dans l'utilisa- tion de la fréquence distante G dénie précédemment (7.16) pour l'interpolation linéaire de l'heuristique d'évaluation des actions. Le principe de uctuation des évaluations entre des évaluations optimistes selon le Q-learning distribué et des évaluations moyennes se- lon le Q-learning décentralisé est à l'origine du nom donné à l'algorithme.

Le test de cet algorithme SOoN sur le jeu de Markov d'équipe à deux agents de la gure 7.4, où la coordination de deux agents est particulièrement dicile, donne les

0 20 40 60 80 100 120 140 160 180 200 0 100 200 300 400 500 600

Nombre de pas par épisodes

Nombre d épisodes Extension directe du FMQ récursif Algorithme SOoN

Figure 7.6  Expériences sur le jeu de Markov d'équipe à deux agents de la gure 7.5

avec l'algorithme SOoN (moyennées sur 200 essais indépendants). Le jeu a 10 états et on choisit α = 0, 1, γ = 0, 9, αf = 0, 05, αg = 0, 3,  = 0, 05.

résultats de la gure7.6. L'utilisation de la fréquence distante permet à des agents indé- pendants de réussir leur coordination dans ce jeu. En eet, même si dans un état sk, la

fréquence immédiate de l'action b est élevée, la fréquence distante de l'action optimale est faible et l'évaluation de l'action optimale n'est pas faussée.

Des résultats obtenus avec cet algorithme sur divers jeux de Markov multiagents seront détaillés à la section 7.6.

Discussion

Une forme d'exploration originale pourrait être appliquée à cet algorithme. En eet, la seule forme d'exploration actuelle consiste à tester des actions non-gloutonnes selon leur évaluation Ei. Les agents pourraient aussi tester de temps en temps des actions gloutonnes

selon les tables Qmax,i. Ainsi, un agent pourrait savoir si sa fréquence est anormalement

trop faible et s'il ferait mieux d'évaluer ses actions de manière plus optimiste. 7.5.5 Conclusion

L'algorithme Swing between Optimistic or Neutral (SOoN) a été introduit et étudié dans cette section. Grâce au calcul d'une fréquence distante et à une nouvelle heuristique pour évaluer les couples d'état-action, cet algorithme est adapté aux jeux de Markov et surmonte les facteurs de non-coordination évoqués dans ce mémoire. Sa robustesse face à l'exploration a aussi été discutée. Dans les environnements déterministes et si les agents se coordonnent, l'algorithme SOoN est proche de celui du Q-learning distribué qui est as- suré de converger dans les jeux de Markov déterministes. Les facteurs de non-coordination dans ces jeux sont donc surmontés. Par contre, dans les environnements stochastiques,

aucun algorithme ne réussit parfaitement la coordination. La solution proposée à tra- vers l'algorithme SOoN est d'évaluer les état-actions à l'aide d'une interpolation linéaire entre les évaluations du Q-learning décentralisé et celles du Q-learning distribué. Ainsi, l'algorithme SOoN s'adapte automatiquement à travers le calcul de la fréquence à des évaluations optimistes ou moyennes.