Frequency Maximum Q-value - Synthèse d'agents adaptatifs et coopératifs par apprentissage par r

6.4.1 L'heuristique Frequency Maximum Q-value

Spiros Kapetanakis et Daniel Kudenko [KK02,KK04] proposent d'inuencer la pro- babilité de choisir une action dans leur algorithme Frequency Maximum Q-value (FMQ). Pour cela, ils utilisent la méthode de décision softmax qui assigne une probabilité à chaque action en fonction de l'évaluation de celle-ci. La méthode softmax classique évalue les actions avec leurs Q-valeurs, calculées selon le Q-learning. Spiros Kapetanakis et Daniel Kudenko proposent d'évaluer une action en prenant en compte sa Q-valeur ainsi qu'une heuristique. Cette heuristique est fonction de la récompense maximale reçue et de la fréquence d'occurrence de celle-ci lorsqu'est eectuée une action. Plusieurs tables sont donc nécessaires :

une table C pour mémoriser le nombre de fois qu'une action a été choisie,

une table Qmax pour mémoriser la récompense maximale reçue jusqu'alors après

chaque action,

une table CQmax pour mémoriser le nombre de fois que la récompense maximale a

été reçue après avoir eectué une action.

La fréquence d'occurrence F de la récompense maximale associée à une action a est alors F(a) = CQmax(a)

C(a) . L'évaluation E(a) d'une action a est dénie par :

Table 6.4 Pourcentage d'épisodes convergeant vers l'action jointe optimale avec le FMQ (moyenne sur 500 épisodes indépendants). Un épisode consiste en 3000 répétitions. La stratégie d'exploration choisie est GLIE (τ = 499e−0.006t_{+ 1} _{où t est le nombre de}

répétitions). On pose α = 0, 1 et c = 10. A chaque n d'un épisode, on détermine si l'action jointe gloutonne est optimale.

Jeu simple Jeu Penalty Jeu Climbing

(k = −100) déterministe partiellement bruité bruité

FMQ 100% 100% 100% 98% 21%

où c est un paramètre contrôlant l'importance de l'heuristique dans l'évaluation d'une action. Si c = 0, le FMQ est équivalent au Q-learning décentralisé. L'algorithme du Fre- quency Maximum Q-value (FMQ) est donné à l'algorithme 6. Étant donnée l'initialisa- tion, nous supposons que les récompenses sont positives. On peut remarquer l'utilisation dans le FMQ de la table Qmax pour mémoriser les évaluations optimistes. Cette table

est la même que celle du Q-learning distribué.

Les auteurs de cet algorithme utilisent la méthode de décision softmax avec les éva- luations E et une stratégie d'exploration GLIE. Le choix de ce type d'exploration est une fois de plus non justié alors qu'il est crucial pour la réussite du FMQ. La robustesse de cette heuristique face à l'exploration est étudiée dans le chapitre suivant.

6.4.2 Résultats sur des jeux matriciels

Les résultats obtenus avec le FMQ dans divers jeux matriciels sont intéressants (cf. table 6.4). En eet, si la stratégie d'exploration est bien réglée, les résultats sont équiva- lents à ceux du Q-learning distribué dans des jeux déterministes. De plus, alors que ce dernier échoue dans des jeux stochastiques, le FMQ montre de bons résultats dans des jeux partiellement bruités.

Par contre, le FMQ ne surmonte pas la diculté de jeux fortement bruités comme le Climbing bruité. Ce jeu présente la caractéristique d'avoir une récompense bruitée à 50% pour toutes les actions jointes (cf. gure 5.6). La moyenne des deux récompenses stochastiques possibles pour chaque action jointe est équivalente à la valeur de la récom- pense déterministe dans le jeu Climbing. Cependant, l'heuristique utilisée avec le FMQ prend en compte uniquement la récompense maximale reçue pour chaque action et sa fréquence (F Qmax). Or, la récompense maximale pour l'action jointe optimale ha, ai est

12 alors qu'elle est de 14 pour l'action jointe sous-optimale hb, bi. Et la fréquence est ici de 0.5 pour chaque récompense maximale si les actions jointes sont choisies de manière quasiment équiprobable. Après la première phase d'exploration induite par la stratégie GLIE, l'action jointe sous-optimale hb, bi présente donc une récompense moyenne de 7 selon l'heuristique alors que l'action jointe optimale ha, ai a une récompense moyenne de 6. Le FMQ peut donc être faussement biaisé dans certains jeux bruités.

Algorithme 6 : Algorithme du Frequency Maximum Q-value pour un agent indé- pendant i dans un jeu matriciel d'équipe

début

Initialiser Qi(ai), Qmax,i(ai), Ci(ai), CQmax,i(ai)et Ei(ai)à 0, Fi(ai)à 1 ∀ai∈ Ai Initialiser πi(ai)arbitrairement ∀ai∈ Ai

répéter

Choisir l'action aiselon la politique πi

Exécuter l'action aiet observer la récompense r

Ci(ai) ← Ci(ai) + 1 . compteur d'occurrences d'une action

Qi(ai) ← (1 − α)Qi(ai) + αr si r > Qmax,i(ai)alors

Qmax,i(ai) ← r . mise à jour optimiste

CQmax,i(ai) ← 1 . compteur d'occurrences de la récompense maximale

pour une action sinon si r = Qmax,i(ai)alors

CQmax,i(ai) ← CQmax,i(ai) + 1

Fi(ai) ←

C_Qmax,i(ai)

Ci(ai) . fréquence d'occurrences de la récompense maximale

Ei(ai) ← Qi(ai) + c Fi(ai) Qmax,i(ai) . heuristique

pour tous les b ∈ Ai faire πi(b) ← e Ei(b)

τ P u∈Ai

eEi(u)τ

jusqu'à la n des répétitions n

Enn, la sélection d'équilibres est réussie dans le jeu penalty, même si aucun méca- nisme n'est explicitement utilisé pour cela. Comme dans le cas du Q-learning décentralisé, la stratégie d'exploration GLIE joue ce rôle implicitement.

6.4.3 Synthèse

Ainsi, concernant les facteurs de non-coordination, le FMQ surmonte l'enjeu des équilibres cachés notamment grâce au calcul de la fréquence d'occurrence de la récompense maximale. Cette fréquence permet aussi au FMQ de faire la distinction entre le bruit dû à la non-coordination des agents et le bruit dû à l'environnement, mais uniquement lorsque ce bruit est faible. L'intérêt du FMQ est donc principalement situé dans le cadre stochastique. Cet algorithme présente des limitations, les principales étant d'une part qu'il n'est proposé que pour des jeux matriciels, et d'autre part qu'il est peu robuste à l'exploration. En eet, une stratégie d'exploration GLIE doit être utilisée et le choix de ses paramètres est important. Une analyse détaillée de cet algorithme et de sa robustesse face à l'exploration est proposée dans le chapitre suivant.

Dans le document Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement.<br />Application à la commande d'un système distribué de micromanipulation. (Page 133-135)