Amélioration de la robustesse face à la stratégie d'exploration

7.3 Étude du Frequency Maximum Q-value

7.3.1 Amélioration de la robustesse face à la stratégie d'exploration

Spiros Kapetanakis et Daniel Kudenko [KK02] utilisent avec le Frequency Maximum Q-value (FMQ) la méthode de décision softmax associée à une stratégie d'exploration GLIE. Plus spéciquement, pour la décroissance de l'exploration associée à cette stratégie GLIE, ils proposent la fonction de température exponentielle suivante :

τk= τmaxe−δk+ τ∞ (7.1)

où k est le nombre de répétitions du jeu matriciel, δ contrôle la décroissance de l'exponentielle, et τmaxet τ∞permettent de régler les valeurs de température en début et en n

des répétitions. Comme nous l'avons vu dans les chapitres précédents, l'utilisation d'une telle stratégie d'exploration implique de choisir correctement l'ensemble des paramètres de décroissance. Les résultats de la table7.2illustrent la diculté du choix de ces para- mètres. Le changement d'un seul des paramètres de la stratégie d'exploration peut faire fortement chuter le taux de réussite du FMQ dans un même jeu. Ainsi, le FMQ est très peu robuste à la stratégie d'exploration, comme cela est aussi précisé dans le cas des systèmes multiagents coopératifs hétérogènes [KK04].

Pour étudier ce lien entre la convergence du FMQ et l'exploration, nous traçons à la gure7.2 une fonction de température exponentielle typiquement utilisée avec le FMQ.

Table 7.2 Pourcentage d'épisodes convergeant vers l'action jointe optimale dans le jeu Climbing avec la méthode sofmax et selon diérentes stratégies d'exploration avec le FMQ (moyenne sur 500 épisodes indépendants). Un épisode consiste en 5000 répétitions et on pose α = 0, 1 et c = 10. A chaque n d'un épisode, on détermine si l'action jointe gloutonne est optimale.

FMQ Stratégie d'exploration GLIE τ = 499e−0,006t+ 1 100% τ = 100e−0,006t+ 1 59% τ = 499e−0,03t+ 1 86% τ = 100 × 0, 997t 70% Stationnaire τ = 20 23%

En parallèle de cette courbe, on trace aussi la moyenne des récompenses reçues par des agents indépendants apprenant dans le jeu Climbing avec le FMQ et une méthode d'exploration softmax suivant cette fonction de température. Deux phases peuvent être identiées lors de cet apprentissage. La première phase est une phase d'exploration pendant laquelle la valeur de la température est élevée. La moyenne des récompenses est alors constante car les agents choisissent toutes les actions jointes possibles de ma- nière quasiment équiprobable. La deuxième phase est constituée de la décroissance de la température. Les agents apprennent alors à se coordonner jusqu'à ce que la température atteigne sa valeur limite. Les agents suivent alors leurs actions gloutonnes qui sont ici optimales car la moyenne des récompenses reçues est 11, ce qui correspond à l'équilibre de Nash Pareto optimal dans le jeu Climbing. Cette phase de décroissance de l'exploration est appelée la phase de coordination.

Ces deux phases successives d'exploration et de coordination sont nécessaires à la convergence du FMQ. En eet, si ces deux phases sont mal réglées, le pourcentage d'épisodes convergeant vers l'action jointe optimale peut diminuer. Par exemple, si l'on choisit une stratégie d'exploration stationnaire où ces deux phases sont alors inexistantes, le taux de réussite du FMQ diminue fortement (cf. table 7.2). Ainsi, le FMQ est peu robuste à l'exploration, dans le sens où l'apprentissage d'une politique ne peut pas être simultanée à l'exploration car deux phases successives d'exploration et de coordination sont nécessaires, contrairement au Q-learning distribué par exemple (cf. 6.3.2).

Instabilité de la fréquence face à l'exploration

Ce manque de robustesse du FMQ face à l'exploration et donc ce lien entre la convergence et l'exploration est dû à une instabilité de la fréquence d'occurrence F calculée par le FMQ. An d'illustrer ce phénomène, reprenons le cas du jeu Climbing. Nous choisissons d'étudier l'instabilité de la fréquence d'occurrence de la récompense maximale associée à l'action a pour un agent, i.e. F1(a), face à l'exploration de l'autre agent. Nous avons

récompense maximale associée à l'action a doit donc tendre vers 1.

Nous supposons que les agents sont en début d'une phase d'apprentissage. La fonction de fréquence F1(a) est donc initialisée à 1. On trace l'évolution de la fréquence

d'occurrence de la récompense maximale associée à l'action a pour l'agent 1, c'est-à-dire F1(a) (cf. gure7.3en courbe pointillée). En haut de cette gure, un diagramme donne

les actions successivement choisies par les agents. Précisons que les agents ne suivent pas leurs Q-valeurs mais une politique manuelle choisie pour l'exemple. Sur l'ensemble de l'épisode, l'agent 1 choisit toujours l'action a.

Au début de l'apprentissage, l'action jointe ha, ci est jouée. La récompense reçue est donc 0 et les compteurs d'occurrences de l'action C1(a) et de la récompense maximale

reçue CQmax,1(a) s'incrémentent du nombre de répétitions eectuées. Lorsque l'action

jointe optimale ha, ai est jouée pour la première fois (suite à une action d'exploration de l'agent 2), une nouvelle récompense maximale est reçue donc :

la récompense maximale reçue jusqu'alors est modiée, Qmax,1(a) ← 11,

le compteur d'occurrences de la récompense est réinitialisé, CQmax,1(a) ← 1,

le compteur d'occurrences de l'action C1(a) est simplement incrémenté.

Alors, la valeur de la fréquence mise à jour selon F1(a) ← CQmax,1_C₁_(a)(a) = _C₁1_(a) diminue

fortement, comme illustrée à la 15éme _{répétition (courbe pointillée). La conséquence de}

cette chute de la valeur de la fréquence est que l'évaluation de l'action E1(a) peut alors

être inférieure aux évaluations des autres actions. Dans ce cas, l'action optimale a est alors choisie uniquement lors de décisions d'exploration. L'algorithme peut alors ne pas converger sur l'action jointe optimale et de nombreuses décisions d'exploration sont alors nécessaires pour que la valeur de la fréquence de l'action optimale F1(a)augmente assez

pour permettre la coordination sur l'action jointe optimale.

Il faut noter que plus l'action jointe optimale est jouée la première fois après un grand nombre de répétitions, plus la chute de la valeur du compteur C1(a) est importante, et

donc plus le nombre de décisions d'exploration nécessaires à la coordination est élevé. Pour éviter ce phénomène, il faut que l'action jointe optimale soit jouée le plus tôt pos- sible. C'est pourquoi la première phase d'exploration pendant laquelle toutes les actions jointes sont choisies est importante dans le FMQ. Si cette première phase d'exploration est mal réglée, la fréquence est alors instable face à l'exploration.

Calcul récursif de la fréquence

An d'obtenir une fréquence plus robuste face à l'exploration, le compteur d'occurrences C(a) d'une action a doit être réinitialisé à 1 quand une nouvelle récompense maximale est reçue pour cette action. Ainsi, la fréquence F est aussi remise à 1, comme illustrée à la 15éme _{répétition sur la courbe (ligne continue) de la gure} _7.3_{. Contrai-}

rement au cas précédent, la valeur de la fréquence diminue alors seulement en cas de non-coordination des agents. Cette non-coordination peut être due soit à une action d'exploration d'un des agents, soit à une récompense bruitée. La fréquence est alors

Nombre de répétitions M oy en ne d es r éc om pe ns es r eç ue s V al eu rs d e te m pe ra tu re Fonction de temperature Moyenne des récompenses reçues Moyenne + écart type

Moyenne - écart type

Figure 7.2 Moyenne des récompenses reçues dans le jeu Climbing avec des agents apprenant selon le FMQ : c = 10 et τ = 499e−0.006k_{+ 1}_.

a b c Actions de l'agent 2 a Actions de l'agent 1 FMQ initial

FMQ avec calcul récursif de F

V al eu rs d e la f ré qu en ce F (a ) po ur l' ag en t 1 Nombre de répétitions

Figure 7.3 Valeurs de la fréquence d'occurrence de la récompense maximale associée à l'action a pour l'agent 1 vs. le nombre de répétitions du jeu Climbing. L'algorithme utilisé est le FMQ. Les actions des deux agents suivent la politique manuelle choisie pour l'exemple et elles sont données dans le diagramme au-dessus de la courbe.

Table 7.3 Pourcentage d'épisodes convergeant vers l'action jointe optimale dans le jeu Climbing selon diérentes stratégies d'exploration avec le FMQ initial et le FMQ modié (réinitialisation et calcul récursif de F) (moyenne sur 500 épisodes indépendants). Un épisode consiste en 5000 répétitions et on pose α = 0, 1, αf = 0, 05 et c = 10. A chaque

n d'un épisode, on détermine si l'action jointe gloutonne est optimale.

FMQ FMQ

initial avec modications Stratégie d'exploration GLIE τ = 499e−0,006t + 1 100% 100% τ = 100e−0,006t + 1 59% 100% τ = 499e−0,03t+ 1 86% 100% τ = 100 × 0, 997t _70% _100% Stationnaire τ = 20 23% 100%

moins instable face à l'exploration.

L'utilisation de compteurs incrémentaux C et CQmax peut aussi être un facteur de

dépendance à l'ancienneté. Nous appelons dépendance à l'ancienneté le fait que l'impor- tance de la chute ou de la montée de la fréquence dépend du nombre de répétitions après lequel une action d'exploration ou une action gloutonne est jouée. Pour diminuer cette dépendance, nous introduisons donc le calcul récursif de la fréquence d'occurrence de la récompense maximale associée à une action a suivant :

F(a) ←

(1 − αf)F(a) + αf si r = Qmax(a)

(1 − αf)F(a) sinon (7.2)

où αf ∈ [0; 1] est le coecient d'apprentissage de la fréquence. On obtient alors une

fréquence plus robuste face à l'exploration (cf. gure 7.3 ligne continue). Le choix du coecient αf sera discuté au 7.4.2.

Résultats sur un jeu matriciel

Nous vérions maintenant la robustesse du FMQ lorsqu'il est modié avec ces deux améliorations : une réinitialisation et un calcul récursif de la fréquence F. Pour cela, nous prenons le jeu matriciel Climbing. Nous testons le FMQ initial (cf. algorithme 6) et le FMQ modié avec diverses stratégies d'exploration. Les résultats sont donnés dans la table 7.3.

On constate que contrairement au FMQ initial qui ne converge ici qu'avec une straté- gie sur les cinq testées, le FMQ modié obtient 100% de réussite avec toutes les stratégies testées. Notamment, il est intéressant de remarquer que les modications eectuées permettent de s'aranchir d'une stratégie GLIE. Une stratégie stationnaire, qui est plus simple à régler, peut être choisie.

Ainsi, les modications apportées au FMQ permettent d'obtenir un algorithme plus robuste à la stratégie d'exploration choisie. Cet algorithme modié converge vers l'action jointe optimale dans le jeu Climbing avec une stratégie GLIE et avec une stratégie stationnaire, contrairement au FMQ initial. Comme nous l'avons vu dans les chapitres précédents, une stratégie stationnaire apporte les avantages d'avoir moins de paramètres à régler et plus de stabilité face à l'exploration. Elle nécessite uniquement un nombre de répétitions susant pour assurer une exploration complète de l'ensemble des actions jointes.

Dans le document Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement.<br />Application à la commande d'un système distribué de micromanipulation. (Page 151-156)