Figure 7.9 – Histogrammes de la performance à 2000 décisions, pour 50 répétitions de l’expérience. Haut : expert dirigé vers un but avec remise à zéro des valeurs. Milieu : ex-pertdirigé vers un but avec conservation des valeurs. Bas : experthabituel. Les lignes verticales indiquent la valeur médiane de la distribution.
mentionnées selon lesquelles l’expert dirigé vers un but est sensé être systématiquement
plus performant que l’expert habituel (e.g. Keramati et al. (2011)). Néanmoins, ceci
semble renforcer l’idée qu’il est utile de combiner plusieurs méthodes d’apprentissage si l’on veut pouvoir généraliser à plusieurs tâches, notre meta-contrôleur devant être capable dans chaque tâche rencontrée de discriminer automatiquement quel expert est le plus performant.
7.4 Discussion
Dans ce chapitre, nous avons étudié différentes méthodes pour arbitrer entre nos experts en fonction des informations disponibles au sein de l’architecture. Nous avons évalué deux méthodes de sélection, basées sur la récompense moyenne et l’incertitude de chaque expert sur sa décision, et quatre méthodes de fusion, qui combinent les estimations de probabilité d’action de chaque expert selon le principe qu’une décision communautaire rend le choix d’action final plus pertinent.
Nous avons montré que dans notre tâche dynamique, aucune de ces méthodes ne sur-passe nettement une sélection aléatoire des propositions des experts, bien que la méthode de fusion Rank obtienne une meilleure performance dans la condition SS. Ces résultats sont
0 50 100 150 200 250 0 20 40 60 80 100 120 Recompense cumulee Variance recompense
Distribution des jeux de parametres evalues, GD.
−50 50 150 250 350 400 0 50 100 150 200 Recompense cumulee Variance recompense
Distribution des jeux de parametres evalues, Hab.
Figure 7.10 – Distributions des jeux de paramètres selon leur performance moyenne et leur variance (l’origine de l’axe des ordonnées est en haut). Chaque point représente 10 répétitions de l’exprience pour un jeu de paramètres. Les paramètres qui optimisent la performance moyenne tendent également à faire augmenter la variance dans la performance de l’expert. Gauche : expertdirigé vers un but. Droite : expert habituel
algorithme d’AR indirect, d’obtenir une bonne performance et des estimations correctes
des valeurs d’action, lorsqu’il est contraint à planifier avec un budget limité.
Dans les modèles du comportement en neurosciences, l’utilisation de l’expertdirigé vers
un butsuppose qu’il planifie à partir de zéro : aucun a priori n’est conservé sur la valeur des actions. C’est d’ailleurs l’explication avancée pour les temps de réaction supérieurs des
animaux (Daw et al. 2005; Keramati et al. 2011) après changement de condition. Or
nous avons montré que la performance de cet expert peut être améliorée en effectuant cette planification au fur et à mesure des décisions du robot. C’est l’approche des algorithmes
anytime évoqués plus haut, et c’est également la piste suivie par Hester et al. (2012). Dans ce cas, la recherche de solution est effectuée non pas depuis la récompense mais depuis l’état courant du robot, jusqu’aussi loin que le temps le permet. Cette approche permet de se concentrer sur les états les plus probablement visités dans le futur, à partir des informations de transition connues plutôt que selon une heuristique, comme nous
l’avons fait (les états les plus visités sont les plus intéressants ). Keramati et al.
(2011) exploite effectivement le modèle de son expert dirigé vers un butde cette manière
mais s’arrête après une profondeur de recherche fixe.
Les méthodes basées signaux que nous avons évalué présentent un certain nombre de limites ; si nos résultats sur la conservation du plan nous incitent à ne pas conclure défi-nitivement sur les résultats des méthodes d’arbitrage, quelques points sont tout de même améliorables :
Pour la récompense moyenne, le paramètre λ règle à quel degré de dynamique de la tâche le système est sensible. Bien estimer cette dynamique pour régler correctement ce
93
paramètre n’est pas trivial : une valeur trop faible rend le meta-contrôleur aveugle à des changements plus rapides, tandis qu’une valeur trop forte fait changer d’expert quasiment à chaque action. Dans notre tâche, cette dynamique change également d’une condition à l’autre ; il est donc nécessaire de faire varier ce paramètre en fonction de la dynamique perçue de l’environnement.
En l’état, la méthode sélectionne par défaut les propositions de l’expert dirigé vers
un but lorsque la récompense moyenne est stable. Dans la mesure où une récompense moyenne stable indique que la politique suivie rapporte régulièrement de la récompense,
il serait plus logique de s’appuyer sur les décisions de l’expert habituel, qui doit pouvoir
suivre cette politique efficacement sans évaluer les actions dans l’ensemble du modèle de transitions.
Le critère d’entropie se rapproche de la notion d’incertitude des experts proposée par
Daw et al. (2005). Dans leur travail, l’incertitude est calculée sur les connaissances de
l’expert vis-à-vis de l’action considérée. Dans notre proposition, cette incertitude est liée à la décision d’une action, et ne nécessite pas de maintenir une distribution de valeurs pour chaque action et dans chaque état. Une limitation est que cette incertitude peut être
erronée vis-à-vis de la tâche : l’expert habituel tend à persister dans la même politique le
temps que soient propagés les changements dans la récompense. Le risque est donc que l’expert reste très certain dans sa proposition alors qu’il n’a pas pris en compte les nou-velles conditions de l’environnement. Il serait également plus pertinent de mesurer cette entropie sur les valeurs Q que sur les probabilités résultantes : la transformation réalisée par le softmax introduit un biais à cause de la température choisie (qui peut être différente
pour chaque expert). Dans notre cas, ça ne change pas le fait que l’expertdirigé vers un
butest plus incertain que l’experthabituel: sa valeur de τ est 10 fois supérieure à celle de
l’experthabituel. Cette mesure permet cependant d’estimer une notion d’incertitude des
experts sans un coût mémoire important (maintenir une distribution pour chaque action
et chaque état, Daw et al. (2005)) ou un coût computationnel inévitable (mise à jour du
Kalman Q-learning, Keramati et al. (2011)).
Pour les méthodes de fusion, nous obtenons des résultats différents de Wiering et Van
Hasselt (2008) : pour eux, les méthodes Boltzmann multiplication et Majority Voting
dépassent les performances des autres méthodes, alors que la première a une performance faible dans nos résultats. En effet, multiplier les valeurs d’action tend à réduire le contraste, d’autant plus si l’une des distributions est proche de l’uniforme, comme celle de l’expert
dirigé vers un but. À l’inverse, Rank Voting exacerbe les contrastes faibles entre deux actions en leur donnant la même importance qu’un contraste fort entre deux actions. Ainsi, la moindre variation entre les valeurs d’action est exploitée, et même un faible retour de récompense permet de faire ressortir l’action qui l’a rapporté. Cette différence s’explique
également par la nature des experts mis en jeu. Dans leur approche, les algorithmes d’AR
combinés sont tous directs, ils ne sont donc pas confrontés à la difficulté d’exploiter un modèle dans une tâche contrainte en temps. Ces résultats plutôt contradictoires limitent l’importance des conclusions que nous pouvons tirer de cette étude, mais les résultats sur
la conservation ou la remise à zéro du plan de l’expertdirigé vers un but suggèrent qu’il
est nécessaire d’évaluer plus profondément ces méthodes d’arbitrage.
directe-ment à sa capacité à exploiter son modèle, et par conséquent à avoir un modèle adéquat du problème. Dans l’optique d’une méthode d’arbitrage par sélection, donner au meta-contrôleur des informations sur le degré d’apprentissage du modèle semble pertinent pour que la sélection de cet expert puisse se faire lorsqu’il est efficace. Plus généralement, le meta-contrôleur devrait pouvoir estimer l’état de l’apprentissage dans chaque expert pour
effectuer son arbitrage. Nous étudierons cette idée dans la seconde partie du chapitre8.
95