Distribution des performances, SS - Des comportements flexibles aux comportements habituels : M

Figure 7.9 – Histogrammes de la performance à 2000 décisions, pour 50 répétitions de l’expérience. Haut : expert dirigé vers un but avec remise à zéro des valeurs. Milieu : ex-pertdirigé vers un but avec conservation des valeurs. Bas : experthabituel. Les lignes verticales indiquent la valeur médiane de la distribution.

mentionnées selon lesquelles l’expert dirigé vers un but est sensé être systématiquement

plus performant que l’expert habituel (e.g. Keramati et al. (2011)). Néanmoins, ceci

semble renforcer l’idée qu’il est utile de combiner plusieurs méthodes d’apprentissage si l’on veut pouvoir généraliser à plusieurs tâches, notre meta-contrôleur devant être capable dans chaque tâche rencontrée de discriminer automatiquement quel expert est le plus performant.

7.4 Discussion

Dans ce chapitre, nous avons étudié diﬀérentes méthodes pour arbitrer entre nos experts en fonction des informations disponibles au sein de l’architecture. Nous avons évalué deux méthodes de sélection, basées sur la récompense moyenne et l’incertitude de chaque expert sur sa décision, et quatre méthodes de fusion, qui combinent les estimations de probabilité d’action de chaque expert selon le principe qu’une décision communautaire rend le choix d’action ﬁnal plus pertinent.

Nous avons montré que dans notre tâche dynamique, aucune de ces méthodes ne sur-passe nettement une sélection aléatoire des propositions des experts, bien que la méthode de fusion Rank obtienne une meilleure performance dans la condition SS. Ces résultats sont

0 50 100 150 200 250 0 20 40 60 80 100 120 Recompense cumulee Variance recompense

Distribution des jeux de parametres evalues, GD.

−50 50 150 250 350 400 0 50 100 150 200 Recompense cumulee Variance recompense

Distribution des jeux de parametres evalues, Hab.

Figure 7.10 – Distributions des jeux de paramètres selon leur performance moyenne et leur variance (l’origine de l’axe des ordonnées est en haut). Chaque point représente 10 répétitions de l’exprience pour un jeu de paramètres. Les paramètres qui optimisent la performance moyenne tendent également à faire augmenter la variance dans la performance de l’expert. Gauche : expertdirigé vers un but. Droite : expert habituel

algorithme d’AR indirect, d’obtenir une bonne performance et des estimations correctes

des valeurs d’action, lorsqu’il est contraint à planiﬁer avec un budget limité.

Dans les modèles du comportement en neurosciences, l’utilisation de l’expertdirigé vers

un butsuppose qu’il planiﬁe à partir de zéro : aucun a priori n’est conservé sur la valeur des actions. C’est d’ailleurs l’explication avancée pour les temps de réaction supérieurs des

animaux (Daw et al. 2005; Keramati et al. 2011) après changement de condition. Or

nous avons montré que la performance de cet expert peut être améliorée en eﬀectuant cette planiﬁcation au fur et à mesure des décisions du robot. C’est l’approche des algorithmes

anytime évoqués plus haut, et c’est également la piste suivie par Hester et al. (2012). Dans ce cas, la recherche de solution est eﬀectuée non pas depuis la récompense mais depuis l’état courant du robot, jusqu’aussi loin que le temps le permet. Cette approche permet de se concentrer sur les états les plus probablement visités dans le futur, à partir des informations de transition connues plutôt que selon une heuristique, comme nous

l’avons fait (les états les plus visités sont les plus intéressants ). Keramati et al.

(2011) exploite eﬀectivement le modèle de son expert dirigé vers un butde cette manière

mais s’arrête après une profondeur de recherche ﬁxe.

Les méthodes basées signaux que nous avons évalué présentent un certain nombre de limites ; si nos résultats sur la conservation du plan nous incitent à ne pas conclure déﬁ-nitivement sur les résultats des méthodes d’arbitrage, quelques points sont tout de même améliorables :

Pour la récompense moyenne, le paramètre λ règle à quel degré de dynamique de la tâche le système est sensible. Bien estimer cette dynamique pour régler correctement ce

paramètre n’est pas trivial : une valeur trop faible rend le meta-contrôleur aveugle à des changements plus rapides, tandis qu’une valeur trop forte fait changer d’expert quasiment à chaque action. Dans notre tâche, cette dynamique change également d’une condition à l’autre ; il est donc nécessaire de faire varier ce paramètre en fonction de la dynamique perçue de l’environnement.

En l’état, la méthode sélectionne par défaut les propositions de l’expert dirigé vers

un but lorsque la récompense moyenne est stable. Dans la mesure où une récompense moyenne stable indique que la politique suivie rapporte régulièrement de la récompense,

il serait plus logique de s’appuyer sur les décisions de l’expert habituel, qui doit pouvoir

suivre cette politique eﬃcacement sans évaluer les actions dans l’ensemble du modèle de transitions.

Le critère d’entropie se rapproche de la notion d’incertitude des experts proposée par

Daw et al. (2005). Dans leur travail, l’incertitude est calculée sur les connaissances de

l’expert vis-à-vis de l’action considérée. Dans notre proposition, cette incertitude est liée à la décision d’une action, et ne nécessite pas de maintenir une distribution de valeurs pour chaque action et dans chaque état. Une limitation est que cette incertitude peut être

erronée vis-à-vis de la tâche : l’expert habituel tend à persister dans la même politique le

temps que soient propagés les changements dans la récompense. Le risque est donc que l’expert reste très certain dans sa proposition alors qu’il n’a pas pris en compte les nou-velles conditions de l’environnement. Il serait également plus pertinent de mesurer cette entropie sur les valeurs Q que sur les probabilités résultantes : la transformation réalisée par le softmax introduit un biais à cause de la température choisie (qui peut être diﬀérente

pour chaque expert). Dans notre cas, ça ne change pas le fait que l’expertdirigé vers un

butest plus incertain que l’experthabituel: sa valeur de τ est 10 fois supérieure à celle de

l’experthabituel. Cette mesure permet cependant d’estimer une notion d’incertitude des

experts sans un coût mémoire important (maintenir une distribution pour chaque action

et chaque état, Daw et al. (2005)) ou un coût computationnel inévitable (mise à jour du

Kalman Q-learning, Keramati et al. (2011)).

Pour les méthodes de fusion, nous obtenons des résultats diﬀérents de Wiering et Van

Hasselt (2008) : pour eux, les méthodes Boltzmann multiplication et Majority Voting

dépassent les performances des autres méthodes, alors que la première a une performance faible dans nos résultats. En eﬀet, multiplier les valeurs d’action tend à réduire le contraste, d’autant plus si l’une des distributions est proche de l’uniforme, comme celle de l’expert

dirigé vers un but. À l’inverse, Rank Voting exacerbe les contrastes faibles entre deux actions en leur donnant la même importance qu’un contraste fort entre deux actions. Ainsi, la moindre variation entre les valeurs d’action est exploitée, et même un faible retour de récompense permet de faire ressortir l’action qui l’a rapporté. Cette diﬀérence s’explique

également par la nature des experts mis en jeu. Dans leur approche, les algorithmes d’AR

combinés sont tous directs, ils ne sont donc pas confrontés à la diﬃculté d’exploiter un modèle dans une tâche contrainte en temps. Ces résultats plutôt contradictoires limitent l’importance des conclusions que nous pouvons tirer de cette étude, mais les résultats sur

la conservation ou la remise à zéro du plan de l’expertdirigé vers un but suggèrent qu’il

est nécessaire d’évaluer plus profondément ces méthodes d’arbitrage.

directe-ment à sa capacité à exploiter son modèle, et par conséquent à avoir un modèle adéquat du problème. Dans l’optique d’une méthode d’arbitrage par sélection, donner au meta-contrôleur des informations sur le degré d’apprentissage du modèle semble pertinent pour que la sélection de cet expert puisse se faire lorsqu’il est eﬃcace. Plus généralement, le meta-contrôleur devrait pouvoir estimer l’état de l’apprentissage dans chaque expert pour

eﬀectuer son arbitrage. Nous étudierons cette idée dans la seconde partie du chapitre8.

Chapitre 8

Dans le document Des comportements flexibles aux comportements habituels : Meta-apprentissage neuro-inspiré pour la robotique autonome (Page 93-98)