• Aucun résultat trouvé

Coordination de stratégies

4.2 En apprentissage instrumental

4.2.2 Le compromis entre vitesse et précision

La principale faiblesse de l’approche proposée dansDAWet collab.[2005] pour expli-quer la transition entre comportement lié à un but et comportement habituel est la né-cessité de lancer le calcul dans l’arbre des transitions (computationnellement coûteux) à chaque pas de temps pour évaluer l’incertitude. Ce calcul est néanmoins gratifiant puis-qu’il permet d’obtenir une valeur précise de l’action. Le modèle d’habitudes ne souffre pas de cette limitation puisque l’incertitude se contente d’être lue en même temps que la valeur de l’action. Dans l’intention de dépasser ces limitations,KERAMATIet collab.[2011] propose un processus d’arbitrage construit sur un compromis entre la vitesse d’exploita-tion et la précision de l’estimad’exploita-tion de la valeur.

Nous allons décrire le modèle deKERAMATIet collab.[2011] plus en détails ici, car il fait partie des modèles que nous avons comparés au nôtre, notamment dans la publication

VIEJOet collab.[2015]. La réplication de ce modèle (après correction de certaines valeurs de paramètres) a d’ailleurs été validée et publiée dansVIEJOet collab.[2016].

Encore une fois, le système d’habitudes est modélisé par un algorithme d’apprentis-sage par différence temporelle : le Kalman q-learning [GEISTet collab.,2009]. Version sim-plifiée du q-learning bayésien [DEARDENet collab.,1998], le Kalman q-learning permet de représenter la fonction de valeur sous la forme d’une loi normale. Au cours de l’appren-tissage, une matrice de covarianceΣ entre les couples état-action est mise à jour selon un gain de Kalman. Au moment du choix d’action, la moyenne de la loi normale sert directe-ment de valeur de l’action.

Pour l’apprentissage sur modèle, l’agent maintient sa propre fonction de transition

pT(st, at, st +1) → [0,1] et sa propre fonction de récompense R(st, at) ∈ R qu’il évalue en fonction de son interaction avec l’environnement selon :

pT(st, at, st +1) = (1 − φ)pT(st, at, st +1) + φ (4.19) R(st, at) = (1 − ρ)R(s,at) + ρrt (4.20) avecφ et ρ les paramètres du modèle. Lors de la prise de décision, le modèle mimant le comportement lié à un but entame un processus récursif selon :

Qmod(st, ai) = R(st, ai) + γX s0

pT({s, a} → s0) max

b∈A Q(s0, b)mod (4.21) qui s’arrête au bout de 3 transitions dans le graphe4.7. Pour simplifier le calcul, les auteurs supposent que l’agent a déjà une connaissance de la dimension du problème, c’est-à-dire de tous les états et les actions dans l’environnement. Pour mimer le processus de déva-luation de l’animal dans une tâche de conditionnement instrumental, la valeur R(S1, A1) est arbitrairement changée à -1.

P(Q(st, a1)H< Q(st, a2)H) 1 p e (Q(st ,a2)H−Q(st ,a1)H)2 2σ(st ,at )2 a2 a1 Q(st, at) p

FIGURE4.9 – Schéma du calcul de la valeur parfaite d’information de l’équation4.23. Dans cette représentation idéalisée, l’action a1a une q-valeur supérieure à l’action a2. Les flèches indiquent les deux parties de l’équation.

Pour arbitrer, l’agent va maintenir en mémoire une mesure du taux de récompense ¯R évalué selon :

¯

R = (1 − σ) ¯R + σrt (4.22)

avecσ un paramètre du modèle. Cette valeur va ensuite être comparée à une valeur par-faite d’information VPI(st, a) calculée pour chaque action possible dans l’état st. Pour

Algorithme 4.1 :KERAMATIet collab.[2011]

Initialisation

Q(s, a)mod, Q(s, a)hab

R(S1, A1) = 1 Fonction de récompense de l’environnement ¯

R = 0 Taux de récompense

R(s, a) = {0,...} Fonction de récompense de l’agent répéter st ← S0 si Dévaluation alors R(S1, A1) = 0 R(S1, A1) = −1 fin

tant que st6= S3faire Sélection de l’action {a1, . . . , ai , . . .} ← sor t(Qhab(st, ai)) Calculer : pour ai6= a1faire VPI(st, ai) ←4.23 fin VPI(st, a1) ←4.24 Comparer : pour i ∈ {a1, a2, . . . , ai, . . .} faire si VPI(st, ai) ≥ τ ¯R(t) alors Q(st, ai) ← Qmod el(st, ai) fin sinon Q(st, ai) ← Qhab(st, ai) fin fin at← so f t − max[Q(st, a)] rt = R(st, at) st +1= T (st, at) Mise à jour (voirA.1) fin

l’action possédant la plus grande q-valeur (et donc susceptible d’être sélectionnée), la mesure d’incertitude VPI se calcule selon :

VPI(st, a1) = (Q(st, a2)H−Q(st, a1)H)P(Q(st, a1)H< Q(st, a2)H)+σ(st, a1) p 2π e (Q(st ,a2)H−Q(st ,a1)H)2 2σ(st ,a1)2 (4.23) Pour les autres actions avec une q-valeur inférieure, la VPI se calcule selon :

VPI(st, ai) = (Q(st, ai)H− Q(st, a1)H)P(Q(st, ai)H> Q(st, a1)H) +σ(st, at) p

e

(Q(st ,a1)H−Q(st ,ai )H)2 2σ(st ,at )2

(4.24) Pour avoir une intuition de ces deux longues équations, la première a été schématisée dans la figure4.9avec une séparation en 2 parties. Ces deux parties sont «orthogonales» comme on peut le voir dans la figure et permettent de rendre compte de toutes les rela-tions possibles entre a1et a2(c’est-à-dire leur écartement/rapprochement ou leur étale-ment/concentration). Les mêmes principes s’appliquent pour la deuxième équation4.24.

Entraînement modéré Entraînement extensif

Essai Essai

Essai Essai

FIGURE4.10 – A. Valeur d’information précise (VPI) pour l’action d’appuyer sur le levier (A0) et l’action d’entrer dans l’auge (A1) à l’état initial (S0) contre le taux récompense en apprentissage modéré. Les barres verticales représentent la dévaluation de la récompense. B. En apprentis-sage extensif. C. Probabilité d’action pour A0 et A1 dans l’état S0 en apprentisapprentis-sage modéré. D. En apprentissage extensif. Reproduit deVIEJOet collab.[2016] répliquant le travail deKERAMATI

et collab.[2011] (Code open-source disponible en téléchargement avec l’article sur le site web de

ReScience).

Du point de vue de l’agent, l’arbitrage entre le système d’apprentissage sur modèle et le système d’apprentissage d’habitudes se décrit ainsi :

— VPI(st, ai) > ¯R(t) : l’action ai est incertaine et le taux de récompense est bas. Si les récompenses arrivent lentement, il est préférable de perdre du temps dans le raffi-nage de la valeur de l’action en utilisant le modèle du monde pour être sûr d’obtenir une récompense

— VPI(st, ai) < ¯R(t) : la valeur de l’action ai est correctement encodée dans le système d’habitudes et les récompenses arrivent rapidement. Il est préférable de choisir ra-pidement une action en faisant confiance au comportement habituel.

Pour clarifier le processus, l’algorithme4.1résume les principales étapes de la coordi-nation des systèmes de mémoire selon le compromis vitesse-précision. La version com-plète de l’algorithme du Kalman q-learning est détaillée dans l’annexeA.1.

Tout commeDAW et collab.[2005], les auteurs ont testé leur modèle sur une tâche classique de conditionnement instrumental que nous avons reproduit dansVIEJOet col-lab.[2016]. Dans cette tâche, un groupe de rats est entraîné à appuyer sur un levier pour ensuite consommer sa récompense dans une auge. Les résultats sont présentés dans la fi-gure4.10pour un entraînement modéré (4.10.A et C) et un entraînement extensif (4.10.B et D). Le transfert de contrôle entre systèmes de mémoire s’illustre bien à l’essai 50 de la figure 4.10.B. En entraînement modéré, la dévaluation s’effectue avant le transfert de contrôle (avant que le modèle ait développé une habitude comportementale contrôlée par le q-learning) et le système d’apprentissage sur modèle continue de dominer la sélec-tion de l’acsélec-tion. Cela se traduit par une probabilité d’acsélec-tion juste au regard de l’absence de récompense après la dévaluation (c’est-à-dire probabilité issue d’un mécanisme flexible qui s’est rapidement adapté à la dévaluation). Si le transfert de contrôle s’effectue (après un apprentissage plus long), le système d’apprentissage d’habitudes ne modifie pas im-médiatement ces probabilités d’action. Comme observé dans la littérature expérimentale, l’habitude persiste après une dévaluation de la récompense. Néanmoins, nous observons que le Kalman q-learning continue d’apprendre et finalement retourne à des probabilités d’action exactes 50 essais après la dévaluation, ce qui n’est pas discuté par les auteurs.

C’est une prédiction intéressante des modèles de renforcement qui à notre connais-sance est rarement discutée/évaluée dans la littérature : la prédiction est que même si l’apprentissage par différence temporelle est inflexible relativement à l’apprentissage sur modèle (et donc prédit une persistence du comportement même après dévaluation), si on laisse suffisamment de temps au modèle après la dévaluation (test en extinction suffi-samment long (ici > 50 essais)), alors on devrait finir par observer un désapprentissage de l’habitude et donc une adaptation comportementale à la dévaluation. Or, la plupart des tests en extinction sont très courts et ne permettent donc pas d’observer ce phénomène.

Pour finir, le compromis entre vitesse et précision a aussi été exploré dansPEZZULO

et collab.[2013] dans une proposition de modèle très similaire à celle deKERAMATIet col-lab.[2011]. La variable VPI est remplacée par une valeur d’information qui est cette fois-ci comparée à un seuil fixe (et non à un taux de récompense) pour arbitrer entre l’exploita-tion d’une table de q-valeurs ou l’utilisal’exploita-tion d’un graphe de planifical’exploita-tion. Contrairement àKERAMATIet collab.[2011], les auteurs proposent de faire varier la profondeur de la pla-nification dans le graphe de transition en fonction de l’incertitude associée à la q-valeur d’une action. Les auteurs ont ensuite testé leur modèle sur différentes versions d’un laby-rinthe en double T en faisant varier l’incertitude à chaque point de décision. Si la capacité adaptative du modèle est ainsi démontrée, les auteurs n’ont pas effectué de comparaison avec des données réelles au contraire des études précédentes.