• Aucun résultat trouvé

S´ election par V P I

5.3.1 Tâche de résolution de problèmes

DansQUILODRANet collab.[2008] etKHAMASSIet collab.[2015], des singes ont été en-traînés à découvrir par essai-erreur une cible récompensante parmi 4 cibles possibles. Un problème typique commence avec la phase de recherche durant laquelle l’animal réalise des essais incorrects (INC) jusqu’à la découverte de la bonne cible (CO1). Ensuite, une période de répétition commence durant laquelle l’animal peut répéter le même choix ré-compensant pendant un nombre d’essais variant de 3 à 11 (ceci permet de réduire l’anti-cipation de la fin du problème). A la fin de la phase de répétition, un signal est fourni in-diquant le commencement d’un nouveau problème. La nouvelle cible récompensante est dans 90% des cas différente de la précédente. Les évènements successifs à l’intérieur d’un essai puis d’un problème (donc une suite d’essais) sont représentés dans la figure5.11.

5.3.2 Modèles computationnels

Nous avons testé le q-learning, le modèle de mémoire de travail (5.2.2), le modèle de mélange pondéré (5.2.3) et le modèle de coordination par entropie (5.2.3). N’ayant pas

Délai

FIGURE 5.11 – Tâche de résolution de problèmes chez le singe. Les singes doivent trouver par essai-erreur la cible récompensante. Si l’essai est correct, un jus est délivré à l’animal. La phase de répétition peut durer de 3 à 11 essais. Adapté deKHAMASSIet collab.[2015].

capturé beaucoup de comportements dans la section précédente, le modèle de sélection sur VPI n’a pas été retenu pour cette étude.

En plus des 4 modèles testés identiquement à la section précédente (Variation 1), nous avons testé plusieurs variations de ces modèles dans le but de mieux capturer le compor-tement des singes. Les variations sont :

2. une optimisation duγ du q-learning. Dans la section précédente, le γ du q-learning est nul puisqu’il n’existait pas de relation entre les transitions entre les états. Dans le cas présent, l’état est unique et bouclant ce qui rend l’utilisation duγ possible. Le γ est aussi optimisé pour toutes les variations suivantes.

3. Etant donné que chaque singe est entraîné sur de nombreux essais, il est possible que l’utilisation de la mémoire habituelle ait une influence d’un problème à l’autre. Pour modéliser cet effet, le q-learning n’est pas réinitialisé au début d’un essai. 4. Néanmoins, il est probable que cette stratégie de non-réinitialisation soit plus

ef-ficace si les q-valeurs du q-learning s’effacent au fur et à mesure de la tâche. Tout commeKHAMASSIet collab.[2015], nous avons ainsi testé une version du q-learning avec oubli et sans réinitialisation. Les couples état-action qui n’ont pas été sélec-tionnés dans un essai sont mis à jour selon :

Q(st, at) ← Q(st, at) + (1 − κ)(Q0− Q(st, at)) (5.19) avec Q0= 0 et 0 ≤ κ < 1 un paramètre de mise à jour.

5. Dans certains cas (singe m et singe p ; figureA.1), le profil de temps de réaction est opposé aux observations de temps de réaction de la section précédente que nous avons capturés par une combinaison de stratégies. Les temps de réaction en phase d’exploration sont inférieurs aux temps de réaction en phase d’exploitation ce qui impliquerait que la stratégie délibérative et donc la mémoire de travail soit utilisée seulement en phase de répétition des essais corrects. Etant donné que les singes sont entraînés sur des milliers d’essais, il est fort probable que le processus de déci-sion durant la phase d’exploration soit en partie automatisé. Pour autant, les singes doivent quand même opérer un processus délibératif en évitant de répéter les ac-tions négatives. Une possibilité que nous avons explorée dans cette dernière version

est celle d’une anticipation de l’action par la mémoire de travail. Durant la phase de mise à jour des systèmes de mémoire par la récompense, nous avons testé une heuristique simple qui consiste, pour les essais incorrects uniquement, à réinférer l’ensemble des éléments en mémoire de travail de manière à préparer la distribu-tion de probabilité de chaque acdistribu-tion utilisée au début de l’essai suivant. Ainsi, l’en-tropie des probabilités d’actions H(p(a|st)) des q-valeurs combinées (quel que soit le modèle de coordination utilisé) diminuera pendant les essais explorateurs sans que celle-ci ne s’accompagne d’une augmentation de la charge cognitive de la stra-tégie délibérative (ce qui ferait augmenter les temps de réaction). Pour rappel, nous avons modélisé le temps de réaction selon sRT(t r i al ) = (l og2(i + 1))σ+ H(p(a|st)) avec i le nombre d’éléments en mémoire de travail inférés. Cette heuristique n’est pas appliquée pendant la phase de répétition de l’action correcte.

Tous les modèles testés pour chaque singe sont résumés dans le tableau suivant :

MTB Q-L Mélange Coordination

Variation 1 Voir5.2.2 Q-L(γ = 0) Voir5.2.3 Voir5.2.3

Variation 2 γ ∈ [0,1[ γ ∈ [0,1[ γ ∈ [0,1[

Variation 3 γ ∈ [0,1[ + γ ∈ [0,1[ + γ ∈ [0,1[ +

¬ INIT(Q-L) ¬ INIT(Q-L) ¬ INIT(Q-L)

Variation 4 γ ∈ [0,1[ + γ ∈ [0,1[ + γ ∈ [0,1[ +

¬ INIT(Q-L) ¬ INIT(Q-L) ¬ INIT(Q-L)

OUBLI(Q-L) OUBLI(Q-L) OUBLI(Q-L)

Variation 5 HEURISTIQUE γ ∈ [0,1[ + γ ∈ [0,1[ +

(anticipation ¬ INIT(Q-L) ¬ INIT(Q-L)

par MTB) OUBLI(Q-L) OUBLI(Q-L)

HEURISTIQUE HEURISTIQUE

TABLEAU 5.3 – Tableau des 5 variations du modèle de mémoire de travail (MTB), du q-learning (Q-L), du modèle de mélange pondéré (Mélange) et du modèle de coordination par entropie (Co-ordination). Le symboledésigne les modèles non concernés par la variation testée. Le symbole ¬ est utilisé ici pour désigner l’absence de réinitialisation du q-learning au début d’un nouveau problème.

5.3.3 Résultats

Les résultats de l’optimisation sont présentés dans la figure5.12pour les cinq singes. Tout comme la section précédente, nous avons maximisé la vraisemblance que le modèle fasse les mêmes choix que les sujets et nous avons minimisé l’erreur des moindres carrés entre les moyennes des temps de réaction aux essais représentatifs.

Les essais représentatifs sont différents de la section précédente étant donné qu’il n’y a pas un nombre minimal d’erreurs à effectuer pour chaque singe. Pour obtenir des es-sais représentatifs, nous avons divisé chaque problème en fonction du nombre d’eses-sais de recherche (1 à 5). Pour la phase de répétition, seuls les trois premiers essais sont conser-vés. Les temps de réaction sont moyennés permettant de donner une courbe d’évolution

par sujet et par problème. L’optimisation de chaque modèle s’attelle donc à minimiser la différence avec chacune de ces courbes moyennes d’évolution des temps de réaction pour un sujet. Les fronts de Pareto obtenus après l’optimisation sont présentés dans la figure5.12pour chaque singe. Pour chaque modèle, un front de Pareto est créé en mélan-geant les variations dudit modèle.

La première observation que nous pouvons faire est, encore une fois, la nécessité de combiner des systèmes de mémoire pour expliquer dans cette tâche les choix et les temps de réaction. Les modèles de coordination par entropie et de mélange pondéré surpassent les modèles simples de mémoire de travail bayésienne et de q-learning. A l’exception du singe r pour laquelle la variation 5 semble la plus adaptée, les autres fronts de Pareto de chaque modèle mélangent plusieurs variations. Par exemple, pour le modèle de coordina-tion par entropie appliqué au singe s, la meilleure adéquacoordina-tion aux choix commence par la variation 2 (en bas du front de Pareto) puis, vers le milieu du front, c’est la variation 5 qui se rapproche le plus des temps de réaction (tout en perdant de l’adéquation aux choix).

Comme il n’existe de mesure directe de la performance des singes comme dans la section précédente et que ce travail est principalement préliminaire, nous avons seule-ment testé le paramétrage de chaque modèle sur la reproduction des temps de réaction en suivant la séquence de choix du singe (et non en roue libre). Le paramétrage testé cor-respond donc à la solution qui maximise l’adéquation aux temps de réaction sur les fronts de Pareto. Implicitement, cette solution correspond à la première solution qui dépasse le modèle uniforme dans l’adéquation aus choix du singe (l’adéquation aux choix est nor-malisée entre un «modèle» ne proposant que des probabilités uniformes et la réplication parfaite des choix).

Les résultats sont présentés dans la figure5.13pour chaque singe avec la version as-sociée à chaque modèle. Les phases d’exploration et d’exploitation sont séparées par une barre verticale. La moyenne des temps de réaction pour chaque type de problème et pour chaque singe est représentée dans la figure5.13par une courbe noire pointée.

Comme le montrent les fronts de Pareto, des solutions améliorant l’adéquation aux choix existent (bien qu’elles diminuent l’adéquation aux temps de réaction). Pour finir, nous avons aussi appliqué le processus de sélection de solution de Tchebytchev (A.2) pour extraire un seul paramétrage des fronts de Pareto. Représentée par une étoile noire sur chaque front de Pareto, cette solution est un compromis entre l’adéquation aux choix et l’adéquation aux temps de réaction. Les résultats de simulation contraints par les choix des singes sont présentés dans la figure annexe A.1.

Pour la figure 5.13, le modèle capturant le mieux les temps de réaction est le mo-dèle de coordination par entropie version 5 appliqué au singe g. Pour rappel, la version 5 correspond à l’utilisation du gamma dans le q-learning, l’oubli des q-valeurs, la non-réinitialisation et une anticipation par le modèle de mémoire de travail pendant la phase de recherche.

Le deuxième modèle capturant le mieux l’évolution des temps de réaction est le mo-dèle de coordination par entropie version 3 appliqué au singe r. L’évolution des temps de réaction du singe r est très similaire à l’évolution moyenne des temps de réaction dans

BROVELLI et collab.[2011] de la section précédente et ne semble pas nécessiter d’antici-pation de la mémoire de travail.

Au contraire, les singes s et p présentent des profils largement inverse deBROVELLI

et collab. [2011] et de fait sont mieux approximés par une anticipation de la mémoire de travail (avec toutefois des différences certaines pour le singe p pour 0INC,3REP et 1INC,3REP). Pour finir, le singe m est faiblement capturé par le modèle de mélange pon-déré version 4.

0.0 0.2 0.4 0.6 0.8 1.0 Choix 0.0 0.2 0.4 0.6 0.8 1.0 T emps de r ´eaction Singe p 0.0 0.2 0.4 0.6 0.8 1.0 Choix 0.0 0.2 0.4 0.6 0.8 1.0 T emps de r ´eaction Singe s 0.0 0.2 0.4 0.6 0.8 1.0 Choix 0.0 0.2 0.4 0.6 0.8 1.0 T emps de r ´eaction Singe r 0.0 0.2 0.4 0.6 0.8 1.0 Choix 0.0 0.2 0.4 0.6 0.8 1.0 T emps de r ´eaction Singe m 0.60 0.65 0.70 0.75 Choix 0.85 0.90 0.95 1.00 T emps de r ´eaction Singe g

M ´emoire de travail bay´esienne Coordination par Entropie M ´elange pond´er´e

Q− Learning Variation 1 Variation 2 Variation 3 Variation 4 Variation 5

FIGURE5.12 – Pour chaque singe, le front de Pareto pour chaque modèle est construit en mélan-geant les variations possibles. Nous avons optimisé le q-learning, le modèle de mémoire de travail bayésienne, le modèle de mélange pondéré et le modèle de coordination par entropie. Les va-riations sont décrites dans la section5.3.2. L’étoile noire représente la solution sélectionnée par l’opérateur de Tchebytchev.

0 INC ; 3 REP

RT

1 INC ; 3 REP 2 INC ; 3 REP

Singe m| Mod`ele M ´elange pond´er´e version 4

3 INC ; 3 REP 4 INC ; 3 REP 0 INC ; 3 REP

RT

1 INC ; 3 REP 2 INC ; 3 REP

Singe g| Mod`ele Coordination par Entropie version 5

3 INC ; 3 REP 4 INC ; 3 REP 0 INC ; 3 REP

RT

1 INC ; 3 REP 2 INC ; 3 REP

Singe p| Mod`ele Coordination par Entropie version 5

3 INC ; 3 REP 4 INC ; 3 REP 0 INC ; 3 REP

RT

1 INC ; 3 REP 2 INC ; 3 REP

Singe s| Mod`ele Coordination par Entropie version 5

3 INC ; 3 REP 4 INC ; 3 REP 0 INC ; 3 REP

RT

1 INC ; 3 REP 2 INC ; 3 REP

Singe r | Mod`ele Coordination par Entropie version 3

3 INC ; 3 REP 4 INC ; 3 REP

RT Singe Coordination par Entropie M ´elange pond´er´e

FIGURE 5.13 – Simulation (moyenne ± erreur type) des temps de réaction contraints par la sé-quence de choix du singe. Pour chaque singe, la moyenne des temps de réaction est effectuée en séparant les problèmes en fonction du nombre d’essais dans la phase d’exploration.

5.3.4 Discussion

Dans cette section, nous avons exploré très brièvement les possibilités de transfert de notre modèle de mémoire de travail ainsi que des modèles de coordination vers une tâche d’association visuo-motrice chez le singe. Selon ce travail préliminaire, Le modèle de coordination par entropie a réussi à capturer l’évolution des temps de réaction pour les singes r et g et partiellement les singes s et p. Pour m, le modèle de mélange pondéré est celui qui minimise la différence des moindres carrés sans toutefois capturer l’évolution des temps de réaction.

Cette tâche a été étudiée dans une série d’articles chez le singe [KHAMASSI et col-lab., 2015; PROCYKet collab.,2000; QUILODRAN et collab., 2008; ROTHÉet collab.,2011] mais aussi chez l’humain en imagerie cérébrale (IRMf ) [AMIEZet collab.,2012] et en élec-troencéphalographie (EEG ; avec 5 actions possibles au lieu de 4) [SALLETet collab.,2013]. Dans les deux cas, les auteurs ont cherché à corréler une erreur de prédiction de récom-pense RPE = robt enue− pcor r ec t.rat t end u(= 1) avec l’activité cérébrale enregistrée pendant la phase exploratrice. En IRMf, le cortex cingulaire antérieur, le cortex fronto-insulaire, le striatum, le cortex rétrosplénial et le cortex préfrontal dorsolatéral moyen corrèlent po-sitivement avec une RPE positive (en d’autres termes : plus la RPE est élevée, moins la récompense était attendue et plus l’activité cérébrale est élevée). Néanmoins, cette cor-rélation disparaît pour une RPE négative. En EEG, les auteurs s’intéressent aux potentiels évoqués lors de la réception de la récompense. Contrairement aux résultats en IRMf, le potentiel évoqué pour les régions frontales corrèle à la fois avec la RPE positive et la RPE négative. De plus, les auteurs montrent que le même potentiel évoqué apparaît au mo-ment du signal indiquant le début d’un nouveau problème impliquant ainsi un suivi de la structure de la tâche par les sujets et non seulement les récompenses positives et néga-tives.

En outre, une similitude existe avec la tâche étudiée dans cette section au niveau des résultats comportementaux. Tout comme les singes g, p et s, les sujets humains en IRMf et en EEG montrent la même tendance d’accélération des temps de réaction au fur et à mesure de l’élimination des cibles et une légère augmentation du temps de réaction en phase de répétition.

Ces études chez le singe [KHAMASSIet collab.,2015;PROCYKet collab.,2000; QUILO

-DRAN et collab.,2008; ROTHÉet collab., 2011] et chez l’humain [AMIEZ et collab.,2012;

SALLETet collab.,2013] montrent clairement une activité cérébrale de haut niveau reliée à l’évaluation, l’encodage mais aussi le suivi de l’incertitude associée à la décision pen-dant l’obtention de la récompense. Dans sa version originale (Version 1), ces caractéris-tiques ne sont pas modélisées par notre modèle de mémoire de travail que ce soit comme modèle unique ou comme modèle combiné à un q-learning. Celui-ci ne fait qu’encoder la description de l’essai. La seule version qui se rapproche d’une mesure concernant l’in-certitude courante concerne la version 5 avec une réévaluation du contenu de la mémoire de travail induisant une diminution d’entropie pendant l’obtention de la récompense. Néanmoins, les auteurs se sont principalement intéressés à une erreur de prédiction de récompense qui est un signal plus proche de celui de l’erreur de différence temporelle utilisé par notre q-learning. Les modèles de coordination entre un q-learning et un mo-dèle de mémoire de travail que nous proposons sont ainsi appropriés pour chercher de nouvelles variables computationnelles pouvant être utilisées pour chercher des corrélats dans l’activité neurophysiologique, en plus de la RPE, pour mieux comprendre le rôle des différentes structures étudiées.

De plus, une différence concerne le nombre d’essais effectués. Chez les sujets hu-mains, ce sont une dizaine de problèmes en IRMf et une centaine de problèmes en EEG

qui sont résolus. Au contraire, les singes sont confrontés à un millier d’essais de cette tâche et il est ainsi fort probable qu’une stratégie habituelle se développe. Néanmoins, cette stratégie d’automatisation de la recherche de bonne réponse semble assez éloignée d’un q-learning tel qu’utilisé dans ce travail de modélisation qui sera toujours lié à l’as-sociation correcte qui change d’un essai à l’autre pénalisant la réussite de la tâche. Le q-learning classique semble peu adapté comme modèle d’une mémoire inflexible et tour-née vers la résolution de cette tâche.

Cette stratégie habituelle peut s’incarner dans des méta-paramètres comme le pro-pose KHAMASSIet collab.[2011]. Dans cette étude, le q-learning comme modèle central de décision est augmenté par des méta-paramètresβ qui sont différents en fonction de la phase d’un problème. Une variation simple de nos modèles pourrait être de considé-rer l’ajout d’un module (en plus de la mémoire de travail et du q-learning) apprenant l’entropie moyenne de chaque type d’essais (multipliant ainsi le nombre d’états pour ce module). Cette entropie moyenne pourrait être utilisée dans le processus de décision de la mémoire de travail en modulant par exemple le seuil d’entropie qui déclenche la déci-sion.

Ce type de méta-apprentissage, où le modèle apprend progressivement les entropies moyennes dans différents états de la tâche pour ainsi biaiser les décisions du modèle, semble une piste prometteuse qui pourrait nous permettre de mieux rendre compte de l’apprentissage progressif de la structure de la tâche au cours des milliers d’essais réalisés par les singes. Etant donné que les humains testés sur la même tâche [SALLETet collab.,

2013] ont un profil de temps de réaction proche de celui des singes étudiés ici, il se pour-rait que les instructions données aux sujets humains et la facilité de la tâche aient pu permettre à ces sujets de comprendre très vite la structure de la tâche, sans avoir besoin d’effectuer des milliers d’essais. C’est une des perspectives que nous pourrions étudier par la suite en faisant une comparaison homme-singe avec nos modèles sur cette tâche.

Pour conclure, le travail de modélisation présenté dans cette section constitue prin-cipalement un test de transférabilité des modèles et de la méthode d’optimisation déve-loppés dans la section précédente. Dans un cas (singe g), le modèle de coordination par entropie avec heuristique d’anticipation est le meilleur modèle pour les choix et capture très bien les temps de réaction. Pour les autres singes, d’autres variations des modèles se-ront ainsi nécessaires pour capturer entièrement l’évolution des temps de réaction et des choix.

5.4 Conclusion

Dans ce chapitre, nous avons présenté un modèle de mémoire de travail bayésienne qui, à partir d’une liste d’éléments en mémoire, minimise l’entropie d’information en éva-luant itérativement chaque élément. Quand l’entropie est inférieure à un certain seuil, l’agent considère qu’il a assez d’information pour décider et une action est donc choisie. Ce modèle a été conçu pour modéliser précisément la tâche d’association visuo-motrice étudiée dansBROVELLIet collab.[2008,2011]. Dans ces études, les auteurs émettent l’hy-pothèse d’une interaction entre une stratégie délibérative et une stratégie habituelle. Cette hypothèse nous a conduit à adjoindre un q-learning comme stratégie habituelle (selon les propositions de la littérature correspondante [DAWet collab.,2005;KERAMATIet col-lab.,2011]). Comme processus d’interaction, nous avons proposé un modèle de coordina-tion par entropie qui permet de régler l’instant de la décision selon l’entropie inférée des éléments en mémoire de travail mais aussi de l’entropie contenue dans les probabilités d’action du q-learning. Nous avons comparé ce modèle à un modèle de mélange pondéré

adapté deCOLLINSet FRANK[2012] et à un modèle de sélection par VPI adapté deKERA

-MATI et collab.[2011]. En optimisant les paramètres sujet par sujet selon un algorithme d’évolution multi-objectif, nous montrons ainsi qu’il est possible de capturer l’évolution de la performance et des temps de réaction par l’un des trois modèles d’interaction pro-posés.

Dans une seconde partie de chapitre, nous avons testé brièvement nos modèles et notre approche d’optimisation sur une tâche similaire chez le singe. Si un processus d’in-teraction semble très bien s’appliquer pour expliquer les temps de réaction pour un singe, les observations comportementales pour les autres singes ne sont pour l’instant modéli-sées que partiellement. De fait, cette tâche est différente de celle étudiée chezBROVELLI

et collab.[2011]. Il n’existe qu’un seul état, il n’y a pas de manipulation de la tâche et les singes sont entraînés sur des milliers d’essais. Si le modèle de mémoire de travail bayésienne ainsi que les processus de coordination proposés semblent constituer une base possible pour la modélisation de la tâche, d’autres développements et ajustements