• Aucun résultat trouvé

Switch et exploration, rôle de la noradrénaline

Dans le document en fr (Page 111-120)

3.2 Les mécanismes de switch

3.2.3 Switch et exploration, rôle de la noradrénaline

Avant de revenir au rôle de la norépinephrine dans l’exploration, ainsi qu’à son lien avec l’incertitude, revenons au problème du switch. Si nous avons exposé plus haut la notion fondamentale de task-set impliquant un effort cognitif pour sa désactivation, nous n’avons décrit pour le moment que des mécanismes de switch impliquant le fait d’interrompre le comportement précédent par défaut. Or, le switch implique également la nécessité de sélec- tionner un nouveau comportement par défaut. Cette sélection peut être triviale, en particu- lier lorsqu’un contexte ou une instruction sont à l’origine du switch, définissant le prochain task-set. Cependant, il arrive également que, soit le switch soit initié en l’absence d’ins- tructions (par exemple à la suite d’erreurs), soit que l’instruction n’indique pas le prochain TS à appliquer. En présence d’au moins trois options, il revient alors au sujet de choisir parmi celles qu’il ne vient pas de quitter. Ce processus d’exploration est stratégiquement et théoriquement complexe, comme nous l’avons déjà exposé dans le premier chapitre. Nous avons montré d’une part, le lien entre exploration et incertitude (dans la section 1.2.2), d’autre part, le lien entre incertitude et norépinéphrine (dans la section précédente). Nous pouvons donc maintenant argumenter sur le fait que la norépinéphrine joue un rôle essentiel dans l’exploration. Dans Cohen, McClure et Yu, 2007 [43], les auteurs se reposent sur le modèle proposé par Yu et Dayan, 2005 [217] pour proposer que le signal tonique de la norépinephrine, lorsqu’il devient fort, implique un switch, soit l’abandon du comporte- ment par défaut présent. Il semblerait donc que le mode tonique élevé de la norépinephrine corresponde aux périodes d’exploration par opposition aux périodes d’exploitation. Aston- Jones et Cohen, 2005 [6], argumentent également dans cette direction, lorsqu’ils posent la question de l’intérêt de ce mode tonique. En effet, les résultats comportementaux observés impliquent plus d’erreurs et un moins grand engagement dans la tâche. Cette distractibilité pourrait permettre un comportement exploratoire dans le sens ou elle s’écarte de l’exploi- tation des actions connues comme correctes, et pourrait donc dans ce sens être intéressante

d’un point de vue évolutionnaire, malgré les erreurs qu’elle apporte. C’est d’ailleurs ce qui est observé (Dayan et Yu, 2006 [64]) : en effet, des rats ayant reçu un traitement de telle sorte que leur niveau de NE soit augmenté, parviennent à s’adapter plus rapidement à une nouvelle règle que les rats qui n’ont pas reçu ce traitement, indiquant plus de flexibilité, liée à une exploration plus importante.

Pour finir, il est très important de noter que le LC reçoit essentiellement des projections du cortex orbito-frontal et de l’ACC, deux régions impliquées dans l’évaluation des récom- penses (OFC, ACC), du conflit, de la volatilité et des erreurs (notions proches de l’incer- titude, ACC). Nous avons donc un faisceau convergent d’arguments pour un rôle de la NE, pour calculer (à partir d’entrées signalant l’utilité attendue d’une tâche et l’incertitude précédente) l’incertitude présente, la signaler à l’AFC et agir comme signal de switch pour entrer en période d’exploration.

Cet ensemble d’arguments liant exploration, incertitude, switch avec la norépinéphrine et le cortex ventro-médial tend à montrer que l’exploration n’est pas seulement un phénomène de bas niveau, mais qu’il peut s’agir d’une décision impliquant du contrôle cognitif, au même titre qu’un switch.

Chapitre 4

Question de thèse

Apprentissage et contrôle cognitif : données empiriques. Nous avons montré jus- qu’ici que la recherche a établi la forte imbrication des problèmes d’apprentissage et de contrôle cognitif, dans les ganglions de la base et le cortex préfrontal. Nous avons montré que le cerveau était capable de découvrir et d’utiliser les structures sous-jacentes aux pro- blèmes et qu’il était muni d’une structure fonctionnelle hiérarchique particulièrement bien adaptée à résoudre les problèmes de contrôle cognitif. Nous avons montré l’existence d’une première unité hiérarchique du contrôle cognitif, le task-set, et que la flexibilité du contrôle cognitif était bien représentée par le switch entre différents task-sets, processus permettant de passer de l’exploitation d’une tâche par défaut à l’exploration des options disponibles. Nous avons montré que ces processus de switch et d’exploration étaient crucialement dé- pendants des questions d’incertitude.

Apprentissage et contrôle cognitif : modèles. Nous avons montré que des modèles de réseau de neurones se basant sur une imitation précise des structures et connectivités connues permettaient de reproduire beaucoup d’observations empiriques, sans toujours être satisfaisants quant à leur pouvoir explicatif (Cohen et Frank, 2009 [44]). Nous avons montré que deux grandes classes de modèles théoriques sont utilisées – parfois de manière jointe – pour proposer des théories fonctionnelles de l’apprentissage et de la décision : l’apprentissage par renforcement et les modèles d’inférence bayésienne.

Programme de la thèse. Dans cette thèse, nous avons posé la question de l’appren- tissage des task-sets en vue de leur utilisation par le contrôle cognitif. Nous voyons cette question comme englobant très largement les fonctions exécutives préfrontales : en effet, elle peut être vue comme un problème d’utilisation du contrôle cognitif, pour extraire une notion de task-set, dans un problème d’apprentissage. Elle peut également être vue comme un problème d’utilisation de l’apprentissage pour le contrôle cognitif : apprentissage de task-sets avant de pouvoir effectuer du task-switching entre ces task-sets.

Nous posons la question de l’apprentissage des task-sets en l’absence d’apprentissage dirigé, en présence de renforcement et en présence ou absence d’information contextuelle. Cette question est posée dans un environnement incertain et pour un minimum de trois task- sets : en effet, nous avons vu le rôle crucial joué par l’incertitude dans le switch, et nous argumentons qu’un switch entre deux options est qualitativement différent d’un switch en présence de trois options, puisque ce dernier met en jeu de l’exploration.

Nous proposons d’apporter une réponse à cette question en utilisant des modèles quantitatifs de type RL ou bayésiens plutôt que des réseaux de neurones, afin de pouvoir proposer simplement des mécanismes de manipulation de l’information qui pourraient être effectués dans le cerveau.

Nous soutenons qu’aucun modèle présenté ne résout ce problème, et passons rapidement en revue, ci-dessous, des modèles qui pourraient prétendre à le résoudre ainsi que leurs limitations.

RL, par exemple Q-learning. Si les modèles d’apprentissage par renforcement peuvent résoudre le problème de l’apprentissage d’un task-set, ils ne peuvent pas résoudre celui de l’apprentissage de plusieurs task-sets. En effet, l’apprentissage d’un nouveau task-set pro- voque l’effacement des valeurs apprises précédemment, donc l’oubli du task-set précédent. Pour permettre au RL de pouvoir résoudre le problème de l’apprentissage des task-sets, il faudrait ajouter un mécanisme de contrôle permettant de décider du stockage d’un task-set en mémoire au moment opportun, et de sa réutilisation le cas échéant.

Même en présence d’information contextuelle et en mettant dans l’espace des états non pas seulement les stimuli mais plutôt les paires (contexte, stimulus), le résultat n’est pas

satisfaisant. En effet, le RL peut, dans ce cas, apprendre différents TS dans différents contextes ; mais deux problèmes se posent. Tout d’abord, aucun transfert n’est possible si deux contextes sont valides pour un task-set. Ensuite, le passage d’un stimulus à l’autre n’est pas différent du passage d’un contexte à l’autre, donc d’un task-set à l’autre, niant ainsi la spécificité cognitive de la notion de tâche et de switch.

Unexpected uncertainty. Le modèle bayésien proposé par Yu et Dayan, 2005 [217], proposant l’incertitude inattendue comme signal de switch est satisfaisant dans sa capacité à maintenir un task-set par défaut en présence d’incertitude et à switcher quand nécessaire. Cependant, il suppose les task-sets déjà appris et ne propose pas de mécanisme d’exploration pour la sélection du prochain task-set après un switch.

Ce modèle pourrait être couplé à un modèle de RL pour apprendre des task-sets, le signal de switch permettant alors de signaler le moment de stocker ces task-sets et, soit d’en apprendre un nouveau, soit d’en réutiliser un (par exemple en utilisant de l’information contextuelle). Cependant, même ainsi modifié, il ne permet pas non plus d’explorer l’espace des task-sets après un switch.

MMBRL. Le modèle mixte RL, bayésien, proposé par Doya et al (MMBRL, 2002 [75]), adapté à un environnement discret convenant au contrôle cognitif, permettrait à la fois l’apprentissage et le stockage d’un nombre prédéfini de task-sets, l’exploration de l’espace des task-sets appris et le passage d’un task-set à l’autre. Cependant, nous argumentons qu’il représente mal l’interaction de l’apprentissage et du contrôle cognitif pour plusieurs raisons. Le première est la symétrie parfaite du rôle de chaque TS à tout temps dans le modèle, alors que nous avons vu qu’un comportement par défaut était sélectionné tant qu’il semblait valide. Par ailleurs, cette symétrie implique un ralentissement considérable des apprentissages initiaux. La deuxième est l’absence de notion de switch, puisque tous les TS prennent part à la décision à chaque essai. Enfin, ce modèle pose un problème de rigidité : il présuppose un nombre de TS à apprendre dès le début. Si le problème a un nombre effectif plus bas de TS à considérer, il y a gâchis d’énergie ; si, au contraire, ce nombre est plus grand, le modèle ne pourra pas résoudre le problème de manière adéquate.

Dans la prochaine partie, nous montrerons comment nous proposons de réunir les points positifs de ces différents modèles (structure hiérarchique et exploration de MMBRL, struc- ture binaire de décision dans unexpected uncertainty) en un modèle permettant de proposer un principe d’acquisition de task-sets pour le contrôle cognitif.

Nous montrerons ensuite, dans deux expériences comportementales, que le modèle proposé permet, contrairement aux autres modèles, de rendre compte de la manière très variable dont des sujets humains intègrent l’apprentissage et le contrôle cognitifs.

Deuxième partie

Modèles d’apprentissage et de

contrôle cognitif

Chapitre 5

Les modèles

Dans cette partie, nous présentons la théorie construite pour représenter l’interaction de l’apprentissage et du contrôle cognitif. Nous présenterons tout d’abord le cadre précis dans lequel nous étudions ce problème. Nous présenterons ensuite trois modèles adaptés de mo- dèles existants auxquels nous comparerons le modèle proposé. Enfin, nous détaillerons les aspects spécifiques de notre modèle, tout d’abord sans information contextuelle, puis en présence d’information contextuelle. En dernière partie, nous concluerons sur les apports de notre modèle et les prédictions qu’il permet d’effectuer.

5.1

Définition du cadre

Nous nous plaçons dans un environnement doté d’un espace fini de stimuli {si}i=1...nS, ainsi

que d’un espace fini d’actions {ai}i=1...nA. Nous définissons l’interaction de l’environnement

avec le sujet par l’existence de task-sets réels, qui seront notés par la suite TS*. TS* représente le comportement qui est correct à un moment donné, dans le sens où l’utilisation de ce comportement est optimale en terme de renforcements obtenus par l’acteur. TS* n’est pas observable par l’acteur, il est fixé par le monde extérieur. Les TS* sont en nombre fini, TS*= 1, . . . , nT S.

un apprentissage au moins approximatif d’un TS* avant qu’il ne change. Cette hypothèse est motivée par le fait que, lorsque des règles ne sont pas exclusives et sont apprises si- multanément, elles tendent à ne former qu’un seul TS. Cela implique qu’il est nécessaire d’isoler un minimum dans le temps l’utilisation d’un task-set afin de l’apprendre, au moins par renforcement. Nous appelons un épisode une période de temps pendant laquelle un TS* ne change pas.

Bien que ce ne soit pas une limitation théorique de notre modèle, nous nous limitons par la suite à une fonction de renforcement stochastique binaire : après chaque action sélec- tionnée, l’acteur a soit gagné (r = 1) soit perdu (r = 0), sans implication d’un niveau de récompense. La probabilité de gagner lorsque l’action sélectionnée par l’acteur correspond à l’action indiquée par le TS* est γ, où γ est au moins supérieur à 0,5, et peut dépendre des stimuli et des TS*. En pratique, on fixe γ à au moins 0, 75. La probabilité de gagner lorsque l’action sélectionnée par l’acteur ne correspond pas à l’action indiquée par le TS* est 1 − γ. γ représente donc la fiabilité de l’environnement, à quel point une réponse « ga- gné » (respectivement « perdu ») est indicative ou non d’une action correcte (respectivement incorrecte).

Notons que les task-sets sont en général représentés comme des ensembles d’associations stimulus – action. En particulier, nous supposons ici que, si l’acteur est soumis à une série de stimuli dans le but d’apprendre différents task-sets, il n’a pas d’effets sur l’environnement autre que de provoquer des renforcements : il ne provoque pas le prochain stimulus présenté par l’action sélectionnée (ce qui serait le cas dans une expérience de type labyrinthe, par exemple). Au contraire, la séquence de stimuli est aléatoirement déterminée par l’environ- nement. Autrement dit, la fonction de transition est uniforme, l’action choisie n’influence pas le prochain stimulus présenté, ce qui justifie, comme expliqué dans le paragraphe 1.1.1, d’apprendre indépendamment les valeurs de chaque stimuli. Par exemple, pour le RL, on posera γ = 0.

Nous étudions par la suite deux cas : dans un cas, aucune information contextuelle n’est dis- ponible, dans l’autre en revanche, si. Nous appelons un contexte une deuxième dimension des entrées sensorielles, différente des stimuli. Nous supposons que les contextes sont infor- matifs sur les task-sets réels, TS*. Selon la terminologie de Koechlin et al, 2003 [136], nous

nous plaçons dans le cadre du contrôle contextuel et non dans le cadre du contrôle épiso- dique. Cela signifie que les associations contexte – task-set ne changent pas, le contexte est complètement informatif sur le TS* : un seul TS* peut être valide pour un contexte donné. La réciproque est fausse : plusieurs contextes peuvent être associés au même task-set.

Dans le document en fr (Page 111-120)