• Aucun résultat trouvé

Cortex préfrontal et apprentissage par renforcement : l’apprentissage pour le

Dans le document en fr (Page 44-47)

1.2 Apprentissage et cortex préfrontal

1.2.1 Cortex préfrontal et apprentissage par renforcement : l’apprentissage pour le

Le contrôle cognitif représente notre capacité à avoir un comportement adapté aux circons- tances. Il semble aller sans dire qu’afin d’agir de manière adaptée, il est nécessaire de savoir, donc d’avoir appris, quelle est l’action adaptée aux circonstances. Il n’y a pas de contrôle cognitif sans apprentissage le précédant. C’est d’ailleurs flagrant dans les études portant sur le contrôle cognitif, qui impliquent presque toutes un fort entrainement des sujets précédant le protocole expérimental en lui-même.

On peut d’ailleurs percevoir cet aspect essentiel de l’apprentissage dans le contrôle cognitif par le fait que de nombreux signaux d’apprentissage, pouvant potentiellement être essentiels à des décisions, sont présents dans le cortex préfrontal, région indispensable au contrôle cognitif.

Dans cette partie, nous présentons tout d’abord les liens anatomiques et fonctionnels qui existent entre le cortex préfrontal et les ganglions de la base, qui permettent d’intriquer apprentissage et décision.

Par la suite, nous présentons de nombreux résultats montrant la présence de signaux d’ap- prentissage (notamment d’erreur de prédiction) dans le cortex préfrontal.

Boucles ganglions de la base-PFC

On sait depuis longtemps (par exemple Alexander, 1990 [3], 1986 [4], Cummings, 1995 [57]) que le lobe frontal et les ganglions de la base interagissent de manière privilégiée. Cette interaction se fait sous forme de nombreuses boucles parallèles ouvertes. En fonction de la région frontale concernée, on peut séparer ces boucles en cinq grandes familles, de structures très similaires : projection sur un noyau du striatum qui, lui, se projette sur le globus pallidus et la substance noire. Ces derniers sont connectés au thalamus qui se projette à son tour sur l’aire de départ. On parle de boucle ouverte car il est démontré que les points d’arrivée et de départ sont très proches, cependant des entrées d’autres régions extérieures à la boucle ont lieu à différents endroits de la boucle.

Plus précisément, les cinq circuits sont :

– Les circuits moteur et oculomoteur qui commencent dans l’aire motrice supplémentaire (SMA) et le frontal eye field, respectivement et projettent vers le putamen.

– Le circuit dorsolatéral préfrontal qui inclut le noyau caudé dorsal. – Le circuit orbitofrontal qui inclut le noyau caudé ventral.

– Le circuit médial frontal qui inclut le noyau accumbens (striatum ventro-médial). Beaucoup d’hypothèses sont proposées quant à l’intérêt fonctionnel de ces structures. On a vu une proposition dans le modèle d’apprentissage de Frank. Un rôle d’initiation de l’action est également reconnu à la boucle motrice. D’autres hypothèses ont également été posées, comme un mécanisme de filtrage de l’information pertinente (Joel et al, 2002 [118]) ou un mécanisme d’interruption du flux d’information (Frank, O’Reilly et al, par exemple [160], [159], [161]), qui sera exposé plus en détail dans les modèles de contrôle cognitif.

On voit en tout cas que les liens préfrontaux - sous corticaux sont importants, ce qui justifie en particulier de retrouver des signaux d’apprentissage par renforcement, présents dans les ganglions de la base, dans le cortex préfrontal.

Signaux d’apprentissage par renforcement présents dans le PFC

De nombreuses études ont utilisé le cadre formel de l’apprentissage par renforcement pour mettre en évidence des signaux d’apprentissage dans les boucles fronto-baso-thalamiques. Dans ces études, un modèle d’apprentissage par renforcement (par exemple, Q-learning) est fitté pour trouver les paramètres (par exemple, vitesse d’apprentissage) qui permettent au modèle d’expliquer au mieux le comportement des sujets (rats, singes ou humains). Cette procédure de fitting se fait en général en maximisant la vraisemblance (likelihood) du modèle, définie comme la somme des logarithmes de probabilités estimées par le modèle des choix effectués par le sujet. Ces paramètres sont ensuite utilisés pour générer, à partir des choix des sujets, les valeurs pertinentes du modèle : valeur estimée de l’état ou de l’action choisie, erreur de prédiction après obtention du renforcement, etc. Ces valeurs sont ensuite utilisées soit pour les corréler avec l’activité de neurones individuels (électrophysiologie animale), soit avec l’activité globale d’une zone du cerveau (humain), par la technique appelée model-based IRMf (détaillée par Corrado et Doya, 2007 [54], O’Doherty et al, 2007 [158]).

Ces techniques permettent de mettre en évidence la présence de signaux de type « erreur de prédiction » dans la boucle orbitofrontale. En particulier, Tanaka et al, 2004 [205], mais aussi d’autres études (Pasupathy et al, 2005 [163], Seymour et al, 2004 [196]), rapportent des activations correspondant à une erreur de prédiction dans l’OFC ou dans l’ACC, lors de tâches d’apprentissage légèrement complexes (tâche de type ‘labyrinthe’ pour Tanaka et al, tâche mélangeant incertitude et structure temporelle pour Seymour et al).

Dans le cadre de l’apprentissage par renforcement, a également été mise en évidence la représentation de signaux codant les valeurs attendues dans le cortex orbito-frontal (Kim et al 2006, [128] ; Tanaka et al, 2004 [205], 2006 [204], Valentin et al, 2007 [208]). Tanaka, qui effectue une tâche avec structure temporelle complexe, retrouve également des signaux de valeurs de prédictions dans le cortex préfrontal dorso-latéral et dans l’ACC.

O’Doherty et al, 2001 [157], montrent dans une tâche d’apprentissage (probabilistic reversal Learning, détaillée plus bas) une activation du cortex orbitofrontal corrélée à la valeur d’une récompense ou d’une punition, ce qui peut être relié au codage de valeurs dans

l’OFC, comme indiqué plus haut. Ce résultat est confirmé par Daw et al, en 2006 [60]. On détaillera plus loin cette étude, cependant, on peut noter également qu’elle met en évidence une corrélation positive entre la probabilité de l’action choisie et l’activité dans le cortex orbitofrontal et ventromédial. Cette probabilité étant fortement corrélée à la valeur de chaque option, ce résultat confirme les précédents.

D’autres modèles que des modèles d’apprentissage par renforcement sont également utilisés et produisent des valeurs comparables. Par exemple, Hampton, Bossaerts, et O’Doherty, 2006 [102], construisent un modèle bayésien qui leur permet d’estimer un signal comparable à l’erreur de prédiction : la mise à jour entre les probabilités a priori et a posteriori. Ce signal est corrélé à l’activité du striatum ventral et du vmPFC, conformément aux autres études. Par ailleurs, une estimation de la valeur attendue du choix effectué, la probabilité a priori que le choix soit correct, corrèle avec l’activité du cortex orbitofrontal et du cortex préfrontal médian.

De même, dans Boorman et al, 2009 [23], les auteurs utilisent un modèle bayésien et montrent que l’apprentissage de l’avantage lié à l’option actuelle est représenté dans le vmPFC tandis que l’apprentissage de l’avantage lié à l’option non sélectionnée est repré- senté dans le cortex frontopolaire.

Nous avons donc montré que de nombreuses études retrouvent dans le cortex préfrontal, et en particulier dans ses parties médiales ou ventrales (cortex orbitofrontal, cortex préfrontal ventromédial) qui sont des cibles préférentielles de la dopamine, des signaux proches de l’apprentissage par renforcement. Cela montre que l’apprentissage, nécessaire au cortex préfrontal pour les problèmes de prise de décision, est bien également en partie représenté dans le cortex préfrontal. Cela suggère donc une interaction forte entre l’apprentissage et le contrôle cognitif dans le cortex préfrontal.

Dans le document en fr (Page 44-47)