• Aucun résultat trouvé

Contributions du cortex cingulaire médian à la régulation du comportement : études des dynamiques préfrontales et perturbations locales chez le primate

N/A
N/A
Protected

Academic year: 2022

Partager "Contributions du cortex cingulaire médian à la régulation du comportement : études des dynamiques préfrontales et perturbations locales chez le primate"

Copied!
327
0
0

Texte intégral

(1)

HAL Id: tel-03288739

https://tel.archives-ouvertes.fr/tel-03288739

Submitted on 16 Jul 2021

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Contributions du cortex cingulaire médian à la régulation du comportement : études des dynamiques

préfrontales et perturbations locales chez le primate

Vincent Fontanier

To cite this version:

Vincent Fontanier. Contributions du cortex cingulaire médian à la régulation du comportement : études des dynamiques préfrontales et perturbations locales chez le primate. Neurosciences. Université de Lyon, 2020. Français. �NNT : 2020LYSE1220�. �tel-03288739�

(2)

1

N°d’ordre NNT : 2020LYSE1220

THESE de DOCTORAT DE L’UNIVERSITE DE LYON

opérée au sein de

l’Université Claude Bernard Lyon 1

Ecole Doctorale

ED 476 : NEUROSCIENCES ET COGNITION

Spécialité de doctorat : Biologie

Discipline : Neurosciences

Soutenue publiquement/à huis clos le 06/11/2020, par :

Vincent Fontanier

Contributions du cortex cingulaire médian à la régulation du comportement

Etudes des dynamiques préfrontales et perturbations locales chez le primate

Devant le jury composé de :

COUTUREAU, Etienne Directeur de Recherche

CNRS Sud-Ouest UMR 5287

INCIA Rapporteur

PESSIGLIONE, Mathias Directeur de Recherche

INSERM Paris UMR_S 1127

ICM Rapporteur

BEN HAMED, Suliann Directrice de Recherche

CNRS Lyon UMR 5229 ISC-

MJ Examinatrice

BOULINGUEZ, Philippe Professeur des Universités

Université Lyon 1 UMR

CNRS 5229 — CRNL Examinateur GRANON, Sylvie Professeure des

Universités

Université Paris-Saclay UMR

CNRS 9197 — Neuro-PSI Examinatrice

PROCYK, Emmanuel Directeur de Recherche

CNRS Lyon UMR_S1208 — SBRI

Directeur de thèse

(3)

2

(4)

3

Résumé

Les animaux ont la capacité fondamentale de structurer leurs actions en intégrant les issues de leurs choix afin de guider efficacement leurs recherches de récompenses. L’organisation cérébrale constitue le substrat de cette faculté de lier actes et récompenses dans le temps.

Les activités des aires associatives, principalement préfrontales, reflètent des processus d’évaluation des récompenses et de contrôle de l’action.

La recherche de dissociations fonctionnelles permet de révéler les contributions relatives des aires qui forment ce réseau. Nous avons comparé les activités de neurones du cortex préfrontal latéral (LPFC) avec celles du cortex cingulaire médian (MCC). Les activités du LPFC sont particulièrement fortes lors de la sélection d’une option suivant une instruction visuelle apprise. Les activités neuronales du MCC contiennent elles des représentations internes du suivi des récompenses et des stratégies à adopter en conséquence.

Pour compléter l’étude corrélative des enregistrements unitaires, nous avons perturbé l’inhibition locale en injectant un antagoniste gabaergique dans le MCC. Ces interventions induisent des déficits à considérer l’historique des récompenses et des informations pour la régulation du comportement.

Enfin, nous avons cherché dans les activités locales des déterminants intrinsèques à l’organisation du comportement. Nous avons extrait les signatures temporelles des activités du MCC et du LPFC que nous avons pu reproduire dans un modèle de réseau cortical par des jeux de conductances. Ces conductances fournissent un support mécanistique de la structuration des activités du réseau nécessaire à l’organisation temporelle des fonctions cognitives.

Mots-clés

Cortex cingulaire – cortex préfrontal – adaptation – recherche d’information – suivi des récompenses – cognition – temporalité

Intitulé du laboratoire d’accueil

INSERM U1208 – Institut Cellule Souche et Cerveau Equipe Neurobiologie des Fonctions Executives 18 avenue du doyen Jean Lépine

69500 Bron

(5)

4

Abstract

Animals have the fundamental ability to structure their actions by integrating the outcomes of their choices to effectively guide their search for future rewards. Brain organization forms the basis of this ability to link actions and rewards in time. The activities of associative areas, mainly prefrontal, reflect evaluation processes and control of action.

The search for functional dissociation makes it possible to reveal the relative contributions of the areas which form this network. We compared the activities of neurons in the lateral prefrontal cortex (LPFC) with those of the median cingulate cortex (MCC) recorded in macaques. LPFC units are particularly recruited when selecting an option following a learned visual instruction. MCC neural activities contain internal representations of reward monitoring and strategies to be adopted accordingly.

To complete the correlative study of unit recordings, we disrupted local inhibition by injecting a gabaergic antagonist into MCC. These disturbances induce deficits in behavioral regulation

in light to the history of rewards and information.

Finally, we looked in local activities for intrinsic determinants of the behavioral organization.

We extracted the temporal signatures of MCC and LPFC activities and could reproduce them in a cortical network model by sets of conductances. These conductances provide a mechanistic support for the structuring of network activities necessary for the temporal organization of cognitive functions.

Keywords

Cingulate cortex – prefrontal cortex – adaptation – information seeking – reward monitoring – cognition – timescale

Host laboratory

INSERM U1208 – Stem Cell and Brain Research Institute Team Neurobiology of Executive Functions

18 avenue du doyen Jean Lépine 69500 Bron, FRANCE

(6)

5

Table des matières

Résumé ... 3

Abstract ... 4

Table des matières ... 5

Table des illustrations ... 8

Index thématique ... 14

Lexique anglais ... 15

Liste des abréviations ... 16

PARTIE I – Revue Bibliographique ... 17

Chapitre 1 — Comportement et adaptation ... 17

Pourquoi l’animal se comporte comme il le fait ? ... 17

Comportements homéostatiques ... 18

Des réponses adaptées ... 19

Les récompenses ... 22

L’évaluation des récompenses ... 27

Comment comparer des récompenses entre elles ? ... 27

La valeur comme une construction neuronale ... 29

Représentations des valeurs dans l’activité neuronale ... 32

L’importance du contexte ... 35

Les biais cognitifs ... 35

Algorithmes et stratégies d’organisation du comportement ... 37

Agir ... 38

Le cerveau, une machine intégrative tournée vers l’action ... 42

La recherche d’informations ... 46

Chapitre 2 — Neurophysiologie du cortex cingulaire médian ... 48

(7)

6

Qu’est-ce que le MCC ? ... 48

Le cortex cingulaire ... 48

Subdivisions du cortex cingulaire antérieur ... 48

Aires cingulaires motrices et organisation anatomofonctionnelle chez le primate ... 52

Propriétés locales du MCC ... 56

Positionnement anatomofonctionnel et théorique du MCC dans les circuits de l’adaptation du comportement ... 58

Préambule ... 58

MCC et évaluation des récompenses ... 64

Cortex cingulaire antérieur et potentiels évoqués aux erreurs et aux récompenses . 64 Réseaux fronto-striataux de la récompense ... 69

Système dopaminergique et signalement des récompenses ... 70

Contribution du MCC dans l’évaluation des contingences récompense/action ... 77

Régulation des plans d’actions dans le MCC ... 87

Contribution du MCC à la régulation des actions dépendantes de schémas internes d’organisation ... 87

Encodage des informations permettant la régulation des plans d’action ... 91

Représentation des incitations à rechercher de l’information ... 95

Représentations dynamiques de l’environnement vers une transition comportementale... 99

Système noradrénergique : transitions neuronales et comportementales ... 103

Une hiérarchie corticale anatomofonctionnelle ... 104

Organisation topographique du cortex frontal ... 104

Interaction entre les cortex préfrontaux latéraux et médians ... 109

Organisation topographique locale ... 111

Le MCC entre perception, association et action ... 117

(8)

7

Du positionnement central du MCC aux activités de réseaux ... 117

Timescale neuronale et cognition ... 121

Problématiques de thèse ... 125

Dissociation fonctionnelle entre LPFC et MCC ... 125

Implication du MCC dans la régulation des comportements de recherche d’information ... 126

Importance de l’inhibition aux fonctions du MCC ... 127

Hétérogénéité au sein du MCC ... 128

Partie II — Travaux expérimentaux ... 130

Etude 1 — Contribution de dynamiques neuronales frontales spécifiques aux décisions de vérifier ... 131

Etude 2 — Implication causale du cortex cingulaire médian à la régulation des décisions de vérifier ... 153

Etude 3 – Le contrôle de la méta-stabilité des réseaux frontaux par l’inhibition locale détermine les signatures temporelles des états cognitifs ... 186

Complément 1 : Chapitre de livre – Le cortex cingulaire médian et intégration temporelle 259 Partie III — Discussion ... 284

Agir pour réduire l’incertitude ... 284

Régulation des actions permettant de réduire le niveau d’incertitude dans le MCC ... 286

Hétérogénéité du MCC et traitement incarné de l’action ... 287

Au-delà des récompenses et des erreurs : détection, suivi et incitation à rechercher de l’information dans le MCC ... 290

Importance de l’inhibition aux fonctions du MCC ... 294

MCC et théorie de la valeur espérée du contrôle ... 295

Dissociation fonctionnelle entre LPFC et MCC ... 297

Le mot de la fin ... 299

Bibliographie ... 300

(9)

8

Table des illustrations

Figure 1. Répertoire et adaptation du comportement animal. ... 19

Figure 2. Conditionnement des associations stimulus/réponse ... 22

Figure 3. Apprentissage des associations stimulus/réponse et récompense ... 25

Figure 4. La valeur comme une construction neuronale ... 31

Figure 5. Représentations des valeurs dans l’activité neuronale du cortex frontal ... 34

Figure 6. Influence du contexte verbal sur la reproduction de figures ... 35

Figure 7. Activité et recherche de ressources dans l’environnement ... 40

Figure 8. L’exploration visuelle comme moyen d’évaluation ... 42

Figure 9. Suivi des récompenses et de la volatilité dans l’ACC ... 45

Figure 10. Subdivisions du cortex cingulaire antérieur ... 51

Figure 11. Organisations des aires cingulaires motrices antérieures chez le primate. ... 53

Figure 12. Chevauchement entre les représentations somato-motrices de la face et l’évaluation des feedbacks gustatifs ... 54

Figure 13. Propriétés locales du cortex cingulaire chez le primate ... 57

Figure 14. Représentations successives des feedbacks jusqu’aux décisions dans les activités populationnelles du MCC ... 61

Figure 15. Activités liées aux erreurs et aux feedbacks dans le MCC ... 66

Figure 16. Réseaux fronto-striataux de la récompense ... 74

Figure 17. Système dopaminergique et signalement des récompenses ... 75

Figure 18. Relation entre feedback et adaptation du comportement dans le MCC ... 78

Figure 19. Codage des valeurs d’action dans le MCC ... 82

Figure 20. Conséquences des perturbations du MCC sur le suivi des contingences entre actions et récompenses ... 86

Figure 21. Encodage des informations permettant la régulation des plans d’action dans le MCC ... 90

Figure 22. Modulation du codage des feedbacks par le besoin d’adapter les plans d’action . 93 Figure 23. Corrélats neuronaux des transitions comportementales ... 97

Figure 24. Représentations dynamiques de l’environnement vers une transition comportementale... 101

Figure 25. Traitement hiérarchique du contrôle décisionnel dans le cortex frontal ... 108

(10)

9

Figure 26. Gradient anatomofonctionnel rostro-caudal dans le MCC ... 116

Figure 27. Du positionnement central du MCC aux timescales neuronales ... 120

Figure 28. Timescales neuronales et cognition ... 123

Figure 29. Similitudes des réponses aux feedbacks et à la jauge dans le MCC ... 293

(11)

10

Remerciements

Avant d'entrer dans le vif du sujet, je voudrais profiter de ces quelques lignes pour remercier toutes les personnes qui ont contribué, de près ou de loin, aux travaux de thèse présentés dans ce manuscrit, aux travaux, collaborations et autres études préliminaires non abordés ici, et, plus généralement à l'équilibre de travail et de passion qui a caractérisé la période de ma vie passée à élaborer mon doctorat.

La première personne à laquelle je pense est bien évidemment mon directeur de thèse, Manu Procyk. Merci pour tout. Merci pour le temps que tu m'as accordé, les responsabilités que tu m'as donné et surtout pour ta passion de la science et de la transmission du savoir dont tu transpires et qui sont de véritables forces émulatrices ! L'étymologie de merci décrit un marché fructueux réalisé entre deux parties. J'aime donner à ce mot ce sens en te remerciant.

Je pense que nous pouvons être satisfaits de ces échanges représentés à travers mon doctorat et les travaux qui en ont émergés. Merci.

Je tiens également à remercier les membres de mon jury de thèse qui ont accepté de prendre le temps d'évaluer ces travaux. Merci à Philippe Boulinguez qui a accepté de présider ce jury.

Merci à Mathias Pessiglione et Etienne Coutureau d'avoir de passer en revue mon manuscrit.

Je profite de cette occasion pour te remercier Etienne pour ton contact toujours chaleureux que j'ai pu apprécier durant ces années de thèse, avec en particulier une petite pensée pour cet excellent bar Bordelais ! Enfin merci à Sylvie Granon et Suliann Ben Hamed, que je connais un peu mieux à travers nos différentes rencontres. Mes échanges avec toi furent stimulants, amicaux et toujours précieux. Une partie de ces échanges eurent lieux lors de mes comités de suivi de thèse, au cours desquels Sebastien Bouret m'a également beaucoup apporté et je l'en remercie.

Longues et demandantes sont les thèses en général et peut-être plus longues encore sont celles chez le primate. Je tiens donc à remercier à la fois mon laboratoire d'accueil, l'institut Cellule Souche et Cerveau, sa direction, Colette Dehay et Henry Kennedy, mais aussi et surtout mes organismes financeurs, le labex Cortex et la Fondation pour la Recherche Médicale. C'est grâce à cette dernière en particulier que j'ai pu effectuer mes travaux de thèse dans de bonnes

(12)

11 conditions. J'espère avoir contribué du mieux que possible aux avancées de connaissances scientifiques qui motivent les dons à cette fondation.

Mais la Science est avant tout un travail commun, nourrie par les échanges d'idées et de connaissances. Mon équipe, l'équipe Neurobiologie des Fonctions Exécutives dirigée par Manu Procyk en a été un formidable terreau durant cette période. Une part significative des résulats de ce manuscrit furent obtenus grâce à mes collègues d'équipe, présents, passés et peut-être futurs !

Merci à Fred Stoll de m'avoir réduit en esclavage durant mes années de Master pour me préparer au dur travail dans la recherche.

Merci à Charlie Wilson pour ton aide, notamment chirurgicale avec les animaux, les nombreuses pintes partagées et surtout pour avoir un pays dont on peut se moquer.

Un grand merci à Mattieu Sarazin et Bruno Delord, immenses collaborateurs de la 3e étude de ce manuscrit. Au-delà d'être des scientifiques géniaux, vous avez été une formidable rencontre humaine de ma fin de thèse.

Mais le plus gros du travail quotidien de recherche, je l'ai effectué grâce à Clément que je remercie immensément, ici comme collègue, d'avoir formé avec moi un binôme d'une redoutable complémentarité.

Les autres grands contributeurs du quotidien sont mes amis poilus avec qui j'ai passé de (très) nombreuses heures, plus nombreuses que celles passées avec ma copine ! Merci à vous, c'est vous les vrais champions, Momo, Yuyu, Scarou et bien sûr toi, Arthur. J'espère que tu as le repos que tu mérites dans ce grand tombeau royal à Pétra.

Je ne pourrais hélas ni nommer ni décrire la nature de mes remerciements envers toutes les personnes que j'ai cotoyé durant cette thèse. Merci à tous les membres de l'équipe NEF. Les actuels : Céline, Laura, Delphine, Camille, Clémence, Marion, Jerôme, Zach, Rossella

Ceux de passage : Rick et Kat, I hope to see both of you soon after this fucking pandemia!

Les anciens : Maïlys, Nico, Maëva, Kep Kee, Julie… trop de bons souvenirs dans ce bureau de folie, tellement dommage de pas pouvoir soutenir devant vous. De même pour les anciens de l'animalerie, Xav, Marco, big up ! Merci d'ailleurs à l'équipe de l'animalerie dans son ensemble.

(13)

12 D'ailleurs le travail au laboratoire ne se limite pas à la team Procyk : il y a aussi les cassos de la team Impact ! Bisous à vous Leslie et Audrey, on se refait une virée à NYC quand vous voulez les bitch!

Merci au plus beau des binomes, Pierrot et Camille. On vous reprend au basket quand vous voulez avec Clem! Ah et Camille j'attends toujours tes VST!

Merci à nos deux Loulou du labo pour votre humour, la qualité des discussions avec vous et surtout votre anarchisme.

Merci à Guillaume, Pascale, Ouria, Christine, Salma, Yujie, Rita, Clarisse.

Bon puis faut se l'avouer, une thèse c'est beaucoup de travail mais ça laisse quand même pas mal de temps pour faire le con avec ses potes. En fait c'est là tout le secret de l'équilibre de la chose ! Mais c'est surtout la partie la plus difficile à écrire de ce manuscrit…comment n'oublier personne ? Bon déjà en écrivant ces lignes je pourrais faire passer la pillule plus simplement.

Non en fait je vais faire ça de manière scientifique et rigoureuse, catégorie par catégorie, en dénombrant, tel un Descartes de PMU.

Il y a d'abord les vrais, les purs, les durs, toute la clique de MPG. Bon les gars je vais pas écrire une ligne pour chacun sinon je m'en sortirai pas. Simplement un immense merci à vous tous de faire partie de ma vie, on se le dit pas assez souvent vu qu'on préfère se chambrer et faire les cons mais c'est quand même important de le dire maintenant ! Merci pour tout ces bons souvenirs et cette union depuis tant d'années. Puis bon on s'est quand même fait des sacrés trips durant cette thèse entre Interail, le Maroc et la Jordanie, comme quoi !

Liste des mpgistes arrêtée au 06/11/2020 : Hugo, Nono, Tiger, Manon, Gas, Amande, Loïc, Chaboune, Flo, Mélanie, Do, Margaux, Perez, Fœtus, Val Lopez, Emilie, Marc, Pauline, Roland, Thib, Sof, Pao, Laurie.

Merci aux potos du Master, déjà qu'on n'était pas nombreux au début nos troupes se réduisent de plus en plus. La ville est moins sûre depuis l'arrêt de nos patrouilles cher Sylvain.

Popo, j'espère qu'on se reverra avant le marriage avec F cœur. Puis mon Loulou.. qu'est-ce que t'es allé foutre si loin pardieu ? C'est pas comme si on pouvait encore venir se pinter la gueule avec des anglais déchirés, satané virus. Brice, on se fait un Ricard confraternèlement quand tu veux ! De même Prany et Nelly, l'Alliance nous attend.

(14)

13 Putain ! Ely, BlanBlan et Costellox dire que ça va faire 10 piges qu'on se connait nous aussi..

On s'est pas trop vu pendant cette thèse mais je vous oublie pas les frérots !

Bon puis comme c'est pas vraiment moi qui porte la culotte à la maison, j'ai été emmené à rencontrer tous les potos de ma chère et tendre qui depuis sont tous devenus des amis. C'est dire le goût qu'elle a !

Merci à vous Marie, Max, Lydie, Perrine, Stéphane, Aurore, Hugo, Adrien, Yannick, Bastien, Elodie, Marion, Violaine, Bernardo, Davide. Ciao Giacomo, l'idiote est triste depuis que tu es partie, c'est comme si elle n'avait plus qu'une moitié de moi.

En parlant de famille adoptive, un grand merci à Carla et Claudia, muitos beijinhos !

Merci également à ma famille tout court, je suis pas sûr que vous sachiez vraiment sur quoi porte ma thèse, même après ma soutenance mais je suis si heureux que vous soyez fier de mon parcours. Merci grand frère ! Merci Papa ! Merci GPF et GPN ! Merci maman !

Merci tout simplement à toi Clément, mon autre frérot. Je t'ai déjà remercié dans les collègues mais je pense que tu mérites amplement d'être remercié au moins deux fois, ici en tant qu'ami.

Enfin merci à toi Alexandra. Merci pour tout ce qu'on partage et qu'on continuera à partager.

Voilà maintenant que même notre titre de docteur on va le partager, quelle drôlerie !

(15)

14

Index thématique

Adaptation, 19, 23

Aires cingulaires motrices, 52, 88, 112, 117, 128 Apprentissage par renforcement, 42, 43, 71, 112 Approches interventionnistes, 44, 68, 83, 91, 125 Codage adaptatif, 32

Conditionnement, 20 Conflit, 67, 110 Coût, 39

Dynamiques de réseaux, 38, 42, 57, 59, 99, 103, 109, 118, 121 Erreurs, 64, 67

Exploration visuelle, 41, 58, 70

Gradient rostro-caudal, 44, 76, 89, 105, 112 Incertitude, 43, 46, 70, 74, 77, 83, 84, 91 Inhibition, 56, 109

Neuromodulation, 26, 56, 70, 100

Neurosciences théoriques, 64, 67, 71, 76, 103, 110 Recherche d'information, 38, 46, 58, 70, 95, 99, 103 Récompenses, 22, 26, 27, 29, 32, 38, 69

Suivi des récompenses, 44, 80, 83, 88, 100, 112, 121, 129 Système dopaminergique, 26, 56, 64, 65, 68, 70, 75 Système noradrénergique, 56, 100, 103

Temporalité, 38, 42, 56, 59, 72, 83, 99, 105, 112, 117, 121 Utilité, 28

Valeur, 28, 29, 32, 79, 122

Valeurs d’action, 43, 79, 87, 91, 122

(16)

15 Certains mots de la littérature anglophone renvoient à des concepts dont la traduction en français perd en pertinence. J’ai également pris le parti d’utiliser les abréviations des termes neuroanatomiques anglophones qui sont à mon sens plus répandues et donc plus largement compréhensibles.

Les termes anglais utilisés sont italisés dans le texte.

Lexique anglais

arousal : éveil cue : indice drive : moteurs

expected value : valeur espérée goal : but

incentive : incitation

liking /wanting : plaisir/désir needs : besoins

timescale : Le mot timescale est employé dans cette littérature pour refléter un processus impliquant une structuration dans le domaine temporel

(17)

16

Liste des abréviations

ACC : cortex cingulaire antérieur (anterior cingulate cortex)

dACC : cortex cingulaire antérieur dorsal (dorsal anterior cingulate cortex) CMA : aires cingulaires motrices (cingulate motor areas)

CR : réponse conditionnée (conditioned response) CS : stimulus conditionné (conditioned stimulus)

ERN : négativité liée aux erreurs (error-related negativity) Exc : neurone putativement excitateur

FRN : négativité liée aux feedbacks (feedback-related negativity) GLMM : modèle linéaire généralisé mixte

Inh : neurone putativement inhibiteur LC : locus coeruleus

LIP : cortex latéral intrapariétal (lateral intraparietal) LPFC : cortex préfrontal latéral (lateral prefrontal cortex)

dLPFC : cortex préfrontal dorsolatéral (dorsolateral prefrontal cortex) MCC : cortex cingulaire médian (midcingulate cortex)

aMCC : MCC antérieur pMCC : MCC postérieur

mPFC : cortex préfrontal médian (medial prefrontal cortex) NA : noradrénaline

OFC : cortex orbitofrontal (orbitofrontal cortex) PCGS : sillon paracingulaire (paracingulate sulcus)

RCZa : zone cingulaire rostrale antérieure (anterior rostral cingulate zone) UCR : réponse non conditionnée (unconditioned response)

UCS : stimulus non conditionné (unconditioned stimulus)

vmPFC : cortex préfrontal ventro-médian (ventromedial prefrontal cortex)

(18)

17

PARTIE I Revue Bibliographique

Chapitre 1 Comportement et adaptation

J’ai eu la chance d’écrire une partie de ce manuscrit à Dienville dans la campagne auboise.

M’étant installé un poste de travail en extérieur je ponctuais mon travail par l’observation d’un formidable ballet aérien offert par des sphinx colibris. La manière dont ces lépidoptères étaient capables d’organiser leur butinement me fascina. En m’attardant sur un individu je remarquai sa manière de butiner séquentiellement chaque fleur d’un massif en comprenant une cinquantaine, accumulant le nectar sur sa trompe, le tout avec une formidable grâce et économie de mouvement. Une fois sa collecte terminée il rejoignit un autre massif tandis qu’un de ses congénères vint prendre sa place de sorte qu’un seul individu butine au même endroit à la fois. Plus tard dans la journée, le même individu revint butiner le massif voisin de mon poste de travail. Ainsi cet animal pas plus gros qu’un œuf de poule est capable d’organiser son comportement de butinement très précisément en prenant en compte son historique à la fois récent et plus ancien des fleurs et massifs qu’il a butinés ainsi que de la présence ou non de ses congénères. Si j’osai trop me rapprocher, le sphinx colibri sentant la menace s’éloignait, avant de revenir, une fois ma menaçante présence écartée, au même endroit et de recommencer son butinement là où je l’avais interrompu. Cette faculté d’organiser ses actes n’est pas le propre du sphinx colibri. Il s’agit même de la définition fondamentale de ce qu’est un animal. Étymologiquement, animal vient du latin animalis désignant ce qui est animé, vivant, insufflé de vie, d’une âme. La capacité de se déplacer, d’agir est donc constitutive des animaux. Comme le sphinx colibri, les animaux possèdent un répertoire d’actions et de facultés d’adaptation plus ou moins complexe et varié.

Pourquoi l’animal se comporte comme il le fait  ?

Nikolaas Tinbergen peut être considéré (avec Karl von Frisch et Konrad Lorenz) comme le père de l’étude comparative du comportement animal, autrement dire de l’éthologie. En 1963 il pose les fondations de l’éthologie moderne à travers 4 questions qui ont alimenté et continuent d’alimenter les recherches sur le comportement animal (Tinbergen, 1963).

Tinbergen se questionne sur ce qui déclenche un comportement, sur la fonction de ce comportement, comment a-t-il été appris par l’individu et comment a-t-il été propagé et

(19)

18 évolué à travers les individus et espèces. Dès 1951 (Tinbergen, 1951) Tinbergen avait déjà posé en substance la question principale de l’éthologie: Pourquoi l’animal se comporte comme il le fait ? L’objectif des neurosciences cognitives —dans lesquelles s’inscrit ma thèse

— est de comprendre et décrire les mécanismes mis en jeu par le système nerveux central dans la génération des comportements. Ce premier chapitre propose de répondre à la question de Tinbergen en établissant une brève revue des concepts importants à l’étude de l’adaptation comportementale touchant à la fois à l’éthologie, la psychologie expérimentale, la neuro-économie et la neurophysiologie. Tinbergen répondait lui-même que le comportement est le produit des évènements environnementaux et de conditions internes (Tinbergen, 1951).

Comportements homéostatiques

Claude Bernard (dont l’université Lyon 1 porte le nom) affirme en 1865 dans son Introduction à l’étude de la médecine expérimentale (Bernard, 1865) que «Les animaux capables de maintenir la stabilité de leur environnement interne ont une liberté écologique bien plus grande que ceux qui sont à la merci des fluctuations de l’environnement. ». Pour Claude Bernard l’environnement interne est l’ensemble des liquides extracellulaires (lymphe, plasma, liquide interstitiel) qui par échanges de solutés permet la préservation du fonctionnement des cellules. Walter Cannon élargit cette théorie en développant le concept d’homéostasie (Cannon, 1932) qu’il appelle « la sagesse du corps ». Il s’agit d’ajustements automatiques sous le contrôle du cerveau et du système nerveux autonome de divers paramètres physiologiques tels que la température corporelle ou la glycémie. Dans certains cas, la régulation nécessite une réponse comportementale, par exemple pour se nourrir. Il est proposé que des signaux déclenchent le début et l’arrêt de la réponse comportementale. Différentes théories proposent différentes localisations pour ses signaux, soit en périphérie du système nerveux central (Cannon, 1934) soit au sein de l’hypothalamus (Stellar, 1954). Quoi qu’il en soit, des feedbacks positifs et négatifs permettraient de signaler le début et l’arrêt de l’activité. Dans le cas de la faim, ce signal peut aussi bien être un goût qu’un signal viscéral de satiété. Le besoin de régulation peut également être anticipé par des signaux feedforward. Dans le cas de la faim, l’insuline est libérée dans le sang avant la prise de nourriture et la digestion afin de réguler la glycémie. Ce mécanisme peut être déclenché par des associations apprises de signaux environnementaux associés à la nourriture. Cependant, une limite importante à

(20)

19 l’homéostasie comme moteur motivationnel consiste en l’existence de nombreux facteurs non homéostatiques qui participent aux régulations physiologiques. Les émotions, expériences personnelles, culturelles, sociales, sont autant de facteurs qui motivent significativement l’alimentation sans nécessairement contribuer à l’homéostasie. Le fait de décider de manger une pâtisserie plutôt qu’un légume vert est principalement motivé par l’expérience personnelle et le plaisir sensoriel plutôt que par une régulation fine de la glycémie. Cet attrait vers le sucré en dépit des besoins physiologiques est également retrouvé chez les animaux. Par exemple, des rats en carence protéique préfèrent un régime riche en sucre plutôt que riche en protéine (Young, 1947).

Figure 1. Répertoire et adaptation du comportement animal.

(A) Les moro-sphinx sont capables de prélever le nectar des fleurs qui composent un massif avec une formidable économie de mouvement tout en considérant leur historique de butinement et la présence ou non de congénères ou de prédateurs. (B) Les macaques fascicularis ou macaques crabiers tirent leur nom de leur capacité à dénicher des crustacés et à ouvrir leurs carapaces afin d’en ingurgiter la chair. (C) Le médecin et physiologiste français Claude Bernard définit le concept d’homéostasie qui sera par la suite développé pour expliquer le comportement animal.

Des réponses adaptées

Dès 1925, Harvey Carr (Carr, 1925) introduit la notion d’acte adapté et en fait même le fondement du comportement animal. L’acte adapté repose sur une énergisation du comportement, c’est-à-dire sur des stimuli qui sollicitent une activité adaptée jusqu’à leur résolution. Les comportements homéostatiques que nous avons évoqués reposent sur la restauration d’un équilibre. Un déséquilibre suscite donc des besoins (needs). Ces besoins ne nécessitent pas forcément de réponses comportementales. Dans le cas où une réponse comportementale est nécessaire, on parle alors non plus de besoins, mais de moteurs (drive).

(21)

20 C’est le cas de la faim qui est un important moteur du comportement. Besoins et moteurs peuvent être corrélés, mais pas nécessairement, par exemple l’évolution du cycle menstruel de nombreux animaux résulte de besoins, mais ne nécessite pas de réponses comportementales. Enfin, le but (goal) est défini comme une commodité réduisant le moteur qui a initié l’activité. S’en suit donc une séquence logique de l’acte adapté :

Besoin → Moteur → Activité → But → Réduction du moteur →Réduction de l’activité De manière intéressante, les moteurs peuvent être considérés comme des stimuli internes et partagent de nombreuses propriétés avec les stimuli externes : ils peuvent être discriminés et servir d’indice (cue). Les rongeurs par exemple peuvent s’orienter dans un labyrinthe dont ils connaissent les localisations d’eau et de nourriture dépendamment de s’ils ont été privés d’eau ou de nourriture afin de répondre à leurs besoins. Autrement dit, leurs réponses peuvent être conditionnées. On entend par conditionnement classique l’apprentissage de l’association entre stimulus et comportement. Étymologiquement stimulus provient du latin et signifie « aiguillon ». Le mot a conservé sa sémantique puisqu’on entend par stimulus une cause capable de provoquer la réaction d’un système excitable. Comme nous l’avons vu, cette cause peut être interne ou externe à l’organisme vivant sur lequel elle s’applique. Ainsi le conditionnement classique qu’on appelle également conditionnement instrumental tire son nom du fait qu’il décrit le comportement comme instrumental de situations (stimuli) satisfaisantes (récompenses) ou ennuyantes (punitions). Thorndike propose dans sa loi de l’effet (Thorndike, 1913) que les comportements entrainant des récompenses sont amenés à être répétés tandis que ceux qui entrainent des punitions ont moins de chance d’être répétés.

En d’autres termes, récompenses et punitions renforcent la probabilité d’émission d’un comportement associé. Cette conception issue des travaux et idées entre autres de John Watson (Expérience du petit Albert [Watson et Rayner 1920]) et Thorndike et qu’on appellera béhavioriste est basée sur l’existence d’un lien apprenable entre un stimulus spécifique et une action spécifique. Ce lien fut décrit chez le chien par Pavlov en 1927 (Pavlov, 1927) qui établit alors les bases du vocabulaire du conditionnement classique (également appelé conditionnement Pavlovien ; Figure 2). Ce conditionnement repose sur l’existence de stimuli non conditionnés (Unconditioned stimulus, UCS) dans le sens qu’ils provoquent une réponse (Unconditioned response, UCR) même en l’absence de conditionnement préalable. On peut notamment citer la nourriture ou la douleur comme UCS. Après plusieurs expositions, des stimuli de conditionnement (Conditioned stimulus, CS) appariés aux UCS peuvent à leur tour

(22)

21 évoquer des réponses (Conditioned response, CR) similaires aux UCR. Dans l’exemple classique de Pavlov, la nourriture fait office d’UCS provocant la salivation (UCR). Un son de cloche est alors introduit et systématiquement suivi de la présentation de nourriture. Après quelques répétitions, le son de cloche provoque la salivation du chien. Le son de cloche peut donc être considéré comme un CS. Le conditionnement peut être acquis (renforcement de l’association entre CS et UCS en fonction du nombre de répétitions), éteint (déclin de l’association lorsque le CS est découplé de l’UCS), généralisable (l’association s’étend dans une certaine mesure à des stimuli similaires) et discriminable (les réponses aux stimuli non couplés à l’UCS sont éteintes en faveur des réponses au CS). Dans les années 1930, Skinner (Skinner, 1938) reproche notamment au conditionnement instrumental sa circularité et sa circonspection puisque les réponses sont directement suscitées par les stimuli ; l’individu n’est qu’une sorte de boite noire réactive. L’ajout de Skinner consiste à insister sur les conséquences du lien stimulus/réponse sur l’individu (Figure 2). Dès lors, il introduit le terme de conditionnement opérant pour renforcer l’idée que l’individu opère sur l’environnement.

(23)

22 Figure 2. Conditionnement des associations stimulus/réponse

(A) Conditionnement Pavlovien ou conditionnement classique. Certains stimuli comme la nourriture (Unconditioned stimulus, UCS) provoquent spontanément des réponses non conditionnées (Unconditioned responses, UCR) comme la salivation chez le chien. D’autres stimuli qualifiés de neutres

— comme un son de cloche — ne provoquent pas de réponses. Le conditionnement repose sur l’appariement entre UCS et stimulus neutre. Après conditionnement, le stimulus neutre suffit à évoquer une réponse. On parle alors de stimulus (Conditioned stimulus, CS) et de réponse conditionnés (Conditioned response, CR). (B) Cage de Skinner permettant de répéter et contrôler les présentations de stimuli afin d’étudier l’apprentissage des associations entre stimuli et réponses. Le dispositif permet de présenter des signaux lumineux et sonores et de délivrer de la nourriture ou des décharges électriques. L’animal est capable d’opérer sur l’environnement notamment en pressant un levier. Les travaux de Skinner ainsi que son dispositif ont eu une influence majeure sur l’étude du comportement animal et dans la psychologie expérimentale.

Les récompenses

Skinner propose également une classification des stimuli selon la réponse qu’ils renforcent.

Ainsi un stimulus dont la présentation augmente la probabilité de réponse sera classifié de renforçateur positif, inversement un stimulus dont la présentation diminue la probabilité de réponse sera appelé punition. Un renforçateur négatif sera un stimulus dont le retrait augmente la probabilité de réponse. Une propriété de cette proposition réside en la définition d’un renforçateur à postériori selon le lien stimulus/réponse. Ainsi les récompenses peuvent être vues comme des renforçateurs positifs. Les récompenses primaires sont des stimuli qui sont intrinsèquement perçus comme positifs, désirables et attractifs tandis que les récompenses secondaires tirent leur valeur motivationnelle d’une association apprise.

Conceptuellement, le conditionnement opérant postule que l’apprentissage est un processus associatif entre stimulus et réponse et que le rôle des récompenses est de moduler de telles

(24)

23 associations. Nous allons voir que ces postulats ne sont pas nécessairement vérifiés. Dans les années 1950, Harry Harlow a étudié l’apprentissage stimulus/réponse chez le macaque rhésus. Dans ses premières expériences, les singes peuvent choisir un stimulus parmi une paire composée d’un stimulus A dont la sélection donne lieu à une récompense et d’un stimulus B dont la sélection ne donne pas de récompenses. Après sélection, la paire est de nouveau présentée pour un nouveau choix. Cette première approche confirme les prédictions de la loi de l’effet puisque la réponse A devient de plus en plus probable (Harlow, 1949).

Ensuite, Harlow présente à ses singes des nouvelles paires de stimuli A’ et B’ dont un est renforçateur, mais pas l’autre tout comme pour A et B. Tandis que la spécificité de la loi de l’effet voudrait que l’apprentissage de l’association stimulus/réponse recommence à un niveau basal, les singes choisissent plus rapidement le stimulus A’ qu’ils ne l’avaient fait avec le stimulus A ([Harlow, Harlow, et Meyer 1950] ; Figure 3). Ce transfert montre bien que ce n’est pas simplement le lien stimulus/réponse qui est appris par l’animal. Tolman et Honzik ont même mis en évidence qu’un apprentissage est possible en l’absence de récompenses.

Une de leur expérience (Tolman and Honzik, 1930) suit la façon dont des rats affamés parviennent à sortir d’un labyrinthe (Figure 3). Un groupe de rats est systématiquement récompensé par de la nourriture à la sortie du labyrinthe, un second ne l’est jamais tandis qu’un troisième ne l’est qu’une fois avoir déjà traversé le labyrinthe durant plusieurs jours.

Les rats du groupe récompensés commettent moins d’erreurs que les rats non récompensés lors de leurs traversées du labyrinthe. Mais le résultat fort de cette étude provient du fait que lorsque des rats auparavant non récompensés le deviennent alors, leurs performances s’améliorent soudainement au point d’égaliser celles des rats ayant toujours été récompensés. Cette observation révèle l’existence d’un apprentissage latent ayant eu lieu avant l’introduction des récompenses et potentialisé par leur introduction. On parle alors de récompenses comme une incitation (incentive) motivationnelle. Dans le cadre du concept du continuum hédonique (voir encart), l’attrait des rats pour le sucre en dépit de leurs besoins physiologiques ([Young 1947] ; voir paragraphe Comportements homéostatiques) est explicables par le plaisir qu’il procure. De nombreuses autres études ont également montré l’influence de la magnitude, c’est-à-dire de la quantité d’une récompense, sur les préférences.

Rongeurs et primates sont plus performants (plus rapide, plus précis) et privilégient l’approche des plus grosses récompenses. Cette asymétrie pourrait être expliquée par la facilitation de l’apprentissage stimulus/réponse lorsque la récompense est importante ou que les

(25)

24 récompenses plus importantes sont plus incitantes. Cette dernière hypothèse semble être vérifiée lorsque l’on intervertit la magnitude des récompenses associées à des réponses. Ce contraste est parfois appelé l’effet Crespi en référence aux travaux du physiologiste Crespi (Crespi, 1942). Dans ces travaux, des rats sont entrainés à chercher de la nourriture dans un labyrinthe (Figure 3). Ces derniers se déplacent d’autant plus vite dans le labyrinthe que les récompenses qu’ils recherchent sont grandes. Lorsque l’on change la taille des récompenses, les rats habitués aux grosses récompenses courent désormais moins vite pour chercher les petites récompenses tandis que les rats habitués aux petites récompenses courent désormais plus rapidement. Les comportementalistes emploient le terme de contraste pour évoquer le changement de réponses.

(26)

25 Figure 3. Apprentissage des associations stimulus/réponse et récompense

(A) Performances de singes dans une tâche de reversal A ou B (A est associé à une récompense, mais pas B, les identités de A et B sont alternées après quelques essais). Ce problème est présenté plusieurs fois aux animaux avant de passer à une nouvelle série d’épisodes utilisant des stimuli différents. Les performances s’améliorent au fil des essais, mais également au fil des épisodes, démontrant l’apprentissage non seulement des associations stimulus/réponse, mais aussi de la structure de la tâche. Adapté de (Harlow, 1949). (B) Evolution du nombre moyen d’erreurs commises par des rats affamés pour sortir d’un labyrinthe suivant la présence ou l’absence de nourriture à la sortie du labyrinthe. En l’absence de nourriture, les rats continuent de commettre beaucoup d’erreurs tandis que les rats récompensés en commettent moins. Lorsque des récompenses sont introduites (flèche) pour un groupe de rats jusqu’alors non récompensés, leurs performances s’améliorent drastiquement jusqu’à surpasser celles du groupe toujours récompensé. Ce résultat démontre un apprentissage latent dans ce groupe, incité par l’introduction de nourriture. Adapté de (Tolman and Honzik, 1930). (C) Vitesse de course de rats pour approcher une récompense. Les rats approchent plus rapidement les grosses récompenses que les petites. Lorsqu’après quelques sessions la taille de la récompense est changée (ligne pointillée), les rats habitués aux grosses récompenses courent désormais moins vite pour chercher les petites récompenses tandis que les rats habitués aux petites récompenses courent désormais plus rapidement. Adapté de (Crespi, 1942).

(27)

26 Continuum hédonique : Les stimuli sont ordonnés sur une échelle continue plaisant/déplaisant et peuvent donc être comparés via un seul critère : leur valeur. Cette définition bipolaire entre deux opposés signifie qu’il y a une neutralité quelque part entre les deux.

Kent Berridge a intensément travaillé sur la caractérisation des récompenses et notamment sur les circuits neuronaux impliqués dans le plaisir et le désir (liking /wanting ; voir [Berridge et Robinson 2016] pour revue). Le plaisir est exprimé par une préférence pour un aliment tandis que le désir est mesurable par la quantité d’effort mis en œuvre pour l’obtention de l’aliment. Il y a des centres du plaisir dans le cerveau impliquant la dopamine comme principal neurotransmetteur qui contrôlent la libération d’endorphine dans le cerveau. L’endorphine est un neuropeptide opioïde très fortement lié à la sensation de plaisir chez les mammifères (Berridge, 2009). Des lésions neurochimiques du système dopaminergique chez le rat ne changent pas leurs expressions orofaciales liées au plaisir lorsqu’ils sont nourris, mais les rendent abouliques. Autrement dit, le système dopaminergique semble être la source de la motivation et du désir tandis que le système endorphinique celui du plaisir. Ces résultats montrent à la fois la dissociation comportementale et fonctionnelle entre plaisir et désir ainsi que leur implication dans le système de récompense. Ces exemples témoignent également des différentes propriétés que peuvent revêtir les récompenses. Berridge et Robinson (Berridge and Robinson, 2003) proposent par exemple une classification tripartite des récompenses selon leurs composantes psychologiques liées au plaisir, au désir ou à l’apprentissage soulignant le rôle fondamental des récompenses dans diverses réponses comportementales.

(28)

27 Condensé

Les animaux ont la capacité fondamentale d’agir. Un des principaux moteurs du comportement est la poursuite de buts en vue de réduire des besoins physiologiques. On appelle stimuli des stimulations internes ou externes qui sont capables de déclencher une réponse. Les récompenses sont des stimuli qui sont perçus comme positifs, désirables et attractifs. Plaisir et désir sont intiment liés à la perception des récompenses et sont contrôlés par des réponses physiologiques distinctes et prodigieusement préservées chez les chordés (Yamamoto and Vernier, 2011). Les récompenses permettent d’inciter les réponses et de potentialiser l’apprentissage des associations stimulus/réponse. Des différences qualitatives ou quantitatives de récompenses engendrent des changements de réponses.

Questions d’importance notable :

• Quelle est l’importance du contexte dans les réponses comportementales ?

• Comment sont définis et maintenus les buts ?

• Comment comparer des récompenses entre elles ?

• Comment considérer l’absence de récompense ?

• Quelle est la temporalité des récompenses ?

• Comment le répertoire d’associations stimulus/réponse est-il constitué puis utilisé ? Ces questions sont fondamentales aux comportements dirigés vers l’obtention de récompenses. La suite de ce chapitre abordera des concepts de base aidant à la compréhension de cette thématique. Le second chapitre sera focalisé sur la neurophysiologie du cortex cingulaire médian, central à mes travaux de thèse. Cette aire corticale fait partie du cortex frontal dont les aires constitutives contribuent largement à l’adaptation du comportement.

L évaluation des récompenses

Comment comparer des récompenses entre elles ?

À un instant donné, différentes réponses sont possibles, elles-mêmes associées à des récompenses potentiellement différentes. Privilégier une réponse par rapport aux autres revient à effectuer un choix. Comme nous l’avons évoqué, la magnitude et la nature des récompenses peuvent influencer la sélection. Fondamentalement, cela signifie que quantité

(29)

28 et qualité des récompenses peuvent être comparées et peuvent moduler la réalisation des réponses apprises associées. Le concept du continuum hédonique que nous avons déjà évoqué introduit la notion de valeur. Il est intéressant de relever que la notion de valeur est présente dans de nombreux domaines et fait systématiquement référence à une entité conceptuelle mesurable ou dont on peut estimer une mesure. Dans notre cas, la valeur est une mesure abstraite et continue du caractère plaisant ou déplaisant d’un stimulus. C’est un concept fondamental dans l’étude des décisions où l’agent — l’entité qui agit — cherche à maximiser ses récompenses ou bénéfices. Cependant, le concept de valeur pose deux problèmes fondamentaux : les valeurs sont difficiles voire impossibles à mesurer en tant que telles et elles sont subjectives. Prendre une douche bien chaude n’aura pas la même valeur à la fin d’une journée de ski ou en plein milieu d’une excursion dans le Sahara. Cela s’applique également aux grandeurs quantifiables comme l’argent. Cent euros n’ont pas la même valeur pour un thésard et pour un millionnaire. Pour pallier à ce problème, la notion d’utilité a été introduite. L’utilité est une mesure de la désirabilité des conséquences d’une action. Décider peut donc revenir à choisir l’alternative dotée de la plus grande utilité. Ainsi le processus d’évaluation des récompenses est relatif. Une blague célèbre chez les économistes tourne cette situation en dérision :

Deux économistes se rencontrent dans la rue. L’un demande à l’autre

— Comment va ta femme ? Ce à quoi le second répond

— Par rapport à quoi ?

Cette histoire souligne que l’utilité en elle-même est difficile à mesurer, mais peut être ordonnée. On parle alors d’utilité ordinale ou cardinale selon qu’elle peut être quantifiée numériquement ou non. Dans ses Pensées (Pascal, 1669), Pascal applique une logique similaire quand il est question de choisir de croire ou non en Dieu :

« Examinons donc ce point, et disons : “Dieu est, ou il n’est pas.” Mais de quel côté pencherons- nous ? (...). Il se joue un jeu, à l’extrémité de cette distance infinie, où il arrivera croix ou pile.

(...). Pesons le gain et la perte, en prenant croix que Dieu est. Estimons ces deux cas : si vous gagnez, vous gagnez tout ; si vous perdez, vous ne perdez rien. Gagez donc qu’il est, sans hésiter. »

Ce raisonnement repose sur le calcul d’une valeur espérée (expected value) issue de la multiplication entre gain et probabilité associés à chaque option afin de pouvoir comparer les

(30)

29 options entre elles. Ainsi pour Pascal croire en Dieu est relativement préférable à ne pas croire en Dieu.

La valeur comme une construction neuronale

Dans une série d’études majeures, Platt et Glimcher ont cherché à savoir si l’activité des neurones du cortex pariétal (lateral intraparietal, LIP) est modulée par la valeur espérée. Dans cette tâche, des singes peuvent choisir entre deux réponses (A et B) associées à des quantités et probabilités différentes d’obtentions de jus de fruits. De plus, juste avant d’effectuer leurs réponses, un indice visuel indique au singe la réponse qui sera récompensée de celle qui ne le sera pas et modifie donc subitement les valeurs de A et B. La valeur espérée relative de A peut être exprimée comme le ratio

Valeur espérée relative 𝐴 = valeur espérée 𝐴

valeur espérée 𝐴 + valeur espérée 𝐵

Cette fonction reflète linéairement la valeur associée à A par rapport à B. Dans la première période de la tâche cette mesure dépend des différentes valeurs que peuvent prendre A et B tandis que lorsque l’indice est révélé, B devient nulle et donc la valeur espérée relative de A est maximale. Platt et Glimcher ont mis en évidence que l’activité des neurones du LIP est remarquablement corrélée à la valeur espérée relative ([Platt et Glimcher 1999] ; Figure 4).

Cette étude est un exemple notable de l’impact des échanges théoriques, conceptuels et expérimentaux entre économistes et neurophysiologistes dans l’étude des processus décisionnels (Glimcher et al., 2005). La proposition d’un lien entre récompense et activité neuronale provient en fait des années 1950. Donald Hebb fut le premier à proposer un mécanisme neurophysiologique du renforcement. Le postulat de Hebb (Hebb, 1949) repose sur la transposition du lien stimulus/réponse central au conditionnement classique à l’échelle des neurones. Ainsi les répétitions d’excitations de neurones suffisamment proches devraient renforcer l’efficacité de leurs synapses communes. À cette époque, Hebb dirige le département de psychologie de l’université McGill. C’est dans ce contexte que les travaux de Peter Milner et James Olds, deux psychologues de McGill, vont essayer d’établir une relation directe entre comportement et activité neuronale, tranchant clairement avec la vision béhavioriste de l’époque. Milner et Olds ancrent leurs recherches dans la continuité de

(31)

30 récentes découvertes ayant établi un lien entre l’état de vigilance et la formation réticulée (Moruzzi and Magoun, 1949). Ils émettent ainsi l’hypothèse que des stimulations de la formation réticulée devraient augmenter l’état de vigilance. Pour tester cette hypothèse, ils placent des rats dans une cage de Skinner dans laquelle l’appui d’un levier délivre une stimulation électrique au niveau d’une électrode implantée dans la formation réticulée. Olds observe alors que tous les rats évitent d’actionner le levier sauf un qui se met à l’actionner de plus en plus fréquemment : l’appui du levier est positivement renforcé chez ce rat. Il est même reporté que ce rat continu à appuyer le levier même lorsque l’intensité des décharges est augmentée allant jusqu’à le propulser ou lui faire momentanément perdre connaissance.

Après dissection des animaux, Olds se rend compte que l’électrode avait été par erreur implantée dans l’aire septale chez l’animal divergent. Olds et Milner décident donc de répéter cet écart ([Olds et Milner 1954] ; Figure 4). Les résultats de cette nouvelle expérience marquent un tournant dans la neurophysiologie. Les rats actionnent le levier à des fréquences inédites et continuent de s’autostimuler malgré le manque de nourriture allant jusqu’à se laisser dépérir. En revanche lorsque l’appui du levier cesse de fournir une stimulation, les rats arrêtent de le presser. En fait, l’incitation à stimuler cette région est si forte qu’elle prime même sur l’obtention de récompenses ordinairement importantes comme de la nourriture chez des rats à jeun ou des drogues (voir [Wise 2002] pour revue). Des résultats semblables furent observés chez l’humain (Portenoy et al., 1986), mais également dans d’autres régions cérébrales (par exemple le nucleus accumbens et l’hypothalamus ; voir [Wise 2002] pour revue) suggérant l’existence d’un système cérébral de récompense relativement préservé chez les vertébrés (E. A. Murray, Wise, et Rhodes 2011). Dès lors les récompenses peuvent être considérées comme une construction neuronale. Cette considération signifie que le cerveau est capable de représenter l’ensemble des valeurs que peuvent prendre les récompenses.

(32)

31 Figure 4. La valeur comme une construction neuronale

(A) Taux de décharge des neurones du LIP de macaque en fonction de la valeur espérée relative (relative expected value) dans une tâche de choix entre A et B dans laquelle A et B sont associés à des quantités et probabilités de récompenses différentes. Lors d’un essai, un indice visuel (cue) indique quelle sera la réponse récompensée. L’activité des neurones du LIP est linéairement corrélée avec la valeur espérée relative avant la cue. La manipulation artificielle signalée par la cue rend la valeur espérée relative maximale et module l’activité des neurones du LIP en conséquence. D’après (Platt and Glimcher, 1999). (B) Fréquence cumulative d’appui d’un levier autostimulant l’aire septale chez le rat.

Les rats actionnent le levier lorsque celui déclenche la stimulation (périodes blanches) et cessent lorsque le dispositif n’est plus alimenté en électricité (périodes hachurées). D’après (Olds and Milner, 1954).

(33)

32

Représentations des valeurs dans l’activité neuronale

Des études de lésions et d’enregistrements d’activités unitaires du cortex orbitofrontal chez le macaque (orbitofrontal cortex, OFC) ont suggéré que cette région représente les valeurs des récompenses provenant d’actes volontaires (Iversen et Mishkin 1970 ; Dias, Robbins, et Roberts 1996 ; Tremblay et Schultz 1999). Durant les années 2000, Padoa-Schioppa et Assad ont cherché à caractériser la représentation des valeurs subjectives dans l’OFC. Dans leurs travaux, ils proposent à des singes de choisir entre deux types de jus de fruits A et B proposés en quantités variables. Typiquement lorsque proposés en quantités égales les animaux préfèrent l’un des jus (qu’on associera à la récompense A par clarté). La probabilité de choisir l’offre B augmente à mesure que la différence de quantité proposée entre les deux offres croît.

À partir du pattern de choix il est donc possible de définir les valeurs relatives attribuées aux jus par le singe. On peut calculer par exemple qu’un individu choisit indifféremment A de B lorsqu’on propose 4B pour 1A, autrement dit la valeur subjective de A est égale à 4 fois la valeur de B. Les réponses des neurones qu’ils enregistrent alors dans l’OFC peuvent être classifiées en 3 catégories selon leur relation avec les valeurs subjectives : 1) goût (taste) si l’activité différentie de manière binaire A de B, 2) valeur de l’offre (offer value) si l’activité covarie avec la quantité de A ou B et 3) valeur choisie (chosen value) lorsque l’activité est corrélée avec les valeurs subjectives de A et B (Figure 5 ; [Camillo Padoa-Schioppa et Assad 2006]). Dans une étude découlant de ces résultats (Figure 5 ; (C. Padoa-Schioppa 2009), les chercheurs font varier l’étendue des offres proposées chaque jour. Cette variation d’étendue des offres n’a pas de répercussions sur le taux des décharges des neurones enregistrés. Par contre, les neurones encodent les valeurs de manière inversement proportionnelle à l’étendue des valeurs de la journée. Autrement dit le codage des valeurs est adaptatif de l’étendue des valeurs. Ce mécanisme est remarquable puisqu’il permet une représentation adaptative des valeurs subjectives dans une même gamme d’activité physiologique et donc de dépense énergétique. Ce codage adaptatif ne dépend ni de l’offre alternative, de la quantité encodée ou du type de valeur encodée (chosen ou offer value) et n’est pas modulée par des variables sensorielles ou perceptuelles. En somme l’OFC semble représenter les valeurs subjectives per se. Dans une analyse complémentaire, les auteurs montrent même que l’adaptation du codage des valeurs subjectives prend place à l’échelle de neurones individuels lorsque les gammes d’offres proposées varient au cours d’une même session. Le fait que le

(34)

33 codage est invariable de quantités représentées conforte l’hypothèse neuro-économique fondamentale selon laquelle les choix sont possibles de par l’utilisation d’une monnaie abstraite unique par notre cerveau pour assigner des valeurs comparables à chaque option (Levy and Glimcher, 2012). Des neurones représentant les valeurs subjectives de manière adaptative en fonction du contexte ont également été mis en évidence dans le cortex cingulaire médian (midcingulate cortex MCC ; [J. Sallet et al. 2007]).

(35)

34 Figure 5.

Représentations des valeurs dans l’activité neuronale du cortex frontal

(A) Choix des singes en fonction des quantités des jus de fruits A et B qui leurs sont proposés (rangée du haut) et exemples d’activités unitaires (rangée du bas) du cortex orbitofrontal (OFC) corrélées avec la valeur choisie, la valeur de l’offre ou le goût. Adapté de (Padoa-Schioppa and Assad, 2006). (B) Taux de décharges de neurones de l’OFC en fonction de la valeur de l’offre pour différentes étendues de quantités de jus de fruits (ΔV). Le codage des valeurs est adaptatif de l’étendue.

(C) Distribution des taux de décharges neuronaux.

L’étendue des offres ne modifie pas la distribution des taux de décharges qui demeurent dans une

même gamme

physiologique. B et C d’après (C. Padoa-Schioppa 2009). (D) Activités normalisées liées à la récompense de neurones du cortex cingulaire médian en fonction de la quantité de jus fruits offerts. Deux gammes de récompenses furent utilisées lors de séries d’essais différentes. La quantité de 0,4 mL associée à l’offre D de la première gamme et à l’offre A' de la seconde n’a pas la même valeur ordinale dépendamment de sa gamme d’appartenance (élevée pour D et faible pour A'). L’activité neuronale dépend de la valeur relative et non de la quantité démontrant que le codage des valeurs dans le MCC est également adaptatif du contexte. D’après (Sallet et al., 2007).

(36)

35

L’importance du contexte Les biais cognitifs

Outre sa possibilité de moduler les représentations neuronales des récompenses, le contexte est un concept fondamental à l’étude des décisions. En psychologie expérimentale, le mot contexte fait référence aux propriétés de l’environnement lors de l’émission d’un comportement. Ces propriétés peuvent être intrinsèques (e.g. la faim) comme extrinsèques (e.g. un gâteau derrière une vitrine). Dans les années 1930, Carmichael et ses collègues montrent que le fait de donner une instruction verbale altère la manière dont des sujets humains reproduisent des dessins qu’ils ont appris (L. Carmichael, Hogen, et Walter 1932).

Dans une autre étude Luchins observe ce qu’il appelle une mécanisation des résolutions de problème : les individus ont tendance à répéter une solution apprise au détriment de solutions plus efficaces (Luchins, 1942). Ces entorses à une logique purement rationnelle sont appelées biais cognitifs. On parle de biais cognitifs lors d’une déviation de la rationalité d’un acte cognitif — c’est-à-dire d’un acte qui résulte d’un processus d’apprentissage — et ne doivent à ce propos pas être confondus avec ce qu’on appelle populairement l’instinct (voir encart).

Figure 6. Influence du contexte verbal sur la reproduction de figures

Exemple de la reproduction d’une figure abstraite (centre) suivant une liste de mots prononcés par un expérimentateur en préambule du dessin. Les sujets devaient reproduire la figure le plus fidèlement possible, mais leurs reproductions (droite et gauche) sont influencées par le contexte verbal. D’après (L. Carmichael, Hogen, et Walter 1932).

(37)

36 Instinct : Dans la culture populaire, instinct et comportement appris sont souvent mis en opposition. Cependant il n’existe pas de consensus sur la définition d’instinct. Dans ce contexte, on préfère généralement dire que le patrimoine génétique permet un répertoire comportemental spécifique à chaque espèce et dont le potentiel sera plus ou moins exprimé dépendamment des conditions environnementales. On peut néanmoins citer la définition proposée par Tinbergen (Tinbergen, 1951) pour qui l’instinct répond à 4 critères comportementaux : stéréotypie, propre à l’espèce, observable chez des animaux élevés en isolement et réalisables sans besoin de pratique. La dérive instinctive est un phénomène intéressant observable chez des animaux entrainés à des réponses arbitraires. Elle découle de l’observation de réponses instinctives produite par des animaux qui ont reçu un conditionnement opérant. Les Brelands (Breland and Breland, 1961) reportent l’exemple de cochons conditionnés à porter une pièce jusque dans une tirelire — réponse tout à fait arbitraire pour un cochon malgré le clin d’œil comique —qui s’arrêtent en pleine action pour enterrer la pièce, comme le font instinctivement leurs congénères non conditionnés avec la nourriture. Epstein propose que contrairement aux comportements conditionnés, les comportements instinctifs sont caractérisés par l’absence de variabilité, prévisibilité et émotion (Epstein, 1982).

Une variété de biais cognitifs ont été mis en évidence (mnésiques, de jugements, de raisonnements, de personnalité ; voir [Kahneman 2011]). C’est à travers ce prisme que Kahneman et Tversky développent leur théorie des perspectives (Kahneman and Tversky, 1979). Cette théorie tranche avec les théories des décisions préalables, dont la théorie de l’utilité espérée de von Neumann et Morgenstern (Von Neumann et Morgenstern 1946). La nouveauté de cette théorie est de considérer le comportement et les données expérimentales comme point de départ et de justement prendre en considération les comportements à priori irrationnels. La théorie prédit l’incidence des perspectives (gain ou perte) sur les décisions.

Elle illustre notamment le cas de l’aversion à la perte (le fait d’accorder plus d’importance à une perte qu’à un gain du même montant) et de l’aversion au risque (un gain sûr est préféré à un gain plus important, mais aléatoire : « un tiens vaut mieux que deux tu l’auras »). De tels biais sont la manifestation d’heuristiques employées par les organismes décideurs afin de simplifier leurs opérations mentales. Une démonstration célèbre de l’utilisation d’heuristique

Références

Documents relatifs

Sur une surface solide, les atomes possèdent quelques voisins proches ou des nombres de coordinations, et donc, ils ont des liaison pendantes ou non satisfaites exposées à la

leprosy per se in the Chinese population [ 3 , 4 ]. In addition to HLA-DRB1, variants in HLA-DQA1 and HLA-C were also associated with leprosy in the Chinese population [ 10 ].

2.3, in order to guarantee the robust- ness, we need to replicate the functions of the chain and correctly choose in which Compute node build each network function.... We need to

Tableau 4 Succès de revascularisation rénale après traumatisme de l'artère rénale Tableau 5 Evolution des délais de revascularisation dans la littérature. Tableau 6 Résultats de

In 2050, fast-developing countries (India and China) are more constrained by our emissions reductions assumptions than they are by their commitments for 2020, therefore

Indeed, we showed here that in the supragranular layers of the mouse barrel cortex the global direction selectivity is spatially organized: the barrel-related columns that

The model also suggests reduction is detected at high latitude, especially in that ozone variations of solar and anthropogenic origins the Southern Hemisphere, where

This analysis of fracture length distributions indicates that the early stages of fracturing are influenced by the initial microstructure (grain size).. The