• Aucun résultat trouvé

Avant-propos

Chapitre 4 - Modulation nicotinique de la VTA : stress et prise de décision

4.2 Prise de décision et modulation nicotinique .1 Théories de la prise de décision

4.2.2 Les nAChR et la balance exploitation/exploration

Plusieurs études ont montré le rôle de la voie méso-cortico-limbique et de la DA dans la régulation de la balance exploitation/exploration dans un cadre économique263–267. Cette voie est sous l’influence de l’ACh en provenance des noyaux du pons et il a par ailleurs été montré que la transmission cholinergique endogène est fortement impliquée dans les processus d’exploration268. Il a en outre était supposé que l’ACh jouerait un rôle dans le codage de

74

l’incertitude attendue (expected uncertainty)269. Nous avons vu précédemment que les nAChR exprimés dans le système DAergique impactent fortement l’activité des neurones DA.

Dans un cadre non économique, le comportement exploratoire le plus étudié est sans doute l’activité locomotrice dans un open-field. Les études menées sur les modèles génétiques de souris knock-out pour les différentes sous-unités des nAChR ont permis de sonder leurs rôles dans les comportements exploratoires. Les souris b2-/- présentent une activité locomotrice plus grande que les souris wt. Effectivement, une augmentation d’environ 40% de la distance parcourue lors de l’exploration d’un nouvel environnement (open-field) ou encore dans un environnement familier (cage d’hébergement) a été observée270–272. La réexpression virale de la sous-unité b2 uniquement dans la SNc ou dans le VTA a permis de disséquer plus finement le rôle de cette sous-unité dans les voies nigro-striée et méso-cortico-limbique. La réexpression dans la SNc permet de restaurer les mouvements rapides de navigation dans les deux types d’environnement alors que la réexpression dans la VTA permet de restaurer les mouvements plus lents associés à l’activité exploratoire271. La description classique des séquences d’activité locomotrice chez la souris permet d’identifier 3 paramètres : 1) la vitesse de déplacement avec des états actifs de navigation à proprement parler et des états inactifs (vitesse réduite) propices à l’exploration plus fine ; 2) la localisation de l’animal entre centre et périphérie de

l’open-field et 3) des comportements spécifiques lors des états inactifs (rearing, scanning ou sniffing)

qui permettent à l’animal d’accumuler de l’information sur son environnement. Selon cette description, l’altération du comportement chez les souris b2-/- correspond alors à une diminution des états inactifs et de la prise d’information contextuelle au profit des états actifs et donc avec pour conséquence une plus grande distance parcourue. Ces résultats ont suggéré que la motivation liée à la prise d’information était sous l’influence des nAChR.

Dans un cadre économique, l’exploitation des alternatives connues met en jeu des routines comportementales et repose principalement sur un processus habituel alors que l’exploration fait intervenir des mécanismes qu’on perçoit comme plus complexes, comme la flexibilité cognitive. Réduire le degré d’incertitude associé à un choix/une action correspondrait également à une prise d’information dans l’environnement. Une étude récente, conduite au laboratoire, a permis de mettre en évidence le rôle des b2*nAChR et donc de la transmission cholinergique dans la conversion de l’incertitude attendue en drive motivationnel162. Cette étude repose sur une adaptation spatiale de la tâche du bandit-manchot à plusieurs bras, chez la souris (Figure 4.4A). Dans un open-field, trois points équidistants sont marqués au sol. Chaque

75

point est associé à une récompense délivrée sous la forme d’une stimulation électrique du faisceau médian du télencéphale (MFB pour medial forebrain bundle). Depuis les travaux de Olds et Milner dans les années 50, ce type d’auto-stimulation intra-crâniale (ICSS) est connu pour induire un relargage de DA et promouvoir l’apprentissage. L’animal ne peut recevoir deux récompenses consécutives sur le même point et apprend à alterner entre les différentes options pour obtenir la récompense. Ce type de récompense, par opposition aux récompenses naturelles (par exemple la nourriture) permet de s’affranchir de la notion de satiété. Pendant les 10 premières sessions, chaque alternative est associée à une probabilité de recevoir la récompense de 100% (chaque passage est récompensé) : on parle de phase déterministe (ou CS pour certain

setting). On observe alors que les souris apprennent à alterner entre les trois options et la

stratégie observée chez les animaux wt est d’alterner de manière séquentielle (A-B-C-A-B-C etc.) décrivant ainsi une trajectoire globalement circulaire (Figure 4.4B).

Après ces 10 sessions d’entrainement/conditionnement, chaque animal se voit attribuer un jeu de probabilités, de manière pseudo-aléatoire, attribuant à chacun des points une probabilité de 25%, 50% ou 100%. Dans cette seconde phase, appelée phase probabiliste (ou US pour

uncertain setting), les animaux wt réorganisent leurs choix en fonction du jeu de probabilité

(Figure 4.4B-C). Lorsque la souris est présente sur un point, elle se retrouve dans une situation de choix binaire entre deux alternatives aux probabilités de récompense différentes : on parle de gamble (G) (Figure 4.4D). Le pari (ou gamble) 1 (G1) offre un choix entre 100% et 50%, G2 entre 50% et 25% et G3 entre 100% et 25%. Pour les 3 paris les animaux choisissent plus souvent l’option avec la plus grande probabilité de récompense (Figure 4.4E). Néanmoins, lorsque l’on se place on niveau computationnel en appliquant les modèles classiques de prise de décision, on se rend compte que ces modèles ne permettent pas d’expliquer les données de manière satisfaisante (Figure 4.4F). Dans un premier modèle, appelé e-Greedy, on considère

que les animaux choisissent systématiquement l’option avec la plus grande probabilité moins une probabilité fixe. Ainsi, la répartition est identique quelle que soit le pari analysé. Ceci ne correspond pas aux données expérimentales. Dans un second modèle, appelé Softmax, la probabilité de choisir une option A plutôt qu’une option B dépend principalement de la différence de valeur entre A et B (VA-VB). On s’attend alors à ce que plus cette différence est grande plus la probabilité de choisir l’option la plus récompensante soit élevée. Or ce n’est pas ce qui est observé empiriquement puisque le pari G2 (50% vs. 25%) est supérieur à G1 (100% vs. 50%). Un troisième modèle implémenté dans cette étude, appelé modèle « d’incertitude », prévoit un bonus accordé aux situations les plus incertaines. Ce dernier modèle est celui qui

76

rend le mieux compte des données expérimentales. En plus du paramètre b (température inverse) déjà inclus dans le modèle softmax, le modèle d’incertitude implique un nouveau paramètre j comme bonus associé à l’incertitude attendue.

Figure 4.4 –Tâche de bandit-manchot pour souris avec ICSS et analyse basée sur le modèle d’incertitude : (A) Représentation schématique de la tâche spatiale de bandit-manchot à

plusieurs alternatives pour souris. Dans un open-field (diamètre de 80 cm), trois repères carrés sont marqués au sol dessinant un triangle équilatéral de 50 cm de côté. Les animaux reçoivent une récompense sous la forme d’une ICSS lorsqu’ils sont détectés sur le point. Les animaux ne pouvant pas recevoir deux ICSS consécutive sur le même point alternent entre les trois options. (B) Exemples de trajectoires obtenues lors de sessions de 5 min pour les souris wt, avant apprentissage (naïve), après apprentissage lors de la phase déterministe (CS) ou lors de la phase probabiliste (US). (C) Répartition des choix des animaux wt sur les trois points lors de la phase probabiliste (US) et lors de la phase déterministe (CS). En gris clair sont représentées les valeurs individuelles. (D) Illustration de la modélisation de la tâche : modèle de transition pour le choix des animaux (en haut). Les trois options sont modélisées comme trois états (A, B ou C) et la probabilité de transition d’un état à l’autre dépend de la probabilité de récompense des deux options. Récompense et incertitude attendue en fonction de la probabilité de récompense (en bas). (E) Gauche : proportion de choix « d’exploitation » (la plus grande valeur ou probabilité de récompense est choisie) pour chaque pari. Les points représentent les données individuelles. Droite : prédictions offertes par les différents modèles de prise de décision, le modèle d’incertitude est celui qui représente le mieux les données expérimentales.

77

Cette étude s’est ensuite intéressée aux conséquences de la délétion de la sous-unité b2 (souris b2-/-) dans le protocole décrit précédemment. Aucune différence n’est observée dans le cadre déterministe (CS) entre les souris b2-/- et les souris wt, ce qui indique que l’apprentissage est préservé chez ces souris. En revanche, dans le cadre probabiliste (US), les souris b2-/- sont moins attirées par le point 50% (celui avec la plus grande incertitude) que les animaux wt (Figure 4.5). La réexpression de la sous-unité b2 dans la VTA est suffisante pour restaurer à la fois le firing spontané des neurones DA de la VTA, en accord avec les travaux précédent109,153,156, mais aussi ce bonus comportemental associé à l’incertitude attendue162. Ces résultats impliquent pour la première fois l’ACh endogène et plus particulièrement la transmission nicotinique via les nAChR à un niveau sous-cortical dans les comportements motivationnels liés à l’incertitude attendue.

Figure 4.5 – La délétion de la sous-unité b2 dans la VTA affecte la prise de décision sous incertitude : (A) Exemples de trajectoires obtenues après apprentissage dans la phase

probabiliste (US) pour les souris b2-/- (en rouge) et après réexpression de la sous-unité b2

spécifiquement dans la VTA (en bleu) (B) Répartition des choix pour les trois alternatives. La

délétion de la sous-unité b2 (rouge) entraîne une altération de la prise de décision comparée

aux souris wt (noir). La réexpression de la sous-unité b2 dans la VTA permet de retrouver un

phénotype comparable aux souris wt (bleu).