• Aucun résultat trouvé

11.3 Comportement du modèle PROBE

11.3.2 Points de transition prédits par le modèle

Les courbes d’apprentissage sont des moyennes sur plusieurs épisodes. D’où leur aspect continu qui cache les évènements discrets et abrupts de switch. En ef-fet, un changement de contingences (d’épisode) ne correspond pas nécessairement au moment où le sujet change de stratégie (switch de task-set). Le changement d’épisode est défini par l’expérimentateur, en revanche le switch n’est pas direc-tement observable. Comment savoir à quel essai le sujet a effectivement repéré les changements de contingences et s’est adapté en conséquence ? Pour répondre à cette question, on s’appuie sur les prédictions du modèle PROBE afin de localiser la position théorique de ces évènements de switches.

Notons que nous ne considérons que les premiers points de transition de chaque épisode afin de nous concentrer sur la phase initiale d’apprentissage ou de récupération du task-set, même si parfois le modèle prédit des transitions supplémentaires en cours d’épisode.

Par souci de clarté et de concision, nous montrons ici uniquement les courbes de persévération et d’exploration de la session test, qui correspondent aux événe-ments considérés par la suite pour les analyses des données d’IRM. Dans chaque graphique, le point 0 correspond à l’essai switch (le premier essai avec le task-set sélectionné). La barre verticale correspond au changement de contingences (chan-gement d’épisode). Les barres d’erreur correspondent à l’erreur standard.

11.3. COMPORTEMENT DU MODÈLE PROBE 165 Création de probe proactive (figure 11.7)

La création de probe proactive correspond à la création de probe (l’entrée en exploration) dès le premier essai d’un nouvel épisode, donc dès le changement de contexte. D’après le modèle, ces évènements représentent en moyenne 18 essais sur la session (sem : 1.9 ; médiane : 17.5) ; ils apparaissent donc dans environ 38% des épisodes avec cependant une forte variabilité interindividuelle. La tran-sition abrupte de persévération et d’exploration est bien visible sur les courbes du modèle (figure 11.7 à droite). Ces transitions sont beaucoup plus graduelles chez les sujets (figure 11.7 à gauche). Les sujets atteignent en effet les taux pré-dits par le modèle seulement au bout de trois essais. Les sujets semblent donc intégrer l’information de changement de contexte plus tardivement. Etant donné qu’il est difficile d’identifier exactement si et à quel moment les sujets intègrent cette information, nous n’avons pas considéré ces évènements par la suite.

ï ï 0   0.2  0.6  1 1  0.6  0.2 ï ï 0  

Numéro d'essai Numéro d'essai

ï ï 0   ï ï 0   0.2 0.2   0.6 0.6 SUJETS MODELE

Proportion d'essais exploratoires

Proportion d'essais de persévération

Création de probe réactive (figure 11.8)

La création de probe réactive correspond à la création de probe (l’entrée en exploration) après le changement de contexte, donc après avoir reçu un ou plusieurs feedbacks. D’après le modèle, ces évènements représentent en moyenne 16 essais sur la session (sem : 2.1 ; médiane : 7) ; ils apparaissent donc dans environ 33% des épisodes avec à nouveau une forte variabilité interindividuelle. Cette transition abrupte est bien visible sur les courbes du modèle : chute abrupte du taux de persévération et augmentation abrupte du taux d’exploration au bout de 1-2 essais. Ces effets sont également observables chez les sujets. Le modèle semble donc prédire correctement ces évènements.

Notons cependant que ces évènements sont particulièrement rapides. Il est fort probable que le contexte ait également une influence. C’est pourquoi, pour éliminer une partie de l’effet du contexte sur ces évènements, nous avons, pour les analyses IRM, considéré uniquement les créations de probe apparaissant au bout d’au moins deux essais.

0.2 0.4 0.6 0.8 1 0.2 0.4 0.6 0.8 1 0.2 0.4 0.6 0.2 0.4 0.6   0 4 8   0 4 8   0 4 8   0 4 8 SUJETS MODELE

Proportion d'essais de persévération

Proportion d'essais exploratoires

Numéro d'essai Numéro d'essai

Figure11.8 – Creation de probe réactive. La zone grisée correspond à l’er-reur moyenne standard du changement de contingences.

11.3. COMPORTEMENT DU MODÈLE PROBE 167 Récupération proactive (figure 11.9)

La récupération proactive correspond à la récupération d’un task-set connu dès le premier essai de l’épisode, c’est-à-dire dès l’apparition du contexte connu. Seuls 32 sujets présentent ce type d’évènements. D’après le modèle, ces évène-ments représentent en moyenne 4 essais sur la session (sem : 0.5 ; médiane : 3) ; ils apparaissent donc dans environ 17% des épisodes dont le contexte est connu. Là encore, le modèle semble prédire correctement le comportement des sujets bien que ces derniers présentent une transition légèrement moins abruptes (deux essais de transition environ). Notons par ailleurs la différence entre la condition CombaConta et la condition CombnConta sur les courbes d’exploration (encarts). En effet, dans la condition CombaConta, la récupération est la plus part du temps correcte. Le taux d’exploration est donc très faible. En revanche, dans la condi-tion CombnConta, la récupération est la plupart du temps incorrecte puisque la combinaison est toujours nouvelle et donc différente de celle qui a été associée au contexte. Par conséquent, les réponses effectuées correspondent à des réponses exploratoires.

SUJETS MODELE

Proportion d'essais de persévération

Proportion d'essais exploratoires

0.2 0.4 0.6 0.8 1 0.2 0.4 0.6 0.8 1   0 4 8   0 4 8   0 4 8   0 4 8

Numéro d'essai Numéro d'essai

SUJETS 0.2 0.4 0.6 0.2 0.4 0.6

Proportion d'essais de persévération

0.8

SUJETS

Proportion d'essais de persévération

0.8 1

Proportion d'essais de persévération   0 4

Récupération réactive et consolidation (figure 11.10)

La récupération réactive correspond à la récupération d’un task-set connu après plusieurs essais suivant le changement d’épisode où le contexte est inconnu (donc non informatif), c’est-à-dire sur la base des feedbacks obtenus. 42 sujets présentent ce type d’évènements. D’après le modèle, ces évènements représentent en moyenne 6 essais sur la session (sem : 0.6 ; médiane : 6) ; ils apparaissent donc dans environ 26% des épisodes dont le contexte est nouveau.

La consolidation correspond à la confirmation du probe après plusieurs es-sais. D’après le modèle, ces évènements représentent en moyenne 26 essais sur la session (sem : 1.4 ; médiane : 25) ; ils apparaissent donc dans environ 54% des épisodes.

Les essais de récupération réactive et de consolidation correspondent tous deux à une transition d’un état d’exploration à un état d’exploitation. Cependant, comme l’illustre la figure 11.10, ces transitions présentent des particularités :

- la récupération réactive (courbe rouge) est une transition abrupte. Elle survient environ 7-8 essais après un changement d’épisode. Nous représentons ici uniquement les récupérations réactives correctes. En effet, elles seules permettent d’observer la transition abrupte de performance. Les récupérations incorrectes sont assez fréquentes d’une part à cause de la condition CombnConta qui, si elle entraîne une récupération, est nécessairement incorrecte ; et d’autres part à cause du nombre élevé de combinaisons présentées qui sont en partie congruentes. Il est donc possible qu’un task-set congruent avec le task-set effectivement correct soit présent dans la mémoire de travail et récupéré.

- la consolidation (courbe jaune) est un processus continu. Elle survient en-viron 6-7 essais après un changement d’épisode.

D’après le modèle, ces deux processus sont en compétition pendant la pé-riode d’exploration. Dans le premier cas il s’agit de se fonder sur les résultats obtenus pour éventuellement récupérer un task-set alternatif en mémoire de tra-vail. Dans le second, il s’agit d’apprendre le probe. En début d’exploration, la fiabilité du probe peut être plus élevée que le task-set correct stocké en mémoire. En effet, le task-set correct est doté d’une fiabilité très faible à l’épisode pré-cédent car les combinaisons de chiffres d’un épisode à l’autre sont strictement incongruentes. Par conséquent, si par chance le probe produit des réponses cor-rectes dès le début de la période d’exploration, sa fiabilité a d’autant plus de chance d’atteindre le seuil de 0.5 avant un task-set en mémoire, aboutissant ainsi à une consolidation plutôt qu’une récupération. Cet effet est visible sur la fi-gure 11.10 : les réponses correctes sont significativement plus fréquentes dans la période précédant une consolidation (courbe jaune). De plus, les évènements de consolidation apparaissent en moyenne plus tôt que les évènements de récupéra-tion (barres verticales jaunes et rouges).

Par ailleurs, les évènements de consolidation peuvent avoir un effet délétère sur la récupération de task-sets corrects. En effet, du fait de la capacité limitée de la mémoire de travail, la consolidation d’un probe peut provoquer le rejet d’un task-set correct hors de la mémoire de travail. Auquel cas, la mémoire de travail peut contenir deux task-sets redondants : le probe consolidé et le task-set

cor-11.3. COMPORTEMENT DU MODÈLE PROBE 169 rect qui n’a pas été récupéré. Le task-set rejeté n’est quant à lui plus en mesure d’être récupéré dans les épisodes suivants. Il est nécessaire de le réapprendre en créant et confirmant à nouveau un probe. Au final, ces effets expliquent pourquoi les évènements de récupération sont globalement moins nombreux que ceux de consolidation.

Notons que nous reproduisons ici les résultats comportementaux obtenus par Donoso, Collins et Kœchlin [74].

0   0     0   0.2  0.6  1 0.2  0.6  1

SUJETS MODELE

Numéro d'essai Numéro d'essai

Récupération réactive

Consolidation

Figure 11.10 – Récupération réactive et consolidation.

En conclusion, notre expérience permet de valider les prédictions du mo-dèle. Elle montre que nous pouvons apprendre un répertoire de task-sets et en tirer profit pour les réutiliser en cas de besoin, même dans un nouveau contexte. Elle montre que nous sommes capables de découvrir qu’une dimension sensorielle apporte de l’information contextuelle, et d’apprendre à utiliser cette information contextuelle a priori, pour la sélection des task-sets.

Chapitre 12

Résultats d’imagerie

Dans cette partie nous présentons l’ensemble des activations que nous avons observées dans le lobe frontal et les structures sous-corticales pour les signaux de fiabilité et les différents évènements de switch. Par souci de concision, nous ne présentons pas les activations postérieures (régions pariétales, temporales ou oc-cipitales).

Nous décrivons les régions d’une taille minimale de 20 voxels à un seuil de significativité de p = 0.05 pour correction multiple sur l’ensemble des voxels du lobe frontal.

Pour les régions d’intérêt, nous présentons également les histogrammes péri-stimulus. Nous comparons l’effet des essais switch (création de probe, récupéra-tions et consolidation) par rapport aux essais stay (exploration ou exploitation) précédents. Autrement dit, nous comparons d’une part la création de probe et la récupération proactive à l’exploitation ; et d’autre part la récupération réactive et la consolidation à l’exploration.

12.1 Les signaux de fiabilité

Dans leur étude de 2014, Donoso, Collins et Kœchlin ont identifié deux ré-gions dont l’activité corrèle avec les signaux de fiabilité [74] :

- le cortex préfrontal ventro-médian encode le signal de fiabilité du task-set acteur ;

- le cortex frontopolaire droit encode les signaux de fiabilité des deux task-sets alternatifs.

Dans le cas de notre expérience, on s’attend donc à :

(i) Retrouver l’activation du cortex préfrontal ventro-médian ;

(ii) Reproduire le second résultat pour la fiabilité ex-post (µ) qui correspond au signal de fiabilité sans l’intégration de l’information contextuelle ;

(iii) Observer une région dont l’activité corrèle avec la fiabilité ex-ante (λ), c’est à dire la fiabilité intégrant l’information contextuelle. On peut supposer :

Soit que cette région est la même que celle des µ. Tous les signaux de fiabi-171

lité seraient ainsi actualisés dans une région commune.

Soit qu’il existe une région spécifique d’intégration de l’information contex-tuelle pour la mise à jour des fiabilités.

12.1.1 Signal de fiabilité du task-set acteur et cortex