Contextes - Contrôle contextuel, a priori, a posteriori

5.4 Contrôle contextuel, a priori, a posteriori

5.4.2 Contextes

Un point délicat de la notion de contrôle contextuel est celui de la définition du contexte. En effet, si on peut dire des contextes qu’à l’instar des simuli, ce sont des entrées sensorielles présentes, on ne peut pas dire ce qui les différencie spécifiquement des stimuli. Typiquement, dans les expériences de contrôle cognitif proposées par Koechlin et al, les entrées sensorielles sont généralement bi-dimensionnelles : des lettres de couleur. La couleur, qui joue le rôle de contexte, n’est pas a priori fondamentalement différente de la lettre, qui joue le rôle de stimulus.

Notre modèle permet de proposer une définition fonctionnelle de la notion de contexte. Nous argumentons dans cette section qu’un contexte peut être défini comme une partie de l’entrée sensorielle présente qui apporte de l’information pour la sélection d’un task-set.

Nous partons de l’hypothèse que le modèle Bayésien ne sait pas, a priori, extraire la dimension portant le contexte de l’entrée sensorielle. Il ne peut donc pas spécifiquement renforcer des associations Q(C, T S), puisqu’il ne sait pas identifier C. Il peut, par contre, renforcer les associations entre les entrées sensorielles et les task-sets. Les entrées sensorielles sont constituées d’au moins trois types de signaux distincts, du point de vue du monde : – les stimuli (st), pris dans l’ensemble {si}i=1...nS.

– les contextes (Ct), pris dans l’ensemble {Ci}i=1...nC.

– des distracteurs (dt, tous les signaux présents non pertinents pour le problème), pris dans l’ensemble {di}i=1...nD.

On aura donc, après chaque essai, la possibilité de renforcer pour tout T Si, i = 1, . . . , n, les valeurs Qi([st, Ct, dt], T Si) par la confiance ex-post, µi(t). Ces valeurs sont alors utilisées

! ! 0 200 400 600 800 1000 1200 Exploration TS1 TS2 TS3 0 200 400 600 800 1000 1200 0 0.5 1 V aleurs d'associa tion En tr ée - task -set T ask -sets v alides / _choisis Numéro d'essai

Figure5.4 –_{Simulation du modèle, extraction d’information contextuelle. Haut. En noir, le T S}∗

valide (associé à un contexte par T S∗_{). En cyan, le T S utilisé par le modèle. Bas Courbes de valeur}

moyenne d’association entre une dimension d’entrée et le TS utilisé par le modèle. Vert : dimension contextes. Violet : dimension stimuli. Orange : dimension distracteurs. Mêmes paramètres que dans la figure 5.2, αC = 0, 2. On voit que les valeurs d’association des contextes au TS utilisé tendent

vers 1, tandis que celles des distracteurs et des stimuli tendent vers 1/(nombre de TS).

pour calculer la confiance ex-ante, λi.

Pour une valeur d’un stimulus ou d’un distracteur donné, tous les task-sets peuvent avoir soit une haute valeur de confiance, soit une faible valeur de confiance à un moment donné, en fonction de l’épisode dans lequel ce stimulus ou distracteur est présenté. Ainsi, si on regarde les valeurs d’association moyennes selon la dimension objective stimulus ou distracteur, celles-ci devraient tendre à s’uniformiser vers le niveau du hasard.

Par contre, pendant un apprentissage efficace, pour un contexte donné, le modèle ne devrait avoir une haute valeur de confiance essentiellement que pour un task-set, celui correspondant au TS* associé à ce contexte. Ainsi, si on regarde les valeurs d’association moyennes selon la dimension objective contexte, celles-ci devraient tendre à une valeur haute uniquement pour les paires contexte - task-set pertinentes.

d’effectuer l’extraction des contextes. On trace, pour tout essai à [st, Ct, dt], avec utilisation de T St par le modèle, les valeurs suivantes :

– Q(st, T St) défini par Q(st, T St) =Pn_i=1C P_j=1nD Q([st, Ci, dj], T St)/(nC∗ nD). Cette valeur représente la valeur moyenne d’association stimulus - TS pour le stimulus et le task-set au temps t.

– Q(Ct, T St) défini par Q(Ct, T St) =Pn_i=1S P_j=1nD Q([si, Ct, dj], T St)/(nS∗nD). Cette valeur représente la valeur moyenne d’association contexte - TS pour le contexte et le task-set au temps t.

– Q(dt, T St) défini par Q(dt, T St) =Pn_i=1S P_j=1nC Q([si, Cj, dt], T St)/(nS∗ nC). Cette valeur représente la valeur moyenne d’association distracteurs - TS pour le bruit d’entrée et le task-set au temps t.

Ces valeurs représentent l’information spécifique apportée par chacune des dimensions d’en- trée à la sélection a priori de task-sets. On voit qu’initialement, pendant le premier épisode, les informations portées par chaque dimension sont identiques, un seul task-set ayant été utilisé. Dès l’apparition des deuxième et troisième task-set par contre, les valeurs d’associations des stimuli et distracteurs se positionnent autour du hasard (1/2 car deux task-sets au deuxième épisode, 1/3 car trois task-sets existants au troisième épisode), alors que les valeurs d’associations des contextes se démarquent. Au fur et à mesure de l’apprentissage, les valeurs tendent à refléter le fait que les stimuli et les distracteurs sont autant associés à chaque TS (Q → 1/3) et donc ne sont pas prédictifs du task-set à utiliser. Par contre, pour les contextes, les valeurs d’associations tendent à refléter la corrélation parfaite entre task-sets et contextes : Q → 1.

Le modèle parvient donc bien à extraire spécifiquement de l’entrée la dimension contextuelle qui apporte de l’information sur la sélection de la tâche. On voit par ailleurs, dans la figure du haut, que le modèle apprend à utiliser cette information a priori et devient capable de switcher au premier essai présentant un nouveau contexte : aux changements d’épisode, il ne passe plus par une période d’exploration après un switch, mais passe directement d’un task- set à l’autre. Il est donc capable, après apprentissage, d’effectuer du contrôle contextuel au sens de Koechlin et collègues : sélectionner la tâche appropriée, à chaque essai, en fonction du contexte changeant.

sensorielle informative quant à la sélection d’un task-set et que notre modèle était capable d’apprendre indépendamment à extraire les contextes.

Cependant, par la suite, par souci de simplicité, nous simulons notre modèle en supposant la dimension contextuelle connue, comme proposé avant cette section. En effet, l’ajout des stimuli et du bruit augmente la taille de la table d’associations contextes-TS et ralentit l’apprentissage de ces valeurs.

5.4.3 Détails computationnels

Lorsque l’on bloque l’apprentissage des associations contextes - task-set, en posant par exemple αC = 0, ou une valeur très faible, on a des valeurs Q(C, T S) uniformes à tout temps. Il est alors aisé de voir que les formules de mise à jour de λi(t + 1) à partir de µi(t) du modèle avec contextes se réduisent à celles du modèle sans contextes.

Lorsque αC est non nul, les valeurs d’associations des contextes - task-sets sont apprises. Notons qu’à l’apparition d’un nouveau contexte, la table Q(C, T S) doit être initialisée pour ce contexte. Celle-ci représentant l’estimation d’une probabilité sur l’espace des task-sets, nous initialisons ces valeurs à 1/n, où n est le nombre actuel de task-sets du modèle. On a ainsi pour tout i = 1, . . . , n, les valeurs identiques Q(C, T Si) = 1/n.

Il est essentiel de remarquer que lorsque ces valeurs sont uniformes, aucune information n’est apportée. La mise à jour λi(t + 1) à partir de µi(t) est alors équivalente à celle effectuée par le modèle en l’absence de contextes. Cela signifie qu’en l’absence d’information contextuelle, notamment à l’arrivée d’un nouveau contexte, seule l’information portée par le renforcement est utilisée, a posteriori, pour switcher. Par défaut, on continue d’utiliser le task-set acteur.

Pourtant, on pourrait argumenter qu’un changement de contexte est une observation en soi, qui pourrait inciter à changer de comportement. Les neurosciences montrent en effet que l’arrivée d’un changement dans le champ sensoriel peut provoquer un déplacement de l’attention et une interruption du comportement par défaut. Nous proposons donc d’intro- duire l’observation ∆Ct (valant 1 pour Ct−1 6= Ct, 0 sinon) comme source d’information supplémentaire à l’inférence de la variable cachée T S∗_{. Celle-ci intervient alors exclusive-}

ment dans la mise à jour de λi(t + 1) au niveau du calcul des transitions entre task-sets. On modifie donc les équations 5.4 et 5.6 pour tenir compte de ∆C comme suit :

λi(t + 1) = nT S X j=0 Tr(j, i, Ct+1, ∆Ct+1)µj(t) Tr(j, i, Ct+1, ∆Ct+1) = P (T St+1∗ = i|T St∗ = j, Ct+1) = Q(Ct+1, i)τ(j,i)(∆Ct+1) P kQ(Ct+1, k)τ(j,k)(∆Ct+1) Ainsi, les valeurs τ(j,k)(∆Ct+1) représentent les probabilités de transition entre task-sets conditionnées simplement par l’observation ou non d’un changement de contexte. A nouveau, plusieurs degrés d’approximation sont possibles pour estimer ces valeurs. Celles-ci pourrait être apprises. Nous proposons la solution suivante, simple mais approximative : lorsque ∆C = 0, τ_(j,k)(∆C) = τ_(j,k); sinon τ_(j,k)(∆C) = τ∆τ(j,k). Ici, τ(j,k) est estimé comme précédemment et τ∆est un paramètre représentant l’influence de l’observation d’un changement de contexte sur la probabilité de changement de task-set.

Lorsque le paramètre τ∆est différent de 1, on donne donc ainsi un rôle spécifique et ponctuel aux changements de contextes, indépendamment du rôle des contextes, qui permet une moins faible probabilité de switch à l’observation d’un changement de contextes. Nous verrons plus loin que cela semble pertinent en rapport au comportement des sujets.

Dans le document en fr (Page 144-148)