Modèle UU (unexpected-uncertainty, plus RL)

5.2 Cas sans contexte : définition des trois autres modèles et de leurs points forts

5.2.2 Modèle UU (unexpected-uncertainty, plus RL)

Un modèle incluant la détection du moment du changement d’épisode afin de pouvoir repar- tir sur un apprentissage nouveau permettrait de pallier ce problème de ‘désapprentissage’. Nous proposons de combiner un modèle RL à un modèle estimant l’incertitude inattendue afin de pouvoir détecter la nécessité de switcher.

Plus précisément, dans ce modèle, l’acteur apprend comme ci-dessus un task-set, par mise à jour RL. Cependant, il apprend également à prédire l’incertitude inhérente à ce task-set. Il est muni d’un modèle interne de l’incertitude, soit la probabilité d’observer un gagné (r = 1) ou perdu (r = 0), pour une action a face à un stimulus s, dans le cadre de ce TS : γ(s, a) = P (r|s, a, T S). Nous supposons que ce modèle est appris par observation fréquentielle : γ est estimé par le nombre de fois que la paire (s,a) a conduit à une récompense r = 1 divisé par le nombre de fois que la paire a été testée dans le cadre de ce task-set (n(s,a)). En pratique, la mise à jour s’effectue essai après essai par :

γt+1(s, a) = γt+1(s, a) +

1 − γt+1(s, a)

n(s, a) pour rt= 1 = γt+1(s, a) −γt+1(s, a)

n(s, a) pour rt= 0

γ est un modèle interne direct de l’incertitude, car il permet à l’acteur de prédire la consé- quence de ses actions : dans le cadre du task-set TS, si on sélectionne l’action a face au stimulus s, on s’attend à obtenir r = 1 avec probabilité γ(s, a) et r = 0 avec probabilité 1 − γ(s, a). Il peut donc être utilisé pour une inférence bayésienne sur la variable cachée T S∗_.

Conformément au modèle proposé par Yu et Dayan, 2005 [217], dans ce modèle, l’hy- pothèse est que le task-set présentement utilisé est correct par défaut, jusqu’à ce qu’on

observe la nécessité de switcher. Il est donc mesuré contre toutes les autres possibili- tés. On estime ainsi la confiance dans le task-set utilisé (TS) après chaque observation : λt+1= P (T St+1∗ = T S|rt, histoire). Notons que λt+1 est une confiance ex-ante : avant qu’aucune observation ne soit effectuée au temps t + 1, on détermine la probabilité que le TS utilisé à t soit également valide à t + 1.

La mise à jour se fait de manière approximative par inférence bayésienne, en introduisant de manière intermédiaire µtdéfini comme suit :

µt= P (T St∗= T S|rt) =

P (rt|T St∗= T S)P (T St∗= T S)

P (rt|T St∗ = T S)P (T St∗ = T S) + P (rt|T S∗ 6= T S)P (T St∗ 6= T S) Toutes les probabilités sont conditionnées sur l’histoire des observations jusqu’à t − 1. Cette formule se résume simplement par :

µt = γλt γλt+ ξ(1 − λt) si rt= 1 (5.2) = (1 − γ)λt (1 − γ)λt+ (1 − ξ)(1 − λt) si rt= 0 (5.3)

Ici ξ représente la probabilité de gagner si ce TS n’est pas correct : P (rt = 1|T St∗ 6= T S). La valeur de ξ est fixée au niveau du hasard, 1/nA.

Cette probabilité est une évaluation ex-post de la confiance sur le fait que le TS utilisé était correct, après avoir observé le renforcement conséquent. Pour en déduire λt+1, la confiance ex-ante pour l’essai t + 1, on a besoin d’une probabilité de transition : en effet,

La dernière ligne est approximée en supposant une probabilité de stabilité du T S∗ _fixe, P (T S∗

t+1 = T St∗) = τ , indépendante des TS, pour simplifier. Cette probabilité était fixée à τ = 1 dans Yu et Dayan, 2005 [217], dans l’hypothèse de changement rare d’épisode, impliquant simplement λt+1 = µt. Nous ne reprenons pas cette possibilité. En effet la

distinction des rôles de µ (évaluation ex-post) et λ (décision ex-ante) joue un rôle très important, et sera particulièrement mise en valeur dans les modèles avec contextes1_. Le modèle permet alors d’indiquer la nécessité de switcher : lorsque la probabilité que le task-set actuel soit correct devient plus faible que la probabilité qu’il soit incorrect, il est nécessaire de quitter le task-set par défaut et d’en utiliser un autre. Ce critère se traduit par λt+1 < 1 − λt+1, soit λt+1 < 0, 5. On introduit donc naturellement un seuil pour la confiance dans le TS actuel, en dessous duquel il est nécessaire de switcher.

L’intervention de ce signal de switch permet de signaler que ce qui est observé n’est plus conforme à ce qui est attendu (par le modèle interne direct) dans le cadre d’utilisation du TS appris. Elle permet donc d’interrompre l’adaptation sur ce modèle et de pouvoir envisager le stockage du TS appris avant qu’il n’ait été modifié par apprentissage dans une nouvelle condition. C’est donc un mécanisme qui permet d’apprendre un TS et de déterminer à quel instant il faut interrompre son apprentissage avant qu’il ne soit dégradé. On voit sur la figure 5.2 b), page 132, le switch signalé par la chute de la confiance dans le task-set peu après le début de l’épisode, et on constate également que l’apprentissage des nouveaux task-sets est bien plus rapide avec le rajout du switch au RL. On commentera plus précisément cette figure dans la section 5.3.5.

Cependant, ce mécanisme de switch ne fournit aucun mécanisme naturel permettant de dé- cider quel task-set appliquer après le switch. En effet, même si les task-sets précédemment appris sont stockés, comment décider lequel utiliser autrement qu’en en sélectionnant un au hasard et en l’essayant pendant un certain nombre d’essais (ce qui est proposé dans Yu et Dayan, 2005 [217]) ? Il est évident que ce processus est inefficace. De plus, il n’est pas satis- faisant, dans le sens où l’espace des task-sets à explorer doit être construit avant d’exister : après chaque switch une décision doit être prise entre deux processus, l’apprentissage d’un nouveau task-set ou la sélection d’un task-set précédemment appris. Aucune proposition n’existe pour arbitrer entre ces deux processus.

Nous nous limitons donc dans ce modèle au seul mécanisme qu’on peut implémenter natu-

1. Notons que garder τ < 1 permet également d’éviter des problèmes de simulation. En effet, 1 est un attracteur de la fonction de mise à jour (5.2) et risque d’être atteint, par approximation de Matlab, lors des simulations. L’introduction de τ < 1 assure que pour tout t, λt< τ.

rellement dans son cadre, pour le problème d’apprentissage des task-sets. Après un switch, un nouveau task-set est systématiquement appris, à partir d’une table de Q-values initialisée pour une sélection uniforme des actions.

Ce modèle ne permet donc, pas plus que le précédent, de stocker des task-sets dans l’espoir de les réutiliser, en l’absence de moyen de savoir quel task-set réutiliser. Cependant, il permet d’introduire un switch comme la détection de la fin d’un épisode et la nécessité de passer à autre chose. Il évite donc le problème du modèle précédant, devant effacer ce qu’il a appris avant de pouvoir apprendre à nouveau.

Dans le document en fr (Page 121-124)