• Aucun résultat trouvé

Exploration et incertitude dans l’apprentissage

Dans le document en fr (Page 47-56)

1.2 Apprentissage et cortex préfrontal

1.2.2 Exploration et incertitude dans l’apprentissage

Nous avons jusqu’ici insisté sur la nécessité d’apprendre des valeurs pour prendre des dé- cisions, soit l’apprentissage pour le contrôle cognitif. Nous montrons maintenant que des

aspects essentiels de l’apprentissage, notamment l’exploration et l’incertitude, impliquent le PFC, ce qui permet de penser que le contrôle cognitif peut également être nécessaire à l’apprentissage.

L’exploration et l’incertitude sont deux facteurs intrinsèques de l’apprentissage et de la prise de décision : l’exploration est indispensable pour former une représentation correcte des conséquences des actions, et l’incertitude est omniprésente en début d’apprentissage mais aussi pour les décisions dans des environnements bruités. Nous montrons dans cette section que la représentation de l’incertitude et la gestion de l’exploration, en situation d’ap- prentissage ou de prise de décision, impliquent le PFC médial et sont intimement liés. Nous présentons tout d’abord les recherches théoriques liées au problème de l’exploration, avant d’évoquer les résultats empiriques impliquant le PFC et les notions d’incertitude dans les problèmes d’exploration.

Exploration, problèmes théoriques

Comme nous l’avons évoqué lorsque nous avons présenté les modèles d’apprentissage par renforcement, leur convergence n’est garantie que lorsque l’ensemble des états et des actions est testé un grand nombre de fois, afin que toutes les informations puissent être prises en compte. L’exploration est donc un facteur essentiel de l’apprentissage, et les hypothèses des théorèmes assurant la convergence des méthodes d’apprentissage par renforcement reflètent ce fait. Cependant, trop explorer implique de sélectionner des actions sous-optimales, ce qui rend la performance moins bonne qu’elle ne pourrait l’être. Se pose donc un dilemme : faut-il agir de manière la plus optimale possible, quitte à manquer des possibilités meilleures parce qu’on n’a pas pris le risque de les explorer, ou faut-il explorer plus, quitte à risquer de perdre de l’énergie sans compensation de résultats ?

Pour décrire ce problème, on utilise le terme de compromis (ou trade-off ) exploration- exploitation : il s’agit de trouver le bon équilibre entre les comportements exploitant les informations connues et les comportements explorant les domaines encore pas assez bien connus. Ce processus d’exploration, de gestion du compromis, est stratégiquement et théo- riquement complexe.

Le problème du compromis exploration-exploitation reste très largement non résolu. L’in- dice de Gittins (1974, [93]), seule solution optimale connue à un problème de compromis exploration-exploitation, n’est limité qu’à des cas très précis de problèmes (notamment les bandits) dans un environnement stable et pour un comportement à la limite. Cette solution n’est donc pas pertinente en général. Les autres propositions de solution, liées au cadre de l’apprentissage par renforcement, se concentrent sur la définition de la stratégie permettant cette exploration.

Nous avons déjà présenté une stratégie permettant l’exploration : la stratégie ǫ-greedy. Cette stratégie permet de choisir la plupart du temps la meilleure action, mais occasionnellement (avec probabilité petite ǫ), de sélectionner au hasard n’importe laquelle des autres actions possibles. Si cette stratégie assure en effet l’exploration finale de toutes les possibilités, elle semble ne pas être très subtile. En effet, toutes les autres options sont traitées uniformé- ment, alors qu’il pourrait être intéressant de les dissocier. Notamment, si deux actions ont des valeurs très fortes et les autres sont toutes faibles, il est probablement plus intéres- sant d’explorer la 2ème meilleure action plutôt que les autres, au cas où un complément

d’information montrerait qu’elle est en fait la meilleure.

La stratégie nommée softmax (soit, maximum adouci) permet d’effectuer ce type d’explo- ration dirigée. Elle définit la probabilité de sélectionner une action a face à un stimulus s comme proportionnelle à la valeur exp(βQ(s, a)), soit Pexp(βQ(s,a))

a′exp(βQ(s,a′)). Dans la limite où β

est très grand, cette valeur vaut 1 si a est l’action greedy, et 0 dans les autres cas. Avec des valeurs finies de β, cette valeur favorise la sélection des actions ayant les plus grandes valeurs attendues. Plus β est petit, plus les probabilités des autres options sont proches, biaisant le compromis exploration-exploitation en direction de l’exploration.

Cette stratégie est très largement utilisée et le paramètre β, souvent appelé température inverse, représente le degré d’exploration. Une combinaison des deux modèles précédents peut également être construite, permettant l’aspect aléatoire proche de la distraction du ǫ-greedy et l’aspect dirigé de l’exploration du softmax.

Cependant, on peut observer un problème dans ces stratégies d’exploration : en effet, ima- ginons une situation où deux solutions sont proches en valeur (par exemple, prendre le métro ou le bus pour aller de chez soi à son travail). Le softmax indique que, quel que

soit le nombre de fois où j’aurai testé les deux solutions, comme leurs valeurs sont proches, je continuerai à utiliser les deux, avec un léger biais vers la meilleure. Pourtant, heuristi- quement, il semble évident que lorsque la connaissance du fait qu’une des deux méthodes s’avère légèrement meilleure est établie, alors on n’utilisera plus que celle-là, puisqu’il n’y a plus d’information à gagner à explorer la deuxième meilleure.

Plusieurs solutions peuvent être proposées pour résoudre ce problème. Tout d’abord, on pourrait imaginer que les paramètres de stratégie ne sont pas fixes : si β diminue, alors naturellement, l’exploration diminuerait au fur et à mesure du temps, conduisant à exploiter à long terme ce qui est connu. Cependant, il faudrait alors pouvoir déterminer à quelle vitesse β devrait diminuer, quand il devrait à nouveau augmenter (au cas où l’environnement change), etc. Cette solution ne semble donc pas possible sans implémenter des mesures de contrôle supplémentaires. Plusieurs autres méthodes ont été proposées pour encourager l’exploration, reposant généralement sur l’ajout d’un bonus à l’exploration (Dearden et al, 1998 [65]). Diverses techniques de calcul du bonus à l’exploration sont proposées. L’une des plus simple, nommée novelty bonus, propose simplement d’initialiser de manière optimiste les actions non connues, s’assurant ainsi qu’elles sont testées jusqu’à ce que le modèle ait appris leur valeur, ce qui assure ainsi une exploration minimale (Kakade et al, 2002 [123]). Cette méthode semble particulièrement pertinente en regard de l’observation d’activations phasiques de la dopamine face à la nouveauté, non expliquées par les modèles habituels de RL, mais qui pourraient l’être par l’introduction d’un bonus à la nouveauté (Kakade et al, 2002 [123], Redgrave et al, 2006 [174], Redgrave, 2008 [173]).

Nous présentons également une autre méthode de bonus à l’exploration qui nous semble particulièrement pertinente. La méthode d’exploration par bonus à l’incertitude propose de guider l’exploration en la dirigeant vers les actions permettant de diminuer l’incertitude, soit d’obtenir de l’information (Dayan et Sejnowski, 1996, [63]). Cette méthode demande de pouvoir mettre à jour à chaque essai, non pas seulement la moyenne d’une distribution, soit la valeur attendue comme dans les algorithmes habituels d’apprentissage par renforcement, mais également son écart type, afin d’avoir accès à l’incertitude sur la valeur attendue. Plusieurs méthodes peuvent être proposées. Une méthode proposée par Dearden et al, 1998 [65] et utilisée par Daw et al, 2005 ([59]), est la méthode de Bayesian Q-learning, proposant de mettre à jour non seulement Q(s, a) pour chaque paire stimulus action, mais aussi la

distribution P (Q(s, a) = q), par un processus d’inférence bayésienne. Une mesure très naturelle de l’incertitude est alors l’écart type de cette distribution.

Notons qu’il est démontré que le niveau de confiance (et donc d’incertitude) joue un rôle pour guider la prise de décision et l’adaptation, dans une étude portant sur des rats (Kepecs et al, 2008 [127]). Cela montre que la notion de confiance, liée à l’incertitude (omniprésente dans les décisions de la vie de tous les jours, Platt et Huettel, 2008 [170]) n’est pas néces- sairement une variable de haut niveau cognitif et peut être calculée simplement.

Nous montrerons dans le paragraphe suivant les arguments cognitifs appuyant le rôle de l’incertitude dans l’exploration humaine.

Exploration et incertitude dans le PFC

Bien que peu d’études aient observé les corrélats neuronaux de l’exploration, nous montrons ici qu’elle implique de manière importante le PFC.

Hampton et al, 2006 [102], soumettent des sujets à une tâche de probabilistic reversal lear- ning. Dans cette tâche, deux stimuli sont présents, l’un est gagnant avec probabilité p, l’autre avec probabilité 1 − p ; le rôle des deux stimuli est périodiquement inversé. Le sujet doit apprendre à choisir le stimulus optimal. Les sujets sont familiarisés avec la structure de la tâche (niveau de stochasticité, probabilité de renversement). Cela permet de construire un modèle bayésien incluant la structure plus complexe de la tâche pour modéliser le compor- tement des sujets. Les auteurs observent alors une activation du PFC dorso-latéral (ainsi que de l’ACC) liée à une probabilité a priori incorrecte, soit une décision incertaine et exploratoire.

Dans une étude spécifiquement portée sur le problème de l’exploration, Daw, O’Doherty et al, 2006 [60], montrent que les décisions d’exploration impliquent des régions essentielles au contrôle cognitif. Dans cette étude, les sujets doivent choisir entre quatre actions. Chaque action rapporte des points tirés au hasard autour d’une moyenne ; la valeur moyenne de chacune des quatre actions change lentement au cours du temps. Le sujet doit donc en permanence apprendre la valeur de chaque option afin de sélectionner l’action la plus ré- munératrice. Il est donc essentiel qu’il ne fasse pas qu’exploiter une seule action donnée,

Figure 1.3 –Activations des mêmes régions du cortex préfrontal antérieur pour l’exploration (à

gauche, issu de Daw et al, 2006 [60]), et l’incertitude (à droite, issu de Yoshida et Ishii, 2006 [216]).

mais explore les autres actions. Les auteurs définissent simplement la sélection d’une action exploratoire comme la sélection d’une action sous-optimale, d’après un modèle d’apprentis- sage par renforcement simple. Ils observent, spécifiquement pour les actions exploratoires, une activation du cortex préfrontal antérieur (voir figure 1.3, page 50), ainsi que du PFC dorso-latéral liée aux décisions exploratoires.

De manière cruciale, la même région du cortex préfrontal antérieur est rapportée comme codant pour l’incertitude, dans une étude menée par Yoshida et Ishii, 2006 [216] (voir figure 1.3, page 50). Dans cette étude, les sujets sont familiarisés avec la structure d’un labyrinthe et avec la navigation à l’intérieur de ce labyrinthe. Ils doivent par la suite, sans savoir quel est leur point de départ exact, atteindre un objectif situé à un point fixé du labyrinthe. Ils doivent donc tenter d’inférer, au cours de leur déplacement, leur position actuelle, et ce, en utilisant leur connaissance parfaite du labyrinthe et l’observation des conséquences des actions prises précédemment. Ce dessin expérimental favorise non seulement de forts niveaux d’incertitude, mais également la possibilité d’observer son évolution et sa réduction totale. Les auteurs utilisent un hidden markov model (HMM) ayant pour variables cachées la position actuelle dans le labyrinthe, mais également le ‘mode actuel’ du sujet, correspondant à sa stratégie d’inférence actuelle. En modélisant l’incertitude comme l’entropie sur les états cachés, les auteurs montrent une activation du cortex préfrontal antérieur, correspondant avec la région d’exploration proposée par Daw, O’Doherty et al, 2006 [60].

On a donc d’une part, une théorie (bonus à l’exploration) proposant qu’une méthode effi- cace d’exploration serait guidée par l’estimation de l’incertitude sur les différentes options, et d’autre part deux études étudiant indépendamment d’une part l’exploration, d’autre

part l’estimation de l’incertitude, montrant que ces deux processus sont pris en charge par la même région du cerveau. Si cela renforce l’hypothèse d’un lien entre exploration et incertitude, aucun lien direct n’est effectué entre les deux.

Frank et al, 2009 [85], proposent de faire le lien explicite, dans une étude comportemen- tale, entre exploration et incertitude. Ils construisent un protocole expérimental permettant d’assurer un apprentissage correct malgré un grand nombre d’états, ceux-ci permettant de maintenir un certain niveau d’incertitude et d’exploration au cours de la tâche. Les auteurs modélisent le comportement des sujets en proposant que les sujets choisissent entre deux options (non précisément fixées et soumises à ajustements), et en estimant la distribution de probabilité, pour chacune de ces deux options, d’être liée à une chance de récompense supérieure à celle attendue. Cette formulation approximative permet une mise à jour bayé- sienne simple ainsi que l’estimation aisée de l’écart-type sur chacune des deux distributions, permettant d’encoder l’incertitude liée à chacune des deux options. Les auteurs montrent que, parmi un certain nombre de modèles d’apprentissage et de décisions incluant différentes manières d’explorer, le modèle utilisant l’incertitude pour guider l’exploration est celui qui correspond au mieux au comportement des sujets. Ils valident ainsi comportementalement le rôle de l’incertitude pour l’exploration.

Incertitude

On a montré que l’incertitude permettait de guider l’exploration dans l’apprentissage, et que ces processus impliquaient le cortex préfrontal ventro-médial. On montre dans cette section que l’incertitude permet également de guider d’autres aspects de l’apprentissage, par l’intermédiaire du cortex cingulaire antérieur (ACC).

De nombreux facteurs indirects peuvent influencer quelle devrait être la méthode optimale d’apprentissage. Par exemple, le poids relatif à donner à différentes informations devrait dépendre du degré d’incertitude lié à cette information ; l’horizon temporel des événements à prendre en compte devrait dépendre de la rapidité de changement de l’environnement, etc.

ces informations supplémentaire dans le cerveau.

ACC et incertitude

La première proposition repose sur le rôle de l’ACC dans l’intégration des informations diverses pour l’apprentissage et la décision. Si les théories principales du rôle de l’ACC reposent sur la notion de conflit (Botvinick et al, 2004 [27]) ou d’erreur likelihood (Brown et al, 2005 [35]), d’autres études montrent des activités de l’ACC dans des situations ne correspondant pas à ces théories. Par exemple, Budhani et al, 2007 [36], effectuent une étude de reversal learning avec des singes. Ils observent des activations de neurones de l’ACC lors de réponses correctes pendant l’acquisition d’un problème, ce qui n’est ni une situation de conflit, ni une situation d’erreur.

Kennerley et al, en 2006 [126], proposent la théorie selon laquelle l’ACC ne sert pas à détecter des erreurs, mais à intégrer l’historique des renforcements afin d’apprendre la valeur des actions. Dans cette étude, des singes ayant subi une ablation de l’ACC ne parviennent pas à maintenir un comportement conduisant pourtant à un renforcement.

Allant dans le sens de cette étude, Hayden et al, en 2009 [105], montrent que des neu- rones de l’ACC de singes sont sensibles à des renforcements fictifs, qui sont utilisés pour l’apprentissage de l’action appropriée.

Behrens et al, en 2007 [17], démontrent que l’ACC contribue à évaluer la variabilité, donc l’incertitude intrinsèque, du problème et à régler en conséquence la vitesse d’apprentissage. Dans cette étude, les sujets effectuent une tâche de probability tracking dans laquelle un des deux stimuli présents à l’écran est récompensé avec probabilité p, l’autre avec proba- bilité 1 − p. La valeur de cette probabilité p change plusieurs fois au cours de l’expérience. Crucialement, la durée de stabilité de p change au cours de l’expérience, représentant un en- vironnement incertain changeant plus ou moins vite – de volatilité plus ou moins grande. Les auteurs de cette étude modélisent à l’aide d’un modèle bayésien l’apprentissage non seule- ment des probabilités p, mais aussi de la volatilité de l’environnement à tout instant. Cette volatilité guide la vitesse d’apprentissage de p : en effet, lorsqu’un environnement change fréquemment, il faut donner peu de poids aux événements anciens ; tandis que dans un

K. Doya / Neural Networks 15 (2002) 495–506

Figure1.4 – Extrait de Doya, 2002 [73]. Schéma des interactions possibles entre les neuromodu-

lators representant le signal d’apprentissage global et les métaparamètres α, β, γ ; l’expérience d’un agent sous la forme de fonctions de valeurs ; et l’état, l’action, et la récompense de l’environnement.

environnement stable, il faut limiter l’influence des événements immédiats. L’étude montre une corrélation de l’activité de l’ACC avec la volatilité perçue par les sujets, comme inférée par le modèle. L’étude conclut donc sur le rôle de l’ACC dans le guidage de l’apprentissage dans des situations complexes, en prenant notamment en compte l’incertitude intrinsèque de l’environnement.

Neuromodulateurs

La deuxième proposition repose sur le rôle de différents neuromodulateurs dans la mo- dulation de l’apprentissage.

On a déjà vu que la dopamine semblait plus ou moins bien représenter un signal de type erreur de prédiction dans un modèle d’apprentissage par renforcement. Se reposant sur de nombreuses données existantes, Doya, en 2002 (metalearning and neuromodulation [73]) propose que chacun des trois autres neurotransmetteurs soit relié à un paramètre du modèle RL :

– γ (facteur de discount temporel) pour la sérotonine. En effet, plusieurs études montrent le rôle de la sérotonine dans le compromis délai/valeur de renforcement (Tanaka et al, 2004 [205] Schweighofer et al, 2007 [194]).

– α (vitesse d’apprentissage) pour l’acétylcholine, connue pour contrôler le stockage et la mise à jour de souvenirs.

– β (parametre d’exploration) pour la norépinephrine. Nous reviendrons largement dans la dernière partie sur les arguments liés à cette proposition, par exemple, ceux de Cohen, McClure et Yu, 2007 [43].

1.2.3 Cortex préfrontal et apprentissage de règles : le contrôle pour l’ap-

Dans le document en fr (Page 47-56)