Architecture - Ajout de m´ ecanismes de r´ ecompense dans bijama

Partie I Probl´ ematique de recherche 25

5.4 Ajout de m´ ecanismes de r´ ecompense dans bijama

5.4.2 Architecture

L’apprentissage de l’asservissement par une architecture basée sur le calcul cortical tel que le définit bijama ne peut se contenter « d’observer » les régularités sensorimotrices générées par des mouvements aléatoires, comme nous l’avons montré au chapitre précédent. Si cela avait ´

eté possible, c’est-à-dire si la jacobienne de F_θ était toujours, quel que soit θ proche d’une rotation, sans déformation, on aurait pu réaliser l’architecture de la figure 5.4. On aurait alors soumis à cette architecture des triplets (θ, dθ, dX) obtenus en choisissant aléatoirement θ et dθ, en observant le dX obtenu. Une fois les cartes organisées, il aurait suffit de présenter θ, la proprioception, dX, la consigne, et de laisser le système se relaxer, du fait des poids appris sur les prototypes des cartes (étage thalamique) et sur les stripes (étage cortical). L’état d’équilibre construirait une bulle sur toutes les cartes, celle sur la carte gérant les dθ correspondant alors, du fait de la restitution de cohérence, à l’action à réaliser pour satisfaire la consigne. Le problème soulevé par le paragraphe précédent est que les consignes présentées n’ont pas nécessairement été observées lors de l’apprentissage, pour lequel les dθ sont générés aléatoirement (cf. figure 5.3).

Face à cette difficulté, nous avons été amenés, avec Olivier Ménard, à introduire un m´ eca-nisme de récompense dans nos architectures [Ménard and Frezza-Buet, 2005; Ménard, 2006]. Nous l’avons fait comme illustré sur la figure5.5, dont la légende présente le rôle des différents constituants de l’architecture.

La dynamique du système est alors la suivante. Lorsqu’on impose la proprioception dθ et la consigne dX, la mise en cohérence des modules, i.e. le processus de relaxation multi-cartes, produit une bulle sur la carte motrice. Cette bulle produit à son tour une activité d’entrée sur la carte spinale, sur laquelle s’opère une compétition afin de sélectionner une région de la carte spinale. Cette région détermine l’action effectuée par le système. Parallèlement à ce mécanisme, l’unité basale re¸coit l’état des quatre modules corticaux et l’utilise pour prédire une récompense attribuée à l’action proposée. Si cette récompense prédite est forte, le système « sait qu’il sait » , et l’action effectuée est celle sélectionnée dans la carte motrice. Si en revanche la récompense prédite est faible, le système « sait qu’il ne sait pas » . Dans ce cas, cette unité bruite l’entrée de la carte spinale, de sorte que l’influence de la carte motrice n’ait pas la capacité à forcer une action. La bulle se forme n’importe où, après un processus de compétition couplé avec celui de la carte motrice, du fait des connexions adaptatives réciproques entre les deux modules. La perturbation sur la carte motrice se propage aux autres cartes, puisque tous les processus de compétition sont interdépendants.

En cas de prédiction de récompense faible, la stabilité du système est perturbée de sorte à trouver un autre point d’équilibre, qui satisfait encore aux entrées dX et θ. Les degrés de liberté apportés par la carte associative et surtout par la carte motrice, qui n’est pas contrainte par l’extérieur, sont exploités lors de ce processus.

5.4. Ajout de m´ecanismes de r´ecompense dans bijama dθ dθ dX θ dX θ

Figure 5.4 – L’apprentissage du modèle (figure de gauche) consiste à choisir une position θ du robot, ainsi qu’une variation dθ, et d’observer dX qui est le déplacement de la main qui en résulte. Le triplet (θ, dθ, dX) est alors présenté au système cortical. On réalise de nombreuses expériences ainsi construites. Une fois les correspondances entre ces modalités apprises on peut utiliser la capacité du système à rétablir la cohérence ainsi acquise en donnant au réseau la position θ, ainsi qu’une consigne de déplacement dX (figure de droite). Si l’on n’impose rien sur le module dθ, c’est sur la variation d’angle cohérente avec θ et dX que se formera la bulle d’activité, définissant ainsi la commande. L’impossibilité de mettre en œuvre cette approche est discutée dans le texte.

dθ

dX

θ

all−to−all basal spinal predicted reward motor map

Figure 5.5 – Le système re¸coit la position courante du bras θ, ainsi que la consigne dX, sous forme d’entrées de l’étage thalamique de deux des modules. Un module associatif met en relation ces deux modules avec un troisième module, moteur, dépourvu d’entrée thalamique. L’activité du module moteur est projetée sur un module « spinal » , par une projection issue d’un ap-prentissage. Une activation dans le module spinal est directement câblée à une variation dθ de la configuration articulatoire. Le système prédit la récompense de l’action courante à partir de l’état des modules corticaux, ce qui est le rôle de l’unité « basal » . Plus la récompense prédite est faible, plus cette unité bruite le module « spinal » , de sorte qu’il choisisse une action aléatoire.

5.4. Ajout de m´ecanismes de r´ecompense dans bijama

La différence avec le protocole illustré sur la figure5.4est fondamentale, et se résume comme suit.

Le système n’est plus témoin des contingences sensorimotrices, mais doit stabiliser la prise en charge des perceptions pour calculer une commande récompensée. On retrouve ce que nous avions mentionné page 15, à savoir que le système accède à la causalité de la récompense, ici réaliser la consigne, en agissant sur le monde, et non en en capturant, passivement, les corrélations.

Si on laisse le système évoluer, sa capacité à avoir une récompense (elle est donné en fonction du degré de réalisation de la consigne) augmente, et les cartes s’organisent pour cet objectif. Par exemple, la répartition des consignes sur la carte dX est illustrée sur la figure 5.5(en bas, `

a droite). Du fait que les consignes sont imposées, et non plus calculées par le modèle direct du robot, elles sont par construction bien distribuées, et le problème évoqué sur la figure 5.3ne se pose plus.

Un des points délicats de cette approche est la souplesse du champ de neurones qui gère la compétition de la carte spinale, ainsi que la forme de la prédiction de récompense réalisée par le module basal, pour laquelle une régression linéaire est un peu trop restrictive. Ces points ont été étudiés par Thomas Legrand lors de son stage de Master dans notre équipe [Legrand, 2006]. Acteur-critique

L’architecture précédemment évoquée exhibe une composante « acteur » et une composante « critique » . La composante acteur est l’ensemble des cartes corticales, qui aboutit à la pro-position d’une action motrice. La qualité de cette action est évaluée au niveau de l’unité que nous avons nommée « basal » . Dans notre modèle, les deux processus acteurs et critiques sont distincts, et l’ensemble est stable quand l’acteur propose les bonnes actions et que le critique sait que ce sont les bonnes actions.

La séparation de l’acteur et du critique n’est pas présente dans tous les algorithmes d’ap-prentissage par renforcement, puisque les plus classiques d’entre eux sont souvent des critiques purs, à l’instar de Q-Learning et Sarsa. Or les critiques purs calculent une fonction de valeur, qui approche celle du comportement optimal, mais la politique n’est que déduite mécaniquement de cette fonction de valeur⁶⁹. Pour certains problèmes, il arrive que l’on approche correctement la fonction de valeur, mais que la politique déduite soit très différente de la politique optimale. C’est pourquoi disposer d’un acteur indépendant du critique (même si il en tient compte) est un gage de qualité du comportement obtenu. En effet, si ce comportement est bien évalué par le critique, c’est qu’il est effectivement bon.

Nous avons, dans le modèle que nous proposons, extrait le rôle de critique de l’activité corti-cale (unité « basal » ), mais le mécanisme de critique est encore frustre. Cela conduit à s’intéresser aux structures sous-corticales impliquées dans ces fonctions chez le primate, à savoir les ganglions de la base. L’extension de nos travaux dans cette direction est présentée au paragraphe10.3.2. 5.4.3 Conclusion

La version présentée ici du caractère situé du calcul cortical tel que l’instancie bijama est par bien des aspects très simpliste. Nous pensons toutefois qu’elle jette les bases de principes

nouveaux et de nature à guider nos recherches futures. Nous discutons donc d’abord, dans ce paragraphe, de ce qui est simpliste dans ce modèle, pour montrer ensuite la portée de cette approche, en dépit des raccourcis que nous faisons, provisoirement, aujourd’hui.

Le premier point qu’il convient de discuter est l’adéquation de notre architecture avec le système sensorimoteur des primates. Il est clair que notre proposition n’a pas vocation à répondre `

a cette question. Nous cherchons plutôt à aborder la question de la récompense et de sa capacité `

a nous affranchir de nourrir les apprentissages à l’aide d’exemples générés via le modèle inverse du système.

Le deuxième point est l’extrême simplification des mécanismes de gestion de la motricité (le module spinal) et de la prédiction de récompense (l’unique unité basale). En ce qui concerne l’unité basale, que nous nommons ainsi en référence aux ganglions de la base, une étude plus approfondie permettra de décomposer sa fonction de sélection de l’action [Mink, 1996] et de prédiction de récompense [Schultz, 2001], puisque dans les ganglions de la base, de multiples centres nerveux se coordonnent à cet effet. Nous pourrons alors prétendre à instancier, par nos modèles, des conceptions plus intégrées des différents rôles des grands centres nerveux du cerveau, comme celles proposées par Doya [Doya, 1999].

Le troisième point est le caractère encore trop instantané de la gestion de la récompense, et des délais qui peuvent intervenir dans son occurrence. Aujourd’hui clairement, nos modèles n’intègrent pas les finesses d’un apprentissage par renforcement tel qu’il est présenté dans [Sutton and Barto, 1998].

Quatrièmement, nous avons exprimé le comportement du module basal comme un prédicteur de récompense, permettant d’exprimer que le système « sait qu’il sait » ou « sait qu’il ne sait pas » produire la récompense par ses actions. Il y a un tiers état qui n’est pas géré dans le modèle, qui est celui de la confiance en la prédiction, et qui mériterait d’être approfondi au niveau des relations entre l’unité basale et le module spinal.

Malgré ces limitations, cette approche nous paraˆıt être un premier pas qui répond aux points suivants, souvent épineux dans les modèles informatiques. Tout d’abord, l’introduction de la récompense n’est pas diffuse dans toute l’architecture, et n’a pas occasionné une refonte du modèle de calcul présenté au chapitre4. L’effet global de l’apprentissage par renforcement tient, dans cette approche, aux perturbations d’équilibre qui se propagent dans le réseau, du fait de la restitution de cohérence multimodale qui fait la force du modèle bijama. Nous affirmons ´

egalement que, dans cette architecture, les modules moteurs sont identiques aux autres modules, si ce n’est qu’ils n’ont pas d’étage thalamique, comme n’importe quel module qui n’est pas un module primaire. Cette uniformité est un de nos objectifs, puisque nous visons des modules génériques. Les modèles qui nous ont conduit à bijama étaient, eux, tributaires du besoin de faire une exception à la structure générale pour leurs constituants moteurs [Blanchet, 1992;

5.4. Ajout de m´ecanismes de r´ecompense dans bijama

Même si aujourd’hui l’extension de bijama aux traitement situés n’est qu’un pre-mier pas, nous pensons que cette extension est ouverte et trace la voie des d´ evelop-pements futurs de nos recherches. À moyen terme, Lucian Alecu, lors de sa thèseâ, tente d’aborder une structuration de la vision par l’exigence comportementale de l’agent, sur la base des travaux présentés ici, donnant d’emblée aux traitements visuels « primaires » une s´emantique, ce qui est conforme avec les ouvertures de nos travaux vers le raisonnement situé prédicatif, comme nous l’avons discuté au paragraphe 5.1.

Deuxi`eme partie

Environnement

Chapitre 6

Activit´es de recherche

« collat´erales »

Il s’est présenté durant notre activité de recherches des opportunités autres que celles qui s’inscrivaient directement dans les objectifs que nous nous étions fixés. Les discussions de pause-café, par exemple, avec des collègues d’autres disciplines, ne sont souvent guidées que par une simple curiosité sur des domaines que nous ne connaissons pas. De même, la nécessité de réaliser une démonstration pour des activités de communication, comme par exemple la fête de la science, amène à mettre en place des réalisations ponctuelles en marge de notre projet de recherche.

La plupart de ces papillonnages sont éphémères, ce qui n’enlève rien au plaisir que l’on peut y prendre, mais parfois la mayonnaise prend, et nous nous sommes retrouvés à deux reprise dans la situation où il nous est apparu pertinent de faire un effort supplémentaire pour concrétiser ces discussions en une réalisation scientifique de plus grande ampleur. Il en coûte certes un léger détournement du temps de recherche vers ces projets collatéraux, mais nous pensons qu’il convient de laisser un peu de « bruit » dans une activité scientifique. L’expérience nous a donné raison, dans le cadre du projet ESCAPaDE, né de ce bruit, puisqu’il a permis de monter le projet InterCell qui lui, est clairement au service de notre projet de recherche fondamental.

Nous présentons donc dans ce chapitre les deux activités de recherche collatérales qui ont vu le jour en marge de notre projet. La première est la construction d’un solver numérique d’équations aux dérivées partielles, à savoir le projet ESCAPaDE dont nous venons de parler. La seconde activité est la conception d’un algorithme de quantification vectorielle, GNG-T, qui permet de gérer les distributions non stationnaires.

Ces deux projets font l’objet de publications. Pour ESCAPaDE, la soumission d’un article de journal est en cours, le papier est disponible sur HAL [Fressengeas and Frezza-Buet, 2006]. Pour GNG-T, nous avons publié nos travaux [Frezza-Buet, 2008], et d’autres collègues de notre équipe les utilisent dans le cadre d’applications médicales.

A posteriori, il convient de constater que les raisons pour lesquelles la « mayonnaise a pris » pour ces deux activités-là ne sont pas le fruit du hasard. ESCAPaDE est l’application à la physique du calcul cellulaire à grain fin, que nous défendons dans notre projet de recherche, et GNG-T est un algorithme de quantification vectoriel, ce qui est cohérent avec la promotion du codage tabulaire que nous faisons dans notre recherche (cf. page84).

Dans le document Un calcul cortical pour les systèmes situés (Page 141-151)