• Aucun résultat trouvé

Architecture

Dans le document Un calcul cortical pour les systèmes situés (Page 141-151)

Partie I Probl´ ematique de recherche 25

5.4 Ajout de m´ ecanismes de r´ ecompense dans bijama

5.4.2 Architecture

L’apprentissage de l’asservissement par une architecture bas´ee sur le calcul cortical tel que le d´efinit bijama ne peut se contenter « d’observer » les r´egularit´es sensorimotrices g´en´er´ees par des mouvements al´eatoires, comme nous l’avons montr´e au chapitre pr´ec´edent. Si cela avait ´

et´e possible, c’est-`a-dire si la jacobienne de Fθ ´etait toujours, quel que soit θ proche d’une rotation, sans d´eformation, on aurait pu r´ealiser l’architecture de la figure 5.4. On aurait alors soumis `a cette architecture des triplets (θ, dθ, dX) obtenus en choisissant al´eatoirement θ et dθ, en observant le dX obtenu. Une fois les cartes organis´ees, il aurait suffit de pr´esenter θ, la proprioception, dX, la consigne, et de laisser le syst`eme se relaxer, du fait des poids appris sur les prototypes des cartes (´etage thalamique) et sur les stripes (´etage cortical). L’´etat d’´equilibre construirait une bulle sur toutes les cartes, celle sur la carte g´erant les dθ correspondant alors, du fait de la restitution de coh´erence, `a l’action `a r´ealiser pour satisfaire la consigne. Le probl`eme soulev´e par le paragraphe pr´ec´edent est que les consignes pr´esent´ees n’ont pas n´ecessairement ´et´e observ´ees lors de l’apprentissage, pour lequel les dθ sont g´en´er´es al´eatoirement (cf. figure 5.3).

Face `a cette difficult´e, nous avons ´et´e amen´es, avec Olivier M´enard, `a introduire un m´ eca-nisme de r´ecompense dans nos architectures [M´enard and Frezza-Buet, 2005; M´enard, 2006]. Nous l’avons fait comme illustr´e sur la figure5.5, dont la l´egende pr´esente le rˆole des diff´erents constituants de l’architecture.

La dynamique du syst`eme est alors la suivante. Lorsqu’on impose la proprioception dθ et la consigne dX, la mise en coh´erence des modules, i.e. le processus de relaxation multi-cartes, produit une bulle sur la carte motrice. Cette bulle produit `a son tour une activit´e d’entr´ee sur la carte spinale, sur laquelle s’op`ere une comp´etition afin de s´electionner une r´egion de la carte spinale. Cette r´egion d´etermine l’action effectu´ee par le syst`eme. Parall`element `a ce m´ecanisme, l’unit´e basale re¸coit l’´etat des quatre modules corticaux et l’utilise pour pr´edire une r´ecompense attribu´ee `a l’action propos´ee. Si cette r´ecompense pr´edite est forte, le syst`eme « sait qu’il sait » , et l’action effectu´ee est celle s´electionn´ee dans la carte motrice. Si en revanche la r´ecompense pr´edite est faible, le syst`eme « sait qu’il ne sait pas » . Dans ce cas, cette unit´e bruite l’entr´ee de la carte spinale, de sorte que l’influence de la carte motrice n’ait pas la capacit´e `a forcer une action. La bulle se forme n’importe o`u, apr`es un processus de comp´etition coupl´e avec celui de la carte motrice, du fait des connexions adaptatives r´eciproques entre les deux modules. La perturbation sur la carte motrice se propage aux autres cartes, puisque tous les processus de comp´etition sont interd´ependants.

En cas de pr´ediction de r´ecompense faible, la stabilit´e du syst`eme est perturb´ee de sorte `a trouver un autre point d’´equilibre, qui satisfait encore aux entr´ees dX et θ. Les degr´es de libert´e apport´es par la carte associative et surtout par la carte motrice, qui n’est pas contrainte par l’ext´erieur, sont exploit´es lors de ce processus.

5.4. Ajout de m´ecanismes de r´ecompense dans bijama dθ dθ dX θ dX θ

Figure 5.4 – L’apprentissage du mod`ele (figure de gauche) consiste `a choisir une position θ du robot, ainsi qu’une variation dθ, et d’observer dX qui est le d´eplacement de la main qui en r´esulte. Le triplet (θ, dθ, dX) est alors pr´esent´e au syst`eme cortical. On r´ealise de nombreuses exp´eriences ainsi construites. Une fois les correspondances entre ces modalit´es apprises on peut utiliser la capacit´e du syst`eme `a r´etablir la coh´erence ainsi acquise en donnant au r´eseau la position θ, ainsi qu’une consigne de d´eplacement dX (figure de droite). Si l’on n’impose rien sur le module dθ, c’est sur la variation d’angle coh´erente avec θ et dX que se formera la bulle d’activit´e, d´efinissant ainsi la commande. L’impossibilit´e de mettre en œuvre cette approche est discut´ee dans le texte.

dX

θ

all−to−all basal spinal predicted reward motor map

Figure 5.5 – Le syst`eme re¸coit la position courante du bras θ, ainsi que la consigne dX, sous forme d’entr´ees de l’´etage thalamique de deux des modules. Un module associatif met en relation ces deux modules avec un troisi`eme module, moteur, d´epourvu d’entr´ee thalamique. L’activit´e du module moteur est projet´ee sur un module « spinal » , par une projection issue d’un ap-prentissage. Une activation dans le module spinal est directement cˆabl´ee `a une variation dθ de la configuration articulatoire. Le syst`eme pr´edit la r´ecompense de l’action courante `a partir de l’´etat des modules corticaux, ce qui est le rˆole de l’unit´e « basal » . Plus la r´ecompense pr´edite est faible, plus cette unit´e bruite le module « spinal » , de sorte qu’il choisisse une action al´eatoire.

5.4. Ajout de m´ecanismes de r´ecompense dans bijama

La diff´erence avec le protocole illustr´e sur la figure5.4est fondamentale, et se r´esume comme suit.

Le syst`eme n’est plus t´emoin des contingences sensorimotrices, mais doit stabiliser la prise en charge des perceptions pour calculer une commande r´ecompens´ee. On retrouve ce que nous avions mentionn´e page 15, `a savoir que le syst`eme acc`ede `a la causalit´e de la r´ecompense, ici r´ealiser la consigne, en agissant sur le monde, et non en en capturant, passivement, les corr´elations.

Si on laisse le syst`eme ´evoluer, sa capacit´e `a avoir une r´ecompense (elle est donn´e en fonction du degr´e de r´ealisation de la consigne) augmente, et les cartes s’organisent pour cet objectif. Par exemple, la r´epartition des consignes sur la carte dX est illustr´ee sur la figure 5.5(en bas, `

a droite). Du fait que les consignes sont impos´ees, et non plus calcul´ees par le mod`ele direct du robot, elles sont par construction bien distribu´ees, et le probl`eme ´evoqu´e sur la figure 5.3ne se pose plus.

Un des points d´elicats de cette approche est la souplesse du champ de neurones qui g`ere la comp´etition de la carte spinale, ainsi que la forme de la pr´ediction de r´ecompense r´ealis´ee par le module basal, pour laquelle une r´egression lin´eaire est un peu trop restrictive. Ces points ont ´et´e ´etudi´es par Thomas Legrand lors de son stage de Master dans notre ´equipe [Legrand, 2006]. Acteur-critique

L’architecture pr´ec´edemment ´evoqu´ee exhibe une composante « acteur » et une composante « critique » . La composante acteur est l’ensemble des cartes corticales, qui aboutit `a la pro-position d’une action motrice. La qualit´e de cette action est ´evalu´ee au niveau de l’unit´e que nous avons nomm´ee « basal » . Dans notre mod`ele, les deux processus acteurs et critiques sont distincts, et l’ensemble est stable quand l’acteur propose les bonnes actions et que le critique sait que ce sont les bonnes actions.

La s´eparation de l’acteur et du critique n’est pas pr´esente dans tous les algorithmes d’ap-prentissage par renforcement, puisque les plus classiques d’entre eux sont souvent des critiques purs, `a l’instar de Q-Learning et Sarsa. Or les critiques purs calculent une fonction de valeur, qui approche celle du comportement optimal, mais la politique n’est que d´eduite m´ecaniquement de cette fonction de valeur69. Pour certains probl`emes, il arrive que l’on approche correctement la fonction de valeur, mais que la politique d´eduite soit tr`es diff´erente de la politique optimale. C’est pourquoi disposer d’un acteur ind´ependant du critique (mˆeme si il en tient compte) est un gage de qualit´e du comportement obtenu. En effet, si ce comportement est bien ´evalu´e par le critique, c’est qu’il est effectivement bon.

Nous avons, dans le mod`ele que nous proposons, extrait le rˆole de critique de l’activit´e corti-cale (unit´e « basal » ), mais le m´ecanisme de critique est encore frustre. Cela conduit `a s’int´eresser aux structures sous-corticales impliqu´ees dans ces fonctions chez le primate, `a savoir les ganglions de la base. L’extension de nos travaux dans cette direction est pr´esent´ee au paragraphe10.3.2. 5.4.3 Conclusion

La version pr´esent´ee ici du caract`ere situ´e du calcul cortical tel que l’instancie bijama est par bien des aspects tr`es simpliste. Nous pensons toutefois qu’elle jette les bases de principes

nouveaux et de nature `a guider nos recherches futures. Nous discutons donc d’abord, dans ce paragraphe, de ce qui est simpliste dans ce mod`ele, pour montrer ensuite la port´ee de cette approche, en d´epit des raccourcis que nous faisons, provisoirement, aujourd’hui.

Le premier point qu’il convient de discuter est l’ad´equation de notre architecture avec le syst`eme sensorimoteur des primates. Il est clair que notre proposition n’a pas vocation `a r´epondre `

a cette question. Nous cherchons plutˆot `a aborder la question de la r´ecompense et de sa capacit´e `

a nous affranchir de nourrir les apprentissages `a l’aide d’exemples g´en´er´es via le mod`ele inverse du syst`eme.

Le deuxi`eme point est l’extrˆeme simplification des m´ecanismes de gestion de la motricit´e (le module spinal) et de la pr´ediction de r´ecompense (l’unique unit´e basale). En ce qui concerne l’unit´e basale, que nous nommons ainsi en r´ef´erence aux ganglions de la base, une ´etude plus approfondie permettra de d´ecomposer sa fonction de s´election de l’action [Mink, 1996] et de pr´ediction de r´ecompense [Schultz, 2001], puisque dans les ganglions de la base, de multiples centres nerveux se coordonnent `a cet effet. Nous pourrons alors pr´etendre `a instancier, par nos mod`eles, des conceptions plus int´egr´ees des diff´erents rˆoles des grands centres nerveux du cerveau, comme celles propos´ees par Doya [Doya, 1999].

Le troisi`eme point est le caract`ere encore trop instantan´e de la gestion de la r´ecompense, et des d´elais qui peuvent intervenir dans son occurrence. Aujourd’hui clairement, nos mod`eles n’int`egrent pas les finesses d’un apprentissage par renforcement tel qu’il est pr´esent´e dans [Sutton and Barto, 1998].

Quatri`emement, nous avons exprim´e le comportement du module basal comme un pr´edicteur de r´ecompense, permettant d’exprimer que le syst`eme « sait qu’il sait » ou « sait qu’il ne sait pas » produire la r´ecompense par ses actions. Il y a un tiers ´etat qui n’est pas g´er´e dans le mod`ele, qui est celui de la confiance en la pr´ediction, et qui m´eriterait d’ˆetre approfondi au niveau des relations entre l’unit´e basale et le module spinal.

Malgr´e ces limitations, cette approche nous paraˆıt ˆetre un premier pas qui r´epond aux points suivants, souvent ´epineux dans les mod`eles informatiques. Tout d’abord, l’introduction de la r´ecompense n’est pas diffuse dans toute l’architecture, et n’a pas occasionn´e une refonte du mod`ele de calcul pr´esent´e au chapitre4. L’effet global de l’apprentissage par renforcement tient, dans cette approche, aux perturbations d’´equilibre qui se propagent dans le r´eseau, du fait de la restitution de coh´erence multimodale qui fait la force du mod`ele bijama. Nous affirmons ´

egalement que, dans cette architecture, les modules moteurs sont identiques aux autres modules, si ce n’est qu’ils n’ont pas d’´etage thalamique, comme n’importe quel module qui n’est pas un module primaire. Cette uniformit´e est un de nos objectifs, puisque nous visons des modules g´en´eriques. Les mod`eles qui nous ont conduit `a bijama ´etaient, eux, tributaires du besoin de faire une exception `a la structure g´en´erale pour leurs constituants moteurs [Blanchet, 1992;

5.4. Ajout de m´ecanismes de r´ecompense dans bijama

Mˆeme si aujourd’hui l’extension de bijama aux traitement situ´es n’est qu’un pre-mier pas, nous pensons que cette extension est ouverte et trace la voie des d´ evelop-pements futurs de nos recherches. `A moyen terme, Lucian Alecu, lors de sa th`esea, tente d’aborder une structuration de la vision par l’exigence comportementale de l’agent, sur la base des travaux pr´esent´es ici, donnant d’embl´ee aux traitements visuels « primaires » une s´emantique, ce qui est conforme avec les ouvertures de nos travaux vers le raisonnement situ´e pr´edicatif, comme nous l’avons discut´e au paragraphe 5.1.

Deuxi`eme partie

Environnement

Chapitre 6

Activit´es de recherche

« collat´erales »

Il s’est pr´esent´e durant notre activit´e de recherches des opportunit´es autres que celles qui s’inscrivaient directement dans les objectifs que nous nous ´etions fix´es. Les discussions de pause-caf´e, par exemple, avec des coll`egues d’autres disciplines, ne sont souvent guid´ees que par une simple curiosit´e sur des domaines que nous ne connaissons pas. De mˆeme, la n´ecessit´e de r´ealiser une d´emonstration pour des activit´es de communication, comme par exemple la fˆete de la science, am`ene `a mettre en place des r´ealisations ponctuelles en marge de notre projet de recherche.

La plupart de ces papillonnages sont ´eph´em`eres, ce qui n’enl`eve rien au plaisir que l’on peut y prendre, mais parfois la mayonnaise prend, et nous nous sommes retrouv´es `a deux reprise dans la situation o`u il nous est apparu pertinent de faire un effort suppl´ementaire pour concr´etiser ces discussions en une r´ealisation scientifique de plus grande ampleur. Il en coˆute certes un l´eger d´etournement du temps de recherche vers ces projets collat´eraux, mais nous pensons qu’il convient de laisser un peu de « bruit » dans une activit´e scientifique. L’exp´erience nous a donn´e raison, dans le cadre du projet ESCAPaDE, n´e de ce bruit, puisqu’il a permis de monter le projet InterCell qui lui, est clairement au service de notre projet de recherche fondamental.

Nous pr´esentons donc dans ce chapitre les deux activit´es de recherche collat´erales qui ont vu le jour en marge de notre projet. La premi`ere est la construction d’un solver num´erique d’´equations aux d´eriv´ees partielles, `a savoir le projet ESCAPaDE dont nous venons de parler. La seconde activit´e est la conception d’un algorithme de quantification vectorielle, GNG-T, qui permet de g´erer les distributions non stationnaires.

Ces deux projets font l’objet de publications. Pour ESCAPaDE, la soumission d’un article de journal est en cours, le papier est disponible sur HAL [Fressengeas and Frezza-Buet, 2006]. Pour GNG-T, nous avons publi´e nos travaux [Frezza-Buet, 2008], et d’autres coll`egues de notre ´equipe les utilisent dans le cadre d’applications m´edicales.

A posteriori, il convient de constater que les raisons pour lesquelles la « mayonnaise a pris » pour ces deux activit´es-l`a ne sont pas le fruit du hasard. ESCAPaDE est l’application `a la physique du calcul cellulaire `a grain fin, que nous d´efendons dans notre projet de recherche, et GNG-T est un algorithme de quantification vectoriel, ce qui est coh´erent avec la promotion du codage tabulaire que nous faisons dans notre recherche (cf. page84).

Dans le document Un calcul cortical pour les systèmes situés (Page 141-151)