• Aucun résultat trouvé

Apprentissage et syst` emes dynamiques

Partie I Probl´ ematique de recherche 25

3.7 Apprentissage et syst` emes dynamiques

La notion d’apprentissage dans les syst`emes dynamiques n´ecessite, pour ˆetre discut´ee, de prendre quelques pr´ecautions. En effet, n’importe quel apprentissage, de la part d’un syst`eme, est un changement d’´etat (modification des poids d’un perceptron par exemple). Peut-on dire pour autant que les ´equations de Lorenz sont des ´equations d’apprentissage ? Nous pensons qu’il ne s’agit que d’une question de point de vue, et c’est notre point de vue que nous pr´ecisons ici. Repartons de l’´equation 3.2 page 38, et modifions-la un peu, afin d’y faire apparaˆıtre un param`etre θ, ce qui donne l’´equation 3.10.

dx

dt = Xθ(x(t), e(t)) (3.10)

C’est en jouant sur θ que l’on observe les bifurcations par exemple (cf. paragraphe3.1.2). L’ap-prentissage dont nous parlerons consiste `a modifier θ, et nous ne consid´ererons pas une modifi-cation de x comme un apprentissage. Ainsi, si pour un jeu de poids lat´eraux fixes d’un champ de neurones (i.e θ fixe), une entr´ee transitoire cr´ee une bulle u qui persiste. Cette distribution de u est un ´etat stable x si l’on prend les notations de l’´equation 3.10. Ce profil u n’est pas consid´er´e, pour la discussion qui suit, comme le r´esultat d’un apprentissage. Il n’en reste pas moins vrai que cet ´etat, d’un point de vue fonctionnel, est le stockage d’un ´ev´enement pass´e, et peut avoir comme fonction d’ˆetre un ´ev´enement stock´e, appris, et que notre restriction de la notion d’apprentissage `a θ n’a que vocation a pr´eciser ce dont nous parlons dans ces paragraphes suivants.

Nous ´etudions avec le mod`ele bijama, pr´esent´e au paragraphe 4.5, un syst`eme dynamique qui apprend en ligne, ce qui revient `a dire que θ varie selon les ´etats visit´es et l’entr´ee. Ces syst`emes sont d´ecrits en toute g´en´eralit´e par l’´equation 3.11.

dx dt = Xθ(t)(x(t), e(t)) dθ dt = X 0(θ(t), x(t), e(t)) (3.11)

Usuellement, on con¸coit que X0 est une r`egle d’apprentissage faisant ´evoluer θ assez lentement, au regard des modifications que subit x. Mais cela n’a rien d’obligatoire, et un tel syst`eme se ram`ene `a un syst`eme dynamique usuel en remarquant que l’on retrouve l’´equation 3.11 en rempla¸cant x dans l’´equation 3.2par (x(t), θ(t)).

3.7.1 Techniques de Machine Learning

Comme il est soulign´e dans [Igel et al., 2001], « There is a growing interest in using dynamic neural fields for modeling biological and technical systems, but constructive ways to set up such models are still missing » . Il apparaˆıt alors naturel, mˆeme si cela pose des difficult´es, d’appli-quer les techniques d’apprentissage automatique pour trouver le param`etre θ de l’´equation3.10. C’est ce qu’ont fait il y a plus de vingt ans Elman et Jordan, en d´etournant un perceptron multi-couches pour construire un syst`eme dynamique avec lignes `a retard pour le traitement de s´equences [Jordan, 1986; Elman, 1990], comme nous l’avons dit au paragraphe 3.5.3. Plus r´ecemment, les techniques issues des travaux de Vapnik [Vapnik, 2000] (dont [Shawe-Taylor and Cristianini, 2000] donne une introduction plus abordable) ont ´egalement ´et´e appliqu´es aux champs de neurones dynamiques [Giese, 2003]. Ces techniques ont toutefois l’inconv´enient de ne pas se prˆeter `a un traitement en ligne.

3.7. Apprentissage et syst`emes dynamiques

Depuis les travaux d’Elman et Jordan, nous constatons que les techniques d’apprentissage automatique supervis´e n’ont que peu influenc´e la conception de syst`emes dynamiques neuro-mim´etiques, et nous n’approfondirons pas plus dans la mesure o`u nous n’avons pas emprunt´e de voie similaire. On pourrait opposer `a cette remarque l’utilisation d’apprentissage supervis´e dans le cadre des neurones de sorties des machines `a ´etat liquide (cf. paragraphe3.5.2), mais il nous apparaˆıt que cette partie du mod`ele est justement celle qui n’exploite pas la notion de syst`eme dynamique.

3.7.2 Techniques ´evolutionnistes

Face au difficile probl`eme de trouver le syst`eme dynamique ad´equat pour une tˆache donn´ee, le recours `a des m´ethodes ´evolutionniste est envisageable. Il est clair toutefois que la d´efinition du codage et des op´erateurs de croisement est une injection forte de connaissance, et il est faux de consid´erer que la grande force de ces approches est de pouvoir trouver une solution « en aveugle » .

Dans le cadre de r´eseaux de neurones servant de supports `a des syst`emes situ´es, en in-teraction avec leur environnement, nous avons d´ej`a mentionn´e les travaux de Randall Beer et coll`egues au paragraphe 1.3.1. Ces auteurs proposent de construire un syst`eme dynamique pour r´esoudre des tˆaches cognitives par un algorithme g´en´etique [Slocum et al., 2000; Beer, 2003]. Cette m´ethode rappelle d’ailleurs ce qui avait ´et´e propos´e par Fr´ed´eric Gruau pour guider l’´evolution des architectures neuronales afin de piloter un robot-fourmi [Gruau, 1993;

Gruau, 1995], m´ethodes bas´ees sur le principe de programmation g´en´etique. Les op´erateurs d’´evo-lutions agissent non plus sur un code de l’individu, mais sur un programme (de type LISP) dont l’ex´ecution g´en`ere l’individu. Les individus g´en´er´es sont des r´eseaux de neurones aux poids mo-difiables, ce qui cr´ee une dynamique ´evolutionniste complexe (voir la notion d’Effet Baldwin dans [Gruau, 1995]).

Enfin, notons aussi l’existence de travaux plus r´ecents qui comparent des approches ´ evolu-tionnistes `a des approches `a base de descente de gradient pour l’´etablissement des param`etres d’un champs de neurones [Igel et al., 2001].

Nous avons choisi, pour notre part, de ne pas nous aventurer sur la voie des algorithmes ´evolutionnistes. En effet, les architectures que nous proposons sont le fruit d’une conception dirig´ee vers l’obtention de certains effets de population (auto-organisation conjointe, etc.). Bien que la voie ´evolutionniste, et en particulier dans le cas de la programmation g´en´etique, puisse revendiquer une justification biologique, il s’agit surtout `a l’heure actuelle d’une technique de recherche op´erationnelle de force brute, de type recuit simul´e [Premti, 1983], pour laquelle il faut avoir des a priori `a injecter au niveau du codage des g`enes. Nous pr´ef´erons injecter nos a priori dans une architecture pour la simuler, ce qui nous paraˆıt plus accessible.

3.7.3 Apprentissage Hebbien

L’apprentissage Hebbien est couramment employ´e dans les syst`emes dynamiques connexion-nistes car il est un mod`ele des modifications synaptiques des neurones r´eels, et les syst`emes dynamiques que l’on trouve dans la litt´erature ont fr´equemment vocation `a mod´eliser la r´ealit´e biologique. Une r`egle de Hebb classique31 est par exemple utilis´ee dans le mod`ele de Hopfield que nous avons pr´esent´e au paragraphe 3.6.1, bien qu’une s´eparation stricte entre une phase d’engrammation des motifs, o`u cet apprentissage est mobilis´e, et une phase de reconnaissance prˆete `a discussion en terme de plausibilit´e.

L’apprentissage Hebbien est ´egalement impliqu´e dans [Dauce et al., 1998] pour stabiliser les motifs d’entr´ee (voir paragraphe 3.5.3), ce qui ´etend le mod`ele de Hopfield aux cas de poids non-sym´etriques.

Toutefois, comme de nombreux mod`eles ont un caract`ere impulsionnel et non fr´equentiel, c’est fr´equemment une r`egle de type STDP32 qui est utilis´ee dans les mod`eles. Cette r`egle d´efinit la valeur de la modification de poids occasionn´ee par la concomitance dans le temps d’un potentiel d’action pr´e et post-synaptique, les modifications de poids n’´etant pas de mˆeme signe suivant la pr´ec´edence de l’un ou de l’autre, comme l’illustre la figure3.14. Nous renvoyons le lecteur `a [Gerstner and Kistler, 2002] pour plus de d´etails sur cette r`egle, pour laquelle une ´equivalence avec une version ´etendue de la r`egle de Hebb fr´equentielle33a ´et´e montr´ee [Izhikevich and Desai, 2003].

dw

post

t = t − t

pre 0

Figure 3.14 – La r`egle STDP d´efinit la modification de poids dw subie par une synapse, en fonction de l’´ecart de temps qui s´epare le potentiel d’action post-synaptique du potentiel pr´ e-synaptique.

L’utilisation d’une r`egle STDP a ´et´e r´ecemment utilis´ee pour ´etendre le mod`ele propos´e dans [Dauce et al., 1998], que nous venons de consid´erer. Les auteurs, dans cette extension, utilisent des neurones integrate and fire que nous avons ´evoqu´es au paragraphe 3.4.4, et leur imposent une r`egle STDP pour stabiliser la dynamique, ou une r`egle anti-STDP pour retourner vers un ´etat cahotique, selon un crit`ere de renforcement positif ou n´egatif [Soula et al., 2005;

Henrya et al., 2007].

Ce type de r`egles, quand il est appliqu´e au sein d’une population de neurones de type Hodgkin-Huxley simplifi´es (cf. paragraphe 3.4.1), conduit `a la constitution de motifs spatio-temporels, ce qu’Izhikevich nomme polychronie [Izhikevich, 2006]. Les activations polychrones peuvent alors servir de base `a la construction d’une machine `a ´etats liquides [Paugam-Moisy et al., 2007].

32. Spike-time-dependent Plasticity.

3.7. Apprentissage et syst`emes dynamiques 3.7.4 Apprentissage par renforcement

Les travaux de Soula et coll`egues que nous avons mentionn´es [Soula et al., 2005; Henrya et al., 2007] sont un pas vers l’inclusion de l’apprentissage par renforcement pour param´etrer un syst`eme dynamique, en l’occurrence un robot Khepera devant ´eviter des obstacles `a partir d’une image cam´era. L’id´ee est de stabiliser le syst`eme en cas de renforcement positif, en renfor¸cant les poids entre neurones actifs, et de d´estabiliser le r´eseau en cas de renforcement n´egatif, en r´eduisant les poids entre les neurones du motif qui provoquent ce renforcement. Nous avons pour notre part propos´e une d´emarche analogue [M´enard and Frezza-Buet, 2005] dans le mod`ele bijama, pour lequel la pr´ediction d’absence de r´ecompense d´estabilise les activit´es du r´eseau. Ces travaux restent `a approfondir, ce qu’a commenc´e Thomas Legrand lors de son stage de Master [Legrand, 2006].

A notre connaissance, il n’existe pas aujourd’hui de mod`ele qui instancie, dans le cas des syst`emes dynamiques, un apprentissage par renforcement aussi ´elabor´e que les m´ethodes clas-siques de ce domaine [Sutton and Barto, 1998]. Les tentatives d’int´egration de r´ecompense dans les modifications de la dynamique sont instantan´ees, et ont simplement pour effet de retenir les configurations favorables (stabilisation) et d’exclure les autres (d´estabilisation).

3.7.5 Conclusion

Si nous revenons `a la formulation de l’apprentissage sous la forme de l’´equation3.11, le fait de modifier θ peut conduire `a des bifurcations de la dynamique du syst`eme. Dans le cas des champs de neurones dynamiques, les ´etudes men´ees par Amari et Taylor (voir paragraphe3.6.2) montrent la sensibilit´e de la dynamique au profil des poids lat´eraux, ce qui rend d´elicat leur apprentissage car la propri´et´e de r´ealiser des bulles d’activit´e peut ˆetre perdue, au profit d’un champ compl`etement satur´e par exemple, ou d’instabilit´es de Turing. Or de telles modifications de poids lat´eraux sont d´ecrites en biologie comme ´etant une caract´eristique de la plasticit´e corti-cale [Burnod, 1989], puisque les colonnes corticales34 se couplent ou se d´ecouplent en modifiant leurs influences lat´erales.

Autant, pour un syst`eme dynamique donn´e, l’existence de bassins d’attraction vers des points fixes ou des cycles semble garantir de bonnes propri´et´es de d´ebruitage ou de restitution de co-h´erence, autant il reste aujourd’hui difficile de trouver une proc´edure qui ajuste un syst`eme dynamique pour un probl`eme donn´e. Face `a cette difficult´e, qui est au cœur de notre probl´ ema-tique de recherche, nous avons choisi un compromis en autorisant une injection de connaissance dans les couplages de diff´erents champs dynamiques, mais en laissant, au sein de ces champs, des processus d’auto-organisation d´edier les unit´es aux traitements requis pour la tˆache, ce que nous d´etaillerons ceci au paragraphe 4.5. Il est heureux toutefois de constater que d’autres auteurs ont des approches tr`es diff´erentes de cette probl´ematique, tant il paraˆıt n´ecessaire, dans l’´etat actuelle des connaissances, d’explorer en largeur la notion d’apprentissage dans les syst`emes dynamiques connexionnistes. Si, pour ce faire, l’on souhaite s’inspirer de la dynamique des sys-t`emes neuronaux biologiques, la r´ef´erence aux ganglions de la base est in´evitable, ce que nous n’avons pas encore abord´e dans nos recherches. Nous discutons ce point aux paragraphes5.2.3

et ??.