Apprentissage et syst` emes dynamiques - Probl´ ematique de recherche 25

Partie I Probl´ ematique de recherche 25

3.7 Apprentissage et syst` emes dynamiques

La notion d’apprentissage dans les systèmes dynamiques nécessite, pour être discutée, de prendre quelques précautions. En effet, n’importe quel apprentissage, de la part d’un système, est un changement d’état (modification des poids d’un perceptron par exemple). Peut-on dire pour autant que les équations de Lorenz sont des équations d’apprentissage ? Nous pensons qu’il ne s’agit que d’une question de point de vue, et c’est notre point de vue que nous précisons ici. Repartons de l’équation 3.2 page 38, et modifions-la un peu, afin d’y faire apparaˆıtre un paramètre θ, ce qui donne l’équation 3.10.

dt ^{= X}^θ^{(x(t), e(t))} ^(3.10)

C’est en jouant sur θ que l’on observe les bifurcations par exemple (cf. paragraphe3.1.2). L’ap-prentissage dont nous parlerons consiste à modifier θ, et nous ne considérerons pas une modifi-cation de x comme un apprentissage. Ainsi, si pour un jeu de poids latéraux fixes d’un champ de neurones (i.e θ fixe), une entrée transitoire crée une bulle u qui persiste. Cette distribution de u est un état stable x si l’on prend les notations de l’équation 3.10. Ce profil u n’est pas considéré, pour la discussion qui suit, comme le résultat d’un apprentissage. Il n’en reste pas moins vrai que cet état, d’un point de vue fonctionnel, est le stockage d’un événement passé, et peut avoir comme fonction d’être un événement stocké, appris, et que notre restriction de la notion d’apprentissage à θ n’a que vocation a préciser ce dont nous parlons dans ces paragraphes suivants.

Nous étudions avec le modèle bijama, présenté au paragraphe 4.5, un système dynamique qui apprend en ligne, ce qui revient à dire que θ varie selon les états visités et l’entrée. Ces systèmes sont décrits en toute généralité par l’équation 3.11.

dx dt ⁼ ^X^θ(t)^{(x(t), e(t))} dθ dt ⁼ ^X 0(θ(t), x(t), e(t)) (3.11)

Usuellement, on con¸coit que X⁰ est une règle d’apprentissage faisant évoluer θ assez lentement, au regard des modifications que subit x. Mais cela n’a rien d’obligatoire, et un tel système se ramène à un système dynamique usuel en remarquant que l’on retrouve l’équation 3.11 en rempla¸cant x dans l’équation 3.2par (x(t), θ(t)).

3.7.1 Techniques de Machine Learning

Comme il est souligné dans [Igel et al., 2001], « There is a growing interest in using dynamic neural fields for modeling biological and technical systems, but constructive ways to set up such models are still missing » . Il apparaˆıt alors naturel, même si cela pose des difficultés, d’appli-quer les techniques d’apprentissage automatique pour trouver le paramètre θ de l’équation3.10. C’est ce qu’ont fait il y a plus de vingt ans Elman et Jordan, en détournant un perceptron multi-couches pour construire un système dynamique avec lignes à retard pour le traitement de séquences [Jordan, 1986; Elman, 1990], comme nous l’avons dit au paragraphe 3.5.3. Plus récemment, les techniques issues des travaux de Vapnik [Vapnik, 2000] (dont [Shawe-Taylor and Cristianini, 2000] donne une introduction plus abordable) ont également été appliqués aux champs de neurones dynamiques [Giese, 2003]. Ces techniques ont toutefois l’inconvénient de ne pas se prêter à un traitement en ligne.

3.7. Apprentissage et syst`emes dynamiques

Depuis les travaux d’Elman et Jordan, nous constatons que les techniques d’apprentissage automatique supervisé n’ont que peu influencé la conception de systèmes dynamiques neuro-mimétiques, et nous n’approfondirons pas plus dans la mesure où nous n’avons pas emprunté de voie similaire. On pourrait opposer à cette remarque l’utilisation d’apprentissage supervisé dans le cadre des neurones de sorties des machines à état liquide (cf. paragraphe3.5.2), mais il nous apparaˆıt que cette partie du modèle est justement celle qui n’exploite pas la notion de système dynamique.

3.7.2 Techniques ´evolutionnistes

Face au difficile problème de trouver le système dynamique adéquat pour une tâche donnée, le recours à des méthodes évolutionniste est envisageable. Il est clair toutefois que la définition du codage et des opérateurs de croisement est une injection forte de connaissance, et il est faux de considérer que la grande force de ces approches est de pouvoir trouver une solution « en aveugle » .

Dans le cadre de réseaux de neurones servant de supports à des systèmes situés, en in-teraction avec leur environnement, nous avons déjà mentionné les travaux de Randall Beer et collègues au paragraphe 1.3.1. Ces auteurs proposent de construire un système dynamique pour résoudre des tâches cognitives par un algorithme génétique [Slocum et al., 2000; Beer, 2003]. Cette méthode rappelle d’ailleurs ce qui avait été proposé par Frédéric Gruau pour guider l’évolution des architectures neuronales afin de piloter un robot-fourmi [Gruau, 1993;

Gruau, 1995], méthodes basées sur le principe de programmation génétique. Les opérateurs d’évo-lutions agissent non plus sur un code de l’individu, mais sur un programme (de type LISP) dont l’exécution génère l’individu. Les individus générés sont des réseaux de neurones aux poids mo-difiables, ce qui crée une dynamique évolutionniste complexe (voir la notion d’Effet Baldwin dans [Gruau, 1995]).

Enfin, notons aussi l’existence de travaux plus récents qui comparent des approches ´ evolu-tionnistes à des approches à base de descente de gradient pour l’établissement des paramètres d’un champs de neurones [Igel et al., 2001].

Nous avons choisi, pour notre part, de ne pas nous aventurer sur la voie des algorithmes évolutionnistes. En effet, les architectures que nous proposons sont le fruit d’une conception dirigée vers l’obtention de certains effets de population (auto-organisation conjointe, etc.). Bien que la voie évolutionniste, et en particulier dans le cas de la programmation génétique, puisse revendiquer une justification biologique, il s’agit surtout à l’heure actuelle d’une technique de recherche opérationnelle de force brute, de type recuit simulé [Premti, 1983], pour laquelle il faut avoir des a priori à injecter au niveau du codage des gènes. Nous préférons injecter nos a priori dans une architecture pour la simuler, ce qui nous paraˆıt plus accessible.

3.7.3 Apprentissage Hebbien

L’apprentissage Hebbien est couramment employé dans les systèmes dynamiques connexion-nistes car il est un modèle des modifications synaptiques des neurones réels, et les systèmes dynamiques que l’on trouve dans la littérature ont fréquemment vocation à modéliser la réalité biologique. Une règle de Hebb classique³¹ est par exemple utilisée dans le modèle de Hopfield que nous avons présenté au paragraphe 3.6.1, bien qu’une séparation stricte entre une phase d’engrammation des motifs, où cet apprentissage est mobilisé, et une phase de reconnaissance prête à discussion en terme de plausibilité.

L’apprentissage Hebbien est également impliqué dans [Dauce et al., 1998] pour stabiliser les motifs d’entrée (voir paragraphe 3.5.3), ce qui étend le modèle de Hopfield aux cas de poids non-symétriques.

Toutefois, comme de nombreux modèles ont un caractère impulsionnel et non fréquentiel, c’est fréquemment une règle de type STDP³² qui est utilisée dans les modèles. Cette règle définit la valeur de la modification de poids occasionnée par la concomitance dans le temps d’un potentiel d’action pré et post-synaptique, les modifications de poids n’étant pas de même signe suivant la précédence de l’un ou de l’autre, comme l’illustre la figure3.14. Nous renvoyons le lecteur à [Gerstner and Kistler, 2002] pour plus de détails sur cette règle, pour laquelle une équivalence avec une version étendue de la règle de Hebb fréquentielle³³a été montrée [Izhikevich and Desai, 2003].

dw

post

t = t − t

pre 0

Figure 3.14 – La règle STDP définit la modification de poids dw subie par une synapse, en fonction de l’écart de temps qui sépare le potentiel d’action post-synaptique du potentiel pr´ e-synaptique.

L’utilisation d’une règle STDP a été récemment utilisée pour étendre le modèle proposé dans [Dauce et al., 1998], que nous venons de considérer. Les auteurs, dans cette extension, utilisent des neurones integrate and fire que nous avons évoqués au paragraphe 3.4.4, et leur imposent une règle STDP pour stabiliser la dynamique, ou une règle anti-STDP pour retourner vers un état cahotique, selon un critère de renforcement positif ou négatif [Soula et al., 2005;

Henrya et al., 2007].

Ce type de règles, quand il est appliqué au sein d’une population de neurones de type Hodgkin-Huxley simplifiés (cf. paragraphe 3.4.1), conduit à la constitution de motifs spatio-temporels, ce qu’Izhikevich nomme polychronie [Izhikevich, 2006]. Les activations polychrones peuvent alors servir de base à la construction d’une machine à états liquides [Paugam-Moisy et al., 2007].

32. Spike-time-dependent Plasticity.

3.7. Apprentissage et syst`emes dynamiques 3.7.4 Apprentissage par renforcement

Les travaux de Soula et collègues que nous avons mentionnés [Soula et al., 2005; Henrya et al., 2007] sont un pas vers l’inclusion de l’apprentissage par renforcement pour paramétrer un système dynamique, en l’occurrence un robot Khepera devant éviter des obstacles à partir d’une image caméra. L’idée est de stabiliser le système en cas de renforcement positif, en renfor¸cant les poids entre neurones actifs, et de déstabiliser le réseau en cas de renforcement négatif, en réduisant les poids entre les neurones du motif qui provoquent ce renforcement. Nous avons pour notre part proposé une démarche analogue [Ménard and Frezza-Buet, 2005] dans le modèle bijama, pour lequel la prédiction d’absence de récompense déstabilise les activités du réseau. Ces travaux restent à approfondir, ce qu’a commencé Thomas Legrand lors de son stage de Master [Legrand, 2006].

A notre connaissance, il n’existe pas aujourd’hui de modèle qui instancie, dans le cas des systèmes dynamiques, un apprentissage par renforcement aussi élaboré que les méthodes clas-siques de ce domaine [Sutton and Barto, 1998]. Les tentatives d’intégration de récompense dans les modifications de la dynamique sont instantanées, et ont simplement pour effet de retenir les configurations favorables (stabilisation) et d’exclure les autres (déstabilisation).

3.7.5 Conclusion

Si nous revenons à la formulation de l’apprentissage sous la forme de l’équation3.11, le fait de modifier θ peut conduire à des bifurcations de la dynamique du système. Dans le cas des champs de neurones dynamiques, les études menées par Amari et Taylor (voir paragraphe3.6.2) montrent la sensibilité de la dynamique au profil des poids latéraux, ce qui rend délicat leur apprentissage car la propriété de réaliser des bulles d’activité peut être perdue, au profit d’un champ complètement saturé par exemple, ou d’instabilités de Turing. Or de telles modifications de poids latéraux sont décrites en biologie comme étant une caractéristique de la plasticité corti-cale [Burnod, 1989], puisque les colonnes corticales34 se couplent ou se découplent en modifiant leurs influences latérales.

Autant, pour un système dynamique donné, l’existence de bassins d’attraction vers des points fixes ou des cycles semble garantir de bonnes propriétés de débruitage ou de restitution de co-hérence, autant il reste aujourd’hui difficile de trouver une procédure qui ajuste un système dynamique pour un problème donné. Face à cette difficulté, qui est au cœur de notre probl´ ema-tique de recherche, nous avons choisi un compromis en autorisant une injection de connaissance dans les couplages de différents champs dynamiques, mais en laissant, au sein de ces champs, des processus d’auto-organisation dédier les unités aux traitements requis pour la tâche, ce que nous détaillerons ceci au paragraphe 4.5. Il est heureux toutefois de constater que d’autres auteurs ont des approches très différentes de cette problématique, tant il paraˆıt nécessaire, dans l’état actuelle des connaissances, d’explorer en largeur la notion d’apprentissage dans les systèmes dynamiques connexionnistes. Si, pour ce faire, l’on souhaite s’inspirer de la dynamique des sys-tèmes neuronaux biologiques, la référence aux ganglions de la base est inévitable, ce que nous n’avons pas encore abordé dans nos recherches. Nous discutons ce point aux paragraphes5.2.3

et ??.

Dans le document Un calcul cortical pour les systèmes situés (Page 77-81)