Réseaux de neurones temporels : dynamique et apprentissage

(1)

Réseaux de neurones temporels : dynamique et apprentissage

Hélène Paugam-Moisy

Professeur à l’Université Lyon 2 Institut des Sciences Cognitives

hpaugam@isc.cnrs.fr

(2)

Les réseaux de neurones naturels

(3)

Cerveau, neurones et intelligence

Le cerveau humain est constitué d’environ 10¹¹ neurones ;

en moyenne, chaque neurone a de l’ordre de 10⁴ connexions.

Chez les animaux, la place occupée par le cortex semble être

proportionnelle au développement des facultés intelligentes.

(4)

Neurones biologiques / naturels

Les neurones forment des réseaux de communication complexes, chaque neurone établissant de très nombreuses connexions avec d'autres.

vibrisses du rat : neurones sensitifs => thalamus

(White et Peters ) neurones thalamiques => cortex

(5)

Neurones biologiques / naturels

gallerie de photos...

(6)

Neurones biologiques / naturels

Première schématisation du neurone (Dieters, 1865)

Enregistrement d’un neurone vivant : micro-électrode de verre

Neuropuce (Infineon) : 16 384 capteurs au mm² pour enregistrer tout signal électrique émis par un neurone vivant, ici celui d’une “limace de boue”

[Lymnaea stagnalis]

(7)

Neurones biologiques / naturels

Schématiquement, un neurone biologique est constitué d’un arbre dendritique, d’un soma et d’un axone.

soma axone

dendrites

Un neurone peut émettre des impulsions sur son axone.

Elles se propagent vers les dendrites des neurones auxquels il est connecté, qui les transmettent au corps cellulaire (ou soma), via des connexions pondérées par des synapses.

connexion synaptique

autre dendrite

(8)

Connexions synaptiques

(9)

Connexions synaptiques

(10)

Plasticité synaptique

Loi de renforcement de Hebb (1949) :

=> c’est le principal fondement des règles

d’apprentissage, dans les réseaux de neurones artificiels.

En résumé : si deux neurones sont souvent excités simultanément, alors ils augmentent la force (le poids) de leur interconnexion .

Postulat physiologique :

“quand un axone de la cellule A est assez proche pour exciter une cellule B et quand, de façon repétée et persistante, il participe à son activation, un certan processus de croissance ou un changement métabolique s’installe, dans une cellule ou dans les deux, tel que l’efficacité de A, en sa qualité de cellule qui active B, est augmentée”.

(11)

Les réseaux de neurones artificiels

(12)

Neurones artificiels

Le premier modèle mathématique de neurone est le neurone formel de McCulloch et Pitts (1943).

y = 1 si

Σ

^w_i^x_i^>θ

= 0 sinon

Loi du “ tout ou rien ” : le neurone émet ou non une impulsion sur son axone, selon que la somme pondérée de ses entrées dendritiques dépasse ou non son seuil θ.

x₁ x_i

x_n

.. .

. ..

Σ

w₁ w_i

w_n

sommation, seuillage

θ

(13)

Réseaux de neurones artificiels

Un réseau de neurones artificiels est un ensemble de neurones formels, connectés entre eux selon une

certaine architecture / topologie.

Les activités se propagent de neurone en neurone selon une certaine dynamique.

Les poids des connexions sont modifiés / adaptés par une règle d’apprentissage, à partir d’exemples.

(14)

Réseaux de neurones artificiels

φ

RNA

X Y

vecteur d’entrée vecteur de sortie

On peut aussi voir un réseau de neurones artificiels comme un outil de modélisation de type “ boîte noire ” :

Le RNA réalise une association d’un espace d’entrée X vers un espace de sortie Y. La “ fonction ” φ est définie par les poids du réseau. Ceux-ci sont ajustés au problème par une règle d’apprentissage, à partir d’une base d’exemples (x^k,t^k)

[ apprentissage supervisé, si t^kest connu ]

(15)

Connexions synaptiques

Les poids synaptiques (artificiels) sont des nombres réels.

On associe habituellement les poids positifs à des connexions excitatrices et les poids négatifs à des connexions inhibitrices

mais...

les règles d’apprentissage des modèles connexionnistes classiques peuvent modifier le signe d’un poids synaptique

donné, ce qui n’est guère réaliste, sur le plan biologique.

(16)

Motivation initiale

La motivation initiale n’était pas non plus très biologique : l’idée sous-jacente à la définition du neurone formel était de chercher à montrer que la pensée intelligente résultait

du fonctionnement des neurones du cerveau...

mais, à l’époque, on pensait que : intelligence raisonnement

raisonnement logique

logique neurones

(17)

Synthèse des fonctions booléennes

Ainsi, les premiers travaux de McCulloch et Pitts ont été de réaliser la synthèse des fonctions booléennes élémentaires

à partir de réseaux de neurones formels.

Parallèlement, les mathématiciens tentaient de démontrer que tout raisonnement pouvait se formaliser par des

combinaisons complexes de règles logiques.

donc, dans l’esprit des travaux de Turing : grand reséau

de neurones raisonnement complexe, intelligent

émergence

(18)

Modèles connexionnistes “classiques”

1940

1950 1960

1970

1980 1990 2000 20...

Neurone formel de McCulloch & Pitts

Adaline de Widrow Perceptron de Rosenblatt

Réseau de Hopfield

Réseaux RBF Moody & Darken

Cartes auto-organisatrices de Kohonen Réseaux MLP Rumelhart et al.

Support Vector Machines Vapnik

Loi de renforcement de Hebb

}

notions fondatrices

(19)

Exemple : un réseau MLP

X Y

entrées sorties

désirées sorties

calculées

t_m^k t₁^k y_m

y₁

x_n x₁

Généralisation, calcul du réseau :

• présenter les x_i aux neurones d’entrée

• calculer les activités, de couche en couche, jusqu’aux sorties y_j

Apprentissage, par rétro-propagation [ backprop ] :

x_n^k x₁^k

y₁^k y_m^k

erreur

neurone sigmoïde N_j : y_j = σ ( Σw_ijx_i- θ_j )

• initialiser les poids w_ij aléatoirement, sur chaque couche

• présenter les x_i^k aux neurones d’entrée

• calculer les activités, de couche en couche, jusqu’aux sorties y_j^k

• mesurer l’erreur entre sorties calculées y_j^k et sorties désirées t_j^k A k

(20)

Modèles connexionnistes “classiques”

Les réseaux de neurones artificiels sont devenus des outils de modélisation et de calcul destinés aux ingénieurs :

• Reconnaissance des formes, classification, clustering

• Prédiction, prévision de séries temporelles

• Contrôle, identification de systèmes

• Compression de données

• Bioinformatique

• Robotique

Des exemples :

repérer l’approche d’une tempête identifier de multiples espèces de fleurs reconnaître une voix dans un téléphone mobile distinguer les raisins utilisés pour faire un bon vin diagnostiquer les conditions d’une conduite dangereuse reconnaître le visage de quelqu’un qu’on n’a pas vu récemment

(21)

Modèles connexionnistes “classiques”

Ces RNA sont, d’ailleurs, des outils très performants :

• Calculabilité : plus puissants qu’une machine de Turing

• Complexité : NP-complétude du “ loading problem ”

• Capacité : MLP et RBF sont approximateurs universels

• Théorie statistique de l’apprentissage, PAC-learning mais...

les méthodes mises en oeuvre pour les améliorer sont de plus en plus souvent des méthodes déjà connues...

et surtout...

on s’est beaucoup éloigné de l’inspiration biologique !

(22)

Les neurones impulsionnels ou

“ spiking neurons ”

(23)

Les neurones “classiques”

neurone à seuil

(fx de Heaviside) neurone linéaire

(fx identité) neurone sigmoïde

(exp ; argth)

y = f ( Σ w

_i

x

_i

- θ )

i=1

n calculs basés sur

le produit scalaire

calculs basés sur la distanceDans certains modèles (cartes de Kohonen, réseaux RBF)

y = g ( || x - w ||

² :

)

f = H f = I f = σ

(24)

Que représente “ x

_i

” ?

Les algorithmes des réseaux de neurones classiques sont itératifs. A chaque pas de temps, chaque neurone reçoit n valeurs d’entrée

x

_i et les traîte selon sa propre formule de calcul et en fonction des valeurs de ses poids synaptiques.

x

_ireprésente le taux moyen de décharge provenant du neurone présynaptique N_i

Cette moyenne (fréquence) résulte de plusieurs émissions d’impulsions pendant un intervalle de temps donné, mais on ne connaît pas ces impulsions de manière précise.

cependant...

(25)

Neurone impulsionnel

Les neurobiologistes ont montré que les neurones encodent l’information dans les instants d’émission des impulsions.

impulsion = potentiel d’action = spike

spiking neuron

Pour une modélisation plus réaliste, il faut prendre en compte les aspects temporels et utiliser de nouveaux

modèles de neurones : des “ neurones impulsionnels ”.

(26)

Dynamique neuronale

neurones

pré-synaptiques neurone

post-synaptique

N_j N₂

N₁

u_j (t)

t₁⁽¹⁾ t₁⁽²⁾

t₂⁽¹⁾ t₂⁽²⁾

t_j^(f)

t [ms]

t₁⁽¹⁾ t₂⁽¹⁾ t₁⁽²⁾ t₂⁽²⁾

u [mV]

V

t_j^(f)

chaque spike pré-synaptique engendre un EPSP (en rouge) ; ceux-ci s’ajoutent (en bleu) ; quand u_j (t) atteint le seuil

V

le neurone post-synaptique N_j émet à son tour un spike.

EPSP = potentiel post-synaptique excitateur

u_repos

(27)

Le modèle de Hodgkin-Huxley

Le modèle de neurone de Hodgkin-Huxley (1952) tient compte avec précision des canaux ioniques et du processus

électro-chimique, au niveau des connexions synaptiques :

I (t)

C R K Na

courant d’entrée

u potentiel de membrane

Σ

^I_k^{= g}_Na^m³^h(u-E_Na^{) + g}_Kⁿ⁴^(u-E_K^{) + (u-E}¹ _L⁾

R_

k

du dt__

C = -

Σ

^I_k (t) + I (t)

k

... où les variables m, n et h sont elles-mêmes régies par des équations différentielles, en fonction du temps.

sodium potassium

(28)

Le modèle de Hodgkin-Huxley

le modèle de Hodgkin-Huxley est beaucoup trop complexe pour modéliser des réseaux de neurones temporels !

mais...

Ce modèle est capable de rendre compte de la dynamique d’émission d’un spike et de se comporter en neurone à seuil

réponse du neurone à une impulsion, i.e.

un courant d’entrée de courte durée I(t) envoyé à t < 0

t [ms]

Δu(t) [mV]

0 5 10 15 20

(29)

Le modèle LIF : “Leaky Integrate and Fire”

Le modèle “Leaky Integrate and Fire” est une simplification du modèle de Hodgkin-Huxley :

C R

I (t) courant d’entrée

u potentiel de membrane 1

R_ du

dt__

C = - u (t) + I (t) V

Un spike est émis à chaque fois que le potentiel de membrane croît jusqu’à dépasser le seuil

V

du neurone.

instant d’émission du spike :

t^(f) tel que u(t^(f)) =

V

avec u’(t^(f)) > 0

(30)

Le modèle SRM : “Spike Response Model”

Le “Spike Response Model” SRM de Gerstner (1995) est une généralisation du LIF, qui intègre le passé du neurone N_j

instant d’émission du prochain spike :

somme des PSP seuil, émission

EPSP = PSP excitateur poids w_ij positif IPSP = PSP inhibiteur poids w_ij négatif

courant extérieur

t^(f) ^{tel que} u(t^(f)) =

seuil

^avec^u’(t^(f)^{) > 0}

u_j(t) =

Σ

^η_j^(t-t_j^(f)^{) +}

Σ Σ

^w_ij^ε_ij^(t-t_i^(f)^{) +}

∫

^κ(t-t_j,s)I(t-s)ds

spikes de Ni Ni pré- synap tiques

∞ ^

spikes 0 de Nj

(31)

Le modèle SRM : “Spike Response Model”

Exemple de formule mathématique pour le seuil :

η_j (s) = -

V

exp (- ) s-δ_abs

H

(s-δ_abs) – K

H

(s)

H

(s-δ_abs) _____τ

Exemple de formule pour les réponses aux PSP : ε_ij(s) =

[

exp(- ) – exp(- )_τ^s-Δ^ij

] ^H

^(s-Δ_ij⁾

s

s-Δ_ij ____

τ_m ____

variations autour du seuil

V

et modélisation d’une période réfractaire δ_abs

où Δ_ij est le délai de propagation le long de l’axone qui va du neurone N_i vers le neurone N_j

(32)

Le modèle SRM

₀

On peut simplifier le modèle SRM,

tout en conservant l’essentiel de ses propriétés

=> on obtient le modèle phénoménologique SRM₀ u_j(t) = _{Ni pré-}

Σ

^w_ij^ε(t-t_i^-Δ_ij⁾

synap tiques

^

cette formule dérive d’une intégration de la précédente, sur un court intervalle de temps (1ms), en ne mémorisant

que l’instant du dernier spike émis par N_j et en faisant l’hypothèse que chaque neurone présynaptique N_i émet au plus une fois à l’instant t^_i dans l’intervalle de temps.

(33)

Le modèle SRM

₀

Exemple de formule pour les réponses aux PSP : ε(s) =

exp ( ) 1 - s

____ τ τs

__

où τ est une constante de temps caractéristique du

potentiel de membrane (augmentation puis décroissance) instant d’émission d’un spike, par le neurone Nj :

t_j^(f) t tel que u_j(t) = θ(t-t^_i) avec u’_j(t) > 0 ce qui donne une fonction non-linéaire de la variable

d’état (potentiel de membrane) u (t) du neurone N

EPSP

IPSP

(34)

Les réseaux de neurones temporels

dynamique, puissance de calcul

(35)

Les réseaux de neurones temporels

Comme pour les neurones classiques, on peut connecter entre eux des neurones temporels selon diverses topologies, simuler leur fonctionnement en réponse à des entrées venant

d’un environnement extérieur et récupérer des sorties.

SNN = Spiking Neuron Networks

cependant :

vecteur numérique spikestraduction Une solution, le codage temporel :

dans un intervalle de temps fixé, plus le spike est

précoce, plus il correspond à une valeur numérique élevée

(36)

Dynamique des RNA “classiques”

topologie en couches =

>

dynamique feedforward

y_m y₁

x_n x₁

topologie bouclée =

>

dynamique récurrente

y_n y₁

x₁ x_n

La dynamique dépend directement de la topologie...

(37)

Dynamique des RN temporels

La topologie est sous-jacente à la dynamique, mais...

toutes les connexions ne sont pas actives à chaque instant des patterns d’activité émergent ;

ils se modifient au cours du temps

= > un moyen plus riche de coder l’information

Assemblée de neurones :

ensemble de neurones qui se synchronisent, en réponse à un stimulus extérieur

(38)

Assemblées de neurones

Certains neurones accroissent leur activité, d’autres cessent momentanément d’émettre.

un stimulus est appliqué en entrée, entre 1000 et 2000 ms

[ Meunier ]

(39)

Implémentation des RN temporels

Toutes les connexions ne sont pas actives à chaque instant il devient maladroit de programmer une boucle de calcul systématique des états de tous les neurones et de toutes les synapses à chaque itération.

L’échelle de temps est très différente (~ temps-réel ) il convient d’implémenter ces réseaux par programmation événementielle

EDS = Event-Driven Simulation

(40)

Nouvelle motivation

On a beaucoup progressé sur la compréhension du fonctionnement du cerveau, et l’idée que l’on se fait de l’intelligence a beaucoup évolué en quelques décennies.

maintenant, on pense plutôt que : intelligence mémorisation

mémorisation associations

associations neurones

La synchronisation des assemblées de neurones est une piste extrémement prometteuse...

(41)

Puissance de calcul

Des résultats théoriques* (Maass, 1997) ont montré que les spiking neurons sont plus puissants que les

neurones classiques, même avec des modèles simples

fonctions de réponse aux PSP

modélisation du seuil

t

ε_ij(t-s)

s+Δ_ij s

u

t

ε_ij(t-s)

s+Δ_ij s

u

type A

type B

t’ t

∞

θ_j(t-t’)

1 spiking neuron de type B O(n) neurones sigmoïdes O(n log n) neurones à seuil

*

(42)

Puissance de calcul

Réseaux de neurones de 3

^ème

g é n é ration :

Réseaux de neurones de 2

^ème

g é n é ration :

Réseaux de neurones de 1

^ère

g é n é ration :

spiking neurons

intégration d’informations en continu

neurones sigmoïdes, neurones distance entrées et sorties réelles

neurones à seuil, à saturation entrées et sorties booléennes

1995

1985

1945

(43)

Apprentissage et plasticité

(44)

Apprentissage dans les SNN

Les réseaux de neurones temporels, ou SNN (réseaux de spiking neurons) modélisent beaucoup mieux que leurs ancêtres la dynamique des interactions entre neurones.

mais :

comment réalise-t-on l’apprentissage des poids dans les réseaux de neurones temporels ?

devrait-on aussi apprendre les délais ?

de nombreux problèmes ouverts

(45)

Apprentissage dans les SNN

Plusieurs chercheurs ont démontré

[ Maass, 1997 ; Bohte, 2002 ; Ruf & Schmitt, 2000 ] que l’on pouvait émuler les principaux modèles classiques

(réseau de Hopfield, réseau MLP, cartes de Kohonen) avec des réseaux de neurones impulsionnels

mais :

la simple reproduction des modèles de 2^nde génération ne permet pas d’exploiter la pleine puissance de ces

modèles de 3^ème génération que sont les SNN.

on pourrait aussi chercher une inspiration biologique ?

(46)

Plasticité synaptique

pré post w_ij

Les neurobiologistes ont observé des

potentiations synaptiques quand un neurone pré-synaptique émet juste avant un neurone post-synaptique

et des

dépressions synaptiques quand un neurone pré-synaptique émet juste après un neurone post-synaptique

Ce phénomène de plasticité synaptique est connu sous le nom de

STDP = Spike-Time-Dependent Plasticity

(47)

Mécanismes STDP

poids excitateurs, w > 0

poids

inhibiteurs, w < 0

modification des poids en fonction de

Δt = t_post - t_pré

(48)

Difficultés, avec la STDP

Les poids synaptiques sont constamment modifiés

=> inconvénients de l’apprentissage “on-line” : manque de stabilité

oubli du passé lointain

On retrouve le classique dilemme plasticité / stabilité mis en évidence par Grossberg [ fin des années 80 ]

il faudrait combiner la STDP avec une autre méthode d’apprentissage

(49)

Algorithmes évolutionnistes

Une autre piste consiste à utiliser des

algorithmes génétiques pour optimiser les valeurs des poids synaptiques en adaptant le réseau à son milieu.

génération 1

génération N génération 2

et ainsi de suite ...

sélection croisement

mutation

Les individus sont des

réseaux de neurones temporels

(50)

Algorithmes évolutionnistes et STDP

SNN plongé dans un zoo virtuel

les poids ne cessent d’evoluer

(51)

Conclusion

(52)

Les réseaux de neurones temporels sont :

• des modèles proches du biologique

• des outils de calcul très puissants

mais...

Réseaux de neurones temporels : dynamique et apprentissage