Lab. des Images et des Signaux (LIS)

(1)

Réseaux de neurones formels

Christian Jutten

Lab. des Images et des Signaux (LIS)

UMR 5083 Centre National de la Recherche Scientifique, Institut National Polytechnique de Grenoble,

Université Joseph Fourier Grenoble

(2)

Contenu

• I. Introduction

• II. Quelques flashs de neurobiologie

• III. Modèles mathématiques

• IV. Coopération et compétition

• V. Mémoires associatives linéaires

• VI. Perceptrons multi-couches

• VII. Modèles de Hopfield

• VIII. Cartes auto-organisatrices de Kohonen

• IX. Séparation de sources

• X. Présentation du BE et des mini-projets

(3)

Chapitre 6

Perceptrons multi-couches

(4)

Contenu

• Apprentissage dans les PMC ou MLP

• Théorème, minima locaux, performances

• Applications

• Contrôle de l ’architecture des MLP

(5)

Apprentissage dans les MLP:

théorèmes d’approximation

• Problème: approximation d ’une fonction continue et bornée

• D ’après le théorème de Kolmogorov (Hecht-Nielsen, 1989) – 3 couches, architecture: p 2p+1 n, fonction non linéaire ?

• From Stone-Weierstrass theorem (Hornik et al., 1989, 1990) – 3 couches, architecture p ? n, fonctions saturantes

• Commentaires

– Théorème d ’existence : l ’approximation existe avec 3 couches, mais peut exiger une infinité de neurones !

– L ’approximation peut être meilleure ou plus simple avec plus de couches – L ’architecture n ’est pas complètement définie

– Comment estimer les paramètres ? Convergence ? Minima locaux ?

n

p f R

R

f :x∈ → y = (x)∈

(6)

Multi-Layer Perceptrons (1/4)

• Approximateurs universels

Toute fonction continue et bornée peut être approchée avec la

précision que l’on veut par un perceptron multi-couche (avec 1 couche cachée)

entrées

sorties Couche cachée

(7)

Multi-Layer Perceptrons (2/4)

• Algorithmes supervisés, données : (

• Critère : erreur quadratique moyenne

• Algorithme : descente du gradient, gradient conjugué, ou des algorithmes plus efficaces (et complexes)

• Algorithme de rétro-propagation (Le Cun et al., 85 ; Rumelhart et al., 86) ou Backpropagation algorithm

• Problèmes: choisir la taille du réseau ; éviter les minima locaux )

) (

, _i _i _i

i y f x b

x = +

)2

, 1 (

∑

⁻

=

i

i g

J N y w x

(8)

Apprentissage dans un Perceptron à une couche : méthode du gradient

• Principe dans la cas d’un seul paramètre

– On ajuste les poids pour mininiser E(w)

– On calcule le gradient de E(w), soit la dérivée en 1D

w* w(t)

> 0

∂

∂ w E

< 0

∂

∂ w E

w t E

w ∂

− ∂

=

∆ ( ) µ

(9)

Multi-Layer Perceptrons:

algorithme rétro-propagation (3/4)

• Critère : erreur quadratique

• Poids de la dernière couche – La sortie désirée est connue

– Le gradient de l’erreur par rapport au poids de la dernière couche est

• la règle d ’appr. est :

(

⁽ ^, ⁾

)

²

2

1

∑

⁻

=

j

j g

y

E w x

entrées sorties

Couche cachée











 −

−

∂ =

−

− ∂

=

∂

−

− ∂

∂ =

∂

∑

i j

j ij k

i i

ik

i i i

i

j ik

j j

ik

x w x

y w g

y y g

g

w

y y g

w g E

θ σ'

) )

, ( ) (

) , ( ) (

) , ( (

) )

, ( ) (

) , ( (

x x w

x w w

x x w

w

k i j

ij i

i ik

ik g , y w x x

w w E











 −

−

∂ =

− ∂

=

∆ ^µ ^µ⁽ ⁽^w ^x⁾ ⁾^σ^'

∑

^θ

) , (w x gi

(10)

Multi-Layer Perceptrons:

algorithme rétro-propagation (4/4)

• Critère : erreur quadratique

• Poids des couches cachées

– Problème: on n ’a pas la sortie désirée pour les couches cachées ! – Descente du gradient sur E

– Résultat

– Règle d’Adaptation

(

⁽ ^, ⁾

)

²

2

1

∑

⁻

=

j

j g

y

E w x

entrées

∑

_∂ ^∂ ^∂_∂ _∂^∂

∂ =

∂ ⁺

+ j

p kh kp p

k jp

jp p

kh w

y y

E w

E

) (

) ( )

( ) 1 ( ) 1 ( )

(

∑

∈ +

+ +

− 









= 

) 1 (

) 1 ( ) 1 ( )

1 ( ) ( )

( '

p Layer i

i p ikp

h

hp khp

kp σ w y w δ

δ ^sorties

Couche cachée

) 2 k(

y δ_i⁽³⁾

) 2 kh(

w ₍₂₎ δk

(11)

Apprentissage dans un Perceptron multi-couche : aspects pratiques

• Modèle de neurone

– on remplace le seuil par une entrée constante (polarisation ou bias) avec une pondération

• Initialisation

– il faut éviter les poids initiaux nuls :

– on initialise les poids à des valeurs aléatoires

• Apprentissage lent si N’ petit

! age apprentiss d'

pas donc 0

, ,

0 ∀ ⇒ =

= _l

jk j k y

w

) ( ' avec

) ( )

1

( _jk _j _k _j _k

jk t w t x N p

w + = −µδ δ α











= 











 +

=

∑ ∑

⁺

=

1 1 1

p k

k jk p

k

j k

jk

j N w x N w x

y θ

1 , +

= _j _p

j w

θ

1 =1

+

xp

N' N

(12)

Apprentissage dans les MLP : minima locaux (1/3)

Tout problème d’estimation demande :

• 1 modèle : MLP, Spline, polynomial

• 1 critère : erreur quadratique, etc.

• 1 méthode d ’optimisation : descente du gradient, gradient conjugué, etc.

Remarques

• Pour chaque ensemble, on obtient une solution optimale relative à cet ensemble,

• Si on change un ingrédient parmi les 3, l’estimation peut différer considérablement

• Selon le modèle, le critère peut avoir des minima locaux, ce qui implique une optimisation délicate

(13)

Apprentissage dans les MLP : minima locaux (2/3)

Problème:

Estimer , N échantillons avec

Modèle:

linéaire p.r. aux paramètres (e.g. polynomial)

Critère:

erreur quadratique moyenne (MSE)

Par rapport à un paramètre , on a : )

(x

f (x_j, y_j) y_j = f (x_j)+b_j

) (w_i J

wi

∑

=

= ^K

i

i ix w w

x g

0

) , (

( ) _∑ _∑

∑

= = =



 



 −

=

−

= ^N

j

K i

i j i j

N j

j

j y w x

w N x g N y

w J

1

2

1 1

2 1

) , 1 (

) (

∑ ∑

= ≠

 





 



 + + +

=

N j

j i

k

kj k j

i i j i i

j

i

x w x w y w x c

w N J

1

2

2 ( )

) 1

(

(14)

Apprentissage dans les MLP : minima locaux (3/3)

Problème:

Estimer , N échantillons avec

Modèle:

non linéaire p.r. aux param. (ex. MLP)

Critère:

erreur quadratique moyenne (MSE)

Le modèle est linéaire pour les param. et non linéaire pour les autres :

∑

=

+

= ^K

i

bi ei

si w x w

w w

x g

1

) (

) ,

( σ

( ) _∑ _∑

∑

= = =



 



 − +

=

−

= ^N

j

K i

bi j

ei si

j N

j

j y w w x w

w N x g N y

w J

1

2

1 1

2 1 ( )

) , 1 (

)

( σ

wsi

) (w_ei J

w

∑ ∑

= ≠ 









 + + + + + +

= ^N

j k i

j bk

j ek sk

j bi j

ei si

bi j

ei si

ei w w x w w w x w y w w x w c

w N J

1

2

2 ( ) 2 ( )( ( ))

) 1

( σ σ σ

) (x

f (x_j, y_j) y_j = f (x_j)+b_j

(15)

Apprentissage dans les MLP :évaluation des performances

• Problèmes : approximation ou classification

• Approximation

– estimer à partir de N échantillons

– la solution optimale doit minimiser

• Classification

– estimer à partir de N échantillons

– la solution optimal doit minimiser

• Les problèmes principaux sont que :

– on a un échantillon de taille finie (voire petite) : N,

– on veut que l’approximation soit valide pour des données inconnues : c’est le problème de généralisation

i i

i y y f x n

x , ), avec = ( )+ f (

dx x p x

g x

f ( ) ( , ) ² ( )

∫

⁻ ^w

) , (x w g

i i

i x f n

x , ), avec = ⁻ ( )+

( ω ¹ ω

f

dx x p x

g x

f ( ) ( , ) ² ( )

∫

⁻ ^w

) , (x w g

(16)

Apprentissage dans les MLP :évaluation des performances

• Mêmes données pour apprentissage et le tests conduit à une surestimation des performances

• Principes de validation croisée: utiliser des données différentes pour l’apprentissage et le test, mais

représentatives du problème, c-à-d de même pdf

• Avec des petits échantillons, on peut utiliser le “leave-one

out” moyenné

(17)

Apprentissage dans les MLP :évaluation des performances

• Sur-apprentissage (ou overfitting) se produit si :

– le nombre de paramètres est trop large par rapport au nombre de données,

– l’apprentissage conduit à une erreur trop petite.

• L’estimation optimale doit entraîner une erreur empirique égale à la variance du bruit :

• D’un point de vue heuristique, on suggère environ 10 fois moins de paramètres que de données.

) , (x w g

( )

∑

=

−

N

i

i g x

N ₁ y

) 2

, 1 (

w

(18)

Apprentissage dans les MLP :évaluation des performances

• Estimation à 2 paramètres

– mauvaise estimation, grande erreur empirique

• Estimation à 3 paramètres

– erreur empirique plus petite

• Estimation à 10 paramètres

– estimation trop précise, erreur empirique nulle

conduit au sur-apprentissage

y

+ + +

+

+ + +

+ +

+

x

(19)

Apprentissage dans les MLP :évaluation des performances

• Courbes typiques d’apprentissage et de tests

Critère

BD de test

BD d’apprentissage

Nbe Itérations

(20)

Applications des PMC

• Principes

• Nombreuses applications

– Identification de fonctions non linéaires ou de systèmes dynamiques – Egalisation NL

– Prédiction NL – Classification

Processus

MLP

Algo.

(21)

Applications des PMC :OCR

(22)

Applications des PMC : identification

Processus

MLP

) (t y

) ), ( ( )

(

ˆ t g x t w y =

) ( ˆ ) ( )

(t = y t − y t ε

) (t x

Algo.

[ ]

[

⁽ ^), ^, ⁽ ⁾

]

) ˆ(

) (

, ), 2 (

), 1 ( )

ˆ(

) (

, ), 2 (

), 1 ( ), (

, ), ( )

ˆ(

k t x t

x F t

y

l t y t

y t

y F t

y

l t y t

y t

y k t x t

x F t

y

−

=

−

=

−

=

K

K K

(23)

Applications des PMC : systèmes dynamiques

) (t

x yˆ(t) = g(x(t),w)

[ ]

[

⁽ ^), ^, ⁽ ⁾

]

) ( ˆ

) (

, ), 2 (

), 1 ( )

( ˆ

) (

, ), 2 (

), 1 ( ), (

, ), ( )

( ˆ

k t x t

x F t

y

l t y t

y t

y F t

y

l t y t

y t

y k t x t

x F t

y

−

=

−

=

−

=

K

K K

(24)

Applications des PMC : Nettalk

[

⁽ ^), ^, ⁽ ⁾

]

) (

ˆ t = F x t K x t −k y

Sejnowski, Rosenberg, 1986

n e t w o r k w h i c h l e a r n s t o r e a d a

26 neurones en sortie

80 neurones cachés

7 x 29 entrées

(25)

Applications des PMC : prédiction

) 1 ( )

(t = x t +

Modèle

y

MLP

) (t

x ε(t) = x(t +1)− xˆ(t +1)

Algo.

) )..., ( ( )

1 (

ˆ t g x t w

x + =

[

( ), ( 1), , ( )

]

) 1 (

ˆ t F x t x t x t k

x + = − K −

(26)

Applications des PMC : prédiction de séries temporelles

Séries SUNSPOT

• Weigend et al., 1990

Linear AR(1,…, 12); threshold AR(1,…, 12) Tong et al. ; Connexionist AR with 6, 12 and 25 inputs

• De Groot and Würtz, 1991

AR(1,2, 9) ; bilinear models ; threshold AR(1,…, 12) Connexionist AR(1,2,3,4) controled by Akaike ’s BIC

• Cottrell et al., 1993

AR(1,2,9) ; ARIMA(1,2,3,4,8,9)(11)(11) ; Connexionist AR(1,2,9,11)

(27)

Applications des PMC : prédiction de séries

temporelles

(28)

Applications des PMC : prédiction de séries temporelles

• Prédiction de la consommation électrique (Cottrell et al., IEEE Trans. on NN, 1995)

• Pré-traitement: supprimer la tendance et les périodicités (semaines, saisons ) par filtrage

• Modèle : AR Non linéaire avec entrées exogènes

• Entrées exogènes : température de 12 villes en France,

(29)

Applications des PMC : prédiction de séries temporelles

• Optimisation with complexité controllée par le critère d’Akaike :

N n N

BIC N^r _p ln ln

2 +

 



= σ )

(t z

) 1 (t − z

) 7 (t − y

) 7 (t − z

) 1 (t − y

) (t y

...

Initial network: z(t) and data at time t-1 to t-7

) (t z

) 1 (t − z

) 7 (t − y

) 7 (t − z

) 1 (t − y

) (t y

...

Network after pruning: z(t) and data at time t-1, t-2, t-6, t-7

(30)

PMC avec architectures évolutives

• Pourquoi des architectures évolutives ?

– Choisir la complexité du RN adaptée à la complexité des données, – Eviter le sur-apprentissage,

– Eviter des minima locaux, – Converger plus vite.

• Comment?

– En supprimant des neurones ou des connexions (pruning) – En ajoutant des neurones

(31)

PMC avec architectures évolutives : élagage (pruning)

• Idée

– Simplifier le RN en enlevant des neurones ou des poids, sans augmenter l’erreur empirique,

• 3 types de méthodes

– supprimer les neurones ou poids redondants (méthodes directes), – méthodes fondées sur une mesure de sensibilité,

– fonction de coût avec un terme de complexité (régularisation)

(32)

Elagage direct (1/2)

• Supprimer les neurone redondants (Sietsmas & Dow, 88)

– neurones avec des sorties constantes y=cte w

θ θ - wy

w_i y_i

θ w_j

y_j

θ y_i ^wⁱ ^±^w^j

(33)

Elegage direct (2/2)

• Ajuster les poids pour compenser une connexion

supprimée (Pelillo and Fanelli, 93) conduit à résoudre un système d ’équations linéaires

k ik k

j

j ij

j j k

j ij ij

j ij

y w y

i e i

y w

y w i

=

∀

+

=

∀

∑

∑ ∑

≠

δ

, . .

) (

,

w_ik

y_k y_k

(34)

Elagage fondé sur la sensibilité (1/5)

• Principe: on supprime le(s) poids qui entraînent la plus petite (en

moyenne) variation de l ’erreur empirique (Optimal Brain Damage, Le Cun et al., NIPS 1990 ; Optimal Brain Surgeon, Hassibi et al., NIPS 1993)

• Hypothèse : RN dans un minimum local , Hessian diagonal

• On supprime le poids qui conduit à la plus petite variation de E,

( )

²

2 2 2

2

w O w

w w w w E

w w E

w

E E _i _j

j

i i j

i

i i

i

i i

δ δ

δ +

∂

∂ + ∂

∂

= ∂

∆

∑ ∑ ∑

≠

wi

minimal.

est que

telle

i.e. ₂ ²

2

i

i w

w s E

∂

= ∂

(35)

Elagage fondé sur la sensibilité (2/5)

• Remarques:

– si un poids est supprimé, l ’hypothèse sur le Hessien n’est pas requise, – après suppression du poids, l ’erreur empirique E n’est plus dans un

minimum.

• Pour répéter l ’élagage, on peut forcer E dans un minimum local en effectuant quelques itérations d ’apprentissage après élagage

E(w

_1,

w

₂

) E(w

₂

)

w

₂

w

₂

w

₁ before pruning

after pruning after learning

a few steps

(36)

Elagage fondé sur la sensibilité (3/5)

• Pour éviter l’étape d’apprentissage, Hassibi et al. ont proposé une minimisation sous contrainte, afin qu’après l’élagage, E soit encore dans minimum local

– plus d ’hypothèse de Hessien diagonal – la sensibilité associée au poids w_iest :

– lorsque l ’on supprime w_i, on ajuste les poids restant selon :

ce qui évite les étapes d ’apprentissage entre celles d ’élagage.

( )

ii i i

s w₁

2

= −

H

( )

^wⁱ _ii ⁱ

w H e

H

1 1

− −

− δ =

(37)

Elagage fondé sur la sensibilité (4/5)

Problèmes: ces méthodes n’indiquent pas quand il faut stopper l ’élagage

• Cottrell et al. ont proposé une méthode statistique (statistical stepwise) qui fournit un seuil

• L ’idée est fondée sur les propriétés de l ’estimateur des MC qui converge asymptotiquement vers une loi normale :

• Ils suggèrent de supprimer les poids qui sont statistiquement nuls, avec un intervalle de confiance de 5%, soit :

(

wˆ − w*

)

→ N(0, _n² H⁻¹)

T σ

p(t)

96 . ) 1 ˆ ( ˆ

ˆ <

=

i i i

w t w

σ

t

(38)

Elagage fondé sur la sensibilité (5/5)

Relations entre les 3 méthodes

• Le seuil proposé par Cottrell est similaire aux sensibilités de Le Cun et d’Hassibi :

• Cela signifie qu’OBD et OBS sont équivalents à supprimer les poids proches de zéro.

• En fait, ce n ’est pas si surprenant, car la sensibilité est fondée sur un développement, qui est valide pour de petites variations des poids !

96 . ) 1 ˆ ( ˆ

ˆ <

=

i i i

w t w

σ

( )

ii

i i

s w₁

2

= −

H

2 2 2

i i

i w

w s E

∂

= ∂

( )

²

2 2 2

2

w O w

E w E w

E w

E δ _i δ _i δ _iδ _j + δ

∂

∂ + ∂

+ ∂

∂

= ∂

∆

∑ ∑ ∑

(39)

Elagage avec un terme de complexité (1/6)

• L’idée consiste à minimiser une fonction de coût à 2 termes : (Hinton, 1986 ; Chauvin, 1989 ; Weigend, 1991 ; etc.)

• Problème : comment choisir , et ? (MacKay, NC, 1993 ; William, NC, 1995)

• Approximation d’une focntion NL inconnue f à partir de N éch. Bruités

• L’approximation du RN sera notée ; elle est optimale si :

• L ’estimation du Maximum de Vraisemblance consiste à estimer w qui maximise

i.e. avec le théo. de Bayes

w

D E

E

E = + λ ED _E_w λ

i i

i y y f x n

x , )avec = ( )+ (

) , (x w g

i i

i g x ,w n

y i x

f x

g( ,w) = ( )i.e.∀ , − ( ) = )

, , /

( y₁ y_N

p w _L

) ,

, (

) ( ) / ,

, ) (

, , / (

1 1 1

N

N p y N y

p y

y y p

y

p L

L L w w

w =

(40)

Elagage avec un terme de complexité (2/6)

• Puisque ne dépend pas de w, on a

• De plus, puisque le log est monotone, on utilise souvent :

• Le premier terme mesure l’erreur d’ajustement aux données, le second terme est un a priori sur les paramètres.

) , ,

(y₁ y_N

p _L

) ( ) / ,

, ) (

, , (

) ( ) / ,

, (

1 1

1 w w w w

w

w Max p y y p

y y

p

p y

y

Max p _N

N

N L

L

L =

(

^ln ⁽ ^, ^, ^/ ⁾ ^ln ⁽ ⁾

)

) ( ) / ,

, (

ln ₁ w w ₁ w w

w

w p y y p Max p y y p

Max L _N = L _N +

(41)

Elagage avec un terme de complexité (3/6)

• Si les échantillons de bruit sont indépendants et Gaussiens : on a à l ’optimum et

• Finalement, on a

) ,

0 (

~ _n²

i N

n σ

i i

i g x n

y

i − =

∀ , ( ,w)

∑

∏

−

=

−

=

i

i i

n i

i i

n i

i i

i N

x g y

Min

x g y

Max

y p Max

y y

p Max

2 2

1

)) , ( 2 (

1

)) , ( 2 (

1

) / ( ln

) / ,

, ( ln

w w w

w w

w w w w w

σ

σ L

∑

⁻

= _i _i

D y g x

E ( ( ,w))²

i

(42)

Elagage avec un terme de complexité (4/6)

• Avec un a priori Gaussien supposé indépendant, i.e.

• Finallement, on a et

) , 0 ( _w²

i N

w = σ

∑

∏

=

−

=

i i w

i

i w i

i i

i

w Min

w Max

w p Max

p Max

2 2

2 1

) ( ln

σ

w w w w

w w

∑

= _i

W w

E ²

wi

2 n2

σ λ = σ

(43)

Elagage avec un terme de complexité (5/6)

• Avec un a priori Laplacien sur supp. indépendants,

• Finallement, on a et



 



−

∝

w i i

w w

p σ

exp 2 )

(

∑

∏

=

−

=

i i w

i

i w i

i i

i

w Min

w Max

w p Max

p Max

σ

σ 2

2 ) ( ln

) ( ln

w w w w

w w

∑

=

i i

W w

E

wi

w n

σ λ = 2 2σ ²

(44)

Elagage avec un terme de complexité (6/6)

• Choix de demande la connaissance sur la variance bruit et param.

• Indépendance sur n ’est pas réaliste : les poids sont impliqués dans la même tache d ’approximation et ne sont pas indépendants !

• L ’a priori est très fort : il consiste à chercher les paramètre avec une forte contrainte. Chaque nouvelle ddp implique un autre a priori.

• Le terme de complexité n’est rien d’autre qu’un terme de

régularisation, mais la théorie montre que ce choix n’est pas si simple.

λ

w n

σ λ = 2 2σ ²

2 2

w n

σ λ = σ

wi

(45)

Méthodes constructives (1/4)

• Historique : cascade correlation (Falhman et Lebiere, 1989) – classification

– 1 neurone = 1 couche

– structure complexe, pas de critère d’arrêt

• Idée pour l’approximation de fonctions

– problème : apprendre f à partir des exemples

– apprendre ce que le réseau actuel n ’a pas appris, c ’est-à-dire l ’erreur – s’arrêter lorsque l’erreur à les propriétés du bruit, par exemple bruit

blanc, ou bruit coloré, etc.

– dans la suite, on choisit un RN à neurone de sortie linaire, et on suppose le bruit de moyenne nulle et iid

i i

i y y f x n

x , ),avec = ( ) + (

(46)

Méthodes constructives (2/4)

• Augmentation des neurones à l’intérieur d’une couche

– approximation f(w,x) ; erreur : f(w,x) -y_d

– 1. on améliore l’approximation en entraînant un neurone ou un petit réseau de la couche L-1 pour apprendre l ’erreur,

– 2. on fusionne le neurone ou le petit réseau

– 3 si l’erreur est pas de moyenne nulle et iid, on arrête, sinon retour en 1

(47)

Méthodes constructives (3/4)

• Si cela ne suffit pas, on peut augmenter le nombre de couches

– approximation f(w,x) ; erreur : f(w,x) -y_d

– 1. on améliore l’approximation en entraînant un neurone ou un petit réseau de la couche L pour apprendre l’erreur,

– 2. on fusionne le neurone ou le petit réseau en sommant dans une couche L+1

– 3. si l’erreur est pas de moyenne nulle et iid, on arrête, sinon retour en 1

(48)

Méthodes constructives (4/4)

(49)

Contenu

• I. Introduction

• II. Quelques flashs de neurobiologie

• III. Modèles mathématiques

• IV. Coopération et compétition

• V. Mémoires associatives linéaires

• VI. Perceptrons multi-couches

• VII. Modèles de Hopfield

• VIII. Cartes auto-organisatrices de Kohonen

• IX. Séparation de sources

• X. Présentation du BE et des mini-projets

(50)

Chapitre 7

Modèle de Hopfield

(51)

Réseau à minimisation d’énergie

• Neuro-dynamique statistique

– Amari, 1967 ; Little, 1974 ; Hopfield 1982

• Modèle de Hopfield

– Analogie formelle avec les verres de spin – Chaque unité i est caractérisé par son état : – A chaque unité, on associe un champ :

où est l ’interaction entre les unités i et j, avec les propriétés :

– Toutes les unités sont interconnectées

±1

i = v

∑

=

j

j ij

i T v

h

Tij

,

= 0

=

ii

ji ij

T

T T

(52)

Modèle de Hopfield

• Evolution

– état initial vers état final, – règle

– Itération série (asynchrone) – Energie de l ’état I

– Evolution du réseau à énergie décroissante

– Etats d’équilibre sont des

• Réseau





+

=

≥

−

=

<

. 1 ,

0 si

, 1 ,

0 si

i i

v h

∑∑

∑

⁼ ⁻

−

=

i j

i j ij i

i

iv T v v

h I

E 2

1 2

) 1 (

ji ij

T T =

i j

(53)

Modèle de Hopfield

• Pas de relation entrées/sorties

• Evolution spontanée d ’un état initial vers un état final

Etat initial, imposé

Etat final, après

oscillation

(54)

Modèle de Hopfield : évolution à énergie décroissante

• A l’instant t, on tire (au hasard, ou...) l ’unité i :

• D’où la variation d’énergie :

• Donc, les variations d’énergies sont négatives :





+

=

≥

−

=

<

. 1 ,

0 si

, 1 ,

0 si

i i

v h

v

∑

h

=

j

j ij

i T v

h

i i i

i j

j ij i j i

i j

ijv v T v v h v

T

E ∆ = − ∆









= 











∆

−

=

∆

∑∑ ∑

≠

≠ 2

1 2

1





≤

∆

−

=

∆

<

≤

∆ +

=

∆

≥

. 0 donc

, 0 ou 2 ,

0 si

0 donc

, 0 ou 2 ,

0 si

E v

h

E v

h

i i

(55)

Modèle de Hopfield : mémoire associative

• On veut mémoriser m états :

• On construit une énergie qui est minimale pour ces états :

• Si les états sont orthogonaux :

• En identifiant l’énergie avec celle du réseau :

) , , ( et

) , , (

avec

2 , ) 1

( ₁ ₁

2

1

Nk k

k N T

m

k j i

k i

i v I v v I v v

v I

E  = L = L









− 

=

∑ ∑

= ≠

Im

I¹,L,

Ik k l v v _kl N

N

i

il

ik = δ

∀

∑

=1

, ,

2 , 2

1 2

) 1 ( , Si

2 2 ,

, 1 2

1 1, ,

v N v v

v I

E I

I

N i

ij ij m

k i N

ij ik

j = −











− 

 =











− 

=

≈

∑ ∑ ∑

=

= = _L _L

∑

∑ ∑

∑∑

_^ ⁼









− 

=

−

=

= ≠ k

kj ik ij

k i N

k i i N

i j i

i j

ijv v v v T v v

T I

E , on a

2 1 2

) 1 (

2

, , 1

1 _L

(56)

Modèle de Hopfield : minima locaux

Minimum global Minimum local

Remède : recuit simulé, adjonction de bruit

(57)

Modèle de Hopfield : minima locaux

• Modification de la règle d’évolution

• T = 0°K : agitation thermique nulle : RND = 0

• T > 0°K : la variance de RND augmente avec T

• L’ajout de RND permet de modifier la règle d’évolution :

T croissant

h

i

v

i

T = 0°K

∑

≠

+

=

i j

j ij

i T v RND

h

! 0 et

négatif être

peut ,

0

si =

∑

>

∑

+ ∆ >

≠ ≠

E RND

v T v

T h

i

j j i

j ij j

ij i

(58)

Modèle de Hopfield : application à l’optimisation combinatoire

• Problème du voyageur de commerce

(Hopfield et Tank, Biol. Cyb., 1986)

:

– trouver un tour parmi les plus court passant par chaque ville une fois et une seule

– N villes notées : T₁, T₂... T_N

– Ordre dans le tour noté 1, 2, … N

• Codage du réseau

– N x N unités, – Interactions :

– Energie du réseau

V i l l e s

1 2 N

T₁

T_N V i l l e s

1 2 N

T₁

T_N

l Tk j Ti l Tk j

Ti v v

W I

E _, _; _, _, _,

2 ) 1

( ⁼ ⁻

∑∑

l Tj j

WTi_, _; _,

(59)

Modèle de Hopfield : application à l’optimisation combinatoire

• Apprentissage des poids des connexions :

– On construit une forme quadratique (similaire à une énergie) qui est minimale pour les bons tours

–

• En identifiant E(I) = F(I), on trouve les poids :

∑ ∑ ∑

∑∑

∑∑ ∑

∑∑∑

≠

− +

≠

−

 −











 + −

−

=

Tk Tj Tk i

i Tj i

Tj i Tk i Tj

i Tj

i Tj Tk Tj

i Tk i Tj

Tk i j i

i Tk j Tk

v v

v Tj Tk d v N

v v v

v I

F

) (

) , 2 (

2 ) 1 (

2

2 ) 2

(

1 , 1

, ,

2 ,

, , ,

,

δ γ

β α

, ....

;

,_j _Tj _l = WTi

(60)

Modèle de Hopfield : application à l’optimisation combinatoire

• Résultats du problème à 10 villes

(Hopfield et Tank, Biol. Cyb., 1986)

:

Exemples Histogramme de des

quelques longueurs tours

• Complexité : N villes, N² unités, N⁴ connexions,

Lab. des Images et des Signaux (LIS)

Réseaux de neurones formels

Christian Jutten