Réseaux de neurones formels
Christian Jutten
Lab. des Images et des Signaux (LIS)
UMR 5083 Centre National de la Recherche Scientifique, Institut National Polytechnique de Grenoble,
Université Joseph Fourier Grenoble
Contenu
• I. Introduction
• II. Quelques flashs de neurobiologie
• III. Modèles mathématiques
• IV. Coopération et compétition
• V. Mémoires associatives linéaires
• VI. Perceptrons multi-couches
• VII. Modèles de Hopfield
• VIII. Cartes auto-organisatrices de Kohonen
• IX. Séparation de sources
• X. Présentation du BE et des mini-projets
Chapitre 6
Perceptrons multi-couches
Contenu
• Apprentissage dans les PMC ou MLP
• Théorème, minima locaux, performances
• Applications
• Contrôle de l ’architecture des MLP
Apprentissage dans les MLP:
théorèmes d’approximation
• Problème: approximation d ’une fonction continue et bornée
• D ’après le théorème de Kolmogorov (Hecht-Nielsen, 1989) – 3 couches, architecture: p 2p+1 n, fonction non linéaire ?
• From Stone-Weierstrass theorem (Hornik et al., 1989, 1990) – 3 couches, architecture p ? n, fonctions saturantes
• Commentaires
– Théorème d ’existence : l ’approximation existe avec 3 couches, mais peut exiger une infinité de neurones !
– L ’approximation peut être meilleure ou plus simple avec plus de couches – L ’architecture n ’est pas complètement définie
– Comment estimer les paramètres ? Convergence ? Minima locaux ?
n
p f R
R
f :x∈ → y = (x)∈
Multi-Layer Perceptrons (1/4)
• Approximateurs universels
Toute fonction continue et bornée peut être approchée avec la
précision que l’on veut par un perceptron multi-couche (avec 1 couche cachée)
entrées
sorties Couche cachée
Multi-Layer Perceptrons (2/4)
• Algorithmes supervisés, données : (
• Critère : erreur quadratique moyenne
• Algorithme : descente du gradient, gradient conjugué, ou des algorithmes plus efficaces (et complexes)
• Algorithme de rétro-propagation (Le Cun et al., 85 ; Rumelhart et al., 86) ou Backpropagation algorithm
• Problèmes: choisir la taille du réseau ; éviter les minima locaux )
) (
, i i i
i y f x b
x = +
)2
, 1 (
∑
−=
i
i
i g
J N y w x
Apprentissage dans un Perceptron à une couche : méthode du gradient
• Principe dans la cas d’un seul paramètre
– On ajuste les poids pour mininiser E(w)
– On calcule le gradient de E(w), soit la dérivée en 1D
w* w(t)
> 0
∂
∂ w E
< 0
∂
∂ w E
w t E
w ∂
− ∂
=
∆ ( ) µ
Multi-Layer Perceptrons:
algorithme rétro-propagation (3/4)
• Critère : erreur quadratique
• Poids de la dernière couche – La sortie désirée est connue
– Le gradient de l’erreur par rapport au poids de la dernière couche est
• la règle d ’appr. est :
(
( , ))
22
1
∑
−=
j
j
j g
y
E w x
entrées sorties
Couche cachée
−
−
∂ =
−
− ∂
=
∂
−
− ∂
∂ =
∂
∑
∑
i j
j ij k
i i
ik
i i i
i
j ik
j j
j j
ik
x w x
y w g
y y g
g
w
y y g
w g E
θ σ'
) )
, ( ) (
) , ( ) (
) , ( (
) )
, ( ) (
) , ( (
x x w
x w w
x x w
w
k i j
ij i
i ik
ik g , y w x x
w w E
−
−
−
∂ =
− ∂
=
∆ µ µ( (w x) )σ'
∑
θ) , (w x gi
Multi-Layer Perceptrons:
algorithme rétro-propagation (4/4)
• Critère : erreur quadratique
• Poids des couches cachées
– Problème: on n ’a pas la sortie désirée pour les couches cachées ! – Descente du gradient sur E
– Résultat
– Règle d’Adaptation
(
( , ))
22
1
∑
−=
j
j
j g
y
E w x
entrées
∑
∂ ∂ ∂∂ ∂∂∂ =
∂ +
+ j
p kh kp p
k jp
jp p
kh w
y y
y y
E w
E
) (
) ( )
( ) 1 ( ) 1 ( )
(
∑
∑
∈ ++ +
−
=
) 1 (
) 1 ( ) 1 ( )
1 ( ) ( )
( '
p Layer i
i p ikp
h
hp khp
kp σ w y w δ
δ sorties
Couche cachée
) 2 k(
y δi(3)
) 2 kh(
w (2) δk
Apprentissage dans un Perceptron multi-couche : aspects pratiques
• Modèle de neurone
– on remplace le seuil par une entrée constante (polarisation ou bias) avec une pondération
• Initialisation
– il faut éviter les poids initiaux nuls :
– on initialise les poids à des valeurs aléatoires
• Apprentissage lent si N’ petit
! age apprentiss d'
pas donc 0
, ,
0 ∀ ⇒ =
= l
jk j k y
w
) ( ' avec
) ( )
1
( jk j k j k
jk t w t x N p
w + = −µδ δ α
=
+
=
∑ ∑
+=
=
1 1 1
p k
k jk p
k
j k
jk
j N w x N w x
y θ
1 , +
= j p
j w
θ
1 =1
+
xp
N' N
Apprentissage dans les MLP : minima locaux (1/3)
Tout problème d’estimation demande :
• 1 modèle : MLP, Spline, polynomial
• 1 critère : erreur quadratique, etc.
• 1 méthode d ’optimisation : descente du gradient, gradient conjugué, etc.
Remarques
• Pour chaque ensemble, on obtient une solution optimale relative à cet ensemble,
• Si on change un ingrédient parmi les 3, l’estimation peut différer considérablement
• Selon le modèle, le critère peut avoir des minima locaux, ce qui implique une optimisation délicate
Apprentissage dans les MLP : minima locaux (2/3)
Problème:
Estimer , N échantillons avecModèle:
linéaire p.r. aux paramètres (e.g. polynomial)Critère:
erreur quadratique moyenne (MSE)Par rapport à un paramètre , on a : )
(x
f (xj, yj) yj = f (xj)+bj
) (wi J
wi
wi
∑
== K
i
i ix w w
x g
0
) , (
( ) ∑ ∑
∑
= = =
−
=
−
= N
j
K i
i j i j
N j
j
j y w x
w N x g N y
w J
1
2
1 1
2 1
) , 1 (
) (
∑ ∑
= ≠
+ + +
=
N j
j i
k
kj k j
i i j i i
j
i
x w x w y w x c
w N J
1
2
2
2 ( )
) 1
(
Apprentissage dans les MLP : minima locaux (3/3)
Problème:
Estimer , N échantillons avecModèle:
non linéaire p.r. aux param. (ex. MLP)Critère:
erreur quadratique moyenne (MSE)Le modèle est linéaire pour les param. et non linéaire pour les autres :
∑
=+
= K
i
bi ei
si w x w
w w
x g
1
) (
) ,
( σ
( ) ∑ ∑
∑
= = =
− +
=
−
= N
j
K i
bi j
ei si
j N
j
j
j y w w x w
w N x g N y
w J
1
2
1 1
2 1 ( )
) , 1 (
)
( σ
wsi
) (wei J
w
∑ ∑
= ≠
+ + + + + +
= N
j k i
j bk
j ek sk
j bi j
ei si
bi j
ei si
ei w w x w w w x w y w w x w c
w N J
1
2
2 ( ) 2 ( )( ( ))
) 1
( σ σ σ
) (x
f (xj, yj) yj = f (xj)+bj
Apprentissage dans les MLP :évaluation des performances
• Problèmes : approximation ou classification
• Approximation
– estimer à partir de N échantillons
– la solution optimale doit minimiser
• Classification
– estimer à partir de N échantillons
– la solution optimal doit minimiser
• Les problèmes principaux sont que :
– on a un échantillon de taille finie (voire petite) : N,
– on veut que l’approximation soit valide pour des données inconnues : c’est le problème de généralisation
i i
i i
i y y f x n
x , ), avec = ( )+ f (
dx x p x
g x
f ( ) ( , ) 2 ( )
∫
− w) , (x w g
i i
i i
i x f n
x , ), avec = − ( )+
( ω 1 ω
f
dx x p x
g x
f ( ) ( , ) 2 ( )
∫
− w) , (x w g
Apprentissage dans les MLP :évaluation des performances
• Mêmes données pour apprentissage et le tests conduit à une surestimation des performances
• Principes de validation croisée: utiliser des données différentes pour l’apprentissage et le test, mais
représentatives du problème, c-à-d de même pdf
• Avec des petits échantillons, on peut utiliser le “leave-one
out” moyenné
Apprentissage dans les MLP :évaluation des performances
• Sur-apprentissage (ou overfitting) se produit si :
– le nombre de paramètres est trop large par rapport au nombre de données,
– l’apprentissage conduit à une erreur trop petite.
• L’estimation optimale doit entraîner une erreur empirique égale à la variance du bruit :
• D’un point de vue heuristique, on suggère environ 10 fois moins de paramètres que de données.
) , (x w g
( )
∑
=−
N
i
i
i g x
N 1 y
) 2
, 1 (
w
Apprentissage dans les MLP :évaluation des performances
• Estimation à 2 paramètres
– mauvaise estimation, grande erreur empirique
• Estimation à 3 paramètres
– erreur empirique plus petite
• Estimation à 10 paramètres
– estimation trop précise, erreur empirique nulle
conduit au sur-apprentissage
y
+ + +
+
+ + +
+ +
+
x
Apprentissage dans les MLP :évaluation des performances
• Courbes typiques d’apprentissage et de tests
Critère
BD de test
BD d’apprentissage
Nbe Itérations
Applications des PMC
• Principes
• Nombreuses applications
– Identification de fonctions non linéaires ou de systèmes dynamiques – Egalisation NL
– Prédiction NL – Classification
Processus
MLP
Algo.
Applications des PMC :OCR
Applications des PMC : identification
Processus
MLP
) (t y
) ), ( ( )
(
ˆ t g x t w y =
) ( ˆ ) ( )
(t = y t − y t ε
) (t x
Algo.
[ ]
[ ]
[
( ), , ( )]
) ˆ(
) (
, ), 2 (
), 1 ( )
ˆ(
) (
, ), 2 (
), 1 ( ), (
, ), ( )
ˆ(
k t x t
x F t
y
l t y t
y t
y F t
y
l t y t
y t
y k t x t
x F t
y
−
=
−
−
−
=
−
−
−
−
=
K
K
K K
Applications des PMC : systèmes dynamiques
) (t
x yˆ(t) = g(x(t),w)
[ ]
[ ]
[
( ), , ( )]
) ( ˆ
) (
, ), 2 (
), 1 ( )
( ˆ
) (
, ), 2 (
), 1 ( ), (
, ), ( )
( ˆ
k t x t
x F t
y
l t y t
y t
y F t
y
l t y t
y t
y k t x t
x F t
y
−
=
−
−
−
=
−
−
−
−
=
K
K
K K
Applications des PMC : Nettalk
[
( ), , ( )]
) (
ˆ t = F x t K x t −k y
Sejnowski, Rosenberg, 1986
n e t w o r k w h i c h l e a r n s t o r e a d a
26 neurones en sortie
80 neurones cachés
7 x 29 entrées
Applications des PMC : prédiction
) 1 ( )
(t = x t +
Modèle
yMLP
) (t
x ε(t) = x(t +1)− xˆ(t +1)
Algo.
) )..., ( ( )
1 (
ˆ t g x t w
x + =
[
( ), ( 1), , ( )]
) 1 (
ˆ t F x t x t x t k
x + = − K −
Applications des PMC : prédiction de séries temporelles
Séries SUNSPOT
• Weigend et al., 1990
Linear AR(1,…, 12); threshold AR(1,…, 12) Tong et al. ; Connexionist AR with 6, 12 and 25 inputs
• De Groot and Würtz, 1991
AR(1,2, 9) ; bilinear models ; threshold AR(1,…, 12) Connexionist AR(1,2,3,4) controled by Akaike ’s BIC
• Cottrell et al., 1993
AR(1,2,9) ; ARIMA(1,2,3,4,8,9)(11)(11) ; Connexionist AR(1,2,9,11)
Applications des PMC : prédiction de séries
temporelles
Applications des PMC : prédiction de séries temporelles
• Prédiction de la consommation électrique (Cottrell et al., IEEE Trans. on NN, 1995)
• Pré-traitement: supprimer la tendance et les périodicités (semaines, saisons ) par filtrage
• Modèle : AR Non linéaire avec entrées exogènes
• Entrées exogènes : température de 12 villes en France,
Applications des PMC : prédiction de séries temporelles
• Optimisation with complexité controllée par le critère d’Akaike :
N n N
BIC Nr p ln ln
2 +
= σ )
(t z
) 1 (t − z
) 7 (t − y
) 7 (t − z
) 1 (t − y
) (t y
...
Initial network: z(t) and data at time t-1 to t-7
) (t z
) 1 (t − z
) 7 (t − y
) 7 (t − z
) 1 (t − y
) (t y
...
Network after pruning: z(t) and data at time t-1, t-2, t-6, t-7
PMC avec architectures évolutives
• Pourquoi des architectures évolutives ?
– Choisir la complexité du RN adaptée à la complexité des données, – Eviter le sur-apprentissage,
– Eviter des minima locaux, – Converger plus vite.
• Comment?
– En supprimant des neurones ou des connexions (pruning) – En ajoutant des neurones
PMC avec architectures évolutives : élagage (pruning)
• Idée
– Simplifier le RN en enlevant des neurones ou des poids, sans augmenter l’erreur empirique,
• 3 types de méthodes
– supprimer les neurones ou poids redondants (méthodes directes), – méthodes fondées sur une mesure de sensibilité,
– fonction de coût avec un terme de complexité (régularisation)
Elagage direct (1/2)
• Supprimer les neurone redondants (Sietsmas & Dow, 88)
– neurones avec des sorties constantes y=cte w
θ θ - wy
wi yi
θ wj
yj
θ yi wi ±wj
Elegage direct (2/2)
• Ajuster les poids pour compenser une connexion
supprimée (Pelillo and Fanelli, 93) conduit à résoudre un système d ’équations linéaires
k ik k
j
j ij
j j k
j ij ij
j ij
y w y
i e i
y w
y w i
=
∀
+
=
∀
∑
∑ ∑
≠
≠
δ
δ
, . .
) (
,
wik
yk yk
Elagage fondé sur la sensibilité (1/5)
• Principe: on supprime le(s) poids qui entraînent la plus petite (en
moyenne) variation de l ’erreur empirique (Optimal Brain Damage, Le Cun et al., NIPS 1990 ; Optimal Brain Surgeon, Hassibi et al., NIPS 1993)
• Hypothèse : RN dans un minimum local , Hessian diagonal
• On supprime le poids qui conduit à la plus petite variation de E,
( )
22 2 2
2
w O w
w w w w E
w w E
w
E E i j
j
i i j
i
i i
i
i i
δ δ
δ δ
δ +
∂
∂ + ∂
∂ + ∂
∂
= ∂
∆
∑ ∑ ∑
≠
wi
minimal.
est que
telle
i.e. 2 2
2
i
i w
w s E
∂
= ∂
Elagage fondé sur la sensibilité (2/5)
• Remarques:
– si un poids est supprimé, l ’hypothèse sur le Hessien n’est pas requise, – après suppression du poids, l ’erreur empirique E n’est plus dans un
minimum.
• Pour répéter l ’élagage, on peut forcer E dans un minimum local en effectuant quelques itérations d ’apprentissage après élagage
E(w
1,w
2) E(w
2)
w
2w
2w
1 before pruningafter pruning after learning
a few steps
Elagage fondé sur la sensibilité (3/5)
• Pour éviter l’étape d’apprentissage, Hassibi et al. ont proposé une minimisation sous contrainte, afin qu’après l’élagage, E soit encore dans minimum local
– plus d ’hypothèse de Hessien diagonal – la sensibilité associée au poids wi est :
– lorsque l ’on supprime wi, on ajuste les poids restant selon :
ce qui évite les étapes d ’apprentissage entre celles d ’élagage.
( )
ii i is w1
2
= −
H
( )
wi ii iw H e
H
1 1
− −
− δ =
Elagage fondé sur la sensibilité (4/5)
Problèmes: ces méthodes n’indiquent pas quand il faut stopper l ’élagage
• Cottrell et al. ont proposé une méthode statistique (statistical stepwise) qui fournit un seuil
• L ’idée est fondée sur les propriétés de l ’estimateur des MC qui converge asymptotiquement vers une loi normale :
• Ils suggèrent de supprimer les poids qui sont statistiquement nuls, avec un intervalle de confiance de 5%, soit :
(
wˆ − w*)
→ N(0, n2 H−1)T σ
p(t)
96 . ) 1 ˆ ( ˆ
ˆ <
=
i i i
w t w
σ
t
Elagage fondé sur la sensibilité (5/5)
Relations entre les 3 méthodes
• Le seuil proposé par Cottrell est similaire aux sensibilités de Le Cun et d’Hassibi :
• Cela signifie qu’OBD et OBS sont équivalents à supprimer les poids proches de zéro.
• En fait, ce n ’est pas si surprenant, car la sensibilité est fondée sur un développement, qui est valide pour de petites variations des poids !
96 . ) 1 ˆ ( ˆ
ˆ <
=
i i i
w t w
σ
( )
iii i
s w1
2
= −
H
2 2 2
i i
i w
w s E
∂
= ∂
( )
22 2 2
2
w O w
E w E w
E w
E δ i δ i δ iδ j + δ
∂
∂ + ∂
+ ∂
∂
= ∂
∆
∑ ∑ ∑
Elagage avec un terme de complexité (1/6)
• L’idée consiste à minimiser une fonction de coût à 2 termes : (Hinton, 1986 ; Chauvin, 1989 ; Weigend, 1991 ; etc.)
• Problème : comment choisir , et ? (MacKay, NC, 1993 ; William, NC, 1995)
• Approximation d’une focntion NL inconnue f à partir de N éch. Bruités
• L’approximation du RN sera notée ; elle est optimale si :
• L ’estimation du Maximum de Vraisemblance consiste à estimer w qui maximise
i.e. avec le théo. de Bayes
w
D E
E
E = + λ ED Ew λ
i i
i i
i y y f x n
x , )avec = ( )+ (
) , (x w g
i i
i g x ,w n
y i x
f x
g( ,w) = ( )i.e.∀ , − ( ) = )
, , /
( y1 yN
p w L
) ,
, (
) ( ) / ,
, ) (
, , / (
1 1 1
N
N p y N y
p y
y y p
y
p L
L L w w
w =
Elagage avec un terme de complexité (2/6)
• Puisque ne dépend pas de w, on a
• De plus, puisque le log est monotone, on utilise souvent :
• Le premier terme mesure l’erreur d’ajustement aux données, le second terme est un a priori sur les paramètres.
) , ,
(y1 yN
p L
) ( ) / ,
, ) (
, , (
) ( ) / ,
, (
1 1
1 w w w w
w
w Max p y y p
y y
p
p y
y
Max p N
N
N L
L
L =
(
ln ( , , / ) ln ( ))
) ( ) / ,
, (
ln 1 w w 1 w w
w
w p y y p Max p y y p
Max L N = L N +
Elagage avec un terme de complexité (3/6)
• Si les échantillons de bruit sont indépendants et Gaussiens : on a à l ’optimum et
• Finalement, on a
) ,
0 (
~ n2
i N
n σ
i i
i g x n
y
i − =
∀ , ( ,w)
∑
∑
∑
∏
−
=
−
−
=
=
=
i
i i
n i
i i
n i
i i
i N
x g y
Min
x g y
Max
y p Max
y p Max
y y
p Max
2 2
2 2
1
)) , ( 2 (
1
)) , ( 2 (
1
) / ( ln
) / ( ln
) / ,
, ( ln
w w w
w w
w w w w w
σ
σ L
∑
−= i i
D y g x
E ( ( ,w))2
i
Elagage avec un terme de complexité (4/6)
• Avec un a priori Gaussien supposé indépendant, i.e.
• Finallement, on a et
) , 0 ( w2
i N
w = σ
∑
∑
∑
∏
=
−
=
=
=
i i w
i
i w i
i i
i
w Min
w Max
w p Max
w p Max
p Max
2 2
2 2
2 1
2 1
) ( ln
) ( ln
) ( ln
σ
σ
w w w w
w w
∑
= i
W w
E 2
wi
2 n2
σ λ = σ
Elagage avec un terme de complexité (5/6)
• Avec un a priori Laplacien sur supp. indépendants,
• Finallement, on a et
−
∝
w i i
w w
p σ
exp 2 )
(
∑
∑
∑
∏
=
−
=
=
=
i i w
i
i w i
i i
i
w Min
w Max
w p Max
w p Max
p Max
σ
σ 2
2 ) ( ln
) ( ln
) ( ln
w w w w
w w
∑
=
i i
W w
E
wi
w n
σ λ = 2 2σ 2
Elagage avec un terme de complexité (6/6)
• Choix de demande la connaissance sur la variance bruit et param.
• Indépendance sur n ’est pas réaliste : les poids sont impliqués dans la même tache d ’approximation et ne sont pas indépendants !
• L ’a priori est très fort : il consiste à chercher les paramètre avec une forte contrainte. Chaque nouvelle ddp implique un autre a priori.
• Le terme de complexité n’est rien d’autre qu’un terme de
régularisation, mais la théorie montre que ce choix n’est pas si simple.
λ
w n
σ λ = 2 2σ 2
2 2
w n
σ λ = σ
wi
Méthodes constructives (1/4)
• Historique : cascade correlation (Falhman et Lebiere, 1989) – classification
– 1 neurone = 1 couche
– structure complexe, pas de critère d’arrêt
• Idée pour l’approximation de fonctions
– problème : apprendre f à partir des exemples
– apprendre ce que le réseau actuel n ’a pas appris, c ’est-à-dire l ’erreur – s’arrêter lorsque l’erreur à les propriétés du bruit, par exemple bruit
blanc, ou bruit coloré, etc.
– dans la suite, on choisit un RN à neurone de sortie linaire, et on suppose le bruit de moyenne nulle et iid
i i
i i
i y y f x n
x , ),avec = ( ) + (
Méthodes constructives (2/4)
• Augmentation des neurones à l’intérieur d’une couche
– approximation f(w,x) ; erreur : f(w,x) -yd
– 1. on améliore l’approximation en entraînant un neurone ou un petit réseau de la couche L-1 pour apprendre l ’erreur,
– 2. on fusionne le neurone ou le petit réseau
– 3 si l’erreur est pas de moyenne nulle et iid, on arrête, sinon retour en 1
Méthodes constructives (3/4)
• Si cela ne suffit pas, on peut augmenter le nombre de couches
– approximation f(w,x) ; erreur : f(w,x) -yd
– 1. on améliore l’approximation en entraînant un neurone ou un petit réseau de la couche L pour apprendre l’erreur,
– 2. on fusionne le neurone ou le petit réseau en sommant dans une couche L+1
– 3. si l’erreur est pas de moyenne nulle et iid, on arrête, sinon retour en 1
Méthodes constructives (4/4)
Contenu
• I. Introduction
• II. Quelques flashs de neurobiologie
• III. Modèles mathématiques
• IV. Coopération et compétition
• V. Mémoires associatives linéaires
• VI. Perceptrons multi-couches
• VII. Modèles de Hopfield
• VIII. Cartes auto-organisatrices de Kohonen
• IX. Séparation de sources
• X. Présentation du BE et des mini-projets
Chapitre 7
Modèle de Hopfield
Réseau à minimisation d’énergie
• Neuro-dynamique statistique
– Amari, 1967 ; Little, 1974 ; Hopfield 1982
• Modèle de Hopfield
– Analogie formelle avec les verres de spin – Chaque unité i est caractérisé par son état : – A chaque unité, on associe un champ :
où est l ’interaction entre les unités i et j, avec les propriétés :
– Toutes les unités sont interconnectées
±1
i = v
∑
=
j
j ij
i T v
h
Tij
,
= 0
=
ii
ji ij
T
T T
Modèle de Hopfield
• Evolution
– état initial vers état final, – règle
– Itération série (asynchrone) – Energie de l ’état I
– Evolution du réseau à énergie décroissante
– Etats d’équilibre sont des
• Réseau
+
=
≥
−
=
<
. 1 ,
0 si
, 1 ,
0 si
i i
i i
v h
v h
∑∑
∑
= −−
=
i j
i j ij i
i
iv T v v
h I
E 2
1 2
) 1 (
ji ij
T T =
i j
Modèle de Hopfield
• Pas de relation entrées/sorties
• Evolution spontanée d ’un état initial vers un état final
Etat initial, imposé
Etat final, après
oscillation
Modèle de Hopfield : évolution à énergie décroissante
• A l’instant t, on tire (au hasard, ou...) l ’unité i :
• D’où la variation d’énergie :
• Donc, les variations d’énergies sont négatives :
+
=
≥
−
=
<
. 1 ,
0 si
, 1 ,
0 si
i i
i i
v h
v
∑
h=
j
j ij
i T v
h
i i i
i j
j ij i j i
i j
ijv v T v v h v
T
E ∆ = − ∆
=
∆
−
=
∆
∑∑ ∑
≠
≠ 2
1 2
1 2
1
≤
∆
−
=
∆
<
≤
∆ +
=
∆
≥
. 0 donc
, 0 ou 2 ,
0 si
0 donc
, 0 ou 2 ,
0 si
E v
h
E v
h
i i
i i
Modèle de Hopfield : mémoire associative
• On veut mémoriser m états :
• On construit une énergie qui est minimale pour ces états :
• Si les états sont orthogonaux :
• En identifiant l’énergie avec celle du réseau :
) , , ( et
) , , (
avec
2 , ) 1
( 1 1
2
1
Nk k
k N T
m
k j i
k i
i v I v v I v v
v I
E = L = L
−
=
∑ ∑
= ≠
Im
I1,L,
Ik k l v v kl N
N
i
il
ik = δ
∀
∑
=1
, ,
2 , 2
1 2
) 1 ( , Si
2 2 ,
, 1 2
1 1, ,
v N v v
v I
E I
I
N i
ij ij m
k i N
ij ik
j = −
−
=
−
=
≈
∑ ∑ ∑
=
= = L L
∑
∑ ∑
∑∑
=
−
=
−
=
=
= ≠ k
kj ik ij
k i N
k i i N
i j i
i j
ijv v v v T v v
T I
E , on a
2 1 2
) 1 (
2
, , 1
1 L
Modèle de Hopfield : minima locaux
Minimum global Minimum local
Remède : recuit simulé, adjonction de bruit
Modèle de Hopfield : minima locaux
• Modification de la règle d’évolution
• T = 0°K : agitation thermique nulle : RND = 0
• T > 0°K : la variance de RND augmente avec T
• L’ajout de RND permet de modifier la règle d’évolution :
T croissant
h
iv
iT = 0°K
∑
≠+
=
i j
j ij
i T v RND
h
! 0 et
négatif être
peut ,
0
si =
∑
>∑
+ ∆ >≠ ≠
E RND
v T v
T h
i
j j i
j ij j
ij i
Modèle de Hopfield : application à l’optimisation combinatoire
• Problème du voyageur de commerce
(Hopfield et Tank, Biol. Cyb., 1986):
– trouver un tour parmi les plus court passant par chaque ville une fois et une seule
– N villes notées : T1 , T2 ... TN
– Ordre dans le tour noté 1, 2, … N
• Codage du réseau
– N x N unités, – Interactions :
– Energie du réseau
V i l l e s
1 2 N
T1
TN V i l l e s
1 2 N
T1
TN
l Tk j Ti l Tk j
Ti v v
W I
E , ; , , ,
2 ) 1
( = −
∑∑
l Tj j
WTi, ; ,
Modèle de Hopfield : application à l’optimisation combinatoire
• Apprentissage des poids des connexions :
– On construit une forme quadratique (similaire à une énergie) qui est minimale pour les bons tours
–
• En identifiant E(I) = F(I), on trouve les poids :
∑ ∑ ∑
∑∑
∑∑ ∑
∑∑∑
≠
− +
≠
≠
−
−
+ −
−
−
−
=
Tk Tj Tk i
i Tj i
Tj i Tk i Tj
i Tj
i Tj Tk Tj
i Tk i Tj
Tk i j i
i Tk j Tk
v v
v Tj Tk d v N
v v v
v I
F
) (
) , 2 (
2 ) 1 (
2
2 ) 2
(
1 , 1
, ,
2 ,
, , ,
,
δ γ
β α
, ....
;
,j Tj l = WTi
Modèle de Hopfield : application à l’optimisation combinatoire
• Résultats du problème à 10 villes
(Hopfield et Tank, Biol. Cyb., 1986):
Exemples Histogramme de des
quelques longueurs tours
• Complexité : N villes, N2 unités, N4 connexions,