• Aucun résultat trouvé

Quelques modèles classiques

i v Connexions locales, poids partagés

2.3 Quelques modèles classiques

Quelques modèles connexionnistes connus sont présentés dans cette section. Pour chaque modèle, on décrit non seulement l’organisation des unités en réseaux, mais aussi leurs algorithmes d’apprentissage.

1 Cybenko G.: Approximation by Superpositions of a Sigmoidal Function. Math. Control Systems Signals, vol 2, pp 303-314 (1989)

2.3.1 Perceptrons et Adalines.

Le perceptron et l’adaline sont les deux grandes tendances du début des années 60. Ils illustrent deux problématiques différentes, mais aboutissant à deux algorithmes extrêmement ressemblants.

2.3.1.1 Le Perceptron.

Introduit en 1957 par Rosenblatt [1], le perceptron est composé:

D’une rétine dont le rôle est de capter l’information brute

x

de l’extérieur.

D’une aire d’association qui effectue des prétraitements sur les données de la rétine. Ces prétraitements peuvent être représentés par une fonction

ϕ(x)

quelconque

.

Et d’une unité de décision, chargée d’effectuer une classification sur ces données. Cette unité de décision est un automate linéaire à seuil. C’est la seule partie du perceptron soumise à l’apprentissage, grâce à un dérivé de la règle du Delta.

ϕ

rétine

aire d'association

unité de décision

Fig 2.8 - Un perceptron.

L’algorithme d’apprentissage du perceptron ne repose pas sur une mesure quadratique de la distance (2.6), mais sur le fonction

C

x

= − (S

*

- 1 1

+

( w

T

ϕ(x)) ) w

T

ϕ(x) (2.13)

qui présente la propriété d’être nulle dès que l’exemple

x

est bien classé, et positive dans le cas contraire. Comme dans le cas de la règle du Delta, en dérivant cette distance, et en négligeant la discontinuité de la fonction de Heaviside, on obtient la règle du Perceptron:

1 Rosenblatt F.: The Perceptron: a perceiving and recognizing automaton - Project PARA, Cornell Aeronautical Lab. Report 85-460-1. (january˚1957)

∆w = ε (S

*

- 1 1

+

( w

T

ϕ(x)) )

.

ϕ(x) (2.14)

Cette règle d’apprentissage retenue pour l’unité de décision présente la propriété de trouver en temps fini une séparation linéaire, si c’est possible. De nombreuses démonstrations de cette convergence existent, reprises dans [1].

Signalons une propriété importante de la formule (2.14): Il n’y a d’adaptation des poids que si l’entrée

x

est mal classée. Cela signifie que l’hyperplan séparateur trouvé par le perceptron peut être fort voisin d’un exemple, provoquant alors de mauvaises classifications si les entrées sont bruitées.

De plus, lorsque la dimension de ϕ(x) augmente, les problèmes linéairement séparables deviennent plus rares. Si l’on soumet à un perceptron un problème non linéairement séparable, l’algorithme d’apprentissage ne converge plus. Il n’y a aucun moyen de trouver une solution approchée optimale.

2.3.1.2 L’Adaline.

Ces deux inconvénients majeurs du perceptron proviennent tous deux de l’impossibilité de trouver une solution optimale,

• soit lorsque le problème est linéairement séparable, en ne trouvant pas un hyperplan séparateur à égale distance des deux classes.

• soit lorsqu’il ne l’est pas, en ne convergeant pas vers une solution approchée imparfaite, mais le moins possible.

Cela est du en fait au manque de finesse de la distance (2.13), qui est identiquement nulle dès qu’il y a bonne classification.

Dans l’adaline, Widrow [2] introduisit la distance quadratique et la règle du Delta. L’algorithme d’apprentissage de l’adaline consiste donc en la simple application de la règle du Delta:

∆w = ε (S

*

- w

T

x )

.

x (2.15)

Dans certains cas, l’adaline ne trouve pas une séparation linéaire (Fig 2.9). Dans la majorité des cas, cependant, elle trouve une séparation linéaire à égale distance des classes. Si le problème n’est pas linéairement séparable, l’adaline converge tout de même vers une solution raisonnable.

1 Duda R.O., Hart P.E.: Pattern classification and Scene analysis - Wiley , (1973).

2 Widrow B., Hoff M.E.: Adaptive switching circuits - IRE WESCON Conv. record, part 4 1960, pp 96-104 (1960)

Classe B Classe A

Solution trouvée par l'Adaline Solution trouvée par le Perceptron

Fig 2.9 - Solutions trouvées par l’Adaline et le Perceptron pour un problème linéairement séparable complexe. Le Perceptron minimise le nombre d’erreur, l’Adaline détermine la

meilleure séparation robuste entre les classes.

L’algorithme de l’Adaline est certainement l’archétype des techniques utilisées pour le traitement adaptatif du signal: filtrage adaptatif, annulation d’écho, boucle à verrouillage de phase…

2.3.2 Mémoires associatives linéaires.

Les mémoires associatives linéaires ont été principalement étudiées par Kohonen [1] [2] [3].

Considérons un ensemble d’unités linéaires de sorties

y(k)

partageant les mêmes entrées

x(i)

. x(0)

x(1) x(2) x(3) x(4)

y(0) y(1) y(2)

x y

Fig 2.10 - Un associateur linéaire.

Cet ensemble permet d’effectuer des associations entre un vecteur d’entrée

x

et un vecteur de sortie

y

. On appelle cela une mémoire associative.

1 Kohonen T., Ruohonen M.: Representation of associated data by matrix operators - IEEE Trans Computers (july 1973).

2 Kohonen T.: An adaptive associative memory principle - IEEE Trans Computers (April 1974)

3 Kohonen T.: Self organisation and associative memories - Springer series in information sciences, vol 8, Springer Verlag (1984)

Lorsque les entrées doivent être associées à elles mêmes, on appelle cela une mémoire auto-associative. L’intérêt d’une mémoire auto-associative réside dans sa résistance au bruit: on espère que présenter une entrée bruitée produira en sortie une version non bruitée des entrées.

Si on dispose de

N

exemples d’associations, déterminer la matrice de poids

W

revient à résoudre le système

∀ i ∈ { 1,…N }, ˚ W x

i

= y

i

(2.16)

que l’on peut écrire à l’aide des matrices d’exemples

X

et

Y

:

W X = Y (2.17)

La matrice

X

n’est pas en général carrée, donc n’est pas en général inversible. Cependant, on démontre qu’il existe une et une seule matrice

X

+, appelée pseudo-inverse, telle que

XX

+

X = X, X

+

XX

+

= X

+

, X

+

X

et

XX

+ sont symétriques

(2.18)

On démontre également que choisir une matrice de poids

W = YX

+

+ Z ( I - XX

+

) (2.19)

Z

est une matrice quelconque de même taille que

W

, minimise l’erreur quadratique moyenne:

| ˚W ˚ X˚ - ˚ Y ˚ |

2 ˚

=˚ < ˚ (W ˚ x˚ - ˚ y )

2

˚ > (2.20)

La solution

W

de norme minimale correspond au cas

Z=0

.

Il existe un algorithme récursif, l’algorithme de Greville [1], qui permet de calculer exactement

X

+. Cependant, il est souvent plus simple d’utiliser l’algorithme de Widrow-Hoff, (i.e. règle du Delta), qui minimise en moyenne l’erreur (2.20), et consiste à itérer:

∆W = ε (y-Wx) x

T

(2.21)

(x,y)

est un exemple d’association tiré au hasard. Cette procédure ne garantit cependant pas que l’on va obtenir une solution de norme minimale.

Pour ce faire, il suffit d’ajouter à chaque itération un léger bruit gaussien sur l’entrée

x

. La valeur de la moyenne (2.20) sera donc augmentée de la variance de l’image par la matrice

W

de ce bruit gaussien, qui est minimale lorsque

W

est de norme minimale.

1 Greville T.N.E.: Some applications of the pseudo inverse of a matrix- SIAM Rev˚2, pp 15-22 (1960)

2.3.3 Réseaux de Hopfield.

Considérons maintenant un réseau d’unités à seuils totalement connectées. Le calcul de l’état d’un tel réseau pose un problème de séquencement (cf.˚§2.2.3.ii ). On appelle trajectoire l’évolution de l’ensemble des sorties des unités dans le temps. Un tel système converge-t-il vers un état stable ? Si la matrice des poids

W

est symétrique, on montre [1] que la fonction

H(s) = − s

t

W s = −

i,j

˚ w

ij˚

s

s

j

˚ (2.22)

est décroissante sur la trajectoire, aussi bien dans le cas asynchrone que dans le cas synchrone. On en conclut que l’évolution du réseau se termine toujours dans un état stable, minimum local de l’énergie

H

.

On peut mettre à profit cette propriété pour stocker

K

vecteurs d’états

s

(k), et réaliser ainsi une mémoire auto-associative. Il suffit de choisir les poids

W

de telle sorte que ces vecteurs, les prototypes, correspondent à un minimum local de l’énergie

H

.

On arrive parfois à ce résultat en appliquant la règle de Hebb, qui consiste en fait à réduire en moyenne la fonction de coût suivante

en effectuant, pour chaque exemple

k

∆w

ij

= - ∂

∂w

ij

H(s

(k)

)

=

s

(k)i

s

(k)j

En sommant cette équation sur tous les exemples, on obtient:

w

ij

= ∑

k=1 K

˚s

(k)i

˚s

(k)j ˚

(2.24)

Si

K

reste faible devant le nombre de cellules, la fonction

H

possède un minimum local par prototype. Malheureusement, lorsque

K

augmente, apparaissent des états parasites, c’est à dire des états stables autres que les prototypes.

1 Hopfield J.J.: Neural networks and physical systems with emergent collective computational abilities - P.N.A.S. USA, Vol 79, pp 2554-2558, (1982)

Ce phénomène peut être réduit en calculant les poids au moyen d’une pseudo-inverse [1]. On obtient alors un système équivalent à une classique mémoire auto-associative linéaire.

Les modèles de Hopfield ont donné lieu à de nombreux développements théoriques utilisant des méthodes empruntées à la physique statistique ([2] par exemple), visant surtout à déterminer et améliorer leur capacité, c’est à dire le nombre d’états stables possibles pour un nombre d’unités donné.

2.3.4 Perceptrons multi-couches.

2.3.4.1 La rétro-propagation du gradient

Aucun des modèles ci-dessus n’est capable de traiter correctement des problèmes non séparables linéairement. Pour s’affranchir de cette contrainte, il faut un algorithme d’apprentissage pour réseaux multi-couches. La rétro-propagation du gradient est l’un de ces algorithmes

Un certain trouble subsiste cependant quant à savoir qui l’a inventé. Les publications habituellement citées sont [3], [4] et [5]. Les équations de la rétro-propagation étaient cependant déjà enseignées en contrôle dans [6], et avait été utilisées dans [7]. En fait, l’idée de génie appartient certainement à Leibniz (1675) et Newton (1687), qui ont inventé le calcul différentiel et par conséquent ce que l’on appelle aujourd’hui “règle de dérivation des fonctions composées”.