2 L’algorithme des Cartes Topologiques de Kohonen (KH)

(1)

NOUVEAUX RESULTATS THEORIQUES CONCERNANT LES CARTES TOPOLOGIQUES

Gilles BUREL¹

Thomson CSF, Laboratoires Electroniques de Rennes, Avenue de Belle Fontaine, 35510 Cesson-Sévigné

RESUME :

L’algorithme d’auto-organisation de Kohonen, connu sous le nom d’algorithme des “cartes topologiques”, a été largement mis en œuvre sur diverses applications. Cependant, peu d’études théoriques du point de vue du traitement du signal ont été proposées. Notre objectif est de présenter des résultats théoriques susceptibles d’aider à la compréhension et à la mise en œuvre de cet algorithme. L’attention est portée sur l’interprétation comme algorithme de minimisation d’une fonction de Lyapounov, et des algorithmes similaires, plus proches des algorithmes traditionnels de Quantication Vectorielle sont proposés. Finalement, des résultats expérimentaux obtenus sur des données extraites d’images sont présentés.

ABSTRACT :

Kohonen’s self-organization algorithm, known as “topologic maps algorithm”, has been largely used in many applications. However, few theoretical studies from a signal processing point of view have been proposed. Our objective is to provide mathematical results that help to understand its properties. Emphasis is put on the interpretation as a Lyapunov function minimization algorithm, and similar algorithms, closer to classical Vector Quantization algorithms are proposed. Finaly, experimental results obtained on image data are presented.

MOTS-CLES : Algorithme de Kohonen, Réseaux de Neurones, Auto-Organisation, Cartes Topologiques, Quantication Vectorielle.

KEYWORDS :

Kohonen’s Algorithm, Neural Networks, Self-Organization, Topologic Maps, Vector Quantization.

1nouvelle adresse : UBO/LEST, BP 809, 29285 Brest cedex

(2)

1 Introduction

L’algorithme d’auto-organisation de Kohonen (Kohonen,1984) est un algorithme de quantication vectorielle possédant d’intéressantes propriétés de conservation de la topologie. Cet algorithme, également connu sous le nom d’algorithme des cartes topologiques, a été mis en œuvre dans diverses applications (Burel,1991 ; Burel &

Pottier,1991 ;Hemani,1990 ;Martinelli,1990). Toutefois, il a été très peu étudié d’un point de vue théorique (Kohonen,1984), ce qui limite son usage par les chercheurs de formation

“Traitement du Signal”.

Nous présentons de nouveaux résultats théoriques qui aident à la compréhension des propriétés de l’algorithme de Kohonen, et nous proposons des algorithmes équivalents, plus proches des algorithmes classiquement utilisés en traitement du signal.

L’article est organisé comme suit. L’algorithme des cartes topologiques et les algorithmes traditionnels de quantication vectorielle sont rappelés dans les sections 2 et 3. Dans la section 4, une analyse de l’état d’équilibre des cartes topologiques nous conduira à proposer un nouvel algorithme : VQN (Vector Quantization with Neighbourhood), plus proche des algorithmes classiques, mais possédant les mêmes propriétés topologiques que l’algorithme de Kohonen. Dans le section 5, nous montrons que, sous une condition d’organisation sufsante, l’algorithme de Kohonen et VQN minimisent une fonction de Lyapounov.

Ensuite, nous proposerons une légère modication de ces algorithmes, qui permet de lever la condition. Enn, dans la section 6, nous présentons des résultats expérimentaux obtenus sur des données image. Nous comparons notamment la convergence des différents algorithmes présentés dans l’article.

2 L’algorithme des Cartes Topologiques de Kohonen (KH)

Le modèle des cartes topologiques est inspiré d’une structure neuronale présente dans certaines aires corticales (g 1). Les neurones sont organisés en couches, et, à l’intérieur de chaque couche, chaque neurone émet des connexions excitatrices vers ses voisins les plus proches, et des connexions inhibitrices vers les neurones plus éloignés. Tous les neurones recoivent les mêmes entrées.

Kohonen a simulé le comportement de ce type de structure, et a montré qu’il peut être approximé par l’algorithme suivant. Considérons un réseau de M neurones, et notons K

(3)

sorties

entrees

FIG. 1: Le modèle des cartes topologiques (1D)

le nombre d’entrées, et x; [x₁x₂ x_K]^T un vecteur d’entrée. Les vecteurs d’entrée sont extraits d’un ensemble d’apprentissage A. Cet ensemble contient cardAvecteurs.

Chaque neurone est caractérisé par un vecteur de poids W;j [W₁_jWK j]^T, où j est le numéro du neurone. En réponse à un vecteur d’entréex;, le neurone pour lequel la distance quadratiqueP ;W_j ;xP² est minimale est appeléneurone vainqueur. Nous noterons O_j la sortie du neurone j :

Oj P ;Wj ;xP²

;K i1

Wi jxi²

L’algorithme d’apprentissage est le suivant (t est l’indice d’itération etT le nombre total d’itérations) :

1. t 0

Initialisation des vecteurs poids ;W₁W;₂ W;_M 2. n 1

Choix aléatoire d’une permutationI de l’ensemble12 cardA 3. Présentation du vecteurx;Inen entrée.

4. Calcul des sorties des neurones :O_j

5. Determination du vainqueur (neuronekqui a la plus faible sortie) 6. Modication des poids :

W;_j :_jkt[x; ;W_j] (1)

(4)

7. n n1

SinncardA, aller en (3) 8. t=t+1

Sit T aller en (2)

Les coefcients:jktsont de la forme:tdjk. La distanceddétermine la dimension du réseau. Pour les réseaux 1D, nous avons djk j k, et nous proposons de prendre un voisinage gaussien, qui donne de meilleurs résultats en pratique que le voisinage uniforme proposé par Kohonen :

:jkt:0e

jk2 2J2

t (2)

La constante :0 est nommée “vitesse d’apprentissage”. Kohonen suggère des valeurs de l’ordre de 10¹. L’écart typeJ_t décroît avect selon une loi exponentielle :

Jt J0

tJT1

J0

u_T1^t

Il est clair qu’à chaque modication des poids, le vainqueur et ses voisins vont déplacer leurs vecteurs poids en direction du vecteur d’entré x;. Par conséquent, la dynamique du réseau peut être vue comme le résultat d’une force externe (adaptation aux vecteurs d’entrée), et d’une force interne (les relations de voisinage, qui forcent des neurones voisins à avoir des poids voisins). Kohonen a validé son algorithme sur des données issues du traitement de la parole, et a montré que les neurones s’organisent automatiquement de manière à représenter au mieux les phonèmes, tout en préservant les relations topologiques (des neurones voisins répondent à des phonèmes de sonorités voisines).

On peut illustrer les propriétés du réseau de Kohonen sur un exemple simple. Supposons que le vecteur d’entrée soit de dimension 2 et que ses composantes correspondent aux coordonnées d’un point tiré au hasard à l’intérieur d’un triangle On réalise l’apprentissage en présentant un grand nombre de tels vecteurs. Comme chaque neurone a deux poids, on peut représenter les neurones par des points du plan. A l’issue de l’apprentissage, on constate qu’ils respectent une disposition du type de celle qui est représentée sur lagure 2. Le réseau de neurones, qui peut être considéré comme une courbe monodimensionnelle a donc réalisé une approximation d’une partie d’un espace à deux dimensions (le triangle).

L’algorithme de Kohonen peut également s’appliquer pour un réseau de neurones de dimension supérieure. Par exemple, pour un réseau à deux dimensions, les neurones sont distribués dans un plan et les relations de voisinage correspondent au voisinage bidimensionnel (g 3).

(5)

x y

FIG. 2: Auto-Organisation dans un triangle

neurone

entrees voisinage

FIG. 3: Le modèle des Cartes Topologiques (2D)

Pour la clarté de la présentation, seuls les réseaux de dimension 1 sont considérés dans la suite. La généralisation aux dimensions supérieures est aisée car la dimension du réseau est entièrement déterminée par les valeurs des coefcients :jk. Il suft donc de

(6)

remplacerjkpardjkdans l’équation 2, oùdest la distance entre les neurones jetk.

On prendra garde dans la suite à ne pas confondre la dimension du réseau (déterminée par les :jk) et la dimension des entrées (K), de même que la distance entre les neurones (j ken 1D) et la distance entre les poids des ces neurones (P ;W_j ;W_kP).

3 Algorithmes classiques de quantication vectorielle

La quantication vectorielle (Gray,1984) peut être vue comme une fonction : q :4^K W

x; ;x

où W

QW;₁ W;_MR

est un ensembleni de vecteurs de 4^K. Les vecteurs W;_j seront appelés “prototypes”, et nous noterons D_j le domaine contenant les vecteurs x; qui ont pour imageW;j.

La fonction q peut être décomposée en un encodeur (classieur) et un décodeur (recherche du prototype de la classe) :

q :4^K 12 M W

x; j ;x ;W_j qx;

Pour une application de compression d’image, ce vecteur x; sera un bloc d’image (par exemple un bloc 3x3). Donc, l’encodage transforme le vecteur d’entréex; en un nombre j, et le décodage utilise j pour générer le vecteurx; ;W_j .

Pour la compression, une image est décomposée en blocs carrés disjoints, et chaque bloc est encodé. Pour la reconstruction, chaque bloc est remplacé par le prototype correspondant.

Notre objectif est bien entendu que x; soit une bonne représentation de x;, au sens de la métrique choisie. Si l’on utilise la métrique euclidienne, une bonne mesure de la qualité de la quantication réalisée est l’erreur quadratique moyenne :

e_{Q M} EQ

P;x ;xP

2R

L’espérance mathématique sera en pratique remplacée par une moyenne sur un ensemble d’apprentissage A. Cet ensemble est supposé assez grand pour bien représenter les statistiques du problème.

(7)

e_{Q M} 1 cardA

;

x;+A

P;x ;xP²

On ne connait pas d’algorithme conduisant toujours à la solution optimale. La seule stratégie connue consiste à résoudre alternativement les 2 problèmes suivants :

1. Quand les prototypesW;_j sontxés, comment choisir au mieux les domaines D_j? 2. Quand les domaines D_j sontxés, comment positionner au mieux les prototypesW;_j? Solution au problème 1 :

Pour minimiser l’erreur quadratique, le vecteur x;doit être le prototype le plus proche de

;x. Les domaines D_j doivent donc être tels que : D_j

Q

x; +Atels que1< / jP;x ;W_jP²P;x ;W_<P² R

Solution au problème 2 :

L’erreur quadratique moyenne peut s’écrire : eQ M 1

cardA

;M j1

;

x;+D_j

P;x ;WjP²

Le prototype W;j doit donc être le vecteur qui minimise 3

x;+DjP;x ;WjP². On peut aisément montrer que la solution est le barycentre de la classe j :

W;_j 1 cardD_j

;

;x+D_j

x;

Algorithme :

Ceci nous conduit à l’algorithme d’apprentissage suivant, connu sous le nom d’algorithme des “k-means” (MacQueen,1967). On notet l’indice d’itération.

1. t 0

Initialisation : choix aléatoire (ou guidé) de ;W₁W;₂ W;_M 2. Mise à jour des domainesD_j

(8)

3. Remplacer chaque prototypeW;_j par le centre de gravité de D_j. 4. t t1

Sit T aller en (2)

On vérie aisément que l’erreur quadratique moyenne ne peut que diminuer à chaque itération. En effet, dans les étapes (2) et (3), les mises à jours se font selon les solutions optimales présentées plus haut.

Par contre, on n’est pas à l’abri d’un piégeage dans un minimum local de l’erreur quadratique. Pour réduire ce risque, Linde, Buzo et Gray ont proposé un algorithme qui inclut sa propre initialisation (Linde,1980). Cet algorithme, que nous nommerons LBG, consiste à faire tourner les “k-means” en augmentant progressivement la valeur de M. A chaque étape, M est multiplié par 2 et les prototypes sont perturbés par un vecteur P; [EEE]^T, ouE est un réel positif proche de zéro (d’où le nom d’initialisation par

“splitting”, souvent employé).

1. M 1,W;10bar ycentreA, t=0 2. t=t+1

Pour j=1 à M faire :

W;₂_jt ;W_jt1 ;P W;2j1t ;Wjt 1 ;P Multiplier M par 2

3. Faire tourner les k-means surT itérations.

4. Tant que M n’a pas atteint la valeur souhaitée, aller en (2)

4 Algorithme VQN

4.1 Idées générales

L’algorithme de Kohonen présente l’intérêt de conserver la topologie. Un problème lié à cet algorithme est le choix de la vitesse d’apprentissage (:0). Pour contourner ce problème, nous proposons un nouvel algorithme d’apprentissage qui ne nécessite pas de paramètre

“vitesse d’apprentissage”. L’idée consiste à s’inspirer de l’algorithme des “k-means”, et d’y introduire un voisinage entre les classes. On noteraA l’ensemble d’apprentissage, et l’erreur quadratique moyenne est estimée par :

(9)

e_{Q M} 1 cardA

;

x;+A

P;x ;xP²

L’algorithme proposé possède le même état d’équilibre que l’algorithme de Kohonen, et peut donc être considéré comme similaire. En particulier, il présente les mêmes propriétés de conservation de la topologie.

4.2 Etat d’équilibre de l’algorithme de Kohonen

Si les:_jk ne varient pas avec le temps, le réseau va se stabiliser dans un état tel que : 1j E_x_;_+AW;j ;0 (3) En pratique, les :jk varient très lentement, et on peut supposer que le réseau est en permanence proche de cet état. Nous dirons que le réseau est en état de “quasi-équilibre”.

Nous nommerons D_j l’ensemble suivant :

D_j ;x +A 1l / j P;x ;W_jP² P;x ;W_lP²

et nous désignerons parkx;l’indice du vecteurW;j le plus proche dex. En combinant les; équations 1 et 3, on obtient :

W;_j 1

E_x_;_+A:_jk_x_; E_x_;_+A:_jk_x_;x;

En notant p_k la probabilité pour qu’un vecteur x; appartienne au domaine D_k, et b;_k le barycentre de D_k, on a :

E_x_;_+A:jkx;

;M k1

:jkp_k

E_;_x_+A:jkx;x;

;M k1

E_;_x₊_D_k:jkx;p_k

;M k1

:jkpkb;k

D’où

W;j 3M

k1:jkp_kb;_k 3M

k1:jkp_k

(4)

(10)

4.3 Description de l’algorithme

L’algorithme proposé est le suivant (on notet l’indice d’itération) : 1. t 0

Initialisation des prototypes ;W1W;2 W;_M 2. Mise à jour des domainesDk :

D_k Q

x;+Atels que1j /kP;x ;W_kP²P;x ;W_jP² R 3. Mise à jour des poids :

W;_j 3M

k1:jkp_kb;_k 3M

k1:jkpk

4. t t1

Sit T aller en (2)

On rappelle que :jkt :0e^j^k

2

2Jt . En conséquence, le choix de la vitesse d’apprentissage :0 est sans importance car il intervient aussi bien au numérateur qu’au dénominateur dans l’équation de mise à jour des poids.

Si les:jk ne varient pas trop vite, on peut admettre que l’algorithme est en permanence en état de quasi-équilibre, c’est à dire que les classes et les prototypes sont simultanément à jour. Dans ce cas, notre algorithme est très proche de l’algorithme de Kohonen.

(11)

5 Interprétation comme algorithme de minimisation d’une fonction de Lyapounov

5.1 Quelques résultats théoriques

Propriété 1 : Propriété du barycentre : E_x_;₊_D_kQ

P;x ;W_lP² R

P ;W_l ;b_kP²E_;_x₊_D_kQ

P;x ;b_kP² R

Démonstration : E_x_;₊_D_kQ

P;x ;WlP² R

E_;_x₊_D_kQ

Px; ;bkb;k ;WlP² R E_;_x₊_D_kQ

P;x ;b_kP² R

P ;W_l ;b_kP²2E_;_x₊_D_kQ

x; ;b_kb;_k ;W_lR E_;_x₊_D_kQ

P;x ;b_kP² R

P ;W_l ;b_kP² 2r

E_x_;₊_D_k;xb;_k E_x_;₊_D_k;xW;_l ;b_kb;_k ;b_kW;_ls E_;_x₊_D_kQ

P;x ;b_kP² R

P ;W_l ;b_kP²

Propriété 2 :

Lorsque le réseau est sufsamment organisé, l’algorithme de Kohonen et l’algorithme VQN sont des algorithmes de minimisation de la fonction de Lyapounov suivante :

e_{Q M V}

;M l1

;M k1

:klp_kE_;_x₊_D_kQ

P;x ;W_lP² R

Démonstration :

Lorsque les classes D_k sontxées, minimisere_{Q MV} revient à minimiser : e⁾_{Q M V}

;M l1

;M k1

:_klp_kQ

P ;W_l ;b_kP² R

car d’après la propriété 1 : E_x_;₊_D_kQ

P;x ;WlP² R

P ;Wl ;bkP²E_;_x₊_D_kQ

P;x ;bkP² R

(12)

Les dérivées partielles dee⁾_{Q M V} par rapport aux poids s’écrivent :

"e⁾_{Q M V}

"W_{i j} "

"W_{i j} _M

;

k1

:k jp_kP ;W_j ;b_kP²

"

"W_{i j} _M

;

k1

:k jpkWi j bik²

2

;M k1

:_{k j}p_kW_{i j} b_ik

En annulant ces dérivées, on obtient :

W;_j 3M

k1:k jpkb;k

3M k1:k jp_k

Ce qui correspond bien à l’étape 3 de l’algorithme VQN, car:jk :k j.

Lorsque les poids sontxés,e_{Q M V} peut s’écrire :

e_{Q M V} ;

lk

:klcard Dk

cardA 3

x;+DkP;x ;W_lP² card D_k

1 card A

;

x;+A

;M l1

:_k_xl_; P;x ;W_lP²

Pour chaque vecteurx;, on doit donc minimiser :

;M l1

:k;xlP;x ;W_lP²

On a vu que, pour les réseaux mono-dimensionnels, :kl :k l. Nous poserons à présent :

h_k_l :kl

fl P;x ;WlP²

Le terme à minimiser s’écrit alors (en désignant par “`” le produit de convolution) :

;

l

:_klP;x ;W_lP² ;

l

h_k_lf_l

h` fk

(13)

apres filtrage avant filtrage

minimum

f(l)

l

FIG. 4: Effet dultrage sur un réseau faiblement organisé

minimum

f(l)

l

FIG. 5: Effet dultrage sur un réseau bien organisé

Pour minimisere_{Q MV}, on doit donc associerx;au domaine D_k tel quek soit la position du minimum de f après ltrage parh. Avec la forme que nous avons proposée pour les:_kl, leltrehest unltre gaussien.

Mais l’étape 2 de l’algorithme VQN affecte x; au domaine D_k tel que k est la position du minimum de f avant ltrage. L’algorithme VQN et l’algorithme de Kohonen ne

(14)

peuvent donc rigoureusement être considérés comme des algorithmes de minimisation de e_{Q M V} que lorsque ces 2 minima sont confondus. Ceci sera le cas si le réseau est bien organisé, c’est à dire si les poids de neurones voisins sont assez proches. Lesgures 4 et 5 illustrent cet énoncé. Normalement, après quelques itérations de l’algorithme, les neurones commencent effectivement à s’organiser, et l’on peut donc sans grand risque d’erreur interpréter ces algorithmes comme des algorithmes de minimisation de eQ M V. De plus, l’initialisation des poids est généralement effectuée de telle sorte que l’organisation soit effective dès le début, et cette propriété est conservée durant l’apprentissage.

5.2 Deux algorithmes de minimisation de e

_QMV

L’objet de ce paragraphe est de proposer deux algorithmes qui minimisent rigoureusement la fonction de LyapounoveQ M V.

Algorithme de Kohonenltré (KHf) 1. t 0

Initialiser les vecteurs poidsW;_j [W₁_j W_{K j}]^T 2. n 1

Tirer une permutation aléatoireIde l’ensemble12 cardA 3. Présenter le vecteurx;Inà l’entrée du réseau

4. Calculer les sortiesOj des neurones 5. Filtrer les sorties parhkl :klt

6. Déterminer le neuronekdont la sortieltrée est la plus faible 7. Modier les poids conformément à :

W;_j :jkt[x; ;W_j] 8. n n1

SinncardA, aller en (3) 9. t t1

Sit T, aller en (2) Algorithme VQNltré (VQNf)

1. t 0

Initialisation des prototypes ;W1W;2 W;_M

(15)

2. Mise à jour des domainesD_k : D_k

x; +Atels que1j /k

;M l1

:klP;x ;W_lP²

;M l1

:jlP;x ;W_lP²

3. Mise à jour des prototypes :

W;_j 3M k1

:_jkp_kb;_k

3M k1

:_jkp_k

4. t t1

Sit T aller en (2)

1

x2

x x

b

a

filtrage avant filtrage

apres

FIG. 6: Effet dultrage sur le choix du vainqueur

La gure 6 illustre la différence, sur un cas où les entrées sont de dimension 2, entre les algorithmes ci-dessus et les algorithmes de Kohonen et VQN. Le vecteur x;représenté sur cettegure sera associé au neurone (a) avec les algorithmes de Kohonen et VQN, car ce neurone est le plus proche de ;x. Par contre, avec les algorithmes ci-dessus, il sera associé au neurone (b). Ce neurone n’est pas le plus proche de x;, mais il est soutenu par son voisinage qui forme autour de lui un bloc relativement proche dex;. En d’autres termes, la

(16)

distanceltrée entre (b) etx;est plus faible que la distanceltrée entre (a) etx;.

D’un point de vue intuitif, on pourrait penser que ces 2 derniers algorithmes vont converger plus vite que les algorithmes de Kohonen et VQN. En effet, les neurones trop éloignés de leurs voisins vont être défavorisés, et vont donc revenir rapidement à proximité de ces voisins. En conséquence, l’organisation du réseau serait plus rapide.

5.3 Forme approchée de e

_{Q MV}

Lorsque l’inuence du voisinage n’est pas trop importante (i.e. l’écart type de la gaussienne n’est pas trop fort), les vecteurs W;_k sont proches des barycentres (;b_k) de leurs domaines respectifs (D_k). On a alors l’approximation suivante poure_{Q MV} :

e_{Q M V}

;M l1

;M k1

:klp_kE_x_;₊_D_kP;x ;W_lP²

;M l1

;M k1

:klp_kr

P ;W_l ;b_kP²E_x_;₊_D_kP;x ;b_kP² s

;M l1

;M

k1k/l

:_klp_kP ;W_l ;W_kP²

;M l1

r:_llp_lP ;W_l ;b_lP²:_llp_lE_x_;₊_D_lP;x ;b_lP² s

;M l1

;M

k1 k/l

:_klp_kE_x_;₊_D_kP;x ;b_kP²

;M l1

;M

k1 k/l

:klp_kP ;W_l ;W_kP²

;M l1

:llp_lP ;W_l ;b_lP²

;M k1

_M

;

l1

:kl

p_kE_;_x₊_D_kP;x ;b_kP²

Cette formule approchée fait apparaître un terme dépendant des distances entre les prototypes. Les propriétés de conservation de la topologie des algorithmes précédents apparaissent donc explicitement.

(17)

6 Résultats expérimentaux

Nous présentons ci-dessous des résultats expérimentaux obtenus sur des données image, avec des entrées de dimension 2 et des réseaux de dimension 1, ce qui présente l’avantage de permettre une visualisation aisée des résultats.

L’ensemble d’apprentissage A contient 4092 vecteurs de dimension K 2. Il s’agit de blocs de 2x1 pixels extraits d’une image (les composantes d’un vecteur sont donc les luminancesl1 etl2 des 2 pixels du bloc). L’image est à 256 niveaux de gris. La gure 7 représente la densité de probabilité conjointe pl₁l₂. Une image contient beaucoup de zones uniformes, d’où une forte densité sur la diagonale (l1 l2).

FIG. 7: Densité de probabilité pour des blocs image 2x1

Les expérimentations ont été menées avec M 32 prototypes. Le nombre d’itérations accordées est T 100. Pour les algorithmes présentant une notion de voisinage, on a J0 40 etJT1 02. L’initialisation des prototypes est réalisée comme suit (sauf pour l’algorithme LBG qui possède sa propre initialisation) :

1i j W_{i j} 255j1 M 1 b_{i j} b_{i j} est un bruit de densité uniforme entre5 et5.

Les gures 8 et 9 permettent de comparer les courbes d’apprentissage de divers

(18)

VQN KH (0.10) KH (0.02) E_ms

0 45

iteration

100 183

FIG. 8: Comparaison des courbes d’apprentissage : Kohonen (KH) et VQN

algorithmes. On représente l’évolution de l’erreur quadratique moyenne (et non dee_{Q M V}, car cela n’aurait pas de sens pour les algorithmes classiques).

La gure 8 permet de comparer les courbes d’apprentissage de l’algorithme de Kohonen (pour :₀ 002 et :₀ 010) et de l’algorithme VQN. Une assez forte vitesse d’apprentissage (:₀ 010) conduit à un apprentissage relativement bruité et à un résultat

nal moins bon. La valeur:0 002, qui correspond au meilleur choix que nous ayons pu obtenir, conduit à une courbe d’apprentissage très proche de VQN, ce qui conrme la similarité des deux algorithmes. L’intérêt de VQN est qu’il ne nécessite pas le réglage de la vitesse d’apprentissage.

La gure 9 permet de comparer les courbes d’apprentissage des algorithmes VQN, VQNf, “k-means”, et LBG. L’état initial est le même pour tous les algorithmes (et correspond à e_{Q M} 1618), sauf pour LBG qui a effectué au préalable 80 itérations

(19)

k-means

VQNf LBG

VQN VQNf E_ms

iteration 45

0 100

175

FIG. 9: Comparaison des courbes d’apprentissage : k-means, LBG, VQN et VQNf avec des valeurs croissantes de M, an de créer son état initial. L’observation de ces courbes montre que les algorithmes classiques convergent plus vite que VQN et VQNf (qui sont limités par la vitesse de décroissance du voisinage). Par contre, les algorithmes topologiques conduisent à une meilleure solution en n d’apprentissage. Les intéractions topologiques ont donc pour effet de réduire le risque de piégeage dans un minimum local de l’erreur quadratique.

En dimension 2, il est possible de représenter les vecteurs W;_j par des points du plan. Sur lagure 10, on a représenté l’état de ces vecteurs enn d’apprentissage pour les différents algorithmes. Des segments relient W;_j à W;_j₁ an d’indiquer la topologie. L’état initial était relativement organisé, et l’algorithme des “k-means” a partiellement conservé cette organisation, bien que cet algorithme ne tienne pas compte du voisinage. Les algorithmes KH, VQN et VQNf présentent une bonne organisation topologique (sauf pour KH lorsque

(20)

la vitesse d’apprentissage est trop élevée).

Le tableau ci-dessous indique les valeursnales dee_{Q M} pour ces différents algorithmes :

algorithme eQ M

VQNf 50.60

VQN 51.59

KH(0.02) 51.61 KH(0.10) 54.38

LBG 54.84

k-means 57.57

Il est intéressant de voir dans quelle mesure ces algorithmes sont capables de se réorganiser lorsque l’état initial est totalement désordonné. Pour cela, on a initialisé les vecteursW;_{i j} comme suit :

1i j W_{i j} b⁾_{i j}

où b⁾_{i j} est un bruit de densité uniforme entre 0 et 255. La gure 11 indique l’état initial, ainsi que les états atteints par les différents algorithmes. LBG n’est pas représenté car il possède sa propre initialisation, et conduit donc au même résultat que sur lagure 10.

7 Conclusion

Nous avons établi des résultats théoriques qui aident à la compréhension des remarquables propriétés de l’algorithme de Kohonen (KH). L’accent a été mis sur l’interprétation du point de vue de la minimisation d’une fonction de Lyapounov. Nous avons montré que l’algorithme de Kohonen minimise une telle fonction, sous réserve d’une organisation sufsante du réseau. Nous avons proposé une légère modication de l’algorithme de Kohonen an d’obtenir un algorithme (KHf) qui minimise inconditionnellement une fonction de Lyapounov. Nous avons également proposé des algorithmes similaires (VQN et VQNf) qui présentent les mêmes propriétés topologiques que l’algorithme de Kohonen, et permettent de plus d’éviter le réglage d’une vitesse d’apprentissage.

Une comparaison expérimentale de diverses stratégies de quantication vectorielle a été réalisée sur des données image. Cette comparaison montre que les algorithmes topologiques (KH, KHf, VQN, et VQNf) convergent plus lentement que les

(21)

algorithmes classiques (k-means et LBG), mais aboutissent à un meilleur état

nal. De plus, la conservation de la topologie est une propriété tout à fait remarquable, qui peut être mise à prot avec succès dans diverses applications (Burel1991 Hemani1990Martinelli1990 K ohonen1984).

REFERENCES

Burel, G. (1991)

“Réseaux de Neurones en Traitement d’Images : des modèles théoriques aux applications industrielles”

Thèse de doctorat, Université de Brest, 6 décembre 1991 Burel, G., & Pottier, I. (1991)

“Vector Quantization of Images using Kohonen algorithm : Theory and Implementation”

Revue Technique Thomson CSF, vol 23,n^o1, mars 1991 Gray, R.M. (1984)

“Vector Quantization”

IEEE ASSP Magazine, April 1984 Hemani90, A., & Postula, A., (1990)

“Cell placement by self-organization”

Neural Networks, vol 3,n^o4, 1990 Kohonen, T., (1984)

“Self-Organization and Associative Memory”

Springer-Verlag, 1984

Linde, Y., Buzo, A., & Gray, R.M., (1980)

“An algorithmm for Vector Quantizer design”

IEEE Trans. on Communications, vol 28,nⁱ1, January 1980 Mac Queen, J., (1967)

“Some methods for classication and analysis of multivariate observations”

Proc. of thefth Berkeley Symposium on Math., Stat. and Prob.

Vol 1, pp 281-296, 1967

Martinelli, G., Ricotti, L.P., & Ragazzani, S., (1990)

“Nonstationary lattice quantization by self-organizing neural network”

Neural Networks, vol 3,n^o4, 1990

(22)

VQN VQNf

KH(0.10) KH(0.02)

LBG k-means

FIG. 10: Etat des prototypes enn d’apprentissage (initialisation diagonale)

(23)

VQN VQNf

KH(0.10) KH(0.02)

init k-means

FIG. 11: Etat des prototypes enn d’apprentissage (initialisation uniforme)

(24)

Table des matières

1 Introduction 2

2 L’algorithme des Cartes Topologiques de Kohonen (KH) 2 3 Algorithmes classiques de quantication vectorielle 6

4 Algorithme VQN 8

4.1 Idées générales . . . 8 4.2 Etat d’équilibre de l’algorithme de Kohonen . . . 9 4.3 Description de l’algorithme . . . 10

5 Interprétation comme algorithme de minimisation d’une fonction de Lyapou-

nov 11

5.1 Quelques résultats théoriques . . . 11 5.2 Deux algorithmes de minimisation dee_{Q M V} . . . 14 5.3 Forme approchée dee_{Q M V} . . . 16

6 Résultats expérimentaux 17

7 Conclusion 20

(25)

Table des gures

1 Le modèle des cartes topologiques (1D) . . . 3

2 Auto-Organisation dans un triangle . . . 5

3 Le modèle des Cartes Topologiques (2D) . . . 5

4 Effet dultrage sur un réseau faiblement organisé . . . 13

5 Effet dultrage sur un réseau bien organisé . . . 13

6 Effet dultrage sur le choix du vainqueur . . . 15

7 Densité de probabilité pour des blocs image 2x1 . . . 17

8 Comparaison des courbes d’apprentissage : Kohonen (KH) et VQN . . . . 18

9 Comparaison des courbes d’apprentissage : k-means, LBG, VQN et VQNf . 19 10 Etat des prototypes enn d’apprentissage (initialisation diagonale) . . . 22

11 Etat des prototypes enn d’apprentissage (initialisation uniforme) . . . 23