Choix du nombre et du positionnement des noyaux

V.7 Classifieur par neurones à Fonctions Radiales de Base (RBF)

V.7.3 Choix du nombre et du positionnement des noyaux

Le positionnement des noyaux est un problème crucial dans les réseaux RBF. Le choix qui consiste à centrer un noyau sur chaque exemple de la base d'apprentissage est peu réaliste et conduit rapidement à une explosion de la taille du réseau si le nombre d'exemples d'apprentissage est important.

Là encore, comme pour la sélection de paramètres pertinents, on peut soit se servir de l'ensemble des exemples de la base d'apprentissage pour construire un nombre réduit de noyaux, soit sélectionner parmi ces exemples un sous-ensemble représentatif de l'espace des observations. Pour chaque type d'approche, diverses méthodes sont possibles. Nous proposons dans ce paragraphe d'en étudier deux sortes : l'algorithme des k-means et l'algorithme de sélection par orthogonalisation (OFR) qui a fait l'objet d'une étude détaillée dans le chapitre IV.

• algorithme des " k-means" (k-moyens)

Il s'agit d'une méthode de classification automatique non supervisée. Elle a pour but de

regrouper les N observations de la base d'apprentissage en N_c groupes (ou clusters) de sorte

que toute observation soit plus proche (au sens d'une distance donnée) des exemples appartenant à son groupe qu'à ceux appartenant aux autres groupes. A chaque groupe de la partition obtenue correspondra un noyau élémentaire du réseau RBF dont le centre sera le centre de gravité du groupe. Cet algorithme suppose néanmoins que l'on a fixé a priori le nombre de noyaux à atteindre. Les étapes suivantes sont à envisager :

- choisir au hasard N_c exemples comme étant les centres des N_c groupes

- affecter tous les exemples d'apprentissage au centre le plus proche en utilisant le plus souvent la distance euclidienne.

- calculer les nouveaux centres de gravité des groupes ainsi obtenus

- refaire les étapes 2 et 3 jusqu'à ce qu'il n'y ait plus de changement dans l'affectation des exemples.

Remarque : On peut éventuellement modifier ces règles en éclatant les groupes trop denses ou en éliminant les groupes peu riches par fusion avec un autre cluster.

Cet algorithme a l'avantage d'être simple à mettre en oeuvre. Son principal inconvénient réside dans le fait qu'il ne prend pas en compte l'étiquetage des données en classes. D'autres auteurs [MUS-92 ] proposent des algorithmes itératifs de clustering qui tiennent compte de la classe d'appartenance des exemples, ce qui permet d'obtenir des groupes d'observations issues de la même classe. Nous ne les avons pas testés sur notre application.

En positionnant les centres à l'aide de l'algorithme des k-means, il n'existe pas de règle qui permette d'ajuster le nombre de noyaux. Son optimisation reste à l'entière dispostion du concepteur qui procède généralement par une approche essai/erreur. Les performances du classifieur sont évaluées en faisant varier le nombre de noyaux élémentaires et on choisit ensuite la valeur qui assure des performances en généralisation jugées satisfaisantes.

• Positionnement des noyaux par la méthode d'orthogonalisation (OFR)

Nous nous plaçons ici dans le cadre de la sélection des N_c centres parmi les N exemples

d'apprentissage. Comme pour la sélection de paramètres, la méthode d'orthogonalisation va permettre de classer chaque observation parmi la base complète en terme de contribution à la sortie souhaitée. Chaque observation est donc initialement un centre et le réseau RBF est considéré comme un modèle de régression linéaire où la sortie souhaitée pour chaque observation de la base d'apprentissage est donnée par la relation :

S(Y_k) = w_i Φ ( Y_i− Y_k

i =1 N

∑

) + ε k

( )

k = 1,2L, N

avec ^Yi = Y

[

_i1, Y_i2, L , Y_{i d}_r

]

Relativement à l'architecture représentée figure V-18, le biais w₀ est ignoré car il ne doit pas

être classé.

Sous forme matricielle, cette équation peut se mettre sous la forme :

S = Φw + ε _(V-23)

avec w = w

[

1, w₂, L , w_N

]

^t vecteur paramètres du modèle

^Φ^{= Φ}

[

1, Φ2,L , ΦN

]

Φi =

[

Φ Y

(

₁− Y_i

)

, Φ Y

(

₂− Y_i

)

, L , Φ Y

(

_N− Y_i

)]

ε = ε(1), ε(2), L, ε(N)

[ ]

^t _{erreur résiduelle du modèle}

On se ramène ainsi à un problème de classement des régresseurs largement commenté au paragraphe IV.5 et dont on peut rappeler brièvement le principe. Dans la méthode OFR, le classement des noyaux s'effectue séquentiellement selon leur contribution à la prédiction de la sortie mesurée sur la variance. A la première itération, le noyau sélectionné est celui qui contribue le plus à la sortie. On procède ensuite, à l'aide de la procédure de Gram-Schmidt, à une orthogonalisation des noyaux restants par rapport à celui que l'on a sélectionné. On calcule à nouveau leur contribution relative et on choisit celui qui maximise la variance de la sortie. On poursuit la procédure (orthogonalisation par rapport au sous-espace sélectionné + sélection du régressseur dont la contribution est maximale) jusqu'à ce que tous les noyaux soient ordonnés.

modèle complet qui réalise une prédiction satisfaisante de la sortie. Là encore, plusieurs des critères d'arrêt décrits au paragraphe IV.6 peuvent être employés. Nous avons choisi de mettre en oeuvre le critère d'arrêt avec adjonction d'un paramètre aléatoire.

On ajoute parmi tous les noyaux centrés sur les exemples d'apprentissage, un noyau aléatoire. Les noyaux qui s'avèrent moins représentatifs de l'espace des observations que ce noyau sont rejetés. A l'issue d'un nombre important de tirages aléatoires, on trace la fonction de répartition du classement du noyau aléatoire et on détermine sur cette fonction le classement qui correspond à un risque de première espèce fixé à 5% par exemple. Cette valeur nous donne directement le nombre de centres à conserver en sachant que l'on aura finalement 5% de chance pour que les noyaux sélectionnés soient moins représentatifs que le noyau aléatoire. La méthode d'orthogonalisation offre une alternative intéressante pour construire un réseau RBF parcimonieux. Par rapport aux méthodes de type clustering, elle permet à la fois de positionner les noyaux et d'en régler le nombre. Des performances de classification seront présentées dans le paragraphe V.7.6.

Dans le document Paramétrisation et classification de signaux en contrôle non destructif. Application à la reconnaissance des défauts de rails par courants de Foucault (Page 170-173)