Principe de l’approche - Catégorisation Locale de Base de données (LDC-AIS)

4.3 Catégorisation Locale de Base de données (LDC-AIS)

4.3.1 Principe de l’approche

L’endroit logique pour chercher une façon de résoudre le problème de l’apprentissage lent des algorithmes de sélection clonale est le Système Immunitaire Naturel (SIN) lui même. En eﬀet, le SIN est par nature rapide, l’observation de ce dernier pourrait four-nir un aperçu sur la façon d’aborder le problème. On a vu dans le chapitre 2, que la réponse immunitaire commence par un contact avec l’antigène et l’activation des cellules spéciﬁques à ce dernier pour le neutraliser.

L’idée de l’approche que l’on propose vient de ce principe. L’activation des cellules mé-moires spéciﬁques à l’antigène seulement pour participer à la réponse immunitaire a attiré notre attention. Eﬀectivement, l’activation de tout l’ensemble des cellules mémoires de la classe pour sélectionner une cellule à cloner consomme énormément de temps, d’autant

plus que cet ensemble s’élargit avec chaque passage d’un antigène. Il faut donc réduire la taille des cellules mémoires activées pour répondre à un antigène en prenant seulement la partie spéciﬁque à ce dernier.

Nous avons donc décidé de catégoriser (partitionner) localement les cellules mémoires initiales de chaque classe d’apprentissage, et apprendre chaque catégorie à part. L’ap-prentissage d’un individu (antigène) se fera en le comparant seulement avec sa catégorie spécifique de cellules mémoires. De cette manière, on réduira les calculs nécessaires pour apprendre chaque exemple sans aucun effet sur les résultats de classification.

4.3.1.1 Méthode et algorithmes utilisés

Pour partitionner les ensembles de cellules mémoires de chaque classe en plusieurs catégories locales, nous avons choisi d’utiliser la méthode de classiﬁcation non-supervisée la plus communément utilisée et la plus simple qui est celle de l’algorithme K-Means.

La méthode discriminative de K-Means [Mac67] utilise un principe simple et

naturel qui consiste à diviser M points de dimension N en k groupes (clusters) C1..k. Chaque groupe dispose d’un centre unique, de telle manière que chaque point est associé au groupe dont le centre est le plus proche. Pour calculer le centre le plus proche de chaque point, K-means utilise des métriques de distance, et comme dans notre travail on utilise la distance euclidienne comme mesure de similarité, nous l’avons choisi de l’utiliser comme métrique de distance dans K-means.

De point de vue algorithmique, l’algorithme K-means eﬀectue un processus itératif qui alterne :

1. L’aﬀectation de chaque objet O ∈ M au cluster Ci de centre Pi tel que Dist(O, P ) est minimale.

2. Recalculer Pi de chaque cluster (catégorie).

Notons que le nombre k de catégories ainsi que les centres de ces dernières sont ﬁxés préalablement. La ﬁgure 4.1 retrace le principe de l’algorithme K-means. pour une des-cription plus détaillée de l’algorithme se référer à [HW79].

Après avoir partagé les classes d’apprentissage en plusieurs catégories par l’algorithme K-means, on procède à un apprentissage de chaque catégorie pour faciliter le choix des cellules mémoires spéciﬁques à l’antigène par la suite.

Comme le but est d’accélérer l’apprentissage des algorithmes de sélection clonale, il faut choisir un algorithme d’apprentissage rapide et eﬃcace, avec un minimum de para-mètres à régler. Notre choix a vite été orienté vers les Réseaux de Neurones Artiﬁciels (RNA) ou les Séparateurs à Vaste Marge (SVM).

Parmi les diﬀérents modèles connexionnistes existants, les deux réseaux les plus utilisés et les plus pertinents sont le Perceptron Multi-Couches (PMC) en Anglais Mlti-Layer Perceptron (MLP), et les Réseaux à Fonctions de base Radiales en anglais Radial Basis Function (RBF). Notre choix entre ces deux réseaux de neurones a été vite ﬁxé, car le MLP à un inconvénient majeur qui est sa lente convergence, d’autant plus qu’il nécessite

Figure 4.1 – Principe de K-Means

plus de paramètres à régler que le RBF qui est constitué d’une seule couche cachée dont il faut choisir le nombre de neurones.

Pour choisir entre le réseau RBF et les SVM, nous avons procédé à un test sur nos deux bases de données et le SVM a été moins performant. Notre choix pour apprendre les catégories déﬁnies par K-means a été donc le réseau de neurones RBF.

Le réseau à fonctions de base radiales [Pow87], connu sous l’abréviation RBF

fournit un outil alternatif à l’apprentissage des réseaux de neurones artiﬁciels. L’idée principale est de concevoir un réseau avec une bonne capacité de généralisation et d’un nombre minimum de nœuds pour éviter des longs calculs inutiles par opposition au MLP [MAC+92].

L’architecture du réseau RBF est constituée de trois couches : la couche d’entrée, une seule couche cachée qui contient les neurones, et la couche de sortie. Chaque couche est complètement liée à la suivante. La couche cachée est composée d’un certain nombre de neurones avec des fonctions d’activation radiales qui sont généralement des gaussiennes. L’architecture du réseau RBF est montrée dans la ﬁgure 4.2.

Une fonction de base radiale est une fonction Fi symétrique autour d’un centre Ci

(1 ≤ i ≤ N).

Fi(x) = F (kx − Cik) (4.1)

Figure 4.2 – Simple architecture du réseau de neurones RBF

La fonction gaussienne (RBF avec la norme euclidienne), est la plus utilisée parmi les fonctions à base radiales. L’équation 4.1 s’écrit alors :

Fi(x) = exp(−^{(kx − C}ⁱ^k)

σ2 i

) (4.2)

où σi est la largeur de la ième unité RBF. La sortie j du réseau RBF est donc :

Yj(x) =

i=1

(Fi(x).Wj,i) (4.3)

avec Wj,i le poids de la ième sortie et F0 = 1.

Les modèles RBF sont particulièrement bien adaptés à l’application des probléma-tiques concrètes dans différents domaines de la recherche scientifique tels que : le traite-ment de signal, la robotique, la reconnaissance des formes, la classification,etc.

Dans notre application, un modèle RBF est construit pour chaque classe, afin d’ap-prendre les différentes catégories des cellules mémoires prédéfinies par K-Means. Le but étant de limiter les différents tests à effectuer par les exemples d’apprentissage, et per-mettre l’accélération des algorithmes de sélection clonale.

Dans le document Classification du cancer du sein par des approches basées sur les systèmes immunitaires artificiels (Page 80-83)