performances sont garanties, la procédure est immune contre le sur-apprentissage
(l’er-reur empirique sur l’ensemble d’apprentissage décroît exponentiellement avec le nombre
d’itérations).
Les points négatifs : difficile d’incorporer des connaissances a priori, difficile de
sa-voir comment régulariser, et les frontières de décision sont souvent très irrégulières (non
interprétables).
1.5 Méthodes de classification non-supervisée
Le but de la classification non-supervisée (ou du clustering) est de créer un ensemble
de clusters regroupant des données de mêmes caractéristiques ou semblables. Le
regrou-pement de données est basé sur la notion de distance par rapport à des centroïdes,
c’est-à-dire les centres de masse de chaque classe. Les classes sont a priori inconnues et sont
crées selon la ressemblance des données afin d’expliquer ou résumer les données. Les
principales méthodes de la classification non-supervisée sont les algorithmes de
classifi-cation hiérarchique et les méthodes de regroupement.
Les méthodes de classification non-supervisée ont été appliquées à la classification
des données de puces à ADN [Golubet al., 1999; Alizadehet al., 2000; Jaegeret al., 2003;
Liuet al., 2004; Fuet al., 2006]. Ces travaux ont mis l’accent sur le classement des gènes
en fonction de leurs profils d’expression pour mieux comprendre leur signification
biolo-gique et ainsi envisager un outil qui permet d’associer à ces nouvelles classifications une
valeur pronostic d’une maladie sans avoir une connaissance du diagnostic au préalable.
Le principe du groupement est d’associer un profil d’expression à chaque gène, puis
de trier ces profils en fonction de leur ressemblance et finalement d’utiliser de méthodes
statistiques pour ainsi construire des groupes de gènes similaires à partir d’une matrice
de distances.
Définition 1.5 (Clustering) Soit un ensemble d’exemples dendonnées :X = {(x
i, . . . ,x
n)}.
Un ensemble deM clusters de X est une partition deX dansMnuages (clusters)C
1, . . . ,C
M)
telle que :
– C
i6=∅, i= 1, . . . , M
– ∪
Mi=1
C
i=X
– C
i∩ C
j=∅, i6=j, j= 1, . . . , M
– Les données de C
isont similaires entre elles et dissimilaires par rapport aux données de
C
j(j6=i)selon une mesure de similarité donnée.
Pour approfondir sur les techniques de clustering nous suggérons consulter [Jainet
al., 1999; Grabmeier et Rudolph, 2002; Xiu et Wunsch, 2005].
Nous présentons dans la suite quatre méthodes de classification non-supervisée dont
deux non hiérarchique (k-moyennes et ISODATA) et deux hiérarchiques (les cartes
auto-organisatrices et la classification hiérarchique).
Chapitre 1. Classification des données de puces à ADN
1.5.1 K-moyennes
La méthode des k-moyennes est une méthode qui permet de partitionner ou
segmen-ter les données enknuages (appelés clusters) homogènes (c.f. Algorithme 1.1)
[Theodo-ridis et Koutroumbas, 1999] :
Algorithme 1.1: k-moyennes
Paramètre: le nombre de clusters à construire
1début
2
Initialisation deskcentroïdes avec les valeurs initiales
3fin=faux
4tant quenon finfaire
5
pourchaque donnéefaire
6
Trouver le centroide le plus proche
7Placer la donnée dans le cluster le plus proche;
8fin
9
siaucun changement des valeurs des centroïdesalors
10
fin=vrai
11fin
12sinon
13Calculer les nouveaux centröides
14fin
15fin
16fin
17Nous remarquons que dans le pas2normalement l’on prendkpoints dans l’espace de
données de manière aléatoire. Le critère d’arrêt de l’algorithme k-moyennes est basé sur
la stabilité des centres des classes. Une des limitations de cette approche est la difficulté
de déterminerka priori.
1.5.2 ISODATA
L’algorithme ISODATA (Iterative Self-Organizing Data Analyses Techniques) est un
algorithme auto-organisateur et itératif parce qu’il effectue plusieurs itérations à travers
l’ensemble de données, jusqu’à ce que les résultats spécifiés soient obtenus [Theodoridis
et Koutroumbas, 1999]. Il s’agit d’une méthode de clustering dont la base repose sur
l’algorithme de k-moyennes. Le but est de minimiser l’erreur quadratique en associant
chaque donnée au centroïde le plus proche. Une caractéristique est d’éliminer les clusters
avec peu d’éléments et regrouper des clusters qui sont trop proches (voir algorithme 1.2
ci-dessous).
1.5.3 Classification hiérarchique
La classification hiérarchique est une méthode d’agrégation qui consiste à regrouper
les données dans de petits groupements qui sont eux-même hiérarchiquement assembles
en groupements plus grands.
1.5 Méthodes de classification non-supervisée
Algorithme 1.2: ISODATA
Entrées:k
début
1
Initialisation deskcentroïdes avec les valeurs initiales
2stabilisation=faux
3tant quenon stabilisationfaire
4
Effectuer un groupement par l’algorithme k-moyennes
5Éliminer les clusters trop petits
6Scinder les clusters trop dispersés
7Fusionner les clusters plus proches;
8fin
9
fin
10
Cette technique d’agrégation peut être représentée par un arbre hiérarchique
[Theo-doridis et Koutroumbas, 1999]. Le plus petit regroupement se trouve dans la partie la
plus basse de l’arbre et le plus grand dans la partie la plus haute de l’arbre, où chaque
donnée est un groupe qui est progressivement absorbé par le groupe le plus proche.
Les méthodes hiérarchiques sont récursives, ces méthodes sont de deux types : 1)
ascendantes, et 2) descendantes. Nous montrons la définition de la classification
hiérar-chique ascendante.
Définition 1.6 (Classification hiérarchique ascendante) Soit un ensemble d’exemples E =
{(d
1,d
2, . . . ,d
n)}. L’algorithme se déroule en les étapes suivantes :
1. On commence par une première partition des données, où chaque objet représente une classe.
2. On regroupe les deux classes les plus proches, pour constituer une nouvelle classe.
3. On recalcule la distance de cette classe avec les autres, selon un critère de distance.
4. On itère les pas2et3jusqu’à l’obtention d’une classe unique,
Les algorithmes de clustering utilisent une mesure de similarité pour grouper les
dif-férences entre les données.
1.5.4 Cartes auto-organisatrices
Les cartes auto-organisatrices de Kohonen (SOMs) sont des réseaux de neurones
non-supervisés qui permettent d’ordonner et de classifier des données en fonction de leur
similarité [Kohonen, 2001].
Le réseau est composé de deux couches (une couche d’entrée et une couche de
sor-tie). La couche d’entrée est généralement de grande dimension et la couche de sortie
(ap-pelé espace des représentations) est de dimension réduite (la carte auto-organisatrice).
La couche d’entrée contient un noeud (neurone) pour chaque donnée ou attribut qui est
connecté de façon non-linéaire aux cellules géométriques de la couche de sortie.
Les neurones de la carte sont disposés géométriquement selon une topologie fixée
a priori (e.g hexagonal ou rectangulaire). Chaque cellule géométrique de la matrice est
connectée aux autres cellules avec une pondération (poids) qui décroît en fonction de
Chapitre 1. Classification des données de puces à ADN
la distance relative entre celles-ci. L’ensemble de ces cellules forme la carte de Kohonen
(couche de sortie) dont l’objectif est de trouver la projection entre les deux couches tout
en conservant la topologie des données.
Dans le document
Logique floue et algorithmes génétiques pour le pré-traitement de données de biopuces et la sélection de gènes
(Page 36-39)