• Aucun résultat trouvé

Chapitre 4 Classification

4.2 Les m´ ethodes usuelles de classification

Nous allons pr´esenter ici les crit`eres et les algorithmes de classification les plus cou-rants. Il faut tout d’abord remarquer que l’algorithme est ind´ependant `a la fois de la distance choisie et du crit`ere de partition `a optimiser. Le choix des bonnes combinaisons algorithme-distance-crit`ere est une question qui d´epend tr`es fortement du probl`eme ´etudi´e et des contraintes qu’il pose. Une formalisation de cette question, ainsi que de nombreuses

4.2. LES M ´ETHODES USUELLES DE CLASSIFICATION 97 r´ef´erences, peuvent ˆetre trouv´ees dans (Gordon, 1999), qui d´ecrit quelles classifications pouvaient ˆetre effectu´ees en fonction du type de donn´ees pour ne pas induire de biais.

4.2.1 Crit` ere de partition

La plupart des m´ethodes de classification commencent par l’´etablissement d’une ma-trice de dissimilarit´e, ou distance, entre les donn´ees. Le but final ´etant de regrouper des objets similaires, on a vu que le choix de la distance employ´ee pour mesurer la diff´erence entre deux objets est crucial. Ensuite, quels que soient les algorithmes employ´es, un crit`ere de partition est optimis´e. En g´en´eral, ce crit`ere est une mesure de l’exactitude de de la classification obtenue, et il est maximis´e `a chaque it´eration jusqu’`a convergence.

Ce crit`ere peut ˆetre de nature variable. On peut essentiellement comparer la dissimi-larit´e au niveau des groupes, et maximiser l’isolation des groupes entre eux, ou maximiser l’homog´en´eit´e interne de chaque groupe, ou encore une combinaison des deux. Ces deux crit`eres, quoique compl´ementaires, donnent lieu en pratique `a des classifications diff´erentes sur les mˆemes jeux de donn´ees. `A l’instar de la distance employ´ee, le choix du crit`ere de partition d´epend des donn´ees ´etudi´ees, et une ´etude pr´eliminaire de leur structure permet souvent d’inf´erer quel crit`ere donnera les meilleurs r´esultats. Il faut remarquer ici que tous les crit`eres de partition ne sont pas bas´es sur une matrice de dissimilarit´e et sur la minimisation ou la maximisation de distances. Des crit`eres combinatoires, bas´es sur la r´epartition des ´el´ements dans les groupes, peuvent ˆetre employ´es.

Les crit`eres mesurant l’isolation d’un groupe relativement aux autres peuvent ˆetre directement bas´es sur la dissimilarit´e choisie, ce qui implique de g´en´eraliser les propri´et´es de la distance par paires `a des groupes, ou bas´ee sur un d’autres param`etres comme les probabilit´es d’appartenance `a chaque groupe de chaque ´el´ement. En effet, si la dissimilarit´e d permet d’´evaluer si deux objets doivent ˆetre regroup´es ou non, elle ne permet pas de comparer directement si deux groupes d’objets dans une partition correspondent bien `a deux entit´es distinctes. Cependant, une mani`ere simple d’´evaluer la dissimilarit´e inter-classes D est de d´efinir un repr´esentant ~ri, i = 1..c pour chacune des c classes, et de d´efinir la dissimilarit´e inter-classes `a partir de celles des paires, comme :

D(~xi, ~xj) = d(~ri, ~rj), (4.7) ce qui reporte le probl`eme `a celui de la d´efinition d’un repr´esentant (voir par exemple (M´ezard, 2007) pour une discussion r´ecente). La notion de repr´esentant est importante, puisqu’un repr´esentant permet ´egalement de symboliser tous les ´el´ements de sa classe, sans avoir `a les d´ecrire de fa¸con exhaustive. Cet aspect sera abord´e plus en d´etails par la suite. Une autre fa¸con d’utiliser d pour calculer l’isolation d’un groupe α est de mesurer la distance minimale avec le membre le plus proche appartenant `a une autre classe :

D= mind(~xi, ~xj), i∈α, j /∈α. (4.8) On peut ainsi cr´eer de nombreux crit`eres mesurant l’isolation d’un groupe au reste des donn´ees. Une derni`ere m´ethode est par exemple de mesurer la somme des distances d’un objet dans le groupe α `a tous les objets ext´erieurs au groupe :

D=X

i

X

j

d(~xi, ~xj), i∈α, j /∈α. (4.9)

98 CHAPITRE 4. CLASSIFICATION Les crit`eres non bas´es sur l’isolation cherchent `a maximiser l’homog´en´eit´e de chaque groupe (on veut que les groupes soient les plus concentr´es possible), en utilisant par exemple un crit`ere de minimisation de la somme des distances internes au groupe :

D=X

i

X

j<i

d(~xi, ~xj), i, j ∈α, (4.10) ou un crit`ere de minimisation du diam`etre du groupe :

D= maxd(~xi, ~xj), i, j ∈α. (4.11) Les deux m´ethodes conduisent `a des crit`eres de partition diff´erents `a optimiser, et ont des performances d´ependant beaucoup des donn´ees. La grande diversit´e de mesures possibles pour le crit`ere `a optimiser, combin´e au nombre de possibilit´es pour le choix de la fonction de dissimilarit´e, empˆechent de d´eterminer quelles mesures de classification sont objectivement meilleures que les autres. N´eanmoins, un crit`ere de partition, est employ´e tr`es couramment, malgr´e les biais qu’il peut entraˆıner. Il s’agit de minimiser la somme des variances intra-classe :

D=

c

X

α=1

X

i∈α

(d(~xi, ~rα))2, (4.12) o`u~rα est le centre de masse de la classeα, `a savoir~rα= kαk1 P

i∈α~xi, avec kαk le nombre d’´el´ements de la classe.

Tous les crit`eres de partition pr´esent´es ici utilisaient l’attribution de chaque ´el´ement

`

a un seul groupe. Certains de ces crit`eres peuvent se g´en´eraliser au cas de la classification floue, en sommant de fa¸con probabiliste la valeur du crit`ere pour chaque objet sur les diff´erents groupes. Par exemple, la minimisation des variances intra-classes, pour un crit`ere de classification floue, donne :

D=X

i c

X

α=1

p(α|~xi) (d(~xi, ~rα))2, (4.13) avecp(α|~xi) la probabilit´e conditionnelle pour l’´el´ement id’appartenir au groupeα. Dans le cas de la classification floue, on ne cherche pas les partitions des donn´ees en c classes, mais les valeurs des probabilit´es conditionnelles d’appartenance aux groupes repr´esentant le mieux les donn´ees. Ceci est un contexte parfait pour l’emploi `a la fois de m´ethodes bayesiennes et de maximisation de la vraisemblance. Dans les deux cas, on cherchera `a maximiser la vraisemblance des donn´ees au vu du mod`ele, en trouvant les valeurs des pro-babilit´es conditionnelles consid´er´ees comme des param`etres. Une explication plus d´etaill´ee de ce type de m´ethode est donn´ee dans la troisi`eme partie de la th`ese, pour le projet de classification des g`enes en fonction de leur biais de codons.

Nous allons maintenant regarder de plus pr`es les principaux algorithmes de classifica-tion employ´es couramment. Pour simplifier l’´etude, nous nous limiterons aux algorithmes de classification dite dure.

4.2.2 M´ ethodes de r´ eallocation dynamique

Les m´ethodes de r´eallocation dynamique sont employ´ees de mani`ere tr`es courante pour la classification. Leur principal avantage est leur simplicit´e de mise en œuvre. Ces

4.2. LES M ´ETHODES USUELLES DE CLASSIFICATION 99