• Aucun résultat trouvé

Plusieurs crit`eres existent pour ´evaluer le r´esultat d’une classification non su-pervis´ee g´en´erant une partition fixe des donn´ees. Ces crit`eres sont de deux types : externes n´ecessitant des informations ext´erieures sur les classes, et internes s’ap-puyant seulement sur la structure interne des donn´ees.

1.4.1 Crit`eres externes

Les crit`eres externes sont bas´es sur des connaissances a priori des classes r´eelles et sont utilis´es pour mesurer le degr´e de concordance entre la partition connue a priori et la partition issue du programme de classification. Nous citons ci-dessous deux crit`eres externes utilis´es couramment pour ´evaluer les r´esultats d’une classifi-cation.

Taux global d’erreur de classification (Overall Error Rate of Classificaiton-OERC). C’est le pourcentage des observations mal classifi´ees en supposant que l’appartenance des observations `a leurs classes r´eelles est connue au pr´ealable. Soit Q = {L1, . . . , LK}, la partition a priori et P = {C1, . . . , CK}, la partition fournie par le programme de classification. Une classe de P peut correspondre `a n’importe quelle classe de Q (par exemple C2 correspond `a L3). Pour faire face `a ce

probl`eme, connu sous le nom de switching problem, la partition obtenue est compa-r´ee `a toutes les K! partitions g´en´ecompa-r´ees par les permutations des K classes a priori. Seule la partition qui donne le plus grand nombre d’individus bien class´es est choisie parmi les K! partitions. L’utilisation de ce crit`ere impose le mˆeme nombre de classes pour les deux partitions P et Q.

Indice de Rand (Rand Index) et Indice de Rand corrig´e (Corrected Rand Index). Soit Q = {Z1, . . . , ZL}, la partition a priori et P = {C1, . . . , CK} la partition fournie par le programme de classification. Le chevauchement entre les deux partitions P et Q est repr´esent´e par le tableau de contingence 1.2.

Tableau 1.2 – Tableau de contingence entre deux partitions.

P/Q Z1 Z2 . . . ZL Total C1 n11 n12 . . . n1L n C2 n21 n22 . . . n2L n .. . ... ... . .. ... CK nK1 nK2 . . . nKL nK· Total n ·1 n ·2 . . . n ·L P klnkl= n

L’indice de Rand se base sur le nombre de paires d’observations pour lesquelles les deux partitions P et Q sont en accord ou en d´esaccord. Il est donn´e par :

RI = a + b

a + b + c + d (1.28) avec :

– a : le nombre de paires d’observations appartenant `a la mˆeme classe dans P et dans Q.

– b : le nombre de paires d’observations qui appartiennent `a des classes diff´e-rentes dans P et dans Q.

– c : le nombre de paires d’observations qui appartiennent `a la mˆeme classe dans P , mais appartiennent `a des classes diff´erentes dans Q.

– d : le nombre de paires d’observations qui appartiennent `a des classes diff´e-rentes dans P et `a la mˆeme classe dans Q.

En effet, a et b sont utilis´es comme indicateurs d’accord alors que c et d sont utilis´es comme indicateurs de d´esaccord. Notons que a + b + c + d est le nombre total

de paires d’observations, donc a + b + c + d = C2n.

L’indice de Rand varie entre 0 et 1. Il vaut 1 en cas de parfait accord entre les 2 partitions n’ayant pas n´ecessairement le mˆeme nombre de classes.

Le probl`eme avec l’indice de Rand est que sa valeur esp´er´ee n’est pas constante. La forme g´en´erale d’un indice avec une valeur esp´er´ee constante est :

indice−valeur esperee(indice)

max(indice)−valeur esperee(indice). L’indice de Rand Corrig´e (Hubert et Arabie, 1985) a une valeur esp´er´ee qui vaut 0 et est donn´e par :

CR = P klC2nklh PkC2nPlC2n·li/C2n 1 2 h P kC2n+PlC2n·lih PkC2nPlC2n·li/C2n (1.29) avec nkl, n·l et n donn´es par le tableau 1.2 et en supposant que :

E " X kl C2nkl # = " P kC2nPlC2n·l # C2n (1.30) L’indice de Rand corrig´e varie entre -1 et +1, ce qui augmente sa sensibilit´e par rapport `a l’indice de Rand. La valeur 1 indique un accord parfait entre les deux partitions, tandis qu’une valeur nulle ou n´egative indique une partition trouv´ee par chance.

D’autres crit`eres externes existent pour comparer les r´esultats de deux clas-sifications, entre autres : l’indice de Fowlkes-Mallows (Fowlkes et Mallows, 1983), l’indice Entropy et l’indice Purity (Zhao et Karypis, 2004).

Il `a noter que l’algorithme de calcul des crit`eres externes a une complexit´e algorithmique importante surtout quand le nombre de classes est assez ´elev´e.

1.4.2 Crit`eres internes

Dans beaucoup d’applications utilisant la classification non supervis´ee, aucune information sur les classes n’est connue a priori. Pour de tels cas, il existe des crit`eres internes qui permettent d’´evaluer les r´esultats d’une classification en utilisant des mesures de similarit´e entre les donn´ees. Nous citons par la suite deux crit`eres internes bien connus en classification.

L’indice de Davies-Bouldin. L’indice de Davies-Bouldin (Davies et Bouldin, 1979) est fond´e sur la mesure de similarit´e Rkl entre deux classes (Cket Cl) calcul´ee en tenant compte de la mesure de dispersion (sk) de la classe Ck et de la mesure de dissimilarit´e (D(Ck, Cl)) entre les 2 classes. Rklpeut-ˆetre d´efinie de n’importe quelle fa¸con mais doit satisfaire les conditions suivantes :

– Rkl>0 – Rkl= Rlk

– Si sk = 0 et sl= 0 alors Rkl = 0

– Si sl >sq et D(Ck, Cl) = D(Ck, Cq) alors Rkl > Rkq

– Si sl = sq et D(Ck, Cl) 6 D(Ck, Cq) alors Rkl > Rkq

Normalement, on d´efinit Rkl de la fa¸con suivante : Rkl = sk+ sl

D(Ck, Cl) (1.31) o`u D(Ck, Cl) = d(wk, wl) est la distance entre les deux centres de gravit´es wk et wl

des deux classes Ck et Cl, et sk est la mesure de dispersion de la classe Ck calcul´ee de la fa¸con suivante :

sk= P|Ck|

i=1d(xi, wk)

|Ck| (1.32) o`u |Ck| est le cardinal de classe Ck.

En g´en´eral, la distance d doit correspondre `a la distance utilis´ee dans le pro-bl`eme de classification.

L’indice Davies-Bouldin sera alors d´efini comme suit : DB = 1 K K X k=1 Rk (1.33) Rk = max l∈{1,...,K} l6=k Rkl

En comparant deux partitions, une valeur inf´erieure de cet indice signifie une meilleure classification. En effet, plus la valeur de cet indice est petite, plus les classes sont compactes et bien s´epar´ees.

Indice de Dunn. L’indice de Dunn (Dunn, 1973) vise `a identifier des classes denses et bien s´epar´ees. Il est d´efini comme le rapport entre le minimum de distances

inter-classes et le maximum de distances intra-classes. Pour une partition donn´ee, l’indice de Dunn peut ˆetre calcul´e comme suit :

DI = min k∈{1,...,K} ( min l∈{1,...,K} l6=k n D(Ck, Cl) maxq∈{1,...,K}d(Ck) o) (1.34) o`u D(Ck, Cl) est la distance inter-classe d´etermin´ee en calculant la distance entre les centres des 2 classes par exemple, et d(Ck) est la distance intra-classe mesur´ee en calculant la plus grande distance qui s´epare deux observations de cette classe, ou en calculant la moyenne des distances s´eparant les observations du centre de leur classe. En comparant deux partitions, une valeur sup´erieure de cet indice signifie une meilleure classification. En effet, plus la valeur de cet indice est grande, plus les classes sont denses et bien s´epar´ees. Des indices de Dunn g´en´eralis´es ont ´et´e propos´es dans (Bezdek et Pal, 1998).

D’autres crit`eres d’´evaluation internes existent dans la litt´erature, `a savoir : l’indice Silhouette (Rousseeuw, 1987), l’indice de Calinski-Harabasz (Calinski et Ha-rabasz, 1974) et l’indice BIC (Bayesian Information Criterion) (Fraley et Raftery, 1998).

`

A part leur tˆache d’´evaluation de la qualit´e d’une partition, les crit`eres internes sont souvent utilis´es pour d´eterminer le nombre optimal de classes dans un probl`eme de classification, en ex´ecutant plusieurs fois le programme correspondant avec `a chaque fois un nombre de classes diff´erent, commen¸cant par 2 classes et allant jusqu’`a √

n classes. Par exemple, en utilisant l’indice Davies-Bouldin, le nombre de classes qui minimise le plus cet indice sera adopt´e (Vesanto et Alhoniemi, 2000).