• Aucun résultat trouvé

Indices de validation de clustering

5.3 Classification non-supervisée de graphes

5.3.2 Indices de validation de clustering

Les indices de validation de clustering sont des méthodes qui mesurent la qualité d’un clus-tering donné. Ces méthodes sont largement utilisées pour définir les paramètres optimaux des algorithmes de clustering. Dans le cas des k-moyennes, le choix de kinfluence énormément le résultat de l’algorithme. Ainsi, on peut exécuterk-moyennes plusieurs fois en spécifiant une valeur différente dekà chaque exécution, et finalement sélectionner la valeur dekqui a fourni la valeur optimale d’un indice de validation de clustering. Dans la suite de cette section, nous passons en revue quelques indices de validation de clustering [71, 64, 102, 196]. Mais dans la littérature, il existe d’autres méthodes pour le calcul des indices de validation de clustering tels que, par exemple, l’indice de Xie [278], l’indice de Calinski [42] et l’indiceI[166].

Indice de Dunn

Soit d(ci, cj)la distance minimale entre deux objets appartenant à deux clusters différents ci etcj, cette distance est appelée distance inter-cluster. Soit ∆(ci)la distance maximale entre deux objets appartenant àci, cette distance est appelée distance intra-cluster,

∆(ci) =max{d(x, y)|x, y∈ci} Soit∆maxla distance intra-cluster maximale dans leskclusters,

Chapitre 5. Classification de graphes

Soit∆minla distance inter-cluster minimale entre leskclusters,

min =min{d(ci, cj)|i, j= 1,2, ..., k} Ainsi l’indice de Dunn [71] est défini par :

D= min

max

Dest le quotient de la distance entre les clusters plus proches par la distance intra-cluster du cluster ayant le plus grand diamètre. Il est clair que, plus la valeur deD est large, plus le clustering est considéré meilleur. En fait, une grande valeur deDsignifie que soit les clusters sont très compacts (une faible valeur ∆max), soit les clusters sont très éloignés (une grande valeur∆min), et dans les deux cas le clustering est de bonne qualité.

Indice de Rand

L’indice de Rand [196] mesure à quel point les clusters créés par l’algorithme de clustering correspondent à la vérité terrain. Pour calculer l’indice de Rand, nous considérons toutes les paires d’objets (xi, xj) avec xi 6=xj. Soit N11le nombre de paires (gi, gj) appartenant à la même classe (dans la vérité terrain) et au même cluster (dans le clustering), soit N00 le nombre de paires (gi, gj) n’appartenant ni à la même classe (dans la vérité terrain) ni au même cluster (dans le clustering), soit N10le nombre de paires (gi, gj) appartenant à la même classe (dans la vérité terrain) et pas au même cluster (dans le clustering). Inversement, N01 le nombre de paires (gi, gj) appartenant au même cluster (dans le clustering) mais pas à la même classe (dans la vérité terrain). Nous pouvons donc formuler l’indice de Rand par :

Rand= N11+N00

N11+N00+N10+N01

où l’indice de Rand mesure la fraction du nombre total de paires qui sont soit dans le même groupe et dans la même partition, ou dans des groupes différents et dans des partitions dif-férentes. Les valeurs possibles de l’indice de Rand sont dans l’intervalle [0,1]. Un bon clustering correspond à des valeurs d’indice de Rand proches de 1. Cet indice nécessite l’existence d’une vérité terrain concernant l’appartenance d’objets aux classes.

Indice de Davies-Bouldin

Soitmile centre de clustercipouri= 1, ..., k. La distance moyenne entre les objetsxa∈ci et le centremideci, est défini par :

di = 1

|ci|

X

xa∈ci

d(xa, mi)

Une mesure de similaritéRij entre deux clusterscietcj est définie comme suit, Rij =Rji = di+dj

d(mi, mj)

5.3. Classification non-supervisée de graphes

Une petite valeur deRijcorrespond à un bon clustering. Considérons maintenant le pire des cas deRijpour chaque clusterci, cette valeur deRijest noté parRi. Parmi tous les clusterscj, nous cherchons la valeur maximale deRij. Ainsi,Riest défini par :

Ri =max{Rij |j= 1,2, ..., k;i6=j}

L’indice de Davies-Bouldin est défini comme la moyenne desRicalculés pour tout les clusters.

DB= 1 k k X i=1 Ri

Des petites valeurs deDBindiquent la présence de clusters compacts et bien séparés.

Indice de Goodman-Kruskal

L’indice de Goodman-Kruskal [102] est calculé en considérant tout les quadruplets possibles (q, r,s,t), oùq,r,settsont des objets. Soitd(x, y)la fonction qui mesure la distance entre les deux objetsxety. Selon l’indice de Goodman-Kruskal, un quadruplet est considéré comme

concordant si et seulement si les deux conditions suivantes sont satisfaites :

– d(q, r) < d(s, t) |q etr appartiennent au même cluster ;set tappartiennent aux deux clusters différents.

– d(q, r)> d(s, t) |q etrappartiennent aux deux clusters différents ;settappartiennent au même cluster.

En contrepartie, un quadruplet est non-concordant si et seulement si les deux conditions suiv-antes sont satisfaites :

– d(q, r)< d(s, t) |q etrappartiennent aux deux clusters différents ;settappartiennent au même cluster.

– d(q, r)> d(s, t)|q etrappartiennent au même cluster, etsettappartiennent aux deux clusters différents.

Intuitivement, les quadruplets concordants correspondent à un bon clustering, tandis que les quadruplets non-concordants impliquent une faible qualité de clustering. Soient Scle nombre de quadruplets concordants etSdle nombre de quadruplets non-concordants. Ainsi, l’indice de Goodman-Kruskal est défini comme suit :

GK = Sc−Sd Sc+Sd

Il est clair qu’un bon clustering contient plusieurs quadruplets concordants et peu de quadruplets non-concordants. Ainsi, une grande valeur de l’indice de Goodman-Kruskal indique un bon clustering. Il est important de noter que certains quadruplets ne peuvent être ni concordants ni non-concordant.

Indice de C

L’indice deCest défini par Hubert et al. [115] comme suit : C = S−Smin

Chapitre 5. Classification de graphes

avec S est la somme des distances entre toutes les paires d’objets appartenant au même cluster, n est le nombre de ces paires. Smin est la somme des n plus petites distances entre toutes les paires d’objets. De mêmeSmaxest la somme desnplus grandes distances entre toutes les paires. Le C-indice est borné entre 0 et 1 (C ∈ [0,1]). Une valeur de C proche de zéro indique un bon clustering.

Ces indices de validation de clustering ont pour objectif l’analyse de manière quantitative des résultats d’un algorithme de clustering. Ils sont aussi utilisés pour optimiser des paramètres de certains algorithme de clustering (i.e. le nombre de clusters pour l’algorithme desk-moyennes). La majorité de ces indices évalue le clustering en se basant sur la qualité de la séparation et la compacité de clusters. L’objectif est de fournir des clusters compacts et bien séparés.

Par ailleurs, nous distinguons un ensemble d’inconvénients relatifs à certains indices, par exemple, la sensibilité aux objets aberrants (ie.Dunn) et la complexité élevée (i.e. Goodman-Kruskal).