Indices usuels - Opérateurs d'agrégation pour la mesure de similarité. Application à l'ambiguït

Fig. 5.1: Points de bruits additionnels (·) et centres d’une partition où c = 3 (•) au lieu de c = 4 (◦), (gauche) - Point aberrant additionnel (12) augmentant le nombre de clusters de 2 à 3, (droite).

les données en classification non supervisée, les algorithmes de clustering tels que FCM utilisent un paramètre c (parmi d’autres) pour la spécification du nombre de clusters.

À partir d’un indice de validité de partition IV P , la procédure de sélection du nombre optimal c^? de clusters dans un ensemble de valeur possibles [c_min,cmax] est la suivante :

(1) choix des valeurs c_min et c_max (2) pour c = c_min à c_max

- calcul de (U,V ) par un algorithme de clustering, par exemple FCM - calcul de IV P (c) à partir de (X,U,V )

(3) sélection de c^? tel que IV P (c^?) est optimal, et prendre la partition corres-pondante (U,V )

Le choix des valeurs c_min et c_max est toujours sujet à caution. Pour la valeur de c_min, on suppose que l’étape visant à déterminer si les données présentent une structure s’est conclue de manière positive, et que au moins deux groupes sont donc présents, on prend ainsi cmin = 2. Pour la valeur de c_max, plusieurs bornes supérieures ont été proposées, mais toutes de manière empirique. Nous prendrons l’une d’entre elles, utilisée le plus fréquemment; cmax = √

n. Cette borne correspond en fait à la volonté de former des groupes constitués en moyenne de√

n observations.

5.2 Indices usuels

Dans cette section, après avoir rappelé quelques points importants sur l’algorithme FCM, nous considérons les indices de validité de partition s’y rapportant.

L’algorithme FCM produit une c-partition floue, c’est à dire une matrice U = [u₁,...,u_n] de taille (c × n), où u_k est le vecteur de degrés d’appartenance de x_k aux c clusters. Pour rappel, cette matrice de partition floue U est obtenue par la minimisation de la fonctionnelle

Jm(U,V ) = n X k=1 c X i=1 u^m_ik||x_k− v_i||² (5.1)

On notera les restrictions suivantes sur cette matrice U , u_ik dénotant le degré d’apparte-nance de x_k au cluster i : – c X i=1 u_ik = 1 – 0 < n X k=1 u_ik< n

Une seconde matrice V = [v1,...,v_c] (de taille (c × p)) de centres de clusters est égale-ment produite par FCM. Enfin, il y a un exposant flou m ∈]1, + ∞[ rendant les partitions produites plus ou moins floues. Ce dernier paramètre a également une influence sur les indices de validité de partition. Comme la métrique utilisée dans FCM est la distance eu-clidienne, les clusters obtenus sont hyper-sphériques et contiennent un nombre de points similaire. Cette description des clusters n’est pas vraiment adaptée à de nombreuses situa-tions : ponts, points isolés, points de bruit. La validation de partition est donc un problème encore plus difficile lorsque l’on utilise FCM au lieu d’autres algorithmes dédiés à ces pro-blèmes spécifiques, par exemple PCM.

Beaucoup d’indices ont été proposés ces dernières années (voir [Rezaee et al.,1998;Wang and Zhang,2007;Zarandi et al.,2007]), et les propositions ne cessent d’augmenter, si bien qu’il n’est pas possible de tous les décrire. Nous présentons ici plusieurs d’entre eux, parmi lesquels on trouve les plus fréquemment cités dans la littérature.

5.2.1 Indices indirects

Comme précisé dans l’introduction, les premiers indices n’utilisent que les degrés d’appar-tenance de la matrice U . Les deux plus importants sont le Coefficient de Partition [Bezdek, 1981] à valeurs dans [¹_c,1] : P C(c) = ¹ n n X k=1 c X i=1 u²_ik (5.2)

et l’Entropie de Classification [Bezdek,1974] à valeur dans [0, log(c)] : P E(c) = −¹ n n X k=1 c X i=1 u_iklog(u_ik) (5.3)

Plus P C est proche de 1, plus le clustering est strict, et inversement plus P C est faible, plus toutes les valeurs u_ik pour i = 1, · · · ,c sont proches de 1/c. Comme de grandes valeurs des u_ik suggèrent des clusters compacts et séparés, on cherche à maximiser P C afin de trouver c^?.

Le second indice P E a une valeur faible si la partition examinée est stricte, se rapproche de log(c) lorsque la partition U se rapproche de la partition la plus floue possible U = [1/c]. Ici, P E est donc à minimiser lors de la recherche de c^?. Remarquons que cet indice est l’extension directe de l’entropie au sens de De Luca et Termini [De Luca and Termini, 1972] abordée au Chapitre 2. Un défaut de ces deux indices est qu’ils sont monotones par rapport à c, ainsi que leurs bornes. Un autre problème est leur sensibilité au paramètre m, puisque si celui ci tend vers 1, P C et P E ont les mêmes valeurs quel que soit c, et inversement, lorsque m → ∞, la valeur c^? = 2 est systématiquement choisie, voir [Pal and

5.2. Indices usuels 129

Bezdek,1995]. Afin de contrer cette tendance, Roubens propose une version normalisée de l’indice P C, [Roubens,1978] :

N P C(c) = ^{cP C − 1}

c − 1 ^(5.4)

de manière à ce que N P C soit à valeurs dans [0, 1]. Dans Dunn [1977], Dunn modifie l’Entropie de Partition de la façon suivante :

N P E(c) = ^{nP E}

n − c ^(5.5)

Nous utiliserons ces versions normalisées N P C et N P E pour la partie expérimentale.

5.2.2 Indices indirects paramétriques

La plupart des indices récents reposent sur l’utilisation de mesures de compacité définies à l’aide de U ou (U,X), et d’une mesure de séparation généralement fondée sur les centres V .

Xie and Beni [Xie and Beni,1991] proposent un indice de validité pour m = 2 défini par : XB(c) = ^J^m^{(U,V ) /n}

min_i,j=1,c;j6=i ||v_i− v_j||2 (5.6)

où J_m(U,V ) est utilisée comme mesure de compacité et min_i,j=1,c;j6=i ||v_i − v_j||2 est une mesure de séparation. Le nombre optimal de clusters c^? est trouvé par maximisation de l’équation (5.6). En suivant une idée similaire, Fukuyama et Sugeno [Fukuyama and Sugeno, 1989] proposent l’indice utilisant la fonctionnelle (3.41) comme mesure de compacité, et une mesure de séparation afin de la pénaliser :

F S(c) = J_m(U,V ) − n X k=1 c X i=1 u^m_ik||v_i− v||² (5.7) où v est la moyenne des centres v. Le premier terme mesure la compacité et le second la

séparation. La minimisation de (5.7) donnera le nombre optimal de clusters de X. Gath et Geva proposent l’Hypervolume Flou (F HV ) dans [Gath and Geva,1989] :

F HV (c) = c X i=1 q det(C_i) (5.8)

où C_i est la matrice de covariance floue du cluster i définie par : C_i = Pn k=1u^m_ik(x_k− v_i)(x_k− v_i)^T Pn k=1um ik (5.9) Une faible valeur de F HV indique que les clusters sont compacts, on minimise donc (5.8). Un autre indice, assez similaire à XB, a été introduit dans [Bensaid et al.,1996]. Il est défini comme le ratio d’une mesure de compacité et d’une mesure de séparation, mais utilise une norme différente lors du calcul de la distance entre points : une matrice A est introduite pour définir la déviation floue du point x . L’indice SC est alors défini par

SC(c) = c X i=1 Pn k=1u^m_ik||x_k− v_i||2 A n_iPc j=1||v_i− v_j||2 A (5.10)

où n_i est la cardinalité floue du cluster i définie par n_i =Pn k=1uik.

Afin de réduire la tendance monotone de (5.6) lorsque c tend vers n, Kwon étend l’indice XB dans [Kwon, 1998]. Un terme de pénalité défini par un degré de séparation entre les clusters est ajouté au numérateur de XB :

K(c) = ^J^m^{(U,V ) +} 1 c Pc i=1||v_i− v||2 min_i,j=1,c;j6=i ||v_i− v_j||2 (5.11) où v = _n¹ Pn

k=1x_k. Comme XB, K a une tendance à sous-estimer le nombre de clusters. Cet indice a une valeur faible lorsque les clusters sont compacts et séparés, et est donc à minimiser. Wu et Yang [Wu and Yang,2005] proposent un indice de validité défini par :

W Y (c) = c X i=1 n X k=1 u²_ik/u_M− c X i=1 exp − min j6=i ||v_i− v_j||²/β_T (5.12) où u_M = min1≤i≤c ^Pn

k=1u2

et β_T =Pc

i=1||v_i− v||2/c. Une grande valeur de W Y signifie que les c clusters sont compacts et séparés. La maximisation de (5.12) donne le nombre optimal de clusters. Par cette formulation, un point isolé n’aura pas assez d’importance pour former un cluster, impliquant que W Y donne de bons résultats en présence de points isolés.

Pakhira et al. proposent un nouvel indice pour des algorithmes de clustering stricts et flous dans [Pakhira et al.,2004]. L’indice P BM pour un clustering flou est défini par :

P BM (c) = 1 c ^× E1 Jm(U,V )× D_c 2 (5.13) où E₁=Pn

k=1||x_k− v||, qui est constant pour des données X, et D_c= max^c_i,j=1||v_j− v_i|| est la séparation inter-clusters maximale. Le premier terme diminue lorsque c augmente. Le terme E1

Jm(U,V ) ^{est la somme des distances intra-clusters pondérées lorsque l’ensemble} X est pris comme un seul cluster, divisée par la fonctionnelle (3.41). Le nombre optimal de clusters est donc obtenu par maximisation de (5.13).

En résumé, lorsque l’on cherche à valider une partition, on peut se concentrer sur plu-sieurs problèmes différents. Les premiers indices (P C, P E) cherchent une partition mini-misant le caractère flou des degrés d’appartenance la composant, par exemple l’entropie ou la dispersion. Les indices plus récents se fondent sur une analyse de la compacité ou de la séparation des clusters produites par la partition, et à ce titre utilisent les informations supplémentaires fournies par l’algorithme : la matrice de centres V . Certains indices vont jusqu’à ne pas tenir compte de la matrice U autrement que par l’utilisation de la fonction-nelle (3.41). D’un certain point de vue, la partition évaluée est donc V et non pas U . Bien que performants dans certaines situations pour lesquelles un terme de pénalité particulier est introduit, ces indices ne possèdent pas une capacité de généralisation importante : une situation non prévue aboutira à un échec.

Dans le document Opérateurs d'agrégation pour la mesure de similarité. Application à l'ambiguïté en reconnaissance de formes. (Page 142-145)