• Aucun résultat trouvé

2.4 Premi`eres exp´erimentations

2.4.2 Evaluation de PoBOC sur d’autres bases de donn´ees

Pour compl´eter l’analyse pr´ec´edente, nous avons ´evalu´e l’algorithme PoBOC selon les mˆemes indices sur quatre autres bases de donn´ees : Zoology, Wine, Soybean et Annealing ´egalement issues de l’UCI repository [122]. Ces bases ont ´et´e choisies de fa¸con `a ´evaluer les performances de l’algorithme dans diverses situations :

– le nombre d’objets varie de 101 (Zoology) `a 898 (Annealing),

– le nombre de classes dans la classification de r´ef´erence varie de 3 (Wine) `a 19 (Soy-bean),

– les variables descriptives sont de diff´erentes natures : num´eriques (Wine), num´eriques et symboliques (Annealing) ou uniquement symboliques (Zoology, Soybean). Cette derni`ere caract´eristique implique l’utilisation de mesures de dissimilarit´e adapt´ees : en l’absence de variables symboliques nous continuons `a utiliser la distance euclidienne. Sinon, nous ´evaluons la proximit´e entre deux objets par la mesure propos´ee par Martin et Moal [120] et pr´esent´ee dans le chapitre pr´ec´edent.

´

Evaluation du nombre de clusters

Pour chacune des quatre bases de donn´ees, le sch´ema propos´e par PoBOC est confront´e, en terme de nombre de clusters, d’abord au nombre de classes dans la classification pr´e´etablie, ensuite au sch´ema issu de l’algorithme AutoClass et enfin aux sch´emas op-timaux d´etect´es sur les trac´es des indices d’´evaluation ind´ependants (ou relatifs). Cette ´etude comparative est pr´esent´ee dans le tableau 2.5.

Nb. clusters propos´es par

Base Nb. objets

Classif. r´ef. AutoClass PoBOC Evaluation indep.´

Zoology 101 7 6 / 5 5 3 / 5 / 7

Wine 178 3 3 / 2 4 4 / 7

Soybean 683 19 7 / 5 24 9 / 15 / 17 / 24 / 26

Annealing 898 5 5 17 4 / 8 / 10 / 17 / 21

Tab. 2.5 – Recherche du nombre optimal de clusters sur les bases : Zoology, Wine, Soybean et Annealing.

On observe alors que les deux algorithmes PoBOC et AutoClass sont rarement en ac-cord sur le nombre optimal de clusters, PoBOC proposant toujours davantage de clusters. Sur la base de la classification de r´ef´erence, c’est l’algorithme AutoClass qui semble propo-ser les sch´emas ad´equats (except´e pour la base Soybean). En revanche, lorsqu’on obpropo-serve les sch´emas optimaux issus d’une analyse ind´ependante de toute connaissance ext´erieure, on retrouve syst´ematiquement un sch´ema ´equivalent au r´esultat de PoBOC. Les trac´es, `a l’origine des valeurs pr´esent´ees dans la derni`ere colonne du tableau, sont pr´esent´es en annexe B.

Le nombre de clusters propos´e par PoBOC correspond donc `a une organisation r´eelle et attest´ee des donn´ees. Si ce nombre semble parfois un peu ´elev´e (par exemple pour la base Annealing), notons qu’il est pr´ef´erable de proposer trop de clusters (faciles `a fusionner par la suite) que trop peu (plus difficiles `a diviser).

Statistique de Huberts Γ (externe)

M´ethode Zoology Wine Soybean Annealing

k-moyennes 0.050±0.000 0.071±0.000 0.051±0.003 0.006±0.000

PoBOC sans recouvts 0.050 0.071 0.048 0.006

PoBOC 0.050 0.071 0.048 0.006

Statistique de Rand

M´ethode Zoology Wine Soybean Annealing

k-moyennes 0.839±0.051 0.716±0.015 0.898±0.009 0.425±0.005

PoBOC sans recouvts 0.927 0.693 0.919 0.423

PoBOC 0.911 0.617 0.914 0.428

Statistique de Huberts Γ (interne)

M´ethode Zoology Wine Soybean Annealing

k-moyennes 0.277±0.008 0.245±0.005 0.218±0.001 0.191±0.001

PoBOC sans recouvts 0.278 0.249 0.219 0.191

PoBOC 0.278 0.237 0.219 0.191

Classification de r´ef´erence 0.258 0.204 0.209 0.077

Tab. 2.6 – ´Evaluation des sch´emas par des indices externes. ´

Evaluation des sch´emas comparativement aux classifications de r´ef´erence Les mesures propos´ees dans le tableau 2.6 concernent l’´evaluation des sch´emas obtenus par les trois algorithmes : k-moyennes, PoBOC strict et PoBOC original, comparativement aux classifications propos´ees a priori. On note alors que l’indice d’´evaluation externe Γ ne distingue ni les sch´emas stricts des sch´emas avec recouvrements, ni les partitions obtenues par PoBOC de celles obtenues par k-moyennes.

En revanche, la statistique de Rand pr´esente un taux de liaisons (et non-liaisons) correctes `a l’avantage de PoBOC sur les bases Zoology et Soybean. Sur Wine, les sch´emas obtenus par k-moyennes comptent plus de liaisons correctes que ceux obtenus par PoBOC. Enfin, sur la base Annealing les sch´emas sont plutˆot ´equivalents du point de vue de cet indice. On remarque ´egalement par cet indice, que les liaisons en plus (et non-liaisons en moins) engendr´ees par les recouvrements entre clusters induisent une faible variation (positive ou n´egative) de cet indice. Autrement dit, il y a globalement une compensation entre la cr´eation de liaisons incorrectes et la suppression de non-liaisons incorrectes. Cette derni`ere remarque permet de justifier les multi-affectations propos´ees par PoBOC.

Enfin, le tableau inf´erieur montre que sur ces quatre jeux de donn´ees, les sch´emas de clustering propos´es par k-moyenne et PoBOC correspondent mieux `a la matrice de proxi-mit´e calcul´ee que la classification faisant r´ef´erence. Comme pour la base Iris, cette obser-vation nous encourage `a poursuivre l’´etude `a partir d’indices d’´evaluation ind´ependants (ou relatifs).

´

Evaluation de la qualit´e intrins`eque des sch´emas

En comparant les partitions strictes obtenues par k-moyennes et PoBOC (version stricte), on s’aper¸coit que les clusters sont g´en´eralement plus compacts avec PoBOC ;

Inertie intra-cluster

M´ethode Zoology Wine Soybean Annealing

k-moyennes 1.432±0.613 0.957±0.175 4.834±0.436 3.307±1.013

PoBOC sans recouvts 0.926 0.746 5.240 2.440

PoBOC 1.272 6.142 6.344 3.722

Inertie inter-clusters

M´ethode Zoology Wine Soybean Annealing

k-moyennes 0.261±0.038 0.213±0.073 1.158±0.402 0.342±0.095

PoBOC sans recouvts 0.233 0.299 1.066 0.451

PoBOC 0.258 0.239 1.074 0.437

Statistique de Huberts Γ (relatif)

M´ethode Zoology Wine Soybean Annealing

k-moyennes 0.090±0.008 0.087±0.002 0.052±0.002 0.036±0.003

PoBOC sans recouvts 0.094 0.089 0.050 0.040

PoBOC 0.094 0.078 0.050 0.039

Coefficient de partition

M´ethode Zoology Wine Soybean Annealing

k-moyennes 1.00 1.00 1.00 1.00

PoBOC sans recouvts 1.00 1.00 1.00 1.00

PoBOC 1.08 1.38 1.15 1.21

Tab. 2.7 – ´Evaluation des sch´emas par des indices relatifs.

cette observation est v´erifi´ee sur les bases Zoology, Wine et Annealing. Sur ce dernier jeu de donn´ees, la diff´erence d’inertie intra-cluster est sensible et s’accompagne d’une dis-persion entre clusters ´egalement meilleure pour le sch´ema issu de PoBOC. Cette double tendance est aussi v´erifi´ee sur la base Wine pour laquelle les clusters propos´es par PoBOC sont plus compacts et mieux s´epar´es qu’avec k-moyennes. Sur les bases Zoology et Soy-bean, k-moyennes induit des sch´emas de partitionnement aux clusters assez bien s´epar´es, contrairement `a PoBOC.

Notons que le passage d’un sch´ema strict `a un sch´ema avec recouvrements, via PoBOC, implique syst´ematiquement une augmentation de l’inertie intra-cluster. Ceci s’explique par l’´elargissement des clusters, cons´equence des multi-affectations. En revanche, l’inertie inter-clusters n’en sort pas n´ecessairement diminu´ee. En effet, sur les bases Zoology et Soybean, les recouvrements permettent d’am´eliorer la dispersion entre clusters qui s’explique non pas par l’´eloignement des clusters entre eux, mais par l’´eloignement des clusters par rapport au centre de gravit´e de l’ensemble des objets.

Le dernier indice (coefficient de partition) confirme l’id´ee que la qualit´e d’une pseudo-partition s’´evalue notamment par la quantit´e de recouvrements entre clusters. Ces intersec-tions doivent rester “raisonnables” et l’exc`es peut engendrer une d´egradation d´emesur´ee du sch´ema. C’est le cas pour le clustering propos´e sur la base Wine : la valeur ´elev´ee10 de ce coefficient nuit gravement `a la qualit´e des clusters et notamment `a leur compacit´e.