• Aucun résultat trouvé

2.4 Premi`eres exp´erimentations

2.4.1 Analyse de PoBOC sur la base de donn´ees Iris

Dans un premier temps, nous observons le comportement de l’algorithme PoBOC sur une base de donn´ees r´eelle, souvent utilis´ee en apprentissage. La base Iris fait partie des jeux de donn´ees de l’UCI repository [122], g´en´eralement utilis´es pour l’apprentissage su-pervis´e. Cette base de donn´ees contient 150 descriptions de fleurs appartenant `a la famille des Iris, `a l’aide des quatre attributs num´eriques suivants : longueur et largeur des s´epales, longueur et largeur des p´etales (en cm). Ces 150 iris sont ´equitablement r´epartis en trois classes : les iris Setosa, Versicolor et Virginica.

Nous avons choisi cette base pour trois raisons majeures :

– la faible dimension de l’espace de description et la quantit´e raisonnable de donn´ees permettent de les visualiser,

– les attributs, tous num´eriques, autorisent l’utilisation d’une mesure de distance clas-sique (e.g. la distance euclidienne),

– l’organisation a priori, en trois classes, fournit une base d’´evaluation compl´ementaire `a la visualisation. Cette information n’est bien sˆur pas utilis´ee lors du processus de clustering.

Dans la suite, nous utilisons la distance euclidienne comme mesure de comparaison entre les objets. La figure 2.14 pr´esente le r´esultat de l’´etape de construction des pˆoles par PoBOC. Appelons x, y, z et t les dimensions de l’espace des donn´ees. Les quatre graphiques correspondent chacun `a la visualisation des donn´ees selon trois des quatre axes de l’espace, chaque pˆole ´etant caract´eris´e par une mˆeme l´egende sur chacune des configurations. On note, tout d’abord, que PoBOC construit au total 3 pˆoles, conform´ement `a la classification pr´e´etablie. Les pˆoles ´etant g´en´er´es `a partir d’un objet s´electionn´e ; les segments en pointill´es nous aident `a visualiser les 3 objets s´electionn´es successivement. D’une mani`ere g´en´erale, les graphiques (c) et (d) offrent les meilleurs angles de vue pour observer ces pˆoles.

Le premier pˆole, mat´erialis´e par les “+”, se situe dans la partie sup´erieure droite des quatre graphiques. Le trait en pointill´es indique le point de d´epart du second pˆole (mat´erialis´e par les “×”). On constate alors que le second pˆole est construit `a l’oppos´e du premier, et renferme un ensemble d’objets clairement s´epar´es du reste, notamment sur les graphiques (c) et (d). Les ´etoiles indiquent la position du troisi`eme et dernier pˆole, formant un nuage encadr´e par les 2 premiers pˆoles.

objets selectionnes Pole 1 Pole 2 Pole 3 4 4.5 5 5.5 6 6.5 7 7.5 8 x 2 2.5 3 3.5 4 4.5 y 1 2 3 4 5 6 7 z (a) objets selectionnes Pole 1 Pole 2 Pole 3 4 4.5 5 5.5 6 6.5 7 7.5 8 x 2 2.5 3 3.5 4 4.5 y 0 0.5 1 1.5 2 2.5 t (b) objets selectionnes Pole 1 Pole 2 Pole 3 4 4.5 5 5.5 6 6.5 7 7.5 8 x 1 2 3 4 5 6 7 z 0 0.5 1 1.5 2 2.5 t (c) objets selectionnes Pole 1 Pole 2 Pole 3 2 2.5 3 3.5 4 4.5 y 1 2 3 4 5 6 7 z 0 0.5 1 1.5 2 2.5 t (d)

Fig. 2.14 – Observations des pˆoles constitu´es par PoBOC sur la base de donn´ees Iris selon les coordonn´ees : x, y, z (a), x, y, t (b), x, z, t (c) et y, z, t (d).

La figure (c), entre autre, permet de visualiser clairement les caract´eristiques des pˆoles g´en´er´es. D’abord, les trois pˆoles correspondent `a des ensembles d’objets s´epar´es, ce qui v´erifie le premier crit`ere de la d´efinition intuitive de pˆoles. Enfin, on note que ces pˆoles n’ont pas tous la mˆeme densit´e ; en effet le deuxi`eme pˆole g´en´er´e (d´esign´e par les “×”) est constitu´e d’objets plus rapproch´es que les deux autres pˆoles. La densit´e des pˆoles refl`ete la densit´e locale de la r´egion de l’espace dans laquelle ils sont situ´es. Cette observation est satisfaisante, par rapport au deuxi`eme crit`ere caract´eristique des pˆoles.

Finalement, on note sur ces figures, que le premier et le troisi`eme pˆole sont assez proches. On peut alors s’attendre `a ce que les clusters issus de ces deux pˆoles poss`edent plusieurs objets en commun, et que le cluster issu du second pˆole partage peu d’objets avec les autres.

Cluster n˚ Taille Nb objets exclusifs intersections

1 39 29 - 4 10

2 54 50 4 - 4

3 71 61 10 4

-Tab. 2.1 – Analyse des clusters obtenus par PoBOC sur la base de donn´ees Iris. Le tableau 2.1 introduit une premi`ere analyse des clusters obtenus par PoBOC. Chaque ligne correspond `a un cluster et les informations sur sa taille, sur le nombre d’objets n’ap-partenant qu’`a ce cluster et sur ses intersections avec les 2 autres clusters, sont r´epertori´ees. Par exemple, le cluster n˚1 renferme 39 objets dont 29 sont exclusivement dans ce cluster. Il s’intersecte avec les clusters n˚2 et n˚3 et ces intersections sont respectivement de taille 4 et 10.

Par ce tableau, on confirme les hypoth`eses formul´ees pr´ec´edemment : les clusters n˚1 et n˚3 poss`edent d’avantage d’objets en commun (10) que les clusters n˚1 et n˚2 ou n˚2 et n˚3. Globalement, on observe que les clusters produits par PoBOC peuvent ˆetre de tailles vari´ees (de 39 `a 71 objets) avec plus ou moins d’intersections (de 5% `a plus de 25% d’objets partag´es).

On souhaite `a pr´esent ´evaluer la qualit´e du sch´ema obtenu par PoBOC sur la base Iris. Pour cela, nous allons analyser ce sch´ema d’abord en le comparant `a la classification de r´ef´erence puis en ´evaluant sa qualit´e intrins`eque. Pour ces deux strat´egies d’´evaluation nous observerons trois aspects du sch´ema issu de PoBOC : le nombre de clusters, la pertinence des clusters et la qualit´e des intersections entre clusters. L’algorithme des k-moyennes sera alors utilis´e comme base de comparaison pour l’ensemble de l’´etude.

´

Evaluation du sch´ema comparativement `a la classification de r´ef´erence

Clusters

Classes

setosa versicolor virginica

n˚1 0 4 35

n˚2 50 4 0

n˚3 0 50 21

La table de contingence (table 2.2) indique que chaque cluster repr´esente une classe diff´erente d’iris. La premi`ere classe d’iris est plutˆot bien retrouv´ee puisque le cluster n˚2 contient toutes les instances de cette classe plus quelques instances (4) de la seconde. Le cluster n˚1 correspond `a une sous-partie de la troisi`eme classe d’iris et le cluster n˚3 renferme la totalit´e des iris de la deuxi`eme classe plus le compl´ement de la troisi`eme.

Outre le fait que PoBOC propose un sch´ema en trois clusters, conform´ement `a la classification de r´ef´erence, l’analyse de la table de contingence met en ´evidence que ces trois clusters correspondent assez bien aux trois classes attendues. Cette “correspondance” est alors quantifi´ee dans le tableau 2.3 par des indices d’´evaluation externe.

Stat. de Huberts Stat. de Huberts

M´ethode

(externe)% Statistique de Rand% (interne)%

k-moyennes (k = 3) 0.146±0.006 0.842±0.074 0.339±0.021

PoBOC sans recouvts 0.153 0.874 0.350

PoBOC 0.147 0.839 0.343

Classification de r´ef. 0.160 1.000 0.313

Tab. 2.3 – ´Evaluation du sch´ema par des indices externes.

Dans ce tableau, trois sch´emas de clustering sont compar´es (trois premi`eres lignes) : l’algorithme des k-moyennes8 pour un nombre de clusters identique `a PoBOC, la version “stricte” de l’algorithme PoBOC9 et l’algorithme PoBOC original. La version stricte de PoBOC est utile, d’une part pour comparer des sch´emas de mˆeme nature avec l’algo-rithme des k-moyennes (sch´emas strictes), et d’autre part pour observer l’influence des intersections entre clusters sur leur qualit´e.

Les deux indices externes utilis´es sont :

– l’adaptation de la statistique de Huberts (Γ) pour comparer un sch´ema de clustering et une classification pr´e´etablie. Cet indice compare, pour chaque paire d’objets, la distance entre ces deux objets dans le sch´ema de clustering (distance entre les clusters respectifs) et dans la classification pr´e´etablie (distance entre les classes respectives). L’indice est alors maximum pour un sch´ema de clustering identique `a la classification. – Consid´erant que deux objets sont li´es s’ils appartiennent `a un mˆeme cluster, la statistique de Rand compte la proportion de liaisons ou non-liaisons “correctes” dans le sch´ema de clustering. Une liaison est “correcte” si les deux objets appartiennent `a la mˆeme classe de r´ef´erence. Une non-liaison est “correcte” si les deux objets (non-li´es) appartiennent `a des classes diff´erentes. La valeur maximale 1.0, sur cet indice, indique que le sch´ema de clustering est identique `a la classification.

Les mesures report´ees dans le tableau indiquent que le sch´ema propos´e par la version stricte de l’algorithme PoBOC est ´equivalent aux meilleures partitions obtenues par k-moyennes. Les intersections entre clusters induisent naturellement une perte de qualit´e des clusters. Cette perte reste cependant raisonnable puisque la pseudo-partition obtenue par PoBOC est comparable aux sch´emas stricts r´esultant des k-moyennes, sur les deux indices.

8Les r´esultats pr´esent´es correspondent `a des moyennes sur 1,000 it´erations de l’algorithme k-moyennes avec diff´erentes initialisations.

9La version stricte diff`ere de l’algorithme original par une ´etape d’affectations simples (au plus proche pˆole) au lieu de l’´etape de multi-affectations.

Enfin, la derni`ere colonne du tableau 2.3 donne une indication sur la correspondance entre les sch´emas de clustering et la matrice des distances, via la version “interne” de Γ. On observe alors que les sch´emas les plus repr´esentatifs de l’information contenue dans la matrice des distances, sont ceux obtenus par PoBOC. Enfin, la derni`ere ligne du tableau pr´ecise que la classification pr´e´etablie ne correspond pas n´ecessairement `a la matrice des distances. Cette derni`ere observation nous incite `a compl´eter l’´evaluation des sch´emas de clustering ind´ependamment de la classification propos´ee.

´

Evaluation de la qualit´e intrins`eque du sch´ema

Ind´ependamment de toute connaissance ext´erieure, un bon sch´ema de clustering est caract´eris´e par des clusters compacts et bien s´epar´es. Comme nous l’avons mentionn´e dans le chapitre pr´ec´edent, ces deux caract´eristiques sont `a la base de la plupart des indices de qualit´e. Nous utilisons alors les mesures d’inertie intra-cluster et inter-clusters permettant de quantifier respectivement la dispersion des objets `a l’int´erieur des clusters (indice `a minimiser&) et la dispersion des clusters entre eux (indice `a maximiser %). La statistique de Huberts (Γ), adapt´ee `a une ´evaluation comparative de plusieurs sch´emas, permet de combiner ces deux indicateurs (indice `a maximiser %).

0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 1 2 3 4 5 6 7 8 9 Huberts Statistic Nombre de clusters 1 1.5 2 2.5 3 1 2 3 4 5 6 7 8 9 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Inertie intra-cluster Inertie inter-clusters

Nombre de clusters Inertie intra-cluster Inertie inter-clusters

Fig. 2.15 – ´Evaluation du nombre de clusters sur la base Iris.

Ces trois indices sont utilis´es pour d´etecter le/un nombre optimal de clusters organisant au mieux un ensemble de donn´ees. Sur la base Iris, l’algorithme des k-moyennes est ex´ecut´e plusieurs fois en faisant varier le param`etre k et donne lieu aux trac´es des indices pr´esent´es en figure 2.15.

Les trac´es des indices sont naturellement (quasiment) monotones. En effet, la qualit´e des sch´emas augmente avec le nombre de clusters autoris´es. Sur ces trac´es, les “pics” ou “cassures” observ´es, signifient que le param´etrage correspondant est particuli`erement adapt´e ou au contraire inadapt´e, selon qu’ils correspondent `a une am´elioration ou `a une d´et´erioration de la qualit´e du sch´ema. Par exemple, le trac´e de l’indice Γ sur Iris comporte deux “cassures” : `a k = 3 (indiquant un meilleur sch´ema) et k = 8 (indiquant un moins bon sch´ema). Le trac´e de l’intertie intra-cluster fait ´emerger les param`etres k = 3 et k = 6 tandis que le dernier indice distingue plutˆot les sch´emas obtenus pour k = 5 et k = 7. La fusion de ces trois r´esultats ´elit le param´etrage k = 3 comme nombre optimal de clusters, ce qui valide `a la fois le sch´ema obtenu par PoBOC et la classification de r´ef´erence.

A titre d’information, notons que l’algorithme de clustering probabiliste AutoClass [21] qui recherche automatiquement ce nombre optimal de clusters propose, avec les meilleures

probabilit´es, les deux r´esultats suivants : PROB exp(-2471.353) Nb clusters = 2 PROB exp(-2479.274) Nb clusters = 3

Les trois indices pr´ec´edents sont de nouveaux employ´es pour comparer les sch´emas obtenus par les diff´erentes m´ethodes de clustering :

Partitionnements stricts : Les sch´emas sans recouvrement, obtenus par k-moyennes et par la version stricte de PoBOC, sont compar´es.

Partitionnements avec recouvrements : Une variante de k-moyennes proposant des clusters avec recouvrements est propos´ee comme ´el´ement de comparaison avec l’algo-rithme PoBOC. Cette variante est obtenue en rempla¸cant l’´etape de r´eallocation ori-ginale de k-moyennes par une ´etape de r´eallocation multiple identique `a la proc´edure de multi-affectations utilis´ee dans PoBOC.

Les r´esultats de cette ´etude sont rapport´es dans le tableau 2.4 et compl´et´es par le coefficient de partition qui mesure l’importance des recouvrements entre clusters : un coefficient ´egal `a 1.0 correspond `a un sch´ema strict tandis qu’une valeur ´egale `a t (nombre de clusters) correspond `a un taux de recouvrement maximum (tous les clusters sont alors identiques et renferment l’ensemble des objets).

Inertie Inertie Stat. de Huberts Coefficient de

M´ethode

intra-cluster& inter-clusters% (relatif )% partition&

k-moyennes (k = 3) 2.05±0.56 0.291±0.073 0.155±0.007 1.00 PoBOC sans recouvts 1.68 0.279 0.163 1.00 PoBOC 3.06 0.257 0.157 1.09 k-moyennes +recouvts 7.32±4.26 0.261±0.147 0.106±0.058 1.66±0.28

Tab. 2.4 – ´Evaluation du sch´ema par des indices relatifs.

Les mesures confirment les conclusions pr´ec´edentes, `a savoir la pr´esence de clusters plus compacts avec PoBOC (inertie intra-classe plus faible) et s´epar´es de fa¸con comparable (inertie inter-clusters), dans le cas des sch´emas stricts . Ces deux premi`eres lignes du tableau montrent finalement que les clusters g´en´er´es par PoBOC sont meilleurs que ceux g´en´er´es par k-moyennes (Γ plus ´elev´e).

Enfin, les deux lignes inf´erieures nous informent sur la quantit´e et la qualit´e des recouvrements produits par chacune des deux m´ethodes de clustering. La strat´egie de construction des pˆoles, propos´ee dans PoBOC apparaˆıt alors d´ecisive puisque les inter-sections induites par PoBOC sont raisonnables comparativement `a la version modifi´ee de k-moyennes : PoBOC produit beaucoup moins d’intersections (coef. partition ´egal `a 1.09 contre 1.66) et ces intersections ne bouleversent pas la qualit´e globale des clusters (Γ du mˆeme ordre que k-moyenne original).

En conclusion de cette analyse de PoBOC sur la base Iris, l’algorithme propose des r´esultats satisfaisants et sensiblement meilleurs que l’algorithme de r´ef´erence “k-moyennes”, tant du point de vue du nombre de clusters que de leur qualit´e et des intersections entre clusters. La section suivante rapporte les r´esultats obtenus sur d’autres bases de donn´ees de tailles et de natures vari´ees.