Analyse de PoBOC sur la base de donn´ees Iris

2.4 Premi`eres exp´erimentations

2.4.1 Analyse de PoBOC sur la base de donn´ees Iris

Dans un premier temps, nous observons le comportement de l’algorithme PoBOC sur une base de données réelle, souvent utilisée en apprentissage. La base Iris fait partie des jeux de données de l’UCI repository [122], généralement utilisés pour l’apprentissage su-pervisé. Cette base de données contient 150 descriptions de fleurs appartenant à la famille des Iris, à l’aide des quatre attributs numériques suivants : longueur et largeur des sépales, longueur et largeur des pétales (en cm). Ces 150 iris sont équitablement répartis en trois classes : les iris Setosa, Versicolor et Virginica.

Nous avons choisi cette base pour trois raisons majeures :

– la faible dimension de l’espace de description et la quantit´e raisonnable de donn´ees permettent de les visualiser,

– les attributs, tous num´eriques, autorisent l’utilisation d’une mesure de distance clas-sique (e.g. la distance euclidienne),

– l’organisation a priori, en trois classes, fournit une base d’évaluation complémentaire à la visualisation. Cette information n’est bien sûr pas utilisée lors du processus de clustering.

Dans la suite, nous utilisons la distance euclidienne comme mesure de comparaison entre les objets. La figure 2.14 présente le résultat de l’étape de construction des pôles par PoBOC. Appelons x, y, z et t les dimensions de l’espace des données. Les quatre graphiques correspondent chacun à la visualisation des données selon trois des quatre axes de l’espace, chaque pôle étant caractérisé par une même légende sur chacune des configurations. On note, tout d’abord, que PoBOC construit au total 3 pôles, conformément à la classification préétablie. Les pôles étant générés à partir d’un objet sélectionné ; les segments en pointillés nous aident à visualiser les 3 objets sélectionnés successivement. D’une manière générale, les graphiques (c) et (d) offrent les meilleurs angles de vue pour observer ces pôles.

Le premier pôle, matérialisé par les “+”, se situe dans la partie supérieure droite des quatre graphiques. Le trait en pointillés indique le point de départ du second pôle (matérialisé par les “×”). On constate alors que le second pôle est construit à l’opposé du premier, et renferme un ensemble d’objets clairement séparés du reste, notamment sur les graphiques (c) et (d). Les étoiles indiquent la position du troisième et dernier pôle, formant un nuage encadré par les 2 premiers pôles.

objets selectionnes Pole 1 Pole 2 Pole 3 4 4.5 5 5.5 6 6.5 7 7.5 8 x ₂ ^2.5 3 ^3.5 4 ^4.5 y 1 2 3 4 5 6 7 z (a) objets selectionnes Pole 1 Pole 2 Pole 3 4 4.5 5 5.5 6 6.5 7 7.5 8 x ₂ ^2.5 3 ^3.5 4 ^4.5 y 0 0.5 1 1.5 2 2.5 t (b) objets selectionnes Pole 1 Pole 2 Pole 3 4 4.5 5 5.5 6 6.5 7 7.5 8 x ₁ ² 3 ⁴ 5 ⁶ 7 z 0 0.5 1 1.5 2 2.5 t (c) objets selectionnes Pole 1 Pole 2 Pole 3 2 _2.5 3 _3.5 4 _4.5 y ₁ ² 3 ⁴ 5 ⁶ 7 z 0 0.5 1 1.5 2 2.5 t (d)

Fig. 2.14 – Observations des pôles constitués par PoBOC sur la base de données Iris selon les coordonnées : x, y, z (a), x, y, t (b), x, z, t (c) et y, z, t (d).

La figure (c), entre autre, permet de visualiser clairement les caractéristiques des pôles générés. D’abord, les trois pôles correspondent à des ensembles d’objets séparés, ce qui vérifie le premier critère de la définition intuitive de pôles. Enfin, on note que ces pôles n’ont pas tous la même densité ; en effet le deuxième pôle généré (désigné par les “×”) est constitué d’objets plus rapprochés que les deux autres pôles. La densité des pôles reflète la densité locale de la région de l’espace dans laquelle ils sont situés. Cette observation est satisfaisante, par rapport au deuxième critère caractéristique des pôles.

Finalement, on note sur ces figures, que le premier et le troisième pôle sont assez proches. On peut alors s’attendre à ce que les clusters issus de ces deux pôles possèdent plusieurs objets en commun, et que le cluster issu du second pôle partage peu d’objets avec les autres.

Cluster n˚ Taille Nb objets exclusifs intersections

1 39 29 - 4 10

2 54 50 4 - 4

3 71 61 10 4

-Tab. 2.1 – Analyse des clusters obtenus par PoBOC sur la base de données Iris. Le tableau 2.1 introduit une première analyse des clusters obtenus par PoBOC. Chaque ligne correspond à un cluster et les informations sur sa taille, sur le nombre d’objets n’ap-partenant qu’à ce cluster et sur ses intersections avec les 2 autres clusters, sont répertoriées. Par exemple, le cluster n˚1 renferme 39 objets dont 29 sont exclusivement dans ce cluster. Il s’intersecte avec les clusters n˚2 et n˚3 et ces intersections sont respectivement de taille 4 et 10.

Par ce tableau, on confirme les hypothèses formulées précédemment : les clusters n˚1 et n˚3 possèdent d’avantage d’objets en commun (10) que les clusters n˚1 et n˚2 ou n˚2 et n˚3. Globalement, on observe que les clusters produits par PoBOC peuvent être de tailles variées (de 39 à 71 objets) avec plus ou moins d’intersections (de 5% à plus de 25% d’objets partagés).

On souhaite à présent évaluer la qualité du schéma obtenu par PoBOC sur la base Iris. Pour cela, nous allons analyser ce schéma d’abord en le comparant à la classification de référence puis en évaluant sa qualité intrinsèque. Pour ces deux stratégies d’évaluation nous observerons trois aspects du schéma issu de PoBOC : le nombre de clusters, la pertinence des clusters et la qualité des intersections entre clusters. L’algorithme des k-moyennes sera alors utilisé comme base de comparaison pour l’ensemble de l’étude.

Evaluation du schéma comparativement à la classification de référence

Clusters

Classes

setosa versicolor virginica

n˚1 0 4 35

n˚2 50 4 0

n˚3 0 50 21

La table de contingence (table 2.2) indique que chaque cluster représente une classe différente d’iris. La première classe d’iris est plutôt bien retrouvée puisque le cluster n˚2 contient toutes les instances de cette classe plus quelques instances (4) de la seconde. Le cluster n˚1 correspond à une sous-partie de la troisième classe d’iris et le cluster n˚3 renferme la totalité des iris de la deuxième classe plus le complément de la troisième.

Outre le fait que PoBOC propose un schéma en trois clusters, conformément à la classification de référence, l’analyse de la table de contingence met en évidence que ces trois clusters correspondent assez bien aux trois classes attendues. Cette “correspondance” est alors quantifiée dans le tableau 2.3 par des indices d’évaluation externe.

Stat. de Huberts Stat. de Huberts

M´ethode

(externe)% ^{Statistique de Rand}^% (interne)%

k-moyennes (k = 3) 0.146±0.006 0.842±0.074 0.339±0.021

PoBOC sans recouv^ts 0.153 0.874 0.350

PoBOC 0.147 0.839 0.343

Classification de r´ef. 0.160 1.000 0.313

Tab. 2.3 – ´Evaluation du sch´ema par des indices externes.

Dans ce tableau, trois schémas de clustering sont comparés (trois premières lignes) : l’algorithme des k-moyennes8 pour un nombre de clusters identique à PoBOC, la version “stricte” de l’algorithme PoBOC⁹ et l’algorithme PoBOC original. La version stricte de PoBOC est utile, d’une part pour comparer des schémas de même nature avec l’algo-rithme des k-moyennes (schémas strictes), et d’autre part pour observer l’influence des intersections entre clusters sur leur qualité.

Les deux indices externes utilis´es sont :

– l’adaptation de la statistique de Huberts (Γ) pour comparer un schéma de clustering et une classification préétablie. Cet indice compare, pour chaque paire d’objets, la distance entre ces deux objets dans le schéma de clustering (distance entre les clusters respectifs) et dans la classification préétablie (distance entre les classes respectives). L’indice est alors maximum pour un schéma de clustering identique à la classification. – Considérant que deux objets sont liés s’ils appartiennent à un même cluster, la statistique de Rand compte la proportion de liaisons ou non-liaisons “correctes” dans le schéma de clustering. Une liaison est “correcte” si les deux objets appartiennent à la même classe de référence. Une non-liaison est “correcte” si les deux objets (non-liés) appartiennent à des classes différentes. La valeur maximale 1.0, sur cet indice, indique que le schéma de clustering est identique à la classification.

Les mesures reportées dans le tableau indiquent que le schéma proposé par la version stricte de l’algorithme PoBOC est équivalent aux meilleures partitions obtenues par k-moyennes. Les intersections entre clusters induisent naturellement une perte de qualité des clusters. Cette perte reste cependant raisonnable puisque la pseudo-partition obtenue par PoBOC est comparable aux schémas stricts résultant des k-moyennes, sur les deux indices.

8Les résultats présentés correspondent à des moyennes sur 1,000 itérations de l’algorithme k-moyennes avec différentes initialisations.

9La version stricte diffère de l’algorithme original par une étape d’affectations simples (au plus proche pôle) au lieu de l’étape de multi-affectations.

Enfin, la dernière colonne du tableau 2.3 donne une indication sur la correspondance entre les schémas de clustering et la matrice des distances, via la version “interne” de Γ. On observe alors que les schémas les plus représentatifs de l’information contenue dans la matrice des distances, sont ceux obtenus par PoBOC. Enfin, la dernière ligne du tableau précise que la classification préétablie ne correspond pas nécessairement à la matrice des distances. Cette dernière observation nous incite à compléter l’évaluation des schémas de clustering indépendamment de la classification proposée.

Evaluation de la qualité intrinsèque du schéma

Indépendamment de toute connaissance extérieure, un bon schéma de clustering est caractérisé par des clusters compacts et bien séparés. Comme nous l’avons mentionné dans le chapitre précédent, ces deux caractéristiques sont à la base de la plupart des indices de qualité. Nous utilisons alors les mesures d’inertie intra-cluster et inter-clusters permettant de quantifier respectivement la dispersion des objets à l’intérieur des clusters (indice à minimiser&) et la dispersion des clusters entre eux (indice à maximiser %). La statistique de Huberts (Γ), adaptée à une évaluation comparative de plusieurs schémas, permet de combiner ces deux indicateurs (indice à maximiser %).

0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 1 2 3 4 5 6 7 8 9 Huberts Statistic Nombre de clusters 1 1.5 2 2.5 3 1 2 3 4 5 6 7 8 9^0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Inertie intra-cluster _{Inertie inter-clusters}

Nombre de clusters Inertie intra-cluster Inertie inter-clusters

Fig. 2.15 – ´Evaluation du nombre de clusters sur la base Iris.

Ces trois indices sont utilisés pour détecter le/un nombre optimal de clusters organisant au mieux un ensemble de données. Sur la base Iris, l’algorithme des k-moyennes est exécuté plusieurs fois en faisant varier le paramètre k et donne lieu aux tracés des indices présentés en figure 2.15.

Les tracés des indices sont naturellement (quasiment) monotones. En effet, la qualité des schémas augmente avec le nombre de clusters autorisés. Sur ces tracés, les “pics” ou “cassures” observés, signifient que le paramétrage correspondant est particulièrement adapté ou au contraire inadapté, selon qu’ils correspondent à une amélioration ou à une détérioration de la qualité du schéma. Par exemple, le tracé de l’indice Γ sur Iris comporte deux “cassures” : à k = 3 (indiquant un meilleur schéma) et k = 8 (indiquant un moins bon schéma). Le tracé de l’intertie intra-cluster fait émerger les paramètres k = 3 et k = 6 tandis que le dernier indice distingue plutôt les schémas obtenus pour k = 5 et k = 7. La fusion de ces trois résultats élit le paramétrage k = 3 comme nombre optimal de clusters, ce qui valide à la fois le schéma obtenu par PoBOC et la classification de référence.

A titre d’information, notons que l’algorithme de clustering probabiliste AutoClass [21] qui recherche automatiquement ce nombre optimal de clusters propose, avec les meilleures

probabilit´es, les deux r´esultats suivants : PROB exp(-2471.353) Nb clusters = 2 PROB exp(-2479.274) Nb clusters = 3

Les trois indices précédents sont de nouveaux employés pour comparer les schémas obtenus par les différentes méthodes de clustering :

Partitionnements stricts : Les sch´emas sans recouvrement, obtenus par k-moyennes et par la version stricte de PoBOC, sont compar´es.

Partitionnements avec recouvrements : Une variante de k-moyennes proposant des clusters avec recouvrements est proposée comme élément de comparaison avec l’algo-rithme PoBOC. Cette variante est obtenue en rempla¸cant l’étape de réallocation ori-ginale de k-moyennes par une étape de réallocation multiple identique à la procédure de multi-affectations utilisée dans PoBOC.

Les résultats de cette étude sont rapportés dans le tableau 2.4 et complétés par le coefficient de partition qui mesure l’importance des recouvrements entre clusters : un coefficient égal à 1.0 correspond à un schéma strict tandis qu’une valeur égale à t (nombre de clusters) correspond à un taux de recouvrement maximum (tous les clusters sont alors identiques et renferment l’ensemble des objets).

Inertie Inertie Stat. de Huberts Coefficient de

M´ethode

intra-cluster& inter-clusters% (relatif )% partition&

k-moyennes (k = 3) 2.05±0.56 0.291±0.073 0.155±0.007 1.00 PoBOC sans recouv^ts ^1.68 ^0.279 ^0.163 ^1.00 PoBOC 3.06 0.257 0.157 1.09 k-moyennes +recouv^ts ^7.32±4.26 0.261±0.147 0.106±0.058 1.66±0.28

Tab. 2.4 – ´Evaluation du sch´ema par des indices relatifs.

Les mesures confirment les conclusions précédentes, à savoir la présence de clusters plus compacts avec PoBOC (inertie intra-classe plus faible) et séparés de fa¸con comparable (inertie inter-clusters), dans le cas des schémas stricts . Ces deux premières lignes du tableau montrent finalement que les clusters générés par PoBOC sont meilleurs que ceux générés par k-moyennes (Γ plus élevé).

Enfin, les deux lignes inférieures nous informent sur la quantité et la qualité des recouvrements produits par chacune des deux méthodes de clustering. La stratégie de construction des pôles, proposée dans PoBOC apparaˆıt alors décisive puisque les inter-sections induites par PoBOC sont raisonnables comparativement à la version modifiée de k-moyennes : PoBOC produit beaucoup moins d’intersections (coef. partition égal à 1.09 contre 1.66) et ces intersections ne bouleversent pas la qualité globale des clusters (Γ du même ordre que k-moyenne original).

En conclusion de cette analyse de PoBOC sur la base Iris, l’algorithme propose des résultats satisfaisants et sensiblement meilleurs que l’algorithme de référence “k-moyennes”, tant du point de vue du nombre de clusters que de leur qualité et des intersections entre clusters. La section suivante rapporte les résultats obtenus sur d’autres bases de données de tailles et de natures variées.

Dans le document Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information (Page 82-88)