Le clustering conceptuel - Les diff´erentes m´ethodes de clustering

1.6 Les diff´erentes m´ethodes de clustering

1.6.6 Le clustering conceptuel

Le clustering conceptuel a été introduit au début des années 1980 par [124]. Cette approche du clustering est alors présentée comme une manière de découvrir des schémas (clusters) “compréhensibles” à partir des données. Plutôt que de définir une mesure de similarité puis d’organiser les objets de fa¸con à minimiser les inerties intra-clusters et maxi-miser l’inertie inter-clusters, Michalski propose de générer une structure (hiérarchique) de concepts. Dans ce type de structure, chaque concept se définit à la fois en extension (en-semble des objets placés dans ce concept) et en intension (règles descriptives sur les objets). La définition en intension permet une caractérisation des clusters (ou concepts) et fournit alors à l’utilisateur une explication compréhensible de ces concepts.

Plusieurs systèmes de clustering conceptuel ont été proposés, afin de traiter des données plus ou moins complexes et de construire différents types de structures conceptuelles. On note alors les premiers algorithmes tels que CLUSTER/2 [125] modifié dans CLUS-TER/S [177] pour traiter des données à domaines de valeurs davantage structurés, com-parativement aux descriptions sous forme attribut/valeur. De la même fa¸con, l’algorithme incrémental COBWEB [60] a été adapté dans CLASSIT [66] pour traiter des données décrites par des attributs numériques. Contrairement à ces dernières méthodes, qui génèrent chacune un arbre hiérarchique, d’autres approches consistent à organiser les concepts dans des graphes conceptuels, s’apparentant davantage à des treillis de Galois. Cet autre type de structure est notamment étudié dans les travaux de [184, 174].

Nous avons choisi de présenter, dans cette section, l’algorithme COBWEB, afin d’illus-trer le fonctionnement des méthodes de clustering conceptuel. Cet algorithme est très utilisé et se présente souvent comme une référence dans ce domaine.

COBWEB est un système incrémental de clustering conceptuel hiérarchique. Le pro-cessus de formation de concepts a pour objectif de construire, à partir d’un ensemble de

Fig. 1.19 – Exemple d’une hiérarchie de concepts générée par COBWEB.

A chaque concept de la hiérarchie est associée une définition générique des objets constituant la classe. Par exemple, dans la figure 1.19, la classe C₂ contient 1/3 des indi-vidus de l’ensemble initial et dans C₂ tous les individus ont les cheveux bruns et la moitié ont les yeux verts.

L’algorithme COBWEB s’inscrit dans la problématique générale du clustering puisqu’il s’agit d’optimiser un critère global basé sur les deux notions de :

– similarit´e intra-classe, – dissimilarit´e inter-classes.

Le critère CU (Category Utility) [69] est alors utilisé dans COBWEB pour évaluer la qualité globale d’un schéma de clustering :

CU ({C1, . . . , Ct}) = ¹ t t X k=1 p(C_k)[X i X j p(Ai= Vi,j|Ck)²−^X i X j p(Ai= Vi,j)²] (1.1) Dans cette dernière définition,{A1, . . . , A_p} désigne l’ensemble des attributs décrivant les objets et {Vi,1, . . . , V_i,n_i} le domaine de valeurs de l’attribut Ai. On retrouve dans ce critère les probabilités conditionnelles p(A_i = V_i,j|Ck) et p(C_k|Ai = V_i,j)²⁰, formalisant respectivement la similarité intra-classe et la dissimilarité inter-classes. Si un couple attri-but/valeur (A_i = V_i,j) est indépendant d’une classe C_k, alors p(A_i = V_i,j|Ck) = p(A_i = V_i,j) et p(A_i = V_i,j|Ck)²− p(Ai = V_i,j)²= 0. En supposant que cela soit vrai pour tous les couples attribut/valeur, le schéma de concepts proposé est indépendant des descriptions et le critère CU atteint son minimum 0. En revanche, ce critère atteint son maximum pour le meilleur schéma conceptuel.

La stratégie de construction de la structure hiérarchique consiste à incorporer les objets de fa¸con incrémentale dans la structure. Chaque nouvel objet est introduit par la racine puis parcourt l’arbre en appliquant successivement l’un des opérateurs suivants :

Incorporer l’objet dans le cluster,

COBWEB : Algorithme incrémental de classification conceptuelle hiérarchique. Entrées : Le nœud courant N de la hiérarchie de concepts et x_i une nouvelle instance à incorporer,

Sortie : Une hi´erarchie de concepts classifiant l’instance x_i. Proc´edure COBWEB(N ,xi)

Si N est un nœud terminal (feuille) alors : cr´eer-nouveaux-nœuds-terminaux(N ,xi) incorporer(N ,x_i)

Sinon incorporer(N ,xi)

Pour chaque nœud fils C de N :

Calculer le score d’int´egration de x_i dans C Soit P le nœud avec le plus haut score (S_I), Soit R le nœud avec le deuxi`eme plus haut score,

Soit S_C le score correspondant à la création d’un nouveau nœud Q ={xi}, Soit S_F le score correspondant à la fusion des nœuds P et R,

Soit S_D le score correspondant `a la division du nœud P (remplac´e par ses fils),

Si S_I est le meilleur score alors : COBWEB(P ,x_i),

Sinon si S_C est le meilleur score alors : initialiser Q relativement `a x_i, Sinon si S_F est le meilleur score alors : O = fusionner(P ,R,N ) et COBWEB(O, xi),

Sinon si S_D est le meilleur score alors : diviser(P ,N ) et COBWEB(N, x_i).

Fig. 1.20 – L’algorithme COBWEB.

Cr´eer un nouveau cluster,

Fusionner deux clusters en un seul, Diviser un cluster en plusieurs clusters.

Ces quatre opérations sont détaillées en figure 1.21 et viennent en complément de l’algorithme général COBWEB reporté en figure 1.20, selon le formalisme proposé par [67].

COBWEB présente plusieurs limites parmi lesquelles : la difficulté à traiter les attributs numériques, l’influence de l’ordre dans lequel les objets sont intégrés à la hiérarchie ou encore le stockage coûteux de l’ensemble des instances dans cette hiérarchie.

Les algorithmes de clustering conceptuel génèrent, pour la plupart, une structure hiérarchique de concepts (graphe ou arbre). De même que les hiérarchies peuvent être généralisées en pseudo-hiérarchies ou pyramides (cf. 1.6.1), un arbre, obtenu par exemple avec COBWEB, peut être généralisé en une pyramide conceptuelle. Dans ce type de struc-ture, à chaque nœud est associée une définition en intension, et à un même niveau dans la pyramide, chaque concept peut être partiellement recouvert par au plus deux autres

fonction incorporer(N ,x_i)

Mettre `a jour les probabilit´es de N , Pour chaque attribut A de x_i :

Pour chaque valeur V de A :

Mettre à jour la probabilité p(V|N). fonction créer-nouveaux-nœuds-terminaux(N ,xi) Créer un nouveau nœud fils M au nœud N ,

Initialiser les probabilités de M à partir des probabilités de N , Créer un nouveau fils O au nœud N ,

Initialiser les probabilités de O à relativement à x_i. fonction fusionner(P, R, N )

Cr´eer un nouveau nœud fils O au nœud N ,

Mettre à jour les probabilités de O par moyenne des probabilités de P et R, Supprimer les nœuds fils P et R de N ,

Ajouter P et R comme nœuds fils du nœud O, Retourner O.

fonction Diviser(P, N ) Supprimer le nœud fils P de N ,

Ajouter chaque nœud fils de P comme nouveau nœud fils de N .

concepts. Ces travaux plutôt récents sont présentés dans [20] et ont donné lieu au système SODAS [47].

Dans le document Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information (Page 54-58)