• Aucun résultat trouvé

Evaluation relative : Le passage d’un sch´ema strict `a un sch´ema avec recouvrements implique presque syst´ematiquement une perte de qualit´e en ce qui concerne la disper-sion intra et inter-clusters. En effet, les clusters sont ´elargis et s’intersectent, ils sont donc moins homog`enes et moins s´epar´es. L’indice de Dunn, par exemple, renverra syst´ematiquement une valeur ´egale `a 0 puisque la plus petite distance s´eparant deux clusters (num´erateur) est nulle pour deux clusters qui s’intersectent. En revanche les indices de Davies-Bouldin et Γ (relatif) peuvent aider `a comparer plusieurs sch´emas avec recouvrements. Le coefficient de partition apporte ´egalement une information concernant l’importance des recouvrements ; en consid´erant que chaque objet d’un cluster a une valeur d’appartenance (uk(xi)) ´egale `a 1, ce coefficient prendra ses valeurs entre 1 (partition stricte) et t (correspondant `a t clusters contenant chacun tous les objets).

Comme nous l’avons constat´e, il existe de nombreuses mesures permettant d’´evaluer, pour chaque type de sch´ema (strict, avec recouvrements ou flou) la pertinence des algo-rithmes de clustering. Cette ´evaluation peut ˆetre effectu´ee relativement `a une connais-sance a priori sur les donn´ees, en comparaison avec une matrice de proximit´e associ´ee aux donn´ees ou “simplement” en mesurant les dispersions inter et intra-clusters. Cependant, ces indices ne permettent pas de comparer des sch´emas de natures diff´erentes. Par exemple, un sch´ema avec recouvrement sera syst´ematiquement moins pertinent qu’un sch´ema strict, relativement `a l’homog´en´eit´e et `a la s´eparation des clusters. Dans la suite, afin de motiver notre ´etude concernant le clustering avec recouvrements, nous serons amen´es `a envisager une autre strat´egie d’´evaluation. Pour cela nous utiliserons le regroupement de donn´ees `a l’int´erieur d’un processus plus g´en´eral tel que l’apprentissage de r`egles de classification ou encore la classification de documents, afin d’observer l’influence des diff´erents algorithmes et des diff´erents types de sch´emas de clustering sur l’application globale.

1.8 Conclusion sur le clustering

Dans ce premier chapitre, nous avons pr´esent´e la probl´ematique g´en´erale du cluste-ring en d´efinissant les trois ´etapes majeures de ce processus, `a savoir : la pr´eparation des donn´ees, le clustering proprement dit et l’exploitation des r´esultats de l’algorithme. Pour chacune de ces ´etapes, nous avons focalis´e notre attention sur les grandes diffi-cult´es rencontr´ees, donnant lieu `a des sous-domaines de recherche, comme par exemple : la pond´eration des variables descriptives, le choix d’une mesure de (dis)similarit´e ou d’une m´ethode de regroupement adapt´ee ou encore l’´evaluation et la validation des sch´emas de clustering obtenus.

Nous avons surtout distingu´e les diff´erents types de sch´emas envisageables suivant les m´ethodes existantes, et observ´e que la construction de hi´erarchies ou partitions strictes est un r´esultat commun `a la plupart des algorithmes. Les algorithmes de regroupement flou, proposant un r´esultat plus riche du point de vue informationnel, sont ´egalement tr`es ´etudi´es et peuvent facilement s’adapter si besoin, pour former des sch´emas stricts ou avec recouvrements (recours `a des seuils). Ce dernier type de sch´emas (avec recouvrement) est peu ´etudi´e, sans doute parce que les approches envisag´ees jusqu’ici sont en majorit´e bas´ees sur la recherche de clusters compacts et que les crit`eres de qualit´e qui en d´ecoulent

favo-risent les sch´emas sans recouvrements. L’organisation de donn´ees en classes recouvrantes permet pourtant d’aboutir `a des classes davantage repr´esentatives de l’organisation r´eelle des donn´ees.

Dans le chapitre suivant, nous proposons une nouvelle approche de regroupement, d´edi´ee `a la construction d’une pseudo-partition. L’algorithme PoBOC r´epond `a un cahier des charges contraignant puisqu’il tient compte de probl´ematiques majeures du domaine telles que la faible sensibilit´e `a la pr´esence d’outliers, la construction de clusters de densit´es vari´ees, la recherche du nombre de classes appropri´e et surtout l’existence d’intersections entre ces classes.

2

L’algorithme de clustering

PoBOC

Sommaire

2.1 Motivations et cadre g´en´eral de l’algorithme . . . 54 2.2 Pr´esentation de l’algorithme PoBOC . . . 54 2.2.1 Pr´esentation g´en´erale de PoBOC . . . . 54 2.2.2 Pr´esentation formelle de l’algorithme PoBOC . . . . 56

2.3 Discussion sur l’algorithme PoBOC . . . 65

2.3.1 Rappel du processus global . . . . 65 2.3.2 Positionnement de l’algorithme PoBOC . . . . 66 2.3.3 Traitement de grandes bases . . . . 68 2.4 Premi`eres exp´erimentations . . . 69 2.4.1 Analyse de PoBOC sur la base de donn´ees Iris . . . . 69 2.4.2 Evaluation de PoBOC sur d’autres bases de donn´ees . . . .´ 75 2.5 Conclusion . . . 78

2.1 Motivations et cadre g´en´eral de l’algorithme

La conclusion de la synth`ese pr´ec´edente concernant le clustering et les diff´erentes approches propos´ees dans la litt´erature, est qu’il n’existe pas, ou peu, d’algorithmes adapt´es `a la construction de classes non-disjointes. Les formalisations math´ematiques de la probl´ematique du clustering, telles que les fonctions de coˆut `a optimiser (e.g. m´ethodes de r´eallocations du type k-moyennes) ou la mod´elisation par m´elanges de lois de probabilit´es, ne permettent pas de consid´erer des intersections entre classes, sans utilisation de seuils, plus ou moins arbitraires.

Du cˆot´e des m´ethodes hi´erarchiques, l’approche pyramidale se pose comme une excep-tion `a la pr´ec´edente conclusion, puisque le probl`eme pr´esente une formalisaexcep-tion math´ematique. Cependant, la construction d’une pyramide est contrainte `a la d´efinition d’un ordre sur l’ensemble des objets ; chaque cluster final est alors d´efini comme un inter-valle et s’intersecte avec au plus deux autres clusters (interinter-valles gauche et droit). Cette contrainte, indispensable `a la visualisation d’une pyramide, limite consid´erablement les possibilit´es de sch´emas de clustering.

Certaines adaptations peuvent ˆetre envisag´ees pour “assouplir” un sch´ema de parti-tionnement stricte ou au contraire pour “restreindre” un sch´ema flou. Dans le premier cas, on peut proposer d’´etendre les hyper-sph`eres obtenues par une m´ethode du type k-moyennes, en augmentant leur rayon. Dans la seconde alternative, il est possible de transformer les valeurs d’appartenance en affectations ´eventuellement multiples. Dans les deux cas, l’utilisation de seuils semble indispensable et le choix ou l’apprentissage de ces seuils devient une nouvelle probl´ematique. De plus, comme nous le constaterons dans les exp´erimentations `a venir, ces strat´egies d’adaptation induisent souvent des intersections trop importantes.

Il convient alors de proposer une approche nouvelle, d´edi´ee `a la tˆache de construction d’une pseudo-partition. Cette approche doit ˆetre g´en´erale, c’est `a dire qu’elle ne doit pas ˆetre limit´ee `a un ensemble bien pr´ecis d’applications, mais doit au contraire pouvoir traiter tout type de donn´ees dans des contextes applicatifs tr`es diff´erents. Nous proposons alors l’algorithme PoBOC (Pole-Based Overlapping Clustering), une m´ethode de clustering avec recouvrements, bas´ee sur la construction d’un ensemble de pˆoles.

Le plan, pour la suite de ce chapitre, est le suivant : nous pr´esentons en d´etail l’al-gorithme de clustering PoBOC en section 2.2. Nous proposons ensuite une discussion sur l’algorithme (section 2.3) et une pr´esentation de quelques exp´erimentations pr´eliminaires (section 2.4).