Conclusion sur le clustering - Une méthode de classification non-supervisée pour l'apprentissag

Evaluation relative : Le passage d’un schéma strict à un schéma avec recouvrements implique presque systématiquement une perte de qualité en ce qui concerne la disper-sion intra et inter-clusters. En effet, les clusters sont élargis et s’intersectent, ils sont donc moins homogènes et moins séparés. L’indice de Dunn, par exemple, renverra systématiquement une valeur égale à 0 puisque la plus petite distance séparant deux clusters (numérateur) est nulle pour deux clusters qui s’intersectent. En revanche les indices de Davies-Bouldin et Γ (relatif) peuvent aider à comparer plusieurs schémas avec recouvrements. Le coefficient de partition apporte également une information concernant l’importance des recouvrements ; en considérant que chaque objet d’un cluster a une valeur d’appartenance (u_k(x_i)) égale à 1, ce coefficient prendra ses valeurs entre 1 (partition stricte) et t (correspondant à t clusters contenant chacun tous les objets).

Comme nous l’avons constaté, il existe de nombreuses mesures permettant d’évaluer, pour chaque type de schéma (strict, avec recouvrements ou flou) la pertinence des algo-rithmes de clustering. Cette évaluation peut être effectuée relativement à une connais-sance a priori sur les données, en comparaison avec une matrice de proximité associée aux données ou “simplement” en mesurant les dispersions inter et intra-clusters. Cependant, ces indices ne permettent pas de comparer des schémas de natures différentes. Par exemple, un schéma avec recouvrement sera systématiquement moins pertinent qu’un schéma strict, relativement à l’homogénéité et à la séparation des clusters. Dans la suite, afin de motiver notre étude concernant le clustering avec recouvrements, nous serons amenés à envisager une autre stratégie d’évaluation. Pour cela nous utiliserons le regroupement de données à l’intérieur d’un processus plus général tel que l’apprentissage de règles de classification ou encore la classification de documents, afin d’observer l’influence des différents algorithmes et des différents types de schémas de clustering sur l’application globale.

1.8 Conclusion sur le clustering

Dans ce premier chapitre, nous avons présenté la problématique générale du cluste-ring en définissant les trois étapes majeures de ce processus, à savoir : la préparation des données, le clustering proprement dit et l’exploitation des résultats de l’algorithme. Pour chacune de ces étapes, nous avons focalisé notre attention sur les grandes diffi-cultés rencontrées, donnant lieu à des sous-domaines de recherche, comme par exemple : la pondération des variables descriptives, le choix d’une mesure de (dis)similarité ou d’une méthode de regroupement adaptée ou encore l’évaluation et la validation des schémas de clustering obtenus.

Nous avons surtout distingué les différents types de schémas envisageables suivant les méthodes existantes, et observé que la construction de hiérarchies ou partitions strictes est un résultat commun à la plupart des algorithmes. Les algorithmes de regroupement flou, proposant un résultat plus riche du point de vue informationnel, sont également très étudiés et peuvent facilement s’adapter si besoin, pour former des schémas stricts ou avec recouvrements (recours à des seuils). Ce dernier type de schémas (avec recouvrement) est peu étudié, sans doute parce que les approches envisagées jusqu’ici sont en majorité basées sur la recherche de clusters compacts et que les critères de qualité qui en découlent

favo-risent les schémas sans recouvrements. L’organisation de données en classes recouvrantes permet pourtant d’aboutir à des classes davantage représentatives de l’organisation réelle des données.

Dans le chapitre suivant, nous proposons une nouvelle approche de regroupement, dédiée à la construction d’une pseudo-partition. L’algorithme PoBOC répond à un cahier des charges contraignant puisqu’il tient compte de problématiques majeures du domaine telles que la faible sensibilité à la présence d’outliers, la construction de clusters de densités variées, la recherche du nombre de classes approprié et surtout l’existence d’intersections entre ces classes.

2

L’algorithme de clustering

PoBOC

Sommaire

2.1 Motivations et cadre général de l’algorithme . . . 54 2.2 Présentation de l’algorithme PoBOC . . . 54 2.2.1 Présentation générale de PoBOC . . . . 54 2.2.2 Présentation formelle de l’algorithme PoBOC . . . . 56

2.3 Discussion sur l’algorithme PoBOC . . . 65

2.3.1 Rappel du processus global . . . . 65 2.3.2 Positionnement de l’algorithme PoBOC . . . . 66 2.3.3 Traitement de grandes bases . . . . 68 2.4 Premières expérimentations . . . 69 2.4.1 Analyse de PoBOC sur la base de données Iris . . . . 69 2.4.2 Evaluation de PoBOC sur d’autres bases de données . . . .^´ 75 2.5 Conclusion . . . 78

2.1 Motivations et cadre g´en´eral de l’algorithme

La conclusion de la synthèse précédente concernant le clustering et les différentes approches proposées dans la littérature, est qu’il n’existe pas, ou peu, d’algorithmes adaptés à la construction de classes non-disjointes. Les formalisations mathématiques de la problématique du clustering, telles que les fonctions de coût à optimiser (e.g. méthodes de réallocations du type k-moyennes) ou la modélisation par mélanges de lois de probabilités, ne permettent pas de considérer des intersections entre classes, sans utilisation de seuils, plus ou moins arbitraires.

Du côté des méthodes hiérarchiques, l’approche pyramidale se pose comme une excep-tion à la précédente conclusion, puisque le problème présente une formalisaexcep-tion mathématique. Cependant, la construction d’une pyramide est contrainte à la définition d’un ordre sur l’ensemble des objets ; chaque cluster final est alors défini comme un inter-valle et s’intersecte avec au plus deux autres clusters (interinter-valles gauche et droit). Cette contrainte, indispensable à la visualisation d’une pyramide, limite considérablement les possibilités de schémas de clustering.

Certaines adaptations peuvent être envisagées pour “assouplir” un schéma de parti-tionnement stricte ou au contraire pour “restreindre” un schéma flou. Dans le premier cas, on peut proposer d’étendre les hyper-sphères obtenues par une méthode du type k-moyennes, en augmentant leur rayon. Dans la seconde alternative, il est possible de transformer les valeurs d’appartenance en affectations éventuellement multiples. Dans les deux cas, l’utilisation de seuils semble indispensable et le choix ou l’apprentissage de ces seuils devient une nouvelle problématique. De plus, comme nous le constaterons dans les expérimentations à venir, ces stratégies d’adaptation induisent souvent des intersections trop importantes.

Il convient alors de proposer une approche nouvelle, dédiée à la tâche de construction d’une pseudo-partition. Cette approche doit être générale, c’est à dire qu’elle ne doit pas être limitée à un ensemble bien précis d’applications, mais doit au contraire pouvoir traiter tout type de données dans des contextes applicatifs très différents. Nous proposons alors l’algorithme PoBOC (Pole-Based Overlapping Clustering), une méthode de clustering avec recouvrements, basée sur la construction d’un ensemble de pôles.

Le plan, pour la suite de ce chapitre, est le suivant : nous présentons en détail l’al-gorithme de clustering PoBOC en section 2.2. Nous proposons ensuite une discussion sur l’algorithme (section 2.3) et une présentation de quelques expérimentations préliminaires (section 2.4).

Dans le document Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information (Page 64-67)