Les méthodes de partitionnement - Les différentes méthodes de clustering

8 CONCLUSIONS ET PERSPECTIVES

A. Synthèse sur les méthodes de regroupement : le clustering Cette annexe a pour objectif dans un premier temps de décrire les différentesCette annexe a pour objectif dans un premier temps de décrire les différentes

A.1 Les différentes méthodes de clustering

A.1.5. Les méthodes de partitionnement

L’objectif des méthodes de partitionnement est de trouver, parmi l’ensemble fini de toutes les partitions possibles, une partition qui optimise un critère défini a priori. En pratique, c’est souvent une approche irréalisable, car pour n objets et K classes on a : K^n/K! partition possibles.

Pour construire une partition à K clusters d’une base D de n objets, on utilise souvent une des trois méthodes ci-dessous.

La première est la méthode K-Means ou méthode des centres mobiles (MacQueen 1967). Chaque cluster est représenté par son centre. Chaque objet sera affecté au groupe dont le centre est le plus proche. Le centre d’un groupe est la moyenne de tous les points de ce

groupe (barycentre / moyenne arithmétique). Il n’y a pas de cluster à contenu fixe, c'est-à-dire qu'on ne contraint pas chaque cluster à contenir X éléments.

La deuxième méthode est la méthode K-Medoids ou PAM (Partition around medoids) (Kaufman and Rousseeum 1987). Chaque cluster est représenté par un de ses objets. Cette méthode est plus coûteuse que K-Means car elle demande plus de calculs, mais elle est plus robuste que K-Means car elle est moins sensible aux « outliers », c'est-à-dire aux points très éloignés des autres.

La dernière méthode est la méthode des Nuées dynamiques; elle est basée sur l’identification des «formes fortes» (c’est-à-dire un ensemble d’éléments ayant toujours été regroupés ensembles) pour définir les clusters.

A.1.5.1. La méthode K-Means

A.1.5.1.1. L’algorithme K-Means

La méthode K-Means comprend cinq étapes. Tout d’abord, il faut fixer le nombre de clusters K à partir de la méthode Elbow (définie ci-dessous) puis la méthode va choisir aléatoirement K centres pour chaque cluster. Elle affectera ensuite chaque objet O au cluster Ci de centre Mi tel que la distance de O à Mi, dist(O,Mi), soit minimale. L'étape suivante consiste à calculer la valeur de Mi pour chaque cluster (i.e. le barycentre). Ensuite, les deux dernières étapes sont réitérées jusqu'à ce qu'il y ait convergence, c'est-à-dire jusqu'à ce que plus aucun individu ne change de classe ; donc que les groupes ne soient plus modifiés.

Cette équation mesure l'homogénéité de chaque classe.

Le barycentre de chaque groupe est recalculé à chaque nouvel individu introduit dans le cluster, sans attendre l’affectation de tous les individus. C'est une méthode itérative, c'est-à- dire jusqu'à ce que plus aucun élément ne bouge du cluster. L'inertie intra-classe diminue à chaque étape.

Figure 4: Algorithme K-Means avec K = 2

A.1.5.1.3. Exemple de la méthode K-Means

Dans cette section, nous présentons un exemple afin de mieux appréhender le fonctionnement de cette méthode.

Les données sont les suivantes : A = {1,2,3,6,7,8,13,15,17}. Nous souhaitons créer trois clusters à partir de A.

On prend 3 objets au hasard. Supposons que l’on choisisse les trois premiers, soit 1, 2 et 3 pour commencer.

On a donc C1={1}, M1=1, C2={2}, M2=2, C3={3} et M3=3.

Chaque objet O est affecté au cluster duquel il est le plus proche. Par exemple, 6 est affecté à C3 car dist(M3,6) < dist(M2,6) et dist(M3,6) < dist(M1,6).

On a _{C1={1}, M1=1,} C2={2}, M2=2

C3={3, 6,7,8,13,15,17}, M3=69/7=9.86

Lors de la deuxième itération suivante, on obtient:

dist(3,M2) < dist(3,M3)  _{3 passe dans C2. Aucun des autres objets ne bouge.} C1={1}, M1=1 C2={2,3}, M2=2.5 C3={6,7,8,13,15,17} et M3= 66/6=11 Les itérations suivantes se déroulent comme suit:

dist(6,M2) < dist(6,M3)  6 passe dans C2. Aucun des autres objets ne bouge. C1={1}, M1=1 C2={2,3,6}, M2=11/3=3.67 C3={7,8,13,15,17}, M3= 12 dist(2,M1) < dist(2,M2)  2 passe en C1 et dist(7,M2) < dist(7,M3)

 7 passe en C2. Aucun des autres ne bouge.

C1={1,2}, M1=1.5 C2={3,6,7}, M2=5.34 C3= {8,13,15,17}, M3=13.25 dist(3,M1) < dist(3,M2)  3 passe en 1 et dist(8,M2) < dist(8,M3)  8 passe en 2. C1={1,2,3}, M1=2 C2={6,7,8}, M2=7 C3={13,15,17}, M3=15

Les itérations sont alors terminés, et plus aucun objet ne change de cluster.

A.1.5.1.4. Avantages

Un avantage majeur de cette méthode est qu’il s’agit d’un algorithme de groupement simple et rapide (la convergence est parfois possible en une seule itération) donc relativement efficace. C’est d’ailleurs la méthode la plus utilisée pour traiter de grandes bases de données.

A.1.5.1.5. Inconvénients

Le premier inconvénient de cette méthode est la spécification à priori d’un nombre de clusters K. De plus, le résultat dépend du choix des centres initiaux : il ne correspond pas nécessairement au résultat optimum, mais à un optimum local. L’algorithme utilisé, non- déterministe, peut produire un résultat différent à chaque exécution suivant le choix (aléatoire) des centres initiaux. Cette méthode donne aussi un poids important aux "outliers". De plus, cette méthode est bien adaptée à des données numériques (pour lesquelles la moyenne est définie) mais elle est moins flexible que la classification AGNES pour des données plus «originales » (cas des données nominales).

A.1.5.1.6. Traitement de la dépendance au choix des centres initiaux

Pour traiter la dépendance au choix des centres initiaux, il existe plusieurs méthodes. La première est une approche simple consistant à recommencer avec plusieurs tirages aléatoires de centres (pour un nombre K identique) et à choisir la partition avec IW minimum (Inertie intra-classe).

La seconde méthode consiste à rechercher des clusters « stables » (ou des formes fortes). Pour cela, on effectue plusieurs partitions en K classes (centres initiaux différents) puis on repère les individus restés ensemble d'une partition à l'autre. A partir des groupes stables de grands effectifs (en nombre limité), on recommence la méthode K-Means en initialisant les centres aux centres des groupes stables. Cela permet également de déterminer une valeur de K plus appropriée aux données.

Pour obtenir une bonne valeur pour K, on utilise la méthode Elbow où une “figure of merit” (FOM) peut être calculée. Le FOM renseigne sur la qualité des clusters pour un intervalle de possibilités de clusters. Un cluster est "bon" lorsque les éléments qu’il contient sont très rapprochés les uns des autres avec peu de dispersion. Il faut donc choisir une valeur de K située au point d’inflexion de la courbe violette.

Figure 5: Figure of Merit obtenu à partir de la méthode Elbow permettant de déterminer le nombre optimal de groupes K à renseigner pour les méthodes de partitionnement.

A.1.5.2. Les méthodes K-Médoides et nuées dynamiques

A.1.5.2.1. La méthode K-Médoides

L’objectif de cette méthode est de trouver des objets représentatifs dans les clusters (au lieu de la moyenne, cf. méthode K-Means). On définit K objets représentatifs des classes, appelés médoïdes, situés au centre des classes. Le médoïde est l'objet pour lequel la dissimilarité moyenne par rapport aux autres objets de la classe est la plus faible. Cela est efficace pour des données de petite taille.

Le principe est de commencer avec un ensemble de medoïdes puis itérativement de remplacer un médoïde par un autre si ça permet de réduire la distance globale (cf. méthode K- Means).

A.1.5.2.2. La méthode Nuée dynamique (Diday 1972, 1974)

Avec cette méthode, chaque classe n’est plus représentée par son barycentre mais par un sous-ensemble de la classe, appelé noyau. Le noyau est formé des formes fortes. C’est un petit groupe d’observation qu’on retrouve systématiquement dans chaque classe quelque soit les centres d’inertie initiaux. Typiquement, cette méthode donne moins de poids aux outliers.

Dans le document Les nuages de mi-niveau en Afrique de l'Ouest : observation, caractérisation, modélisation (Page 157-161)