Le clustering par densités - Les différentes méthodes de clustering

1.6 Les diff´erentes m´ethodes de clustering

1.6.5 Le clustering par densit´es

Les algorithmes présentés dans la section précédente utilisent, pour la plupart, la no-tion de “densité d’une cellule”, définie relativement au nombre d’objets contenus dans cette cellule. Les algorithmes de clustering par densités se basent sur une notion similaire, complétée par d’autres concepts fondamentaux tels que le voisinage d’un objet, l’objet noyau, l’accessibilité ou la connexion entre objets. Nous proposons d’abord de définir cha-cune de ces notions avant de présenter les algorithmes qui en découlent.

D´efinition 1.16. Soit un objet x_i ∈ X ; le voisinage N(x_i) de x_i (de rayon ) est d´efini par l’ensemble des points de X, distants d’au plus de xi :

N(xi) ={xj ∈ X|d(xi, xj)≤ }

16La densité d’une cellule est définie relativement à un seuil fixé par l’utilisateur : % d’objets > τ dans la cellule.

Définition 1.17. Soient un objet xi ∈ X, et M deux paramètres fixés ; xi est un objet noyau dans X si et seulement si le voisinage de x_i contient au moins M objets :

noyau(x_i)⇔ |N(x_i)| ≥ M

Définition 1.18. Soient deux objets x_i, x_j ∈ X, et M deux paramètres fixés ; xi est directement d-accessible¹⁸ par x_j, si et seulement si les deux propriétés suivantes sont vérifiées :

i) x_i∈ N(x_j),

ii) |N(x_j)| ≥ M (xj est un objet noyau).

Ainsi x_i est directement d-accessible par x_j si le voisinage de x_j contient au minimum M objets, dont x_i. Notons alors que cette relation n’est ni sym´etrique, ni transitive. La relation suivante n’est toujours pas sym´etrique mais transitive :

Définition 1.19. Soient deux objets xi, xj ∈ X, et M deux paramètres fixés ; xi est d-accessible par x_j si il existe une chaˆıne x⁰₁, . . . , x⁰_m dans X telle que x⁰₁ = x_j, x⁰_m = x_i et ∀i = 1, . . . , m − 1, x⁰i+1 est directement d-accessible par x⁰_i.

Définition 1.20. Soient deux objets xi, xj ∈ X, et M deux paramètres fixés ; xi est d-connecté¹⁹ à x_j si il existe un objet x_k∈ X tel que xi et x_j sont tous deux d-accessibles par x_k.

Cette dernière notion correspond cette fois à une relation symétrique mais non transi-tive.

Sur un principe comparable aux algorithmes de ré-allocations dynamiques, les méthodes basées sur la densité cherchent à découvrir des clusters pour lesquels tous les objets sont en relation avec un même objet central :

– dans le cas des méthodes par ré-allocations, les objets centraux sont les objets représentatifs (centro¨ıdes, médo¨ıdes etc.) et la relation est basée sur la similarité, – pour les méthodes basées sur la densité, les objets centraux sont des noyaux par

lesquels les autres objets sont d-accessibles.

Définition 1.21. Soient X l’ensemble des objets, et M deux paramètres fixés. Un d-cluster C⊂ X est un ensemble non vide dans X vérifiant les propriétés suivantes :

i) Maximalité : ∀xi, x_j ∈ X : si xi ∈ C et xj est d-accessible par x_i, alors x_j ∈ C, ii) Connectivité : ∀xi, xj ∈ C : xi est d-connecté à xj.

Lemme 1.1. Soient x_i un objet noyau dans X et O l’ensemble des objets d-accessibles par x_i : alors O est un d-cluster.

Lemme 1.2. Soient C un d-cluster et xi un noyau dans C : alors C est l’ensemble des objets d-accessibles par x_i.

Les deux lemmes précédents, dont les preuves sont présentées dans [55], permettent d’orienter la recherche d’un d-cluster. En effet, la construction d’un tel cluster revient à rechercher d’abord un objet noyau puis à agglomérer, autour de ce noyau, tous les objets d-accessibles par ce noyau. L’algorithme DBSCAN (Density-Based Spatial Clustering of Applications with Noise) [56] résume assez bien cette stratégie de recherche. Les grandes étapes de cet algorithme sont présentées en figure 1.18.

18En Anglais directly density-reachable. 19En Anglais density-connected.

DBSCAN : Density-Based Spatial Clustering of Applications with Noise Entrées : Un ensemble X de n objets, et M deux paramètres fixés, Sortie : Une partition C = {C1, . . . , C_k} de X en k d-clusters.

1. Initialisation id = 1 et C_id=∅, 2. Pour i allant de 1 `a n :

3. Si x_i n’est pas un noyau ou si x_i∈ ^[

j=1...id

C_j, alors retourner `a l’´etape 2, 4. construire-cluster(xi,X,C_id,,M ),

5. id = id + 1 et C_id=∅,

6. Retourner l’ensemble des d-clusters : C₁, . . . , C_id₋₁.

Fig. 1.18 – L’algorithme DBSCAN.

La procédure construire-cluster commence par ajouter, dans le cluster en cours d’élaboration, tous les objets dans le voisinage du noyau détecté xi. Pour chaque objet ajouté on teste s’il s’agit d’un noyau, le cas échéant le cluster est étendu à ses objets d-connectés. Cette procédure récursive conduit à un d-cluster tel que nous l’avons défini, vérifiant les propriétés de :

Maximalité : Tous les objets d-accessibles par un objet du cluster ont été ajoutés de proche en proche,

Connectivité : Quelque soient les deux objets du cluster, ils sont nécessairement tous les deux d-accessibles par le noyau initial x_i, donc d-connectés entre eux.

L’algorithme DBSCAN est de complexité O(n log n) ce qui en fait une méthode assez peu coûteuse. De plus, les clusters obtenus peuvent être de formes variées. Enfin, DBSCAN distingue bien les objets bruités en déclarant comme outliers les objets qui ne sont d-connectés à aucun autre objet. Cependant l’algorithme présente un inconvénient majeur : le choix des paramètres et M . Même si les auteurs de l’algorithme proposent une heuristique pour déterminer automatiquement ces paramètres, ce choix reste difficile en pratique. Les données ne sont généralement pas distribuées identiquement et ces paramètres devraient pouvoir varier suivant les régions de l’espace.

Les mêmes auteurs proposent alors l’algorithme OPTICS (Ordering Points To Identify the Clustering Structure) [5]. OPTICS définit un ordre sur les objets qui peut ensuite être utilisé par DBSCAN, dans la phase d’expansion des clusters. Cet ordre permet ainsi d’envisager plusieurs niveaux de densités, caractérisés par plusieurs valeurs du paramètre . Cet ordre est défini à l’aide de deux nouvelles notions : la distance au noyau et la distance d’accessibilité.

L’algorithme DBCLASD (Distribution-Based Clustering of Large Spatial Databases) [187] propose, quant à lui, une approche distributionnelle pour gérer ce problème de varia-tion des densités locales. DBCLASD recherche la distribuvaria-tion de probabilité d’une variable aléatoire correspondant à la distance d’un objet à son plus proche voisin (dppv). Sous les hypothèses que les objets sont distribués uniformément à l’intérieur d’un même cluster et que chaque cluster possède sa propre “échelle” de dppv, DBCLASD découvre des clusters de différentes densités et de formes variées.

Enfin, l’algorithme GDBSCAN (Generalized DBSCAN) [160] a été proposé comme extension à DBSCAN pour traiter des données spatiales plus complexes telles que les polygones.

L’algorithme DBSCAN et les variantes présentées précédemment pourraient aisément produire un pseudo-partitionnement de l’ensemble des données. En effet, un objet qui n’est pas un noyau peut être d-accessible par plusieurs objets de différents clusters. Dans DBSCAN cette situation est évitée en interdisant l’ajout dans un cluster, d’un objet déjà ajouté à un précédent cluster. La suppression de cette interdiction laisserait apparaˆıtre des intersections entre clusters, même si ces situations semblent “rares”.

Un partitionnement flou peut également être envisagé par une méthode de clustering basée sur la densité. L’algorithme DENCLUE (DENsity-based CLUstEring) [82] recherche un ensemble de points “density-attractors” qui s’apparentent aux centres de gravité dans l’algorithme des k-moyennes flou. Ces points sont, en fait, les maxima locaux d’une fonction de densité globale rendant compte de l’influence de l’ensemble des objets en tout point de l’espace. Ces influences sont modélisées par des fonctions d’influence qui mesurent, pour chaque objet, son impact dans son voisinage. Ce sont ces dernières fonctions qui font intervenir la notion de densité par l’utilisation des voisinages. Cependant, DENCLUE n’est pas destiné à la construction de clusters flous et souffre également d’un excès de paramètres.

Dans le document Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information (Page 51-54)