• Aucun résultat trouvé

1.6 Les diff´erentes m´ethodes de clustering

1.6.5 Le clustering par densit´es

Les algorithmes pr´esent´es dans la section pr´ec´edente utilisent, pour la plupart, la no-tion de “densit´e d’une cellule”, d´efinie relativement au nombre d’objets contenus dans cette cellule. Les algorithmes de clustering par densit´es se basent sur une notion similaire, compl´et´ee par d’autres concepts fondamentaux tels que le voisinage d’un objet, l’objet noyau, l’accessibilit´e ou la connexion entre objets. Nous proposons d’abord de d´efinir cha-cune de ces notions avant de pr´esenter les algorithmes qui en d´ecoulent.

D´efinition 1.16. Soit un objet xi ∈ X ; le voisinage N(xi) de xi (de rayon ) est d´efini par l’ensemble des points de X, distants d’au plus  de xi :

N(xi) ={xj ∈ X|d(xi, xj)≤ }

16La densit´e d’une cellule est d´efinie relativement `a un seuil fix´e par l’utilisateur : % d’objets > τ dans la cellule.

D´efinition 1.17. Soient un objet xi ∈ X,  et M deux param`etres fix´es ; xi est un objet noyau dans X si et seulement si le voisinage de xi contient au moins M objets :

noyau(xi)⇔ |N(xi)| ≥ M

D´efinition 1.18. Soient deux objets xi, xj ∈ X,  et M deux param`etres fix´es ; xi est directement d-accessible18 par xj, si et seulement si les deux propri´et´es suivantes sont v´erifi´ees :

i) xi∈ N(xj),

ii) |N(xj)| ≥ M (xj est un objet noyau).

Ainsi xi est directement d-accessible par xj si le voisinage de xj contient au minimum M objets, dont xi. Notons alors que cette relation n’est ni sym´etrique, ni transitive. La relation suivante n’est toujours pas sym´etrique mais transitive :

D´efinition 1.19. Soient deux objets xi, xj ∈ X,  et M deux param`etres fix´es ; xi est d-accessible par xj si il existe une chaˆıne x01, . . . , x0m dans X telle que x01 = xj, x0m = xi et ∀i = 1, . . . , m − 1, x0i+1 est directement d-accessible par x0i.

D´efinition 1.20. Soient deux objets xi, xj ∈ X,  et M deux param`etres fix´es ; xi est d-connect´e19 `a xj si il existe un objet xk∈ X tel que xi et xj sont tous deux d-accessibles par xk.

Cette derni`ere notion correspond cette fois `a une relation sym´etrique mais non transi-tive.

Sur un principe comparable aux algorithmes de r´e-allocations dynamiques, les m´ethodes bas´ees sur la densit´e cherchent `a d´ecouvrir des clusters pour lesquels tous les objets sont en relation avec un mˆeme objet central :

– dans le cas des m´ethodes par r´e-allocations, les objets centraux sont les objets repr´esentatifs (centro¨ıdes, m´edo¨ıdes etc.) et la relation est bas´ee sur la similarit´e, – pour les m´ethodes bas´ees sur la densit´e, les objets centraux sont des noyaux par

lesquels les autres objets sont d-accessibles.

D´efinition 1.21. Soient X l’ensemble des objets,  et M deux param`etres fix´es. Un d-cluster C⊂ X est un ensemble non vide dans X v´erifiant les propri´et´es suivantes :

i) Maximalit´e : ∀xi, xj ∈ X : si xi ∈ C et xj est d-accessible par xi, alors xj ∈ C, ii) Connectivit´e : ∀xi, xj ∈ C : xi est d-connect´e `a xj.

Lemme 1.1. Soient xi un objet noyau dans X et O l’ensemble des objets d-accessibles par xi : alors O est un d-cluster.

Lemme 1.2. Soient C un d-cluster et xi un noyau dans C : alors C est l’ensemble des objets d-accessibles par xi.

Les deux lemmes pr´ec´edents, dont les preuves sont pr´esent´ees dans [55], permettent d’orienter la recherche d’un d-cluster. En effet, la construction d’un tel cluster revient `a rechercher d’abord un objet noyau puis `a agglom´erer, autour de ce noyau, tous les objets d-accessibles par ce noyau. L’algorithme DBSCAN (Density-Based Spatial Clustering of Applications with Noise) [56] r´esume assez bien cette strat´egie de recherche. Les grandes ´etapes de cet algorithme sont pr´esent´ees en figure 1.18.

18En Anglais directly density-reachable. 19En Anglais density-connected.

DBSCAN : Density-Based Spatial Clustering of Applications with Noise Entr´ees : Un ensemble X de n objets,  et M deux param`etres fix´es, Sortie : Une partition C = {C1, . . . , Ck} de X en k d-clusters.

1. Initialisation id = 1 et Cid=∅, 2. Pour i allant de 1 `a n :

3. Si xi n’est pas un noyau ou si xi[

j=1...id

Cj, alors retourner `a l’´etape 2, 4. construire-cluster(xi,X,Cid,,M ),

5. id = id + 1 et Cid=∅,

6. Retourner l’ensemble des d-clusters : C1, . . . , Cid−1.

Fig. 1.18 – L’algorithme DBSCAN.

La proc´edure construire-cluster commence par ajouter, dans le cluster en cours d’´elaboration, tous les objets dans le voisinage du noyau d´etect´e xi. Pour chaque objet ajout´e on teste s’il s’agit d’un noyau, le cas ´ech´eant le cluster est ´etendu `a ses objets d-connect´es. Cette proc´edure r´ecursive conduit `a un d-cluster tel que nous l’avons d´efini, v´erifiant les propri´et´es de :

Maximalit´e : Tous les objets d-accessibles par un objet du cluster ont ´et´e ajout´es de proche en proche,

Connectivit´e : Quelque soient les deux objets du cluster, ils sont n´ecessairement tous les deux d-accessibles par le noyau initial xi, donc d-connect´es entre eux.

L’algorithme DBSCAN est de complexit´e O(n log n) ce qui en fait une m´ethode assez peu coˆuteuse. De plus, les clusters obtenus peuvent ˆetre de formes vari´ees. Enfin, DBSCAN distingue bien les objets bruit´es en d´eclarant comme outliers les objets qui ne sont d-connect´es `a aucun autre objet. Cependant l’algorithme pr´esente un inconv´enient majeur : le choix des param`etres  et M . Mˆeme si les auteurs de l’algorithme proposent une heuristique pour d´eterminer automatiquement ces param`etres, ce choix reste difficile en pratique. Les donn´ees ne sont g´en´eralement pas distribu´ees identiquement et ces param`etres devraient pouvoir varier suivant les r´egions de l’espace.

Les mˆemes auteurs proposent alors l’algorithme OPTICS (Ordering Points To Identify the Clustering Structure) [5]. OPTICS d´efinit un ordre sur les objets qui peut ensuite ˆetre utilis´e par DBSCAN, dans la phase d’expansion des clusters. Cet ordre permet ainsi d’envisager plusieurs niveaux de densit´es, caract´eris´es par plusieurs valeurs du param`etre . Cet ordre est d´efini `a l’aide de deux nouvelles notions : la distance au noyau et la distance d’accessibilit´e.

L’algorithme DBCLASD (Distribution-Based Clustering of Large Spatial Databases) [187] propose, quant `a lui, une approche distributionnelle pour g´erer ce probl`eme de varia-tion des densit´es locales. DBCLASD recherche la distribuvaria-tion de probabilit´e d’une variable al´eatoire correspondant `a la distance d’un objet `a son plus proche voisin (dppv). Sous les hypoth`eses que les objets sont distribu´es uniform´ement `a l’int´erieur d’un mˆeme cluster et que chaque cluster poss`ede sa propre “´echelle” de dppv, DBCLASD d´ecouvre des clusters de diff´erentes densit´es et de formes vari´ees.

Enfin, l’algorithme GDBSCAN (Generalized DBSCAN) [160] a ´et´e propos´e comme extension `a DBSCAN pour traiter des donn´ees spatiales plus complexes telles que les polygones.

L’algorithme DBSCAN et les variantes pr´esent´ees pr´ec´edemment pourraient ais´ement produire un pseudo-partitionnement de l’ensemble des donn´ees. En effet, un objet qui n’est pas un noyau peut ˆetre d-accessible par plusieurs objets de diff´erents clusters. Dans DBSCAN cette situation est ´evit´ee en interdisant l’ajout dans un cluster, d’un objet d´ej`a ajout´e `a un pr´ec´edent cluster. La suppression de cette interdiction laisserait apparaˆıtre des intersections entre clusters, mˆeme si ces situations semblent “rares”.

Un partitionnement flou peut ´egalement ˆetre envisag´e par une m´ethode de clustering bas´ee sur la densit´e. L’algorithme DENCLUE (DENsity-based CLUstEring) [82] recherche un ensemble de points “density-attractors” qui s’apparentent aux centres de gravit´e dans l’algorithme des k-moyennes flou. Ces points sont, en fait, les maxima locaux d’une fonction de densit´e globale rendant compte de l’influence de l’ensemble des objets en tout point de l’espace. Ces influences sont mod´elis´ees par des fonctions d’influence qui mesurent, pour chaque objet, son impact dans son voisinage. Ce sont ces derni`eres fonctions qui font intervenir la notion de densit´e par l’utilisation des voisinages. Cependant, DENCLUE n’est pas destin´e `a la construction de clusters flous et souffre ´egalement d’un exc`es de param`etres.