• Aucun résultat trouvé

A.2.1 M´ethodes par partitionnement

Ces m´ethodes permettent de construire plusieurs partitions puis les ´evaluer selon certains crit`eres. Le principe g´en´eral est de construire une partition `a k clusters d’une base D de n objets. Les k clusters doivent optimiser le crit`ere choisi. Le crit`ere peut ˆetre global (en consid´erant toutes les k-partitions) ou heuristique (tels que les algorithmes k-means et k-medoids).

Parmi les algorithmes de partitionnement les plus populaires, nous citons le k- moyennes (k- means en anglais) [104]. L’algorithme de k-moyennes est pr´esent´e dans l’algorithme 4.

Algorithme 4 k-moyenne

Entr´ee: k le nombre de clusters d´esir´e, d une mesure de dissimilarit´e sur l’ensemble des objets `a traiter X

Sortie: Une partition C = {C1, ..., Ck}

%% Etape 0

1: Initialisation par tirage al´eatoire dans X, de k centres x∗1,0, x∗k,0

2: Constitution d’une partition initiale C0 = {C1, ..., Ck} par allocation de chaque

objet xi au centre le plus proche :

Cl= {xi∈ X|d(xi, xl,0∗ = minh=1,...,kd(xi, x∗h,0)}

3: Calcul des centro¨ıdes de k classes obtenues x∗1,1, ..., x∗k,1 %% Etape t

4: Constitution d’une nouvelle partition Ct = {C1, ..., Ck} par allocation de chaque

objet xi ∈ X au centre le plus proche :

Cl= {xi∈ X|d(xi, xl,t∗ = minh=1,...,kd(xi, x∗h,t)}

5: Calcul des centro¨ıdes de k classes obtenues x∗1,t+1, ..., x∗k,t+1

6: R´ep´eter les ´etapes 4 et 5 tant que des changements s’op`erent d’un sch´ema Ct `a un

sch´ema Ct+1 ou jusqu’`a un nombre τ d’it´erations

A.2.2 M´ethodes hi´erarchiques

Ces m´ethodes permettent de cr´eer une d´ecomposition hi´erarchique des objets selon certains crit`eres. Les M´ethodes hi´erarchiques se basent sur deux concepts : l’agglom´eration des groupes similaires et la division des groupes dissimilaires [41]. Le principe g´en´eral de ces algorithmes est le suivant : ´etant donn´e un ´echantillon de m enregistrements x1, ..., xmen entr´ee. On commence

avec m clusters (cluster = 1 enregistrement). La deuxi`eme ´etape est de grouper les deux clusters les plus ”proches”. Si tous les enregistrements sont membres d’un seul groupe, on s’arrˆete, sinon on va `a la deuxi`eme ´etape.

Parmi les m´ethodes de segmentation hi´erarchique, nous citons : CURE, COBWEB,CACTUS et BIRCH.

Dans cette annexe, nous d´etaillons les ´etapes de l’algorithme de BIRCH [147] (algorithme 5).

Algorithme 5 BIRCH

Entr´ee: D = {t1, t2, ..., tn} %% ensemble d’´el´ements

T %% seuil pour la construction de l’arbre CF Sortie: K %% ensemble des groupes

1: Pour tout ti ∈ D faire

2: D´eterminer le noeud feuille correcte pour l’insertion de ti

3: Si la condition de seuil n’est pas viol´ee alors

4: Ajouter ti `a groupe et mettre `a jour le triplet CF

5: Sinon Si espace pour ins´erer ti alors

6: Ins´erer ti comme groupe unique et mettre `a jour le triplet CF

7: Sinon

8: Diviser le noeud feuille et redistribuer les descripteurs CF

9: Fin Si

10: Fin Pour

Le vecteur caract´eristique d’une classe CF peut prendre les valeurs N ; LS ; SS. Avec

N : le nombre d’objets Oi dans la classe.

LS =P Xi.

SS =P X2 i.

Xi : le vecteur des variables d´ecrivant l’objet Oi.

A.2.3 M´ethodes bas´ees sur la densit´e

Elles sont bas´ees sur des notions de connectivit´e et de densit´e. Pour ces m´ethodes, l’utili- sation de mesures de similarit´e (distance) est moins efficace que l’utilisation de densit´e de voi- sinage. Les algorithmes bas´es sur la densit´e consid`erent les clusters comme des r´egions denses d’objets qui sont s´epar´ees par des r´egions moins denses. Le but des algorithmes bas´es sur la densit´e est de ressortir les groupes de n’importe quelle forme et de d´etecter les anomalies et les objets qui forment des ” outliers ”. Parmi les algorithmes appartenant `a cette cat´egorie de clustering, nous citons le DBSCAN (Density-Based Spatial Clustering of Applications with Noise) [55]. L’algorithme 6 d´etaille les principales ´etapes de l’algorithme DBSCAN.

Familles de m´ethodes de segmentation

Algorithme 6 DBSCAN Entr´ee: D, eps, MinPts Sortie: C = {C1, ..., Ck}

1: C = ∅

2: Pour tout point non vist´e P ∈ D faire

3: Marquer P comme visit´e

4: N = regionrecherche(P, eps)

5: Si taille(N) < MinPts alors

6: Marquer P comme bruit

7: Sinon

8: C = cluster suivant

9: ElargirCluster (P, N, C, eps, MinPts)

10: Fin Si

11: Fin Pour

12: ElargirCluster(P, N, C, eps, MinPts)

13: Ajouter P au cluster C

14: Pour tout point P’ ∈ N faire

15: Si P’ n’est pas visit´e alors

16: Marquer P’ comme visit´e

17: N’ = regionrecherche (P’, eps)

18: Si taille(N’) ≥ MinPts alors

19: N = N ∪ N’

20: Fin Si

21: Fin Si

22: Si P’ n’est pas membre d’aucun cluster alors

23: Ajouter P’ au cluster C

24: Fin Si

25: Fin Pour

DBSCAN n´ecessite 3 param`etres : – D : un ensemble de donn´ees.

– eps : le rayon de voisinage (distance max). – MinPts : le seuil de densit´e (nombre min).

A.2.4 M´ethodes de grille

Ces m´ethodes sont bas´ees sur une structure `a multi-niveaux de granularit´e. Elles divisent l’espace en cellules formant une grille et groupent les cellules voisines en termes de distance. Le principal avantage de ces m´ethodes qu’elles ne d´ependent pas du nombre d’objets mais du nombre de cellules. Alors que l’inconv´enient majeur est la d´etermination du bon seuil avec lequel on va d´efinir si une cellule est dense ou non. Parmi les m´ethodes de grille, nous citons STING (STatistical IN formation Grid) [142], ENCLUS [38], CLIQUE (CLustering In QUEst) [2], MAFIA [69], etc.

Algorithme 7 STING

1: D´eterminer les clusters comme les cellules denses connect´ees de la grille

2: Affiner successivement les niveaux :

3: Pour chaque cellule du niveau courant, STING calcul l’intervalle de probabilit´e pour que les sous-cellules soient denses

4: Les cellules non int´eressantes sont ´elimin´ees

5: Ajouter une dimension

6: Le processus r´ep´et´e jusqu’au niveau le plus bas

A.2.5 M´ethodes `a mod`eles

Ces m´ethodes affectent pour chaque cluster un mod`ele ensuite elles v´erifient chaque mod`ele sur chaque groupe pour choisir le meilleur. Les m´ethodes `a mod`eles permettent de d´ecouvrir des clusters compr´ehensibles plutˆot que de d´efinir des mesures de similarit´e permettant de minimiser les distances intra-clusters et maximiser les distances inter-clusters. Plusieurs algorithmes se basent sur la notion du mod`ele, parmi lesquels nous citons : COBWEB [62] et Expectation Maximization (EM) [50].

L’algorithme 8 d´etaille les ´etapes de l’algorithme EM.

Algorithme 8 EM

Entr´ee: X = {x1, ..., xn} un ensemble des observations, k le nombre de clusters d´esir´es

et  un seuil de tol´erance

Sortie: {(µh, σh2, τh)}h=1,...,n un ensemble de k vecteurs de param`etres

1: Initialiser k vecteurs de param`etres {(µ0h, σh20, τh0)}h=1,...,n

2: A l’´etape t, calculer les vecteurs {(µt+1h , σh2t+1, τht+1)}h=1,...,n`a partir des estimations

de l’´etape pr´ec´edente {(µth, σh2t, τht)}h=1,...,n

νj(µt+1h ) = Pn i=1pt(h|xi)νi(xi) PN i=1pt(h|xi) σ2ht+1 = Pn i=1pt(h|xi)kxi−µthk2 Pn i=1pt(h|xi) τht+1= n1Pn i=1pt(h|xi)

3: Calculer la variation de la fonction d’erreur (log de vraisemblance n´egatif) : ∆t+1= −Pn i=1ln( pt+1(x i) pt(x i) )

4: Si ∆ >  alors retourner `a l’´etape 2, sinon retourner les vecteurs {(µt+1h , σh2t+1, τht+1)}h=1,...,n

N.B pt(h|xi) = pt(x

i|h)τht pt(x

i) par l’´egalit´e de Bayes