Familles de m´ ethodes de segmentation - Extraction de connaissances spatio-temporelles incerta

A.2.1 M´ethodes par partitionnement

Ces méthodes permettent de construire plusieurs partitions puis les évaluer selon certains critères. Le principe général est de construire une partition à k clusters d’une base D de n objets. Les k clusters doivent optimiser le critère choisi. Le critère peut être global (en considérant toutes les k-partitions) ou heuristique (tels que les algorithmes k-means et k-medoids).

Parmi les algorithmes de partitionnement les plus populaires, nous citons le k- moyennes (k- means en anglais) [104]. L’algorithme de k-moyennes est pr´esent´e dans l’algorithme 4.

Algorithme 4 k-moyenne

Entrée: k le nombre de clusters désiré, d une mesure de dissimilarité sur l’ensemble des objets à traiter X

Sortie: Une partition C = {C1, ..., Ck}

%% Etape 0

1: Initialisation par tirage al´eatoire dans X, de k centres x∗_1,0, x∗_k,0

2: Constitution d’une partition initiale C0 = {C1, ..., Ck} par allocation de chaque

objet xi au centre le plus proche :

Cl= {xi∈ X|d(xi, xl,0∗ = minh=1,...,kd(xi, x∗h,0)}

3: Calcul des centro¨ıdes de k classes obtenues x∗_1,1, ..., x∗_k,1 %% Etape t

4: Constitution d’une nouvelle partition Ct = {C1, ..., Ck} par allocation de chaque

objet xi ∈ X au centre le plus proche :

Cl= {xi∈ X|d(xi, x_l,t∗ = minh=1,...,kd(xi, x∗_h,t)}

5: Calcul des centro¨ıdes de k classes obtenues x∗_1,t+1, ..., x∗_k,t+1

6: Répéter les étapes 4 et 5 tant que des changements s’opèrent d’un schéma Ct à un

schéma Ct+1 ou jusqu’à un nombre τ d’itérations

A.2.2 M´ethodes hi´erarchiques

Ces méthodes permettent de créer une décomposition hiérarchique des objets selon certains critères. Les Méthodes hiérarchiques se basent sur deux concepts : l’agglomération des groupes similaires et la division des groupes dissimilaires [41]. Le principe général de ces algorithmes est le suivant : étant donné un échantillon de m enregistrements x1, ..., xmen entrée. On commence

avec m clusters (cluster = 1 enregistrement). La deuxième étape est de grouper les deux clusters les plus ”proches”. Si tous les enregistrements sont membres d’un seul groupe, on s’arrête, sinon on va à la deuxième étape.

Parmi les m´ethodes de segmentation hi´erarchique, nous citons : CURE, COBWEB,CACTUS et BIRCH.

Dans cette annexe, nous d´etaillons les ´etapes de l’algorithme de BIRCH [147] (algorithme 5).

Algorithme 5 BIRCH

Entrée: D = {t1, t2, ..., tn} %% ensemble d’éléments

T %% seuil pour la construction de l’arbre CF Sortie: K %% ensemble des groupes

1: Pour tout ti ∈ D faire

2: D´eterminer le noeud feuille correcte pour l’insertion de ti

3: Si la condition de seuil n’est pas viol´ee alors

4: Ajouter ti `a groupe et mettre `a jour le triplet CF

5: Sinon Si espace pour ins´erer ti alors

6: Ins´erer ti comme groupe unique et mettre `a jour le triplet CF

7: Sinon

8: Diviser le noeud feuille et redistribuer les descripteurs CF

9: Fin Si

10: Fin Pour

Le vecteur caract´eristique d’une classe CF peut prendre les valeurs N ; LS ; SS. Avec

N : le nombre d’objets Oi dans la classe.

LS =P Xi.

SS =P X2 i.

Xi : le vecteur des variables d´ecrivant l’objet Oi.

A.2.3 Méthodes basées sur la densité

Elles sont basées sur des notions de connectivité et de densité. Pour ces méthodes, l’utilisation de mesures de similarité (distance) est moins efficace que l’utilisation de densité de voisinage. Les algorithmes basés sur la densité considèrent les clusters comme des régions denses d’objets qui sont séparées par des régions moins denses. Le but des algorithmes basés sur la densité est de ressortir les groupes de n’importe quelle forme et de détecter les anomalies et les objets qui forment des ” outliers ”. Parmi les algorithmes appartenant à cette catégorie de clustering, nous citons le DBSCAN (Density-Based Spatial Clustering of Applications with Noise) [55]. L’algorithme 6 détaille les principales étapes de l’algorithme DBSCAN.

Familles de m´ethodes de segmentation

Algorithme 6 DBSCAN Entr´ee: D, eps, MinPts Sortie: C = {C1, ..., Ck}

1: C = ∅

2: Pour tout point non vist´e P ∈ D faire

3: Marquer P comme visit´e

4: N = regionrecherche(P, eps)

5: Si taille(N) < MinPts alors

6: Marquer P comme bruit

7: Sinon

8: C = cluster suivant

9: ElargirCluster (P, N, C, eps, MinPts)

10: Fin Si

11: Fin Pour

12: ElargirCluster(P, N, C, eps, MinPts)

13: Ajouter P au cluster C

14: Pour tout point P’ ∈ N faire

15: Si P’ n’est pas visit´e alors

16: Marquer P’ comme visit´e

17: N’ = regionrecherche (P’, eps)

18: Si taille(N’) ≥ MinPts alors

19: N = N ∪ N’

20: Fin Si

21: Fin Si

22: Si P’ n’est pas membre d’aucun cluster alors

23: Ajouter P’ au cluster C

24: Fin Si

25: Fin Pour

DBSCAN nécessite 3 paramètres : – D : un ensemble de données.

– eps : le rayon de voisinage (distance max). – MinPts : le seuil de densit´e (nombre min).

A.2.4 M´ethodes de grille

Ces méthodes sont basées sur une structure à multi-niveaux de granularité. Elles divisent l’espace en cellules formant une grille et groupent les cellules voisines en termes de distance. Le principal avantage de ces méthodes qu’elles ne dépendent pas du nombre d’objets mais du nombre de cellules. Alors que l’inconvénient majeur est la détermination du bon seuil avec lequel on va définir si une cellule est dense ou non. Parmi les méthodes de grille, nous citons STING (STatistical IN formation Grid) [142], ENCLUS [38], CLIQUE (CLustering In QUEst) [2], MAFIA [69], etc.

Algorithme 7 STING

1: D´eterminer les clusters comme les cellules denses connect´ees de la grille

2: Affiner successivement les niveaux :

3: Pour chaque cellule du niveau courant, STING calcul l’intervalle de probabilit´e pour que les sous-cellules soient denses

4: Les cellules non intéressantes sont éliminées

5: Ajouter une dimension

6: Le processus répété jusqu’au niveau le plus bas

A.2.5 Méthodes à modèles

Ces méthodes affectent pour chaque cluster un modèle ensuite elles vérifient chaque modèle sur chaque groupe pour choisir le meilleur. Les méthodes à modèles permettent de découvrir des clusters compréhensibles plutôt que de définir des mesures de similarité permettant de minimiser les distances intra-clusters et maximiser les distances inter-clusters. Plusieurs algorithmes se basent sur la notion du modèle, parmi lesquels nous citons : COBWEB [62] et Expectation Maximization (EM) [50].

L’algorithme 8 d´etaille les ´etapes de l’algorithme EM.

Algorithme 8 EM

Entrée: X = {x1, ..., xn} un ensemble des observations, k le nombre de clusters désirés

et un seuil de tol´erance

Sortie: {(µh, σ_h2, τh)}h=1,...,n un ensemble de k vecteurs de param`etres

1: Initialiser k vecteurs de param`etres {(µ0_h, σ_h20, τ_h0)}h=1,...,n

2: A l’´etape t, calculer les vecteurs {(µt+1_h , σ_h2t+1, τ_ht+1)}h=1,...,n`a partir des estimations

de l’étape précédente {(µt_h, σ_h2t, τ_ht)}h=1,...,n

3: Calculer la variation de la fonction d’erreur (log de vraisemblance n´egatif) : ∆t+1_{= −}Pn i=1ln( pt+1_(x i) pt_(x i) )

4: Si ∆ > alors retourner `a l’´etape 2, sinon retourner les vecteurs {(µt+1_h , σ_h2t+1, τ_ht+1)}h=1,...,n

N.B pt(h|xi) = pt_(x

i|h)τht pt_(x

i) par l’´egalit´e de Bayes

Dans le document Extraction de connaissances spatio-temporelles incertaines pour la prédiction de changements en imagerie satellitale (Page 120-123)