• Aucun résultat trouvé

L’id´ee de ces m´ethodes est qu’on divise l’espace de donn´ees en un nombre fini de cel-lules formant une grille. Ce type d’algorithme est con¸cu pour des donn´ees spatiales. Une cellule peut ˆetre un cube, une r´egion, un hyper rectangle.

En fait, avec une telle repr´esentation des donn´ees, au lieu de faire la classification dans l’es-pace de donn´ees, on la fait dans l’esl’es-pace spatial en utilisant des informations statistiques des points dans la cellule. Les m´ethodes de ce type sont hi´erarchiques ou de partitionne-ment. Les algorithmes les plus connus sont STING, CLIQUE, WaveCluster.

STING

L’algorithme STING (STatistical INformation Grid ) [WYM97] utilise ainsi une grille multir´esolution. Les donn´ees dans chaque cellule sont r´esum´ees par le nombre

d’ob-jets dans la grille et par leur moyenne.

Chaque cellule est r´ecursivement d´ecoup´ee en 4 sous-cellules. On commence en consi-d´erant l’espace entier comme une cellule ancˆetre de la hi´erarchie et on s’arrˆete si l’on atteint un crit`ere de terminaison : (le nombre des points dans une cellule est inf´erieur `a un seuil).

Chaque cellule poss`ede certaines informations n´ecessaires pour l’affectation d’un point : – La moyenne de toutes les valeurs dans la cellule,

– La variance de toutes les valeurs d’attribut dans la cellule, – La valeur d’attribut minimum, maximum dans la cellule

– Le type de distribution de la cellule (normale, uniforme, exponentielle ou simplement une ´enum´eration).

Quand on remonte dans la hi´erarchie, ces informations statistiques sont calcul´ees `a l’aide de celles du niveau inf´erieur.

STING est extensible car il a besoin d’une seule passe sur les donn´ees et un nouvel objet qui arrive peut ˆetre facilement ins´er´e dans la grille en visitant les cellules appropri´ees `a chaque niveau de la hi´erarchie.

La classification est effectu´ee dans ces cellules de feuille au lieu de toutes les donn´ees, le coˆut de calcul est donc r´eduit (O(k) au lieu de O(N ), k ´etant le nombre de cellules et N est le nombre de points de donn´ees).

Cet algorithme g`ere ´egalement bien les donn´ees aberrantes, puisque seules les cellules tr`es peupl´ees sont importantes. Cependant, il n´ecessite la d´efinition de la moyenne des donn´ees. Il est d´ependant du param`etre fixant la r´esolution de la grille, et obtient forc´ement des classes ”rectangulaires”.

WaveCluster

WaveCluster a ´et´e d´evelopp´e par Sheikholeslami et al en 2000 [SCZ00]. C’est un algorithme qui est con¸cu pour travailler sur des donn´ees spatiales. Dans l’algorithme, on consid`ere les donn´ees spatiales comme les signaux multidimensionnels et on applique une technique de traitement de signal qui s’appelle la transformation wavelet pour transformer l’espace de donn´ees dans un espace de fr´equences. L’id´ee est bas´ee sur le fait que les parties de haute fr´equence du signal correspondent aux r´egions de l’espace spatial de donn´ees o`u il y a un changement brusque dans la distribution des objets. Ce sont les fronti`eres des

classes. Au contraire, les parties de basse fr´equence du signal correspondent aux r´egions de l’espace de donn´ees o`u les objets sont concentr´es. (les classes).

Tout d’abord, l’algorithme quantifie l’espace de donn´ees (divise l’espace en cellules) et affecte les objets aux cellules. Ensuite, il applique la transformation wavelet pour l’espace quantifi´e afin d’obtenir un espace transform´e. Puis il cherche les composantes connect´ees (les classes) dans les sous bandes (l’espace transform´e est un espace de fr´equence). Deux composantes sont dites connect´ees si le nombre d’objets de chacune dans l’espace trans-form´e est sup´erieur `a un seuil et si les 2 composants sont ε− voisines (la distance entre elles est inf´erieure `a ε. Enfin, il ´etiquette les cellules et r´eaffecte les objets `a leurs classes correspondantes.

WaveCluster est capable de traiter efficacement les gros jeux de donn´ees spatiales donc en basse dimension. Il peut d´ecouvrir des classes de forme arbitraire et bien traiter le bruit. En plus, grˆace au traitement du signal appliqu´e, WaveCluster nous donne la multi r´esolution, i.e. il peut donner des classes de diff´erents niveaux du d´etail. La complexit´e de la phase de quantification est O(N ) et celle de la phase de transformation wavelet est au plus de O(4/3k) tel que k est le nombre de cellules.

CLIQUE

CLIQUE (CLustering In QUEst) a ´et´e d´evelopp´e par Agrawal et al en 1998 [AGGR98]. Dans cet algorithme au lieu de construire les classes dans l’espace original comme les autres algorithmes, CLIQUE le fait dans des sous-espaces en dimension la plus grande possible. L’id´ee est bas´ee sur le fait que si une collection de points S est une classe dans un espace de k dimensions, alors S est ainsi une partie d’une classe dans n’importe quelle projection en k− 1 dimensions de cet espace.

L’algorithme travaille en plusieurs niveaux. Tout d’abord, il d´etermine toutes les unit´es denses en une dimension en balayant une fois les donn´ees. Apr`es avoir d´etermin´e les unit´es denses en (k − 1) dimensions, il d´etermine les unit´es denses candidates en k dimensions en utilisant une proc´edure qui g´en`ere les unit´es candidates.

La proc´edure de g´en´eration utilise l’ensemble de toutes les unit´es denses en k− 1 di-mensions Dk−1. Elle joint Dk−1 avec elle-mˆeme sous une condition o`u les unit´es qui sont jointes partagent les premi`eres k− 2 dimensions pour obtenir un ensemble de candidates Ck. On supprimera les unit´es denses de Ck qui ont une projection en k dimensions qui ne

sont pas incluses dans Ck−1. L’algorithme se termine lorsqu’il n’y a plus de candidatures g´en´er´ees.

CLIQUE est une solution pour la classification de donn´ees en haute dimension. Il est insensible `a l’ordre des donn´ees. Cependant, sa complexit´e est exponentielle. Supposons que k est le nombre le plus haut de dimensions du sous-espace auquel l’algorithme se termine, m est la cardinal de l’ensemble des donn´ees, l’algorithme doit acc´eder au jeu de donn´ees k fois. La complexit´e est O(ck+ mk) o`u c est une constante.