Classification bas´ee sur la quantification par grille

L’idée de ces méthodes est qu’on divise l’espace de données en un nombre fini de cel-lules formant une grille. Ce type d’algorithme est con¸cu pour des données spatiales. Une cellule peut être un cube, une région, un hyper rectangle.

En fait, avec une telle représentation des données, au lieu de faire la classification dans l’es-pace de données, on la fait dans l’esl’es-pace spatial en utilisant des informations statistiques des points dans la cellule. Les méthodes de ce type sont hiérarchiques ou de partitionne-ment. Les algorithmes les plus connus sont STING, CLIQUE, WaveCluster.

STING

L’algorithme STING (STatistical INformation Grid ) [WYM97] utilise ainsi une grille multirésolution. Les données dans chaque cellule sont résumées par le nombre

d’ob-jets dans la grille et par leur moyenne.

Chaque cellule est récursivement découpée en 4 sous-cellules. On commence en consi-dérant l’espace entier comme une cellule ancêtre de la hiérarchie et on s’arrête si l’on atteint un critère de terminaison : (le nombre des points dans une cellule est inférieur à un seuil).

Chaque cellule poss`ede certaines informations n´ecessaires pour l’affectation d’un point : – La moyenne de toutes les valeurs dans la cellule,

– La variance de toutes les valeurs d’attribut dans la cellule, – La valeur d’attribut minimum, maximum dans la cellule

– Le type de distribution de la cellule (normale, uniforme, exponentielle ou simplement une ´enum´eration).

Quand on remonte dans la hiérarchie, ces informations statistiques sont calculées à l’aide de celles du niveau inférieur.

STING est extensible car il a besoin d’une seule passe sur les données et un nouvel objet qui arrive peut être facilement inséré dans la grille en visitant les cellules appropriées à chaque niveau de la hiérarchie.

La classification est effectuée dans ces cellules de feuille au lieu de toutes les données, le coût de calcul est donc réduit (O(k) au lieu de O(N ), k étant le nombre de cellules et N est le nombre de points de données).

Cet algorithme gère également bien les données aberrantes, puisque seules les cellules très peuplées sont importantes. Cependant, il nécessite la définition de la moyenne des données. Il est dépendant du paramètre fixant la résolution de la grille, et obtient forcément des classes ”rectangulaires”.

WaveCluster

WaveCluster a été développé par Sheikholeslami et al en 2000 [SCZ00]. C’est un algorithme qui est con¸cu pour travailler sur des données spatiales. Dans l’algorithme, on considère les données spatiales comme les signaux multidimensionnels et on applique une technique de traitement de signal qui s’appelle la transformation wavelet pour transformer l’espace de données dans un espace de fréquences. L’idée est basée sur le fait que les parties de haute fréquence du signal correspondent aux régions de l’espace spatial de données où il y a un changement brusque dans la distribution des objets. Ce sont les frontières des

classes. Au contraire, les parties de basse fréquence du signal correspondent aux régions de l’espace de données où les objets sont concentrés. (les classes).

Tout d’abord, l’algorithme quantifie l’espace de données (divise l’espace en cellules) et affecte les objets aux cellules. Ensuite, il applique la transformation wavelet pour l’espace quantifié afin d’obtenir un espace transformé. Puis il cherche les composantes connectées (les classes) dans les sous bandes (l’espace transformé est un espace de fréquence). Deux composantes sont dites connectées si le nombre d’objets de chacune dans l’espace trans-formé est supérieur à un seuil et si les 2 composants sont ε− voisines (la distance entre elles est inférieure à ε. Enfin, il étiquette les cellules et réaffecte les objets à leurs classes correspondantes.

WaveCluster est capable de traiter efficacement les gros jeux de données spatiales donc en basse dimension. Il peut découvrir des classes de forme arbitraire et bien traiter le bruit. En plus, grâce au traitement du signal appliqué, WaveCluster nous donne la multi résolution, i.e. il peut donner des classes de différents niveaux du détail. La complexité de la phase de quantification est O(N ) et celle de la phase de transformation wavelet est au plus de O(4/3k) tel que k est le nombre de cellules.

CLIQUE

CLIQUE (CLustering In QUEst) a été développé par Agrawal et al en 1998 [AGGR98]. Dans cet algorithme au lieu de construire les classes dans l’espace original comme les autres algorithmes, CLIQUE le fait dans des sous-espaces en dimension la plus grande possible. L’idée est basée sur le fait que si une collection de points S est une classe dans un espace de k dimensions, alors S est ainsi une partie d’une classe dans n’importe quelle projection en k− 1 dimensions de cet espace.

L’algorithme travaille en plusieurs niveaux. Tout d’abord, il détermine toutes les unités denses en une dimension en balayant une fois les données. Après avoir déterminé les unités denses en (k − 1) dimensions, il détermine les unités denses candidates en k dimensions en utilisant une procédure qui génère les unités candidates.

La procédure de génération utilise l’ensemble de toutes les unités denses en k− 1 di-mensions Dk−1. Elle joint Dk−1 avec elle-même sous une condition où les unités qui sont jointes partagent les premières k− 2 dimensions pour obtenir un ensemble de candidates Ck. On supprimera les unités denses de Ck qui ont une projection en k dimensions qui ne

sont pas incluses dans Ck−1. L’algorithme se termine lorsqu’il n’y a plus de candidatures générées.

CLIQUE est une solution pour la classification de données en haute dimension. Il est insensible à l’ordre des données. Cependant, sa complexité est exponentielle. Supposons que k est le nombre le plus haut de dimensions du sous-espace auquel l’algorithme se termine, m est la cardinal de l’ensemble des données, l’algorithme doit accéder au jeu de données k fois. La complexité est O(ck+ mk) où c est une constante.

Dans le document Contribution aux méthodes de classification non supervisée via des approches prétopologiques et d'agrégation d'opinions (Page 74-77)