Conclusion - Thèse présentée par Cosmin LAZAR

Dans ce chapitre nous avons présenté de manière générale le domaine de la classification non supervisée des données multivariées. Parmi ces techniques, les méthodes à centre mobile et les méthodes à densité sont particulièrement appropriées à la découverte des classes dans des ensembles de données de grande taille.

Des travaux récents [AHK01, HAK99, BGRS00, FWV07, Dem94] montrent que la distance euclidienne (la mesure de similarité la plus utilisée par les méthodes à centre mobile) ainsi que toutes les métriques de Minkowski sont affectées par lephénomène de concentration. Ceci met en doute la pertinence de ces métriques comme mesure de similarité pour des données multivariées.

Trouver une méthode pour choisir la métrique optimale dans un problème de classification non supervisée constitue la motivation pour l’étude du phénomène de concentration des métriques.

L’état de l’art relatif à ce sujet est présenté dans le deuxième chapitre.

La réduction de la dimension est un autre problème majeur lié à la classification non su-pervisée des données de grande dimension. Son principal but est de réduire la complexité et le temps de calcul des méthodes de classification mais aussi d’extraire des facteurs pertinents qui peuvent nous aider à la compréhension des données. Pour cela, dans le troisième chapitre nous allons étudier les méthodes deséparation aveugle de sources (SAS) comme une alternative aux méthodes classiques d’extraction d’attributs (ACP -Analyse an Composantes Principales).

La réduction de dimension nous permet d’utiliser des méthodes de classification à densité qui favorisent la mise en évidence des classes de forme complexe.

Ph´ enom` ene de concentration des m´ etriques

Notations

Notation : Signification

X : Ensemble de donn´ees multivari´ees ; matrice de dimensionn×d

n : Nombre de donn´ees multivari´ees

d : Dimension de donn´ees (le nombre d’attributs d’un ensemble de donn´ees)

Xi,i= 1 :d : Vecteur de donn´ees

x_i : Scalaire représentant une mesure d’un vecteur de données L_r : Famille de métriquesr

r : Exposant de la m´etrique

Y : Ensemble de donn´ees representant la diff´erence entre toutes les paires des vecteurs de l’ensemble X

Yij : Vecteur de l’ensembleY representant la diff´erence entre les vecteurs X_i etX_j

Γ2 : Ensemble des normesL2 de X µ : Moyenne de Γ₂

Dmax^r_d−Dmin^r_d

Dmin^r_d : Fonction de contraste relatif

V ar(kXkr)

E(kXkr) : Fonction variance relative

σ : Variance de Γ2

Dmin : Valeur minimale observ´ee de Γ₂ Dmax : Valeur maximale observ´ee de Γ2

M : Valeur maximale admise de Γ₂ V ar() : Variance d’une variable al´eatoire

E() : Espérance mathématique d’une variable aléatoire

2.1 Introduction

La distance euclidienne est le critère de similarité le plus connu et le plus utilisé par les méthodes de classification non supervisée ; cette mesure est adaptée pour calculer la distance entre des points dans des espaces à 2 ou 3 dimensions. Des travaux récents montrent que pour des données multivariées cette mesure est affectée parle phénomène de concentration ; cela signifie que toutes les distances entre les paires de points d’un ensemble quelconque sont presque identiques et donc la notion duplus proche voisin oude similaritédevient instable [BGRS00]. C’est à cause de ceci que la pertinence de la distance euclidienne pour résoudre des problèmes d’analyse de données multidimensionnelles et implicitement de classification non supervisée est récemment mise en question [AHK01, HAK99, BGRS00].

Pour palier à ce phénomène, une solution proposée est d’utiliser des métriques moins con-centrées [AHK01]. Celles-ci augmentent le contraste entre les données et sont proposées comme alternative à la distance euclidienne pour améliorer les résultats de la classification des données multivariées. Dans [AHK01], les auteurs montrent que des valeurs inférieures à 1 de l’exposant de la norme atténuent le phénomène de concentration et ainsi, ces métriques, connues comme métriques fractionnaires, pourraient fournir de meilleurs résultats dans toute sorte d’applications traitant des données multidimensionnelles.

Contrairement à ces résultats, dans [FWV07] les auteurs montrent qu’il existe des distribu-tions pour lesquelles les métriques d’ordre supérieur sont moins concentrées que les métriques fractionnaires. Ils montrent que les résultats obtenus en [AHK01] ne sont valables que dans le cas où les données sont uniformement distribuées, ce qui est loin d’être vrai pour des données réelles.

Ils affirment que,”chercher des métriques moins concentrées pour lutter contre la concentration est tout à fait justifié”, mais ils ne font aucune affirmation sur l’impact de ces normes sur les résultats de la classification. Des questions restent encore ouvertes : est-ce qu’une norme moins concentrée donne des meilleurs résultats dans des problèmes de classification non supervisée

qu’une métrique plus concentrée? Si ceci est vrai, alors, trouver la métrique optimale consiste à trouver la métrique la moins concentrée pour l’ensemble des données analysées. Sinon, existe-il un moyen de choisir la métrique optimale pour résoudre le problème mentionné ?

Nous allons étudier de près ce phénomène en essayant de répondre à ces questions en ayant comme but l’amélioration des résultats des algorithmes de classification non supervisée utilisant la distance euclidienne comme mesure de similarité. Ce chapitre présente un bref état de l’art relatif au sujet de la concentration des métriques. Nous commen¸cons en présentant les définitions de la famille de métriques r et du phénomène de la concentration. Ensuite nous rappelons quelques résultats théoriques sur la concentration des métriques et nous conclurons.

Dans le document Thèse présentée par Cosmin LAZAR (Page 42-46)