• Aucun résultat trouvé

Conclusion

Dans le document Th`ese pr´esent´ee par Cosmin LAZAR (Page 42-46)

Dans ce chapitre nous avons pr´esent´e de mani`ere g´en´erale le domaine de la classification non supervis´ee des donn´ees multivari´ees. Parmi ces techniques, les m´ethodes `a centre mobile et les m´ethodes `a densit´e sont particuli`erement appropri´ees `a la d´ecouverte des classes dans des ensembles de donn´ees de grande taille.

Des travaux r´ecents [AHK01, HAK99, BGRS00, FWV07, Dem94] montrent que la distance euclidienne (la mesure de similarit´e la plus utilis´ee par les m´ethodes `a centre mobile) ainsi que toutes les m´etriques de Minkowski sont affect´ees par leph´enom`ene de concentration. Ceci met en doute la pertinence de ces m´etriques comme mesure de similarit´e pour des donn´ees multivari´ees.

Trouver une m´ethode pour choisir la m´etrique optimale dans un probl`eme de classification non supervis´ee constitue la motivation pour l’´etude du ph´enom`ene de concentration des m´etriques.

L’´etat de l’art relatif `a ce sujet est pr´esent´e dans le deuxi`eme chapitre.

La r´eduction de la dimension est un autre probl`eme majeur li´e `a la classification non su-pervis´ee des donn´ees de grande dimension. Son principal but est de r´eduire la complexit´e et le temps de calcul des m´ethodes de classification mais aussi d’extraire des facteurs pertinents qui peuvent nous aider `a la compr´ehension des donn´ees. Pour cela, dans le troisi`eme chapitre nous allons ´etudier les m´ethodes des´eparation aveugle de sources (SAS) comme une alternative aux m´ethodes classiques d’extraction d’attributs (ACP -Analyse an Composantes Principales).

La r´eduction de dimension nous permet d’utiliser des m´ethodes de classification `a densit´e qui favorisent la mise en ´evidence des classes de forme complexe.

Ph´ enom` ene de concentration des m´ etriques

Notations

Notation : Signification

X : Ensemble de donn´ees multivari´ees ; matrice de dimensionn×d

n : Nombre de donn´ees multivari´ees

d : Dimension de donn´ees (le nombre d’attributs d’un ensemble de donn´ees)

Xi,i= 1 :d : Vecteur de donn´ees

xi : Scalaire repr´esentant une mesure d’un vecteur de donn´ees Lr : Famille de m´etriquesr

r : Exposant de la m´etrique

Y : Ensemble de donn´ees representant la diff´erence entre toutes les paires des vecteurs de l’ensemble X

Yij : Vecteur de l’ensembleY representant la diff´erence entre les vecteurs Xi etXj

Γ2 : Ensemble des normesL2 de X µ : Moyenne de Γ2

Dmaxrd−Dminrd

Dminrd : Fonction de contraste relatif

V ar(kXkr)

E(kXkr) : Fonction variance relative

31

σ : Variance de Γ2

Dmin : Valeur minimale observ´ee de Γ2 Dmax : Valeur maximale observ´ee de Γ2

M : Valeur maximale admise de Γ2 V ar() : Variance d’une variable al´eatoire

E() : Esp´erance math´ematique d’une variable al´eatoire

2.1 Introduction

La distance euclidienne est le crit`ere de similarit´e le plus connu et le plus utilis´e par les m´ethodes de classification non supervis´ee ; cette mesure est adapt´ee pour calculer la distance entre des points dans des espaces `a 2 ou 3 dimensions. Des travaux r´ecents montrent que pour des donn´ees multivari´ees cette mesure est affect´ee parle ph´enom`ene de concentration ; cela signifie que toutes les distances entre les paires de points d’un ensemble quelconque sont presque identiques et donc la notion duplus proche voisin oude similarit´edevient instable [BGRS00]. C’est `a cause de ceci que la pertinence de la distance euclidienne pour r´esoudre des probl`emes d’analyse de donn´ees multidimensionnelles et implicitement de classification non supervis´ee est r´ecemment mise en question [AHK01, HAK99, BGRS00].

Pour palier `a ce ph´enom`ene, une solution propos´ee est d’utiliser des m´etriques moins con-centr´ees [AHK01]. Celles-ci augmentent le contraste entre les donn´ees et sont propos´ees comme alternative `a la distance euclidienne pour am´eliorer les r´esultats de la classification des donn´ees multivari´ees. Dans [AHK01], les auteurs montrent que des valeurs inf´erieures `a 1 de l’exposant de la norme att´enuent le ph´enom`ene de concentration et ainsi, ces m´etriques, connues comme m´etriques fractionnaires, pourraient fournir de meilleurs r´esultats dans toute sorte d’applications traitant des donn´ees multidimensionnelles.

Contrairement `a ces r´esultats, dans [FWV07] les auteurs montrent qu’il existe des distribu-tions pour lesquelles les m´etriques d’ordre sup´erieur sont moins concentr´ees que les m´etriques fractionnaires. Ils montrent que les r´esultats obtenus en [AHK01] ne sont valables que dans le cas o`u les donn´ees sont uniformement distribu´ees, ce qui est loin d’ˆetre vrai pour des donn´ees r´eelles.

Ils affirment que,”chercher des m´etriques moins concentr´ees pour lutter contre la concentration est tout `a fait justifi´e”, mais ils ne font aucune affirmation sur l’impact de ces normes sur les r´esultats de la classification. Des questions restent encore ouvertes : est-ce qu’une norme moins concentr´ee donne des meilleurs r´esultats dans des probl`emes de classification non supervis´ee

qu’une m´etrique plus concentr´ee? Si ceci est vrai, alors, trouver la m´etrique optimale consiste `a trouver la m´etrique la moins concentr´ee pour l’ensemble des donn´ees analys´ees. Sinon, existe-il un moyen de choisir la m´etrique optimale pour r´esoudre le probl`eme mentionn´e ?

Nous allons ´etudier de pr`es ce ph´enom`ene en essayant de r´epondre `a ces questions en ayant comme but l’am´elioration des r´esultats des algorithmes de classification non supervis´ee utilisant la distance euclidienne comme mesure de similarit´e. Ce chapitre pr´esente un bref ´etat de l’art relatif au sujet de la concentration des m´etriques. Nous commen¸cons en pr´esentant les d´efinitions de la famille de m´etriques r et du ph´enom`ene de la concentration. Ensuite nous rappelons quelques r´esultats th´eoriques sur la concentration des m´etriques et nous conclurons.

Dans le document Th`ese pr´esent´ee par Cosmin LAZAR (Page 42-46)

Documents relatifs