• Aucun résultat trouvé

Taux d’erreur (ER (error rate))

Le taux d’erreur permet d’´evaluer le taux de mauvais classement lorsque la pr´ediction

ne co¨ıncide pas avec la vraie valeur. Ce taux, rapport´e `a l’effectif des donn´ees, donne le

pourcentage de mauvaise classification obtenu entre la r´epartition id´eale (th´eorique) des

donn´ees et celle obtenue dans la pratique. Il est exprim´e le plus souvent en fonction de la

pr´ecision de classification ou purity [95] et est donn´e par l’expression suivante :

ER= 1−purity = 1− 1

N

X

n

max

j

|wnzj|. (3.12)

o`u {wn}

N

n=1

repr´esente l’ensemble des indices th´eoriques des ´echantillons et {zj}

N j=1

re-pr´esente les indices obtenus. Pour am´eliorer le r´esultat de calcul, nous avons r´eordonn´e les

indices obtenus apr`es classification. Ce r´earrangement est dˆu au fait que la fonctionKmeans

attribue les indices de groupes de fa¸con al´eatoire selon l’ordre de d´etection des clusters. Par

exemple, une classe id´ealement num´erot´ee avec l’indice n

1, peut se voir attribuer l’indice

n

2 ou un autre indice (parmi les groupes d´etectables). Ceci n´ecessite la r´eaffectation de

chacune des classes avec leur indice correspondant.

3.4 R´esultats et discussion

La m´ethode propos´ee a ´et´e appliqu´ee aux jeux de donn´ees synth´etiques, construits `a

partir de variables Gaussiennes. Nous avons g´en´er´e quatre groupes {Ω

i

}

4

i=1

avec diff´erents

param`etres (moyenne et ´ecart-type). Chaque Ω

i

poss`ede n

i

´echantillons (N = P

i

n

i

)

ob-serv´e sur dvariables. Nous avons choisi les param`etres de la moyenne et de la variance de

1

,

2

,

3

,

4

tels quemi=1dmi

0

R

d

, o`u1est une matrice1×dcontenant uniquement

des1, et m

10

= 0, m

20

= 3, m

30

= 4, m

40

= 6. La matrice de covariance diagonale dont les

´el´ements diagonaux sont σ

2i

=

i20

avec σ

10

= 1,3, σ

20

= 0,45, σ

30

= 0,6, σ

40

= 0,9. Nous

supposons que m

i0

et σ

i0

sont fix´es et l’´ecart type et la moyenne sont normalis´es par d

lorsque la dimension d’observation augmente. Nous ´evaluons la NMI et l’ER en augmentant

progressivement la taille de l’´echantillon N et la dimension d. Le param`etre plus proches

voisins dans la fonction de similarit´e de la m´ethodeSpectral Clustest r´egl´e `a KNN=10%N.

Nous avons utilis´e le Laplacien normalis´e propos´e par Shi et Malick dans [9]. Toutes les

m´ethodes utilisent l’algorithme K-means pour le partitionnement. La table 3.1 et la table

3.2 montrent les r´esultats obtenus de l’information mutuelle normalis´ee (NMI) et le taux

d’erreur (ER). La colonneNewPCA donne les r´esultats de notre approche, leSpectral Clust

les r´esultats de la m´ethode de spectral clustering, Kmeans pour l’algorithme Kmeans et

NormalPCApour la m´ethode PCA. Nous avons calcul´e la moyenne (m) et l’´ecart-type (σ)

de NMI et de l’ER apr`es 100 r´ealisations. Nous avons report´e les valeurs de m et σ de la

NMI et de l’ER dans la table 3.1 et la table 3.2 pour chaque valeur deN etddonn´ee.

Les r´esultats que nous avons obtenus dans l’exp´erience montrent que pour des valeurs de

N etdla m´ethodeNewPCApr´esente une valeur de NMI qui augmentent progressivement.

En effet, plus la dimension de l’espace augmente, plus on a de l’information au sein des

don-n´ees. Les r´esultats de la m´ethodeSpectral Clust montrent le mˆeme NMI que pourNewPCA

Section 3.4 – R´esultats et discussion

Table 3.1 – Information mutuelle normalis´ee (m=moyenne,σ=´ecart-type)

NewPCA Spectral Clust K-means NormalPCA

N d m σ m σ m σ m σ

100 2 0.79 0.05 0.80 0.05 0.78 0.06 0.77 0.05

200 5 0.95 0.04 0.95 0,01 0.89 0.07 0.91 0.07

400 10 0.95 0.08 0.98 0.02 0.93 0.08 0.94 0.08

800 50 0.95 0.08 0.97 0.05 0.96 0.08 0.94 0.09

900 80 0.98 0.06 0.98 0,04 0.96 0.08 0.92 0.10

1000 100 0.98 0.06 0.98 0,04 0.92 0.10 0.96 0.08

1300 400 0.98 0.04 0.96 0.06 0.93 0.09 0.91 0.10

Table 3.2 – Taux d’erreur (m=moyenne,σ=´ecart-type)

NewPCA Spectral Clust K-means NormalPCA

N d m σ m σ m σ m σ

100 2 0.12 0.09 0.09 0.03 0.17 0.13 0.20 0.13

200 5 0.02 0,08 0,01 0,01 0.15 0.17 0.12 0.16

400 10 0.07 0.14 0,01 0.04 0.10 0.16 0.08 0.15

800 50 0.09 0.16 0.05 0.10 0.07 0.15 0.10 0.17

900 80 0.03 0.11 0.02 0.07 0.07 0.15 0.14 0.18

1000 100 0.03 0.11 0.02 0.07 0.14 0.18 0.07 0.15

1300 400 0.02 0.09 0.02 0.11 0.11 0.17 0.15 0.18

sauf pour d= 2,10,50 o`u le Spectral Clust est mieux et pour d = 400 NewPCA donne le

meilleur NMI. La m´ethodeSpectral Clust pr´esente un meilleur taux d’erreur de classification

que la m´ethode NewPCA. La m´ethode Kmeans donne une performance inf´erieure `a celles

de NewPCA et Spectral Clust. En effet, dans le jeux de donn´ees que nous avons g´en´er´e,

lorsque la dimension augmente, la variance de chaque groupe de donn´ees augmente aussi

(σ

i2

=

2i0

), ce qui peut engendrer un chevauchement entre les groupes. Dans ce cas,

l’algo-rithmeKmeans, appliqu´e directement sur les donn´ees, va difficilement d´etecter les groupes.

Ce qui explique la diminution de la NMI lorsquedaugmente. La m´ethodeNormalPCA est

celle qui pr´esente la plus faible valeur de NMI avec un ´ecart-type consid´erable avec un taux

d’erreur le plus ´elev´e par rapport aux autres m´ethodes. Ceci peut s’expliquer par le fait que

les groupes sont interpos´es et les axes principaux obtenus dans ce cas pr´esentent une faible

discrimination entre les groupes.

Nous avons illustr´e le principe `a l’aide d’un exemple deR

2

pour faciliter l’interpr´etation.

Nous avons g´en´er´eN = 100 d’´echantillons al´eatoires dans R

2

suivant un mod`ele Gaussien.

ChaqueΩ

i

,i= 1,· · · ,4, contient 25 ´echantillons. Les r´esultats deNewPCA,Spectral Clust,

Section 3.5 – Conclusion

Figure3.3 – R´esultats du partitionnement

obtenus montrent que la m´ethodeNewPCA(notre approche), dans ce cas donne des r´esultats

assez similaires aux r´esultats de Spectral Clust, tandis que le Kmeans et l’ACP n’arrivent

pas `a d´etecter la bonne structure des donn´ees.

L’approche propos´ee dans ce cas am´eliore d’une part la qualit´e de l’ACP traditionnelle

et de Kmeans puis pr´esente des r´esultats comparable `a ceux de la m´ethode de spectral

clustering en pr´esence des donn´ees en grande dimension.

3.5 Conclusion

L’analyse en composantes principales est une m´ethode puissante et polyvalente qui peut

fournir une vue d’ensemble des donn´ees multivari´ees et complexes. Ce chapitre a fourni une

description des concepts sur la fa¸con d’effectuer l’ACP dans un espace multidimensionnel en

utilisant la th´eorie des matrices al´eatoires pour calculer la nouvelle d´ecomposition spectrale

de la matrice de covariance en se basant sur les estimateurs traditionnels deΣˆ et les outils

de matrices al´eatoires. Nous avons propos´e une approche pour effectuer l’analyse en

com-posantes principales pour des donn´ees en grande dimension lorsque le nombre de variables

et la taille d’´echantillons tendent vers l’infini au mˆeme ordre de grandeur. L’application

de la m´ethode d’ACP est appliqu´ee puis une m´ethode de partitionnement spectral est

ef-fectu´ee `a l’aide de la m´ethodeKmeans. Nous avons appliqu´e la m´ethode sur des donn´ees

synth´etiques et estim´e les r´esultats de performance de clustering avec deux crit`eres `a savoir

l’information mutuelle normalis´ee (NMI) et le taux d’erreur de classification (ER).

L’avan-Section 3.5 – Conclusion

tage de la m´ethode propos´ee est le fait que l’on n’a pas besoin de d´efinir une fonction de

noyau ou d’accorder une attention particuli`ere sur le choix des param`etres comme c’est le

cas des autres m´ethodes telles que le spectral clustering et les m´ethodes `a noyau.

Chapitre 4

Analyse discriminante lin´eaire pour

les donn´ees en grande dimension

4.1 Introduction

L’analyse discriminante lin´eaire, est l’une des m´ethodes les plus utilis´ees pour la r´

educ-tion de dimension en apprentissage supervis´e. Elle est principalement bas´ee sur le calcul

des matrices de dispersion intra-classe et inter-classes entre les ´echantillons de donn´ees afin

de mieux les discriminer. La matrice de dispersion intra-classes mesure la quantit´e de la

dispersion entre les ´echantillons dans la mˆeme classe et repr´esente la somme de matrices de

covariance des ´echantillons centr´es au sein de la mˆeme cat´egorie de classe. La matrice de

dispersion inter-classes quant `a elle, mesure la quantit´e de dispersion entre les diff´erentes

cat´egories de classes et repr´esente la somme des diff´erences entre la moyenne totale des

´echantillons de donn´ees et la moyenne de chaque classe. L’objectif de la m´ethode est de

grouper ensemble les ´echantillons qui appartiennent `a la mˆeme classe tout en ´eloignant le

plus possible les ´echantillons qui appartiennent `a des classes diff´erentes. Une projection des

donn´ees de l’espace de d´epart de dimensionddans un espace de dimension inf´erieur `aK−1

(o`u K est le nombre de classes de donn´ees) permet au mieux de s´eparer les donn´ees. Pour

atteindre cet objectif, la m´ethode se base sur la r´esolution d’un probl`eme d’optimisation

dont la fonction objective a pour but de trouver les directions optimales o`u la repr´esentation

des donn´ees soit la plus discriminante. L’ensemble de ces directions, forment en effet le

sous-espace dans lequel les donn´ees sont lin´eairement s´eparables et, sont calcul´ees en effectuant

la d´ecomposition spectrale sur les matrices de dispersion.

Cependant, lorsque la taille initialedde la dimension des donn´ees est ´elev´ee, la m´ethode

est souvent confront´ee `a des difficult´es de calcul de ces matrices elles-mˆemes et du

sous-espace de projection qu’elles engendrent, ce qui limite en effet l’application de la m´ethode

sur les donn´ees en grande dimension. Pour surmonter ces difficult´es de calcul des grandes

matrices ainsi qu’`a leur d´ecomposition, on fait g´en´eralement appel `a des approches de pr´

e-traitement des donn´ees dans l’espace d’origine. L’objectif est de r´eduire la taille de l’espace

d’origine afin de l’approximer `a un nouveau sous-espace. Dans ce sous-espace interm´ediaire,

il est plus facile d’effectuer la m´ethode d’analyse lin´eaire discriminante d`es lors que les