• Aucun résultat trouvé

4.3 Analyse discriminante lin´ eaire rapide

4.3.2 Approches pour la r´ eduction de dimension ` a l’aide de l’approximation

4.3.2.3 Approximation rapide par saut spectral

Les sections pr´ec´edentes d´ecrivent les algorithmes 4.1 et 4.2 o`u le param`etrekest

consi-d´er´e comme une entr´ee choisie par l’utilisateur. Nous proposons dans cette section, une

Section 4.3 – Analyse discriminante lin´eaire rapide

Algorithme 4.2Approximation rapide SVD-FESVD

Entr´ees: X, petk

Sorties: G

1: G´en´ererRR

d×p

avec r

ij

∼ N(0,1),

2: Calculer la matrice Z =XR,

3: Calculer Q=orth(Z),

4: B =Q

T

X de taille ∈R

p×d

5: T =BB

T

R

p×p

,

6: H

T

H

T

=EIG(T),

7: Σ

Tii

=p

Tii

,

8: V = (Σ

T1

H

T

B)

T

,

9: Retourner G=V(:,1 :k).

approche pour aider le choix du param`etre k. Le but de cette approche est de rendre la

proc´edure de l’approximation rapide de la SVD concise et moins param´etrique. Elle

per-met de d´etecter automatiquement une valeur dek qui devrait permettre aux donn´ees dans

l’espace r´eduit, de contenir l’information n´ecessaire v´ehicul´ee au sein des donn´ees. Pour ce

faire, notre analyse est bas´ee sur des approches statistiques telles que la m´ethode du coude

ou encore appel´ee la m´ethode Scree [123]. La dimension du nouvel espace de donn´ees peut

ˆetre trouv´ee en d´etectant le coudedans le Scree graphe, qui est un graphique pr´esentant les

valeurs propres d’une certaine matrice ordonn´ees de fa¸con croissante.

M´ethode de coude ou test de Scree :

Le test Scree est un test pour d´eterminer le nombre de facteurs `a conserver dans une

analyse factorielle ou une analyse des composantes principales. Le test consiste `a tracer

un graphe des valeurs propres par ordre d´ecroissant de leur amplitude par rapport `a leur

nombre et `a d´eterminer l’instant o`u leur courbe se stabilise. La rupture entre la pente raide

et le nivellement indique le nombre de facteurs significatifs, porteurs de l’information utile

pr´esente au sein de la matrice des donn´ees.

D’une mani`ere formelle, si l’on consid`ere par exemple une matrice donn´ee S dont les

valeurs propres ordonn´ees sont d´efinies par δ

1

≥ · · · ≥ δp ≥ 0, la position du coude est

d´etect´ee comme ´etant le plus petit ´ecart entre les valeurs propres. Cet ´ecart est exprim´e par

la distance entre les valeurs propres cons´ecutives δi et δi

+1

et est donn´e par

αi=δiδi

+1

.

La valeur deα

i

tend vers z´ero lorsque l’on atteint l’indice recherch´ek. Cette position

0

i=k

0

d´efinit le coude du graphe de Scree et repr´esente le nombre des facteurs (ou la dimension des

variables) suffisamment informatifs `a retenir de la matriceS. La figure 4.2 donne un exemple

d’illustration du test de Scree sur un ensemble de donn´ees synth´etiquesXR

240×2

, avec

240 ´echantillons en deux dimensions. Nous avons calcul´e les valeurs propres de la matrice

de Gram XX

T

et trac´e le graphe des valeurs propres ordonn´ees dans l’ordre d´ecroissant.

Section 4.3 – Analyse discriminante lin´eaire rapide

Comme le montre la figure 4.2, le coude de la courbe se dresse entre la deuxi`eme et la

troisi`eme valeur propre affichant un ´ecart qui tend vers z´ero pour les autres valeurs propres.

A partir de la troisi`eme valeur propre, la diminution r´eguli`ere des valeurs propres semble

se stabiliser par la suite. Le principe du test de Scree est de consid´erer notamment le

nombre de facteurs utiles `a retenir. Dans ce cas d’exemple, tout au plus trois facteurs sont

discriminants pour le jeu de donn´ees. En pratique, la question du choix convenable du seuil

0 5 10 15 14 16 18 20 22 24 26 28

(a) ´Echantillons de donn´ees

2 4 6 8 10 12 14 16 −2 0 2 4 6 8 10 12 x 104

Nombre de valeurs propres

Valeurs propres Courbe de Scree α2 δ2 δ3

(b) Courbe de Scree

Figure4.2 – Exemple de graphe de Scree.

α est essentielle. Dans certaines situations, ce choix est dict´e par les applications, mais

bien souvent, il constitue un probl`eme NP-difficile et reste assez d´elicat lorsque la taille des

donn´ees est grande. Des travaux ont ´et´e r´ealis´es pour proposer des techniques d’estimation

du seuil α, lorsque la taille des donn´ees devient assez importante. Parmi ces travaux, la

m´ethode commun´ement utilis´ee est celle des variances isol´ees [124,125].

M´ethode `a variances isol´ees

Dans l’exemple du mod`ele de population pointu (spike population model), la matrice de

covariance de la population a toutes ses valeurs propres ´egales aux unit´es, `a l’exception de

quelques valeurs propres fixes (pointes ou spikes). La d´etermination du nombre de spikes

est un probl`eme fondamental qui apparaˆıt dans de nombreux domaines scientifiques, y

compris le traitement signal et la r´ecup´eration d’information au seins des donn´ees. Des

travaux r´ecents ont propos´e d’´etudier le comportement asymptotique des valeurs propres de

la matrice de covariance, lorsque la dimension des observations et la taille de l’´echantillon

augmentent vers l’infini avec un ratio qui converge vers une constante positive, c’est `a dire

N → ∞,

Np

c >0, [126,127,128]. Passemier et al. ont montr´e que lorsque l’on consid`ere

les valeurs propres dans un ordre d´ecroissant, les ´ecarts successifs, αi, se r´eduisent `a des

petites valeurs et tendent vers une valeur nulle lorsqu’ils s’approchent de valeurs `a variances

isol´ees.

Rappelons la d´efinition de l’´ecart entre deux valeurs propres˜δ

i

et˜δ

i+1

parα

i

= ˜δ

i

δ˜

i+1

,

et notons k l’indice recherch´e correspondant `a αi → 0 si ki et αi tend vers une limite

Section 4.3 – Analyse discriminante lin´eaire rapide

positive sik < i.

Pour estimer la valeur de l’indicei=kqui est ´egal `a la taille (dimension retenue) de

va-riables suffisamment informatives, consid´erons la matrice al´eatoireTR

p×p

de l’algorithme

4.2, et d´enotons ses valeurs propres ordonn´ees parδ˜

1

≥ · · · ≥δp˜ ≥0telles que

˜

δ

1

,· · · ,δk˜

| {z }

k

,δk˜

+1

,· · ·,˜δd

| {z }

dk

.

L’estimationkˆ de kpeut ˆetre ainsi formul´ee par

P

ˆ

k=k=P

\

1≤ik

{α

i

ε} ∩ {α

k+1

< ε}

. (4.39)

L’utilisation de la probabilit´e ici est justifi´ee par le fait que les valeurs propres de la

ma-triceT sont al´eatoires. L’´equation (4.39) est ´equivalente `a l’expression suivante en termes

d’´ev´enements :

{ˆk=k}={ˆk= max

i

(α

i

ε)} (4.40)

={∀i∈ {1, . . . , k}, α

i

} ∩ {α

k+1

< ε}

= max

i

{∀j∈ {1, . . . , i}, αjεet αi

+1

< ε}, i∈ {1, . . . , p−1}

o`u, ε est un seuil soigneusement d´etermin´e. Pour la valeur du seuil ε, Passemier et al.

[128] expliquent que les valeurs propres informatives d’une matrice de donn´ees peuvent ˆetre

consid´er´ees comme des variables al´eatoires et sont r´eparties selon un taux de N

2

/3autour

de leur moyenne. A priori, toute s´equence de choix du seuil qui satisfait ε(= ε

N

) −→

N→∞

0

et N

2/3

ε(= N

2/3

ε

N

) −→

N→∞

∞ est admissible pour le choix de ε. En se basant sur cette

hypoth`ese, nous adoptons le choix de la valeur du seuil parε= 100

2 log(log(N))

N23

. Les d´etails

de l’approche sont pr´esent´es dans l’algorithme 4.3.

Algorithme 4.3Approximation rapide SVD par saut spectral-FES-GAP

Entr´ees: X, p

Sorties: G

1: Faire l’´etape 1 `a 4 de l’algorithme 4.2,

2: Calculer les vecteurs et valeurs propres de T =BB

T

tels que T =H

T

H

T

,

3: r´ep´eter

4: α

i

= ˜δ

i

˜δ

i+1

,i∈[1, . . . , p−1],

5: jusqu’`aαiεetαi

+1

< ε

6: k=i,

7: ∆

Tii

=

q

˜

δi

{i=1,...p}

,

8: V = (∆

T1

H

T

B)

T

R

d×p

,

9: Retourner G=V(:,1 :k).

Section 4.3 – Analyse discriminante lin´eaire rapide