Approximation rapide par saut spectral

4.3 Analyse discriminante lin´ eaire rapide

0 5 10 15 14 16 18 20 22 24 26 28

2 4 6 8 10 12 14 16 −2 0 2 4 6 8 10 12 x 104

Nombre de valeurs propres

Valeurs propres Courbe de Scree α₂ δ₂ δ₃

2 log(log(N))

_{_i₌₁_,...p_}

4.3 Analyse discriminante lin´ eaire rapide

4.3.2 Approches pour la r´ eduction de dimension ` a l’aide de l’approximation

4.3.2.3 Approximation rapide par saut spectral

Les sections précédentes décrivent les algorithmes 4.1 et 4.2 où le paramètrekest

consi-déré comme une entrée choisie par l’utilisateur. Nous proposons dans cette section, une

Section 4.3 – Analyse discriminante lin´eaire rapide

Algorithme 4.2Approximation rapide SVD-FESVD

Entr´ees: X, petk

Sorties: G

1: G´en´ererR∈R

avec r

∼ N(0,1),

2: Calculer la matrice Z =XR,

3: Calculer Q=orth(Z),

4: B =Q

X de taille ∈R

5: T =BB

∈R

,

6: H∆

H

=EIG(T),

7: Σ

=p

∆

,

8: V = (Σ

H

B)

,

9: Retourner G=V(:,1 :k).

approche pour aider le choix du param`etre k. Le but de cette approche est de rendre la

proc´edure de l’approximation rapide de la SVD concise et moins param´etrique. Elle

per-met de d´etecter automatiquement une valeur dek qui devrait permettre aux donn´ees dans

l’espace réduit, de contenir l’information nécessaire véhiculée au sein des données. Pour ce

faire, notre analyse est bas´ee sur des approches statistiques telles que la m´ethode du coude

ou encore appelée la méthode Scree [123]. La dimension du nouvel espace de données peut

être trouvée en détectant le coudedans le Scree graphe, qui est un graphique présentant les

valeurs propres d’une certaine matrice ordonn´ees de fa¸con croissante.

M´ethode de coude ou test de Scree :

Le test Scree est un test pour d´eterminer le nombre de facteurs `a conserver dans une

analyse factorielle ou une analyse des composantes principales. Le test consiste `a tracer

un graphe des valeurs propres par ordre d´ecroissant de leur amplitude par rapport `a leur

nombre et à déterminer l’instant où leur courbe se stabilise. La rupture entre la pente raide

et le nivellement indique le nombre de facteurs significatifs, porteurs de l’information utile

pr´esente au sein de la matrice des donn´ees.

D’une manière formelle, si l’on considère par exemple une matrice donnée S dont les

valeurs propres ordonn´ees sont d´efinies par δ

≥ · · · ≥ δp ≥ 0, la position du coude est

détectée comme étant le plus petit écart entre les valeurs propres. Cet écart est exprimé par

la distance entre les valeurs propres cons´ecutives δi et δi

et est donn´e par

αi=δi−δi

.

La valeur deα

tend vers z´ero lorsque l’on atteint l’indice recherch´ek. Cette position

i=k

d´efinit le coude du graphe de Scree et repr´esente le nombre des facteurs (ou la dimension des

variables) suffisamment informatifs `a retenir de la matriceS. La figure 4.2 donne un exemple

d’illustration du test de Scree sur un ensemble de donn´ees synth´etiquesX ∈ R

, avec

240 ´echantillons en deux dimensions. Nous avons calcul´e les valeurs propres de la matrice

de Gram XX

et tracé le graphe des valeurs propres ordonnées dans l’ordre décroissant.

Section 4.3 – Analyse discriminante lin´eaire rapide

Comme le montre la figure 4.2, le coude de la courbe se dresse entre la deuxi`eme et la

troisième valeur propre affichant un écart qui tend vers zéro pour les autres valeurs propres.

A partir de la troisième valeur propre, la diminution régulière des valeurs propres semble

se stabiliser par la suite. Le principe du test de Scree est de consid´erer notamment le

nombre de facteurs utiles `a retenir. Dans ce cas d’exemple, tout au plus trois facteurs sont

discriminants pour le jeu de donn´ees. En pratique, la question du choix convenable du seuil

(a) ´Echantillons de donn´ees

(b) Courbe de Scree

Figure4.2 – Exemple de graphe de Scree.

α est essentielle. Dans certaines situations, ce choix est dict´e par les applications, mais

bien souvent, il constitue un probl`eme NP-difficile et reste assez d´elicat lorsque la taille des

données est grande. Des travaux ont été réalisés pour proposer des techniques d’estimation

du seuil α, lorsque la taille des donn´ees devient assez importante. Parmi ces travaux, la

méthode communément utilisée est celle des variances isolées [124,125].

1: G´en´ererR∈_R

X de taille ∈_R

∈_R

=_EIG(T),

d’illustration du test de Scree sur un ensemble de donn´ees synth´etiquesX ∈ _R

Rappelons la d´efinition de l’´ecart entre deux valeurs propres^˜δ

et^˜δ

−δ^˜

va-riables suffisamment informatives, consid´erons la matrice al´eatoireT ∈_R

4.2, et d´enotons ses valeurs propres ordonn´ees parδ^˜

≥ · · · ≥δp^˜ ≥0telles que

,· · · ,δk^˜

,δk^˜

,· · ·,^˜δd

L’estimationk^ˆ de kpeut ˆetre ainsi formul´ee par

k=k=_P

{^ˆk=k}={^ˆk= max