4.3 Analyse discriminante lin´ eaire rapide
4.3.2 Approches pour la r´ eduction de dimension ` a l’aide de l’approximation
4.3.2.3 Approximation rapide par saut spectral
Les sections pr´ec´edentes d´ecrivent les algorithmes 4.1 et 4.2 o`u le param`etrekest
consi-d´er´e comme une entr´ee choisie par l’utilisateur. Nous proposons dans cette section, une
Section 4.3 – Analyse discriminante lin´eaire rapide
Algorithme 4.2Approximation rapide SVD-FESVD
Entr´ees: X, petk
Sorties: G
1: G´en´ererR∈R
d×pavec r
ij∼ N(0,1),
2: Calculer la matrice Z =XR,
3: Calculer Q=orth(Z),
4: B =Q
TX de taille ∈R
p×d5: T =BB
T∈R
p×p,
6: H∆
TH
T=EIG(T),
7: Σ
Tii=p
∆
Tii,
8: V = (Σ
−T1H
TB)
T,
9: Retourner G=V(:,1 :k).
approche pour aider le choix du param`etre k. Le but de cette approche est de rendre la
proc´edure de l’approximation rapide de la SVD concise et moins param´etrique. Elle
per-met de d´etecter automatiquement une valeur dek qui devrait permettre aux donn´ees dans
l’espace r´eduit, de contenir l’information n´ecessaire v´ehicul´ee au sein des donn´ees. Pour ce
faire, notre analyse est bas´ee sur des approches statistiques telles que la m´ethode du coude
ou encore appel´ee la m´ethode Scree [123]. La dimension du nouvel espace de donn´ees peut
ˆetre trouv´ee en d´etectant le coudedans le Scree graphe, qui est un graphique pr´esentant les
valeurs propres d’une certaine matrice ordonn´ees de fa¸con croissante.
M´ethode de coude ou test de Scree :
Le test Scree est un test pour d´eterminer le nombre de facteurs `a conserver dans une
analyse factorielle ou une analyse des composantes principales. Le test consiste `a tracer
un graphe des valeurs propres par ordre d´ecroissant de leur amplitude par rapport `a leur
nombre et `a d´eterminer l’instant o`u leur courbe se stabilise. La rupture entre la pente raide
et le nivellement indique le nombre de facteurs significatifs, porteurs de l’information utile
pr´esente au sein de la matrice des donn´ees.
D’une mani`ere formelle, si l’on consid`ere par exemple une matrice donn´ee S dont les
valeurs propres ordonn´ees sont d´efinies par δ
1≥ · · · ≥ δp ≥ 0, la position du coude est
d´etect´ee comme ´etant le plus petit ´ecart entre les valeurs propres. Cet ´ecart est exprim´e par
la distance entre les valeurs propres cons´ecutives δi et δi
+1et est donn´e par
αi=δi−δi
+1.
La valeur deα
itend vers z´ero lorsque l’on atteint l’indice recherch´ek. Cette position
0i=k
0d´efinit le coude du graphe de Scree et repr´esente le nombre des facteurs (ou la dimension des
variables) suffisamment informatifs `a retenir de la matriceS. La figure 4.2 donne un exemple
d’illustration du test de Scree sur un ensemble de donn´ees synth´etiquesX ∈ R
240×2, avec
240 ´echantillons en deux dimensions. Nous avons calcul´e les valeurs propres de la matrice
de Gram XX
Tet trac´e le graphe des valeurs propres ordonn´ees dans l’ordre d´ecroissant.
Section 4.3 – Analyse discriminante lin´eaire rapide
Comme le montre la figure 4.2, le coude de la courbe se dresse entre la deuxi`eme et la
troisi`eme valeur propre affichant un ´ecart qui tend vers z´ero pour les autres valeurs propres.
A partir de la troisi`eme valeur propre, la diminution r´eguli`ere des valeurs propres semble
se stabiliser par la suite. Le principe du test de Scree est de consid´erer notamment le
nombre de facteurs utiles `a retenir. Dans ce cas d’exemple, tout au plus trois facteurs sont
discriminants pour le jeu de donn´ees. En pratique, la question du choix convenable du seuil
0 5 10 15 14 16 18 20 22 24 26 28
(a) ´Echantillons de donn´ees
2 4 6 8 10 12 14 16 −2 0 2 4 6 8 10 12 x 104
Nombre de valeurs propres
Valeurs propres Courbe de Scree α2 δ2 δ3
(b) Courbe de Scree
Figure4.2 – Exemple de graphe de Scree.
α est essentielle. Dans certaines situations, ce choix est dict´e par les applications, mais
bien souvent, il constitue un probl`eme NP-difficile et reste assez d´elicat lorsque la taille des
donn´ees est grande. Des travaux ont ´et´e r´ealis´es pour proposer des techniques d’estimation
du seuil α, lorsque la taille des donn´ees devient assez importante. Parmi ces travaux, la
m´ethode commun´ement utilis´ee est celle des variances isol´ees [124,125].
M´ethode `a variances isol´ees
Dans l’exemple du mod`ele de population pointu (spike population model), la matrice de
covariance de la population a toutes ses valeurs propres ´egales aux unit´es, `a l’exception de
quelques valeurs propres fixes (pointes ou spikes). La d´etermination du nombre de spikes
est un probl`eme fondamental qui apparaˆıt dans de nombreux domaines scientifiques, y
compris le traitement signal et la r´ecup´eration d’information au seins des donn´ees. Des
travaux r´ecents ont propos´e d’´etudier le comportement asymptotique des valeurs propres de
la matrice de covariance, lorsque la dimension des observations et la taille de l’´echantillon
augmentent vers l’infini avec un ratio qui converge vers une constante positive, c’est `a dire
N → ∞,
Np→c >0, [126,127,128]. Passemier et al. ont montr´e que lorsque l’on consid`ere
les valeurs propres dans un ordre d´ecroissant, les ´ecarts successifs, αi, se r´eduisent `a des
petites valeurs et tendent vers une valeur nulle lorsqu’ils s’approchent de valeurs `a variances
isol´ees.
Rappelons la d´efinition de l’´ecart entre deux valeurs propres˜δ
iet˜δ
i+1parα
i= ˜δ
i−δ˜
i+1,
et notons k l’indice recherch´e correspondant `a αi → 0 si k ≥ i et αi tend vers une limite
Section 4.3 – Analyse discriminante lin´eaire rapide
positive sik < i.
Pour estimer la valeur de l’indicei=kqui est ´egal `a la taille (dimension retenue) de
va-riables suffisamment informatives, consid´erons la matrice al´eatoireT ∈R
p×pde l’algorithme
4.2, et d´enotons ses valeurs propres ordonn´ees parδ˜
1≥ · · · ≥δp˜ ≥0telles que
˜
δ
1,· · · ,δk˜
| {z }
k,δk˜
+1,· · ·,˜δd
| {z }
d−k.
L’estimationkˆ de kpeut ˆetre ainsi formul´ee par
P
ˆ
k=k=P
\
1≤i≤k{α
i≥ε} ∩ {α
k+1< ε}
. (4.39)
L’utilisation de la probabilit´e ici est justifi´ee par le fait que les valeurs propres de la
ma-triceT sont al´eatoires. L’´equation (4.39) est ´equivalente `a l’expression suivante en termes
d’´ev´enements :
{ˆk=k}={ˆk= max
i(α
i≥ε)} (4.40)
={∀i∈ {1, . . . , k}, α
i≥} ∩ {α
k+1< ε}
= max
i{∀j∈ {1, . . . , i}, αj ≥εet αi
+1< ε}, i∈ {1, . . . , p−1}
o`u, ε est un seuil soigneusement d´etermin´e. Pour la valeur du seuil ε, Passemier et al.
[128] expliquent que les valeurs propres informatives d’une matrice de donn´ees peuvent ˆetre
consid´er´ees comme des variables al´eatoires et sont r´eparties selon un taux de N
2/3autour
de leur moyenne. A priori, toute s´equence de choix du seuil qui satisfait ε(= ε
N) −→
N→∞
0
et N
2/3ε(= N
2/3ε
N) −→
N→∞
∞ est admissible pour le choix de ε. En se basant sur cette
hypoth`ese, nous adoptons le choix de la valeur du seuil parε= 100
√
2 log(log(N))
N23
. Les d´etails
de l’approche sont pr´esent´es dans l’algorithme 4.3.
Algorithme 4.3Approximation rapide SVD par saut spectral-FES-GAP
Entr´ees: X, p
Sorties: G
1: Faire l’´etape 1 `a 4 de l’algorithme 4.2,
2: Calculer les vecteurs et valeurs propres de T =BB
Ttels que T =H∆
TH
T,
3: r´ep´eter
4: α
i= ˜δ
i−˜δ
i+1,i∈[1, . . . , p−1],
5: jusqu’`aαi≥εetαi
+1< ε
6: k=i,
7: ∆
Tii=
q
˜
δi
{i=1,...p},
8: V = (∆
−T1H
TB)
T∈R
d×p,
9: Retourner G=V(:,1 :k).
Section 4.3 – Analyse discriminante lin´eaire rapide
Dans le document
Méthodes aléatoires pour l’apprentissage de données en grande dimension : application à l'apprentissage partagé
(Page 74-78)