HAL Id: hal-01376457
https://hal-centralesupelec.archives-ouvertes.fr/hal-01376457
Submitted on 4 Oct 2016
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
Analyse discriminante multivoie sparse.
Laurent Le Brusquet, Arthur Tenenhaus, Gisela Lechuga
To cite this version:
Laurent Le Brusquet, Arthur Tenenhaus, Gisela Lechuga. Analyse discriminante multivoie sparse..
48èmes Journées de Statistique de la SFdS (JdS 2016), May 2016, Montepellier, France. �hal-01376457�
LaurentLe Brusquet 1
,Arthur Tenenhaus 1
& Gisela Le huga 1
1
Laboratoire des Signaux et Systèmes,CentraleSupele - CNRS - Univ. Paris-Sud 3,
Université Paris-Sa lay, Université Paris-Sa lay, 3 rue Joliot Curie 91192,
Gif-sur-Yvette, prenom.nom entralesupele .fr
Résumé.Denombreux papiers on ernentlesméthodesd'analysepour données
mul-tivoie. Par exemple, la régression PLS, l'analyse en omposantes prin ipales, l'analyse
dis riminante, larégressionlogistiqueontleurs extensions dansle adredes données
mul-tivoie.Cepapiermontrequele adredesméthodesmultivoieestappropriépourintroduire
une ontraintesupplémentairedepar imonie.Uneversionsparsedel'analyse
dis rimi-nantemultivoieest i iprésentée. Elleprésentel'avantage d'êtrepeu gourmandeen temps
de al ul etde fa iliterl'interprétationdu lassieur obtenu.
Mots- lés. Données multivoie,par imonie, analyse dis riminante.
Abstra t.AsparseversionofFisherdis riminantanalysisformultiwaydatais
presen-ted. More spe i ally, this papergathers two extensions of standard Fisher dis riminant
analysis. The rst one is Multiway-FDA whi h has been designed todeal with multiway
data. The se ondone is sparse-FDA whi h allows torea h aparsimonious lassier.
Keywords. Multiway analysis, sparsity,Fisher dis riminantanalysis.
1 Introdu tion
L'intérêt pour les méthodes d'analyse statistique des données multivoie est roissant
depuisquelquesannées.Cetengouementestampliéparlané essitédetraiterdesdonnées
volumineusesetstru turées.Laplupartde esextensionsfontintervenirunemodélisation
du ve teur des paramètres her hés an de tenir expli itement ompte de la stru ture
tensorielle des données. Cettemodélisationprésente également l'avantage de diminuer la
taille du ve teur des paramètres à estimer, permettant ainsi une estimation possible en
un temps de al ul raisonnable et une interprétation fa ilitée par le nombre restreint de
paramètres.
Par ailleurs, utiliser un ritère de type L 1
an de for er la par imonie du modèle est
une te hnique utilisée pour un grand nombre d'analyses statistiques. For er la
par imo-nie onduit à des valeurs nulles pour le ve teur des paramètres her hés et ainsi à une
interprétationplus aisée des oe ients non nuls.
Ce papierréunit es 2te hniques dédiéesauxdonnées de grandedimensionetpropose
parti u-la modélisation multivoie), et que pour haque axe, seulement une partie des variables
intervient(intérêt de lapénalité L 1
).
Lase tion 2résumelesdiérentes versions de l'analysedis riminanteà l'originede e
travail. La version sparse de l'analyse dis riminante mutivoie est présentée se tion 3 : le
ritèreutiliséainsi quelastratégiedéveloppée pour minimiser e ritèrey sontprésentés.
L'analyse proposée est testée sur un exemple simulé.
2 Diérentes versions de l'analyse dis riminante
En analyse dis riminantemultivoie, les données expli ativesne sont pas représentées
parunematri e, omme 'estle asenanalysestandard,maisparuntenseur:lesvariables
expli ativessont ainsi observées selon plusieurs modalités.An d'alléger les expli ations
lepapierse on entre surlestenseurs d'ordre3bienquelaméthode proposée puisse
s'ap-pliqueraux tenseursd'ordre quel onque. Lesdonnées spatio-temporellessontun exemple
de données multivoie.
SoitfX
ijk g
1in;1jJ;1kK
untenseur d'ordre3dedimensionnJK oùndésigne
le nombre d'individus, J le nombre de variables et K le nombre de modalités.Soit X la
matri ede taillen(JK) où haque ligne x i
=ve (X
i:: )
>
.Soit yle ve teur de longueur
n ontenant la lasse de haque individu.
Analyse dis riminante. L'analyse fa torielle dis riminante onsiste à re her her des
proje tions de la forme g(x) =
>
x. Les ve teurs de poids sont hoisis de sorte à
maximiser le rapport varian e inter lasse / varian e intra lasse. Ce rapport de varian e
s'é rit (voir Hastie etal (2009)):
R ()= > (X u ) > M Between X u > (X u ) > M Within X u + > (1) M Between et M Within
sont des matri es nn semi-dénies positive ne dépendant que du
ve teur y.L'analyse dis riminanterégulariséefaitintervenirleterme >
ande palier
lesproblèmes numériques et ontrer le phénomène de sur-apprentissage.
Analyse dis riminante mutivoie (Multiway-FDA).Elle onsiste àoptimiserle
ri-tère (1) en imposant une stru ture de Krone ker au ve teur her hé : =
K
J .
Ainsi, au lieu de re her her un poids j;k
pondérant l'inuen e de la variable j pour la
modaliték,onserestreintàuneanalyseséparée del'inuen edelavariablej etdela
mo-daliték. Lesve teurs K
et J
sontobtenuspar l'algorithme de dire tions alternées (1).
Require: >0; K(0) ; X; y; q 0 repeat X K = K X k=1 K(q) k X ::k ; K =k K(q) k 2 2 J(q+1) argmax J ;k J k=1 ( J ) > X > K M Between X K J ( J ) > X > K M Within X K J + K k J k 2 2 X J = J X j=1 J(q+1) j X :j: ; J =k J(q+1) k 2 2 K(q+1) argmax K ;k K k=1 ( K ) > X > J M Between X J K ( K ) > X > J M Within X J w K + J k K k 2 2 q q+1 until k K(q 1) K(q) k< return ( K(q) ; J(q) )
Analysedis riminantesparse (sparse-FDA).SoitY lamatri edisjon tive omplète
(Y i;
=1sil'individu iest de la lasse ). Hastie etal (2009)ont montré que le ritèrede
l'analysedis riminante, régularisée ounon, pouvaitégalements'é rire sous laformed'un
problème de régression. Supposons ques 1ve teurs
r
aient déjà été al ulés.Le s ième
ve teur
s
est déni par :
min s ;s kY s X s k 2 2 +k s k 2 2 s. 1 n > r Y > Y s =Æ rs ; rs (2) où s
estunve teurdelongueurC(nombrede lasses).L'optimisationdu ritères'ee tue
à l'aide d'un algorithme de dire tions alternées. Les étapes élémentaires sont i i très
simplespuisque,que e soitpour l'optimisationpar rapportà s
oupar rapportà s
, les
optimaont des expressions analytiques.On aboutit ainsi àl'algorithme (2).
Pour for er le ve teur à avoir un grand nombre de ses oe ients égaux à 0, la
version sparse de l'analyse dis riminante onsiste à ajouter une pénalité L 1
au ritère
pré édent. Se référer àClemmensen etal (2011) pour plus de détails :
min s ;s kY s X s k 2 2 +k s k 2 2 + 1 k s k 1 s. 1 n > r Y > Y s =Æ rs ; rs (3)
L'optimisation par rapport à se fait à l'aide de l'algorithme (2). L'optimisation par
rapport à
s
Require: >0; s (0) ; X; y; q 0 repeat (q) s argmin s n kY s X (q) s k 2 2 o s. 1 n > r Y > Y s =Æ rs ; rs (q+1) s argmin s n kY (q) s X s k 2 2 +k s k 2 2 o q q+1 until k (q) s (q 1) s k < return (q) s
3 Méthode proposée : Sparse Multiway-FDA
Elle onsisteà reprendre la version multivoiede l'analyse dis riminanteen formulant
lesétapes d'analyse dis riminante omme des problèmes de régression et en ajoutant au
ritèreune pénalitéL 1 : min s ;s kY s X s k 2 2 +k s k 2 2 + 1 P( s ) s. ( 1 n > r Y > Y s =Æ rs ; rs s = K s J s (4)
Deux pénalités ontété imaginées :
1. P( s ) = k s k 1 =k K s k 1 k J s k 1
. Il s'agit de la transposition immédiate de
l'équa-tion (3). 2. P( s )= k K s k 1 +(1 )k J s k 1
. Cette ontrainte permetde for er lapar imonie
sur un axe plutt que sur un autre. Pour les as extrêmes ( = 0 ou = 1), la
sparsité n'estimposéeque sur l'un des deux axes. Cette stratégieest àrappro her
des pénalités de type groupe lasso (sans re ouvrement) pour lesquelles tout un
ensemblede variablesest séle tionné ounon.
La onvergen edel'algorithmepeutêtrea élérée ennefaisantqu'uneitérationdans
l'al-gorithme(2). On obtientainsi l'algorithme (3)présenté pour la pénalité P( s )=k s k 1 .
Exemple illustratif.L'algorithmeproposé a été appliquéàdes données simulées:pour
ha un des n = 26 individus, K = 7 spe tres al ulés pour J = 750 longueurs d'ondes
ont été simulés. Les 7 modalitésobtenues orrespondent à 7 profondeurs diérentes. Les
n = 26 individus sont répartis en 2 lasses. La gure (1) donne un exemple de quelques
spe tres obtenus àun mêmeinstantpour deux individus de lasses diérentes.
Sparse Multiway FDA a été omparée à (i) la version sparse de l'analyse dis riminante
(sparse-FDA), (ii) laversion sparse de l'analyse dis riminanteave une pénalité de type
Require: >0; s K(0) ; s J(0) ; X; y; q 0, (q) s K(q) s J(q) s repeat (q) s argmin s n kY s X (q) s k 2 2 o s. 1 n > r Y > Y s =Æ rs ; r s X K = K X k=1 K(q) k X ::k ; K =k K(q) k 2 2 ; K 1 = 1 k K(q) k 1 J(q+1) s argmin J s n kY (q) s X K J s k 2 2 + K k J s k 2 2 + K 1 k J s k 1 o X J = J X j=1 J(q+1) j X :j: ; J =k j(q+1) k 2 2 ; J 1 = 1 k J(q+1) k 1 K(q+1) s argmin K s n kY (q) s X K K s k 2 2 + J k K s k 2 2 + J 1 k K s k 1 o q q+1 until k K(q) s K(q 1) s k< return K(q) s ; J(q) s
Tous les algorithmes testés né essitent l'optimisation de ritères de type elasti -net,
ave pour (ii) la ontrainte supplémentaire de onstituer des groupes de variables. Pour
ela, less ripts fournis par Boydetal (2011) ont été utilisés.Sparse Multiway-FDA a été
appliqué ave la pénalité P( s ) = k s k 1 . Les poids J et K
sont donnés gure (2) et
table (1): l'interprétation séparée des ve teurs de poids permetune interprétation fa ile
plus fa ile qu'ave sparse-FDA (gure (3)) ou la te hnique group-lasso (gure (4)). En
outre,les tempsde al ul donnéstable (2) montrent quel'algorithmeproposé est rapide.
prof.1 prof.2 prof.3 prof. 4 prof. 5 prof.6 prof.7
K
0 0 0 0 0.183 0.467 0.865
Table 1 Sparse Multiway-FDA : ve teur
K
pondérant l'inuen e des profondeurs.
tailleoptimL1 group lasso temps CPU (s)
sparse Multiway-FDA J et K non 1.20
sparse-FDA JK non 19.67
sparse-FDA group lasso JK oui 25.83
n° associé aux longueurs d'onde
0
200
400
600
0
0.2
0.4
0.6
0.8
1
1.2
prof. 1
prof. 2
prof. 3
prof. 4
prof. 5
prof. 6
prof. 7
n° associé aux longueurs d'onde
0
200
400
600
0
0.2
0.4
0.6
0.8
1
1.2
prof. 1
prof. 2
prof. 3
prof. 4
prof. 5
prof. 6
prof. 7
Figure1 Données simulées pour deux individus :
pour haque individu,7 spe tres ont été mesurés.
0
200
400
600
800
n° associé aux longueurs d'onde
0
0.05
0.1
0.15
0.2
Figure2SparseMFDA:
ve -teur J
obtenu.
100
200
300
400
500
600
700
n° associé aux longueurs d'onde
0
0
0
0
0
0
0
vecteur de poids
β
prof. 1
prof. 2
prof. 3
prof. 4
prof. 5
prof. 6
prof. 7
Figure3Sparse-FDA:ve teurobtenu.
100
200
300
400
500
600
700
n° associé aux longueurs d'onde
0
0
0
0
0
0
0
vecteur de poids
β
prof. 1
prof. 2
prof. 3
prof. 4
prof. 5
prof. 6
prof. 7
Figure4FDAave pénalitégroup-lasso:
ve teur obtenu
Bibliographie
[1℄ Le huga G., Le Brusquet L., Perlbarg V., Puybasset L., Galanaud D., Tenenhaus
A. (2015),Pro eedings in Mathemati s and Statisti s, hapter Dis riminant Analysisfor
Multiway Data.Springer Verlag.
[2℄Hastie, T., Tibshirani, R. and Friedman,J. (2009), The Elementsof Statisti al
Lear-ning :Data Mining, Inferen e, and Predi tion, Springer.
[3℄ Clemmensen, L., Hastie, T., Witten, D. and Ersbøll B. (2011), Sparse dis riminant
analysis, Te hnometri s, 53(4) :406-413.
[4℄ Boyd S., Parikh N., Chu E., Peleato B., and E kstein J. (2011), Distributed
Opti-mization and Statisti al Learning via the Alternating Dire tion Method of Multipliers,