2.4 R´ eduction de dimension
2.4.1 Analyse en composante principale
L’analyse en composantes principales (ACP)-Principal Component Analysis (PCA)-est
l’une des m´ethodes d’analyse multivari´ees les plus utilis´ees. Lorsque la dimension des
va-riables est ´elev´ee, il est impossible d’appr´ehender la structure des donn´ees et la proximit´e
entre les observations en se contentant d’analyser des statistiques descriptives univari´ees
ou mˆeme une matrice de corr´elation (ou de covariance). L’ACP effectue une r´eduction de
dimension par projection des points originaux de dimensionddans un sous-espace vectoriel
de dimension plus r´eduiteken d´eterminant les axes principaux qui maximisent la variance
expliqu´ee.
La solution du probl`eme de maximisation de la variance donne `a l’ACP un double sens :
la projection de l’espace d’origine de dimensionddans le sous-espace de dimensionkfait de
l’ACP une technique de minimisation de l’erreur quadratique d’estimation et la projection
inverse (du sous-espace de dimension k vers le sous-espace de dimension d) permettant
d’estimer les variables initiales fait consid´er´ee l’ACP comme une technique de maximisation
de la variance des projections.
Soit X une matrice de N donn´ees appartenant `a R
d. On suppose que X est centr´e.
L’objectif de l’analyse en composantes principales est de trouver un sous-espace de
dimen-sion k (k < d) qui permet d’avoir une repr´esentation r´eduite de X. Pour cela, on associe
un vecteur z
i∈ R
k`a une observation x
i`a travers une transformation lin´eaire d´efinie par
U∈R
d×ko`uUest une matrice de transformation orthogonale deR
d×ket v´erifieU
TU=I.
Ceci revient donc `a poser
z
i=U
Tx
iavec U= [u
1,· · · ,u
k],u
i∈R
d.
Uest appel´ee aussi matrice de changement de base o`u les vecteurs de la nouvelle base sont
orthogonaux deux `a deux, i.e,u
Tiu
j= 0 si i6=j. Les composantes z
i, avec (i= 1,· · ·, k),
du vecteur caract´eristique z repr´esentent les composantes principales projet´ees du vecteur
x
idans le sous-espace r´eduit. La reconstruction de x
i`a partir de z
iest donn´ee par :
b
x
i=Uz
i=UU
Tx
i.
Lorsque l’erreur quadratique d’estimation de x est minimale, on dit que la matrice de
projectionUest optimale. Ce probl`eme de recherche des axes principaux se traduit math´
e-matiquement en un probl`eme d’optimisation et s’exprime par :
U
opt= argmin
U
Section 2.4 – R´eduction de dimension
o`u J
ed´efinit le crit`ere d’erreur d’estimation de l’ACP. En respectant la contrainte
d’or-thogonalit´e de la matrice de projection U
TU=I, ce crit`ere peut ˆetre r´e´ecrit sous la forme
suivante :
J
e=Ehkx
i−xˆ
ik
2i=Eh(x
i−UU
Tx
i)
T(x
i−UU
Tx
i)i (2.7)
=Ex
iTx
i−2x
iTUU
Tx
i+x
TiUU
TUU
Tx
i=Ex
iTx
i−x
iTUU
Tx
i=Ex
iTx
i−z
iTz
i=Etrace(x
iTx
i−z
iTz
i)=Etrace(x
ix
iT−z
iz
iT)
=Ehtrace(x
ix
iT)−trace(U
Tx
ix
iTU)i
=trace(Σ)−trace(U
TΣU).
Minimiser l’expression de J
erevient simplement `a maximiser le deuxi`eme terme de J
equi correspond `a trace(U
TΣU), o`u Σ repr´esente la matrice de covariance empirique. En
cons´equence, l’´equivalence entre la maximisation de la variance des donn´ees projet´ees et la
minimisation de l’erreur quadratique devient ´evidente et le probl`eme de l’ACP se r´eduit `a :
U
opt= argmin
U
J
e(U) = argmax
U
trace(U
TΣU)
L’estimation de la matrice de projection orthogonale U
optse fait principalement de
deux fa¸cons. La premi`ere technique consiste `a calculer des valeurs et vecteurs propres de
la matrice de covariance empirique Σdes donn´ees. La deuxi`eme m´ethode est bas´ee sur la
d´ecomposition en valeurs singuli`eres de la matrice des donn´ees X.
2.4.1.1 Avec la covariance
Consid´erons des donn´ees sous la forme d’une matrice centr´eeX∈R
N×d, et consid´erons
´egalement la matrice de covariance empirique de tailled×dd´efinie parΣ=X
TX.
Soit U = [u
1,· · ·,u
d] avec u
iun vecteur unitaire de R
dtel que ku
ik
2= u
Tiu
i= 1,
suivant lequel la variance de la projection dexest maximale. D’un point de vue optimisation
de la maximisation de la variance, la fonction objective de l’ACP est donn´ee par
argmax
ui
trace(u
iTΣu
i)
s.t u
iTu
i= 1.
(2.8)
Lorsque la matriceΣest une matrice r´eelle et sym´etrique etu
iest un vecteur r´eel non nul,
la solution du probl`eme (2.8) est bien connue sous forme de quotient de Rayleighr(u
i)[26]
donn´e par :
r(u
i) = u
T i
Σu
iu
Tiu
i.
La solution qui maximise l’´equation (2.8) est donn´ee paru
iqui r´epr´esente le vecteur propre
correspondant `a la plus grande valeur propre deΣd´efinie par le scalairer(u
i). La
diagona-lisation de la matrice de covariance empirique Σ=U∆U
Tdonne les vecteurs propres u
iSection 2.4 – R´eduction de dimension
du probl`eme 2.8. Ainsi, les valeurs propres r´epresentent les variances des donn´ees projet´ees
z
isur les axes repr´esent´es par les vecteurs propres u
i,(i= 1, . . . , d). La direction optimale
suivant laquelle la variance de la projection du vecteur de donn´eesx est maximale, est
re-pr´esent´ee par le vecteur propreu
icorrespondant `a la valeur propre maximaleλ
i. Le second
axe qui contribue `a la maximisation de la variance est orthogonal au premier axe suivant
la contrainte d’orthogonalit´e. De fa¸con plus g´en´erale, le sous espace vectoriel de dimension
kqui assure une dispersion maximale des observations est d´efini par une base orthonorm´ee
form´ee des k vecteurs propres, commun´ement appel´es axes principaux, correspondant aux
kplus grandes valeurs propres de la matriceΣ.
Les valeurs propres donnent l’information v´ehicul´ee par chaque axe correspondant selon
le pourcentage cumul´e. L’amplitude de chaque valeur propre quantifie pour chaque axe
la quantit´e de l’information encod´ee qu’il v´ehicule. Cela donne un int´erˆet consid´erable de
la m´ethode de l’analyse en composante principale pour la r´eduction de la dimension des
donn´ees. En effet, la technique permet de caract´eriser les directions orthogonales d’un espace
de donn´ees porteuses du maximum d’information au sens de la maximisation des variances
de projections. Lorsque les donn´ees sont issues d’un espace de grande dimension (dlarge),
il est parfois difficile de passer par la diagonalisation de la matrice de covariance pour
obtenir les axes principaux. La m´ethode de l’analyse en composantes principales devient
difficilement r´ealisable avec un temps de calcul assez complexe. Dans ce cas il est pr´ef´erable
de passer par la technique de d´ecomposition en valeurs singuli`eres pour calculer les axes
principaux.
2.4.1.2 Avec la d´ecomposition en valeurs singuli`eres
On appelle d´ecomposition en valeurs singuli`eres (SVD) [27], la d´ecomposition d’une
matrice rectangulaire deR
N×dsous la forme
X=USV
T, (2.9)
o`u U est une matrice orthogonale de taille N ×N qui contient les vecteurs singuliers `a
droite,Sune matrice semi-diagonale de tailleN×dqui contient sur sa diagonale les valeurs
singuli`eres etVest une matrice orthogonale de tailled×dcontenant les vecteurs singuliers
`
a gauche de la matriceX. En vertu des propri´et´es matricielles en alg`ebre lin´eaire, les
com-posantes principales qui maximisent la variance et qui minimisent l’erreur de reconstruction
du probl`eme (2.7) peuvent ˆetre ´egalement d´etermin´ees par la d´ecomposition en valeurs
sin-guli`eres (2.9). En effet, en r´e´ecrivant l’expression de la covariance avec la forme de la SVD,
on sait que :
Σ=X
TX= (USV
T)
T(USV
T)
= (VSS
TV
T) =V∆V
T(2.10)
La relation entre la forme diagonalis´ee de la matrice de covariance et celle de l’´equation
(2.10) montre que les vecteurs singuliers `a droite de la SVD de X sont en fait les vecteurs
propres de la matrice de covariance, ce qui justifie que la matrice Σ partage certaines
Section 2.4 – R´eduction de dimension
propri´et´es spectrales avec la matriceX. Par ailleurs, puisque la matrice Vest orthogonale,
`
a partir de l’´equation (2.9), les composantes principales peuvent s’exprimer par :
z
j=V
Tx
j.
L’expression de la forme tronqu´ee de la SVD donne la matrice approxim´ee X
kde X telle
que :
X
k=U
kS
kV
Tk, (2.11)
o`u uniquementkpremiers vecteurs deU,V etSsont consid´er´es. En ACP, les donn´ees sont
projet´ees dans le sous-espace engendr´e par leskvecteurs propres associ´es auxkplus grandes
valeurs propres. Pour r´eduire la dimension des donn´ees ded`ak, leskpremi`eres colonnes de
U, etk×kpartie sup´erieure `a gauche deSsont retenues. Ainsi, leskpremi`eres composantes
principalesZ
k= [z
1,· · ·,z
k]sont donn´ees parZ
k=XV
k=U
kS
k. L’approximation de la
matrice de donn´ees X donnant la meilleure approximation de rang k de X, et est donn´ee
parX
kconduisant `a une erreur de reconstruction d´efinie par :
kX−XV
kV
Tkk
2=kX−U
kU
TkXk
2=
d
X
i=k+1
λ
2i.
Le calcul des composantes principales par la d´ecomposition en valeurs singuli`eres est une
solution qui peut ˆetre utilis´ee pour calculer les mˆemes composantes principales que dans le
cas de la diagonalisation de la matriceΣ. Il faut aussi noter que la matriceXX
T=U∆U
Tposs`ede les mˆemes vecteurs singuliers `a gauche que la matrice X. Ainsi, lorsqueN d, il
est plus ´economique de calculer les composantes principales `a travers la SVD de X plutˆot
que d’effectuer la diagonalisation deΣ.
2.4.1.3 Analyse en composante principale `a noyau
L’analyse en composante principale `a noyau (ou Kernel PCA en anglais (KPCA)) permet
de trouver des fonctions de d´ecision non lin´eaires, tout en s’appuyant fondamentalement sur
l’ACP lin´eaire. Le principe de l’ACP `a noyau r´eside particuli`erement sur le fait queN points
de donn´ees ne puissent en g´en´eral pas ˆetre lin´eairement s´eparable dans l’espace de dimension
d < N. En consid´erantN ´echantillons de donn´ees observ´es dans l’espaceR
d, il est possible
de les transformer dans un espace de dimensionR
Nvia une fonction de transformationϕ(x
i)
telle queϕ:R
d7→R
N. Apr`es cette transformation des donn´ees, l’ACP lin´eaire est effectu´ee
sur les nouvelles donn´ees r´esultantes dans l’espace augment´e. ´Etant donn´e que le nouvel
espace est g´en´eralement de tr`es grande dimension, la m´ethode d’ACP `a noyau emploie des
noyaux remplissant les conditions de Mercer [25] au lieu de calculer explicitement la fonction
de transformation. Ce noyau est une fonctionk(x,y) qui, pour toutes les donn´ees {x
i}
Ni=1
donne lieu `a une matrice positive k
ij=k(x
i,x
j) [28]. On essaye g´en´eralement d’´eviter de
travailler dans l’espace des fonctionsϕ, et construire le noyau de taille N×N par :
K=k(x,y) = (ϕ(x), ϕ(y)) =ϕ(x)
Tϕ(y)
o`u chaque colonne de K repr´esente le produit scalaire d’un point de donn´ees transform´e
par rapport `a tous les autres points transform´es. La fonction la plus utilis´ee pour calculer
Section 2.4 – R´eduction de dimension
le noyau sont g´en´eralement le noyau Gaussien exprim´e par :
k(x,y) = exp(−kx−yk
2/2σ
2)
avec σ un param`etre d’´echelle ou d´eviation standard qui repr´esente la largeur du noyau
Gaussien. La m´ethode d’analyse en composante principale lin´eaire est r´ealis´ee sur la
ma-trice du noyauK. Cette m´ethode `a noyau est tr`es bien adapt´ee pour extraire les structures
des donn´ees non lin´eaires. Cependant, lorsque l’on est en pr´esence des donn´ees volumineuses,
cela conduit `a obtenir un K grand, et le stockage de cette matrice Kd’une part peut
de-venir pratiquement impossible ou n´ecessite beaucoup d’espace m´emoire. D’autre part, pour
calculer les vecteurs propres et valeurs propres conduisant `a l’obtention des composantes
principales dans le nouveau espace, il faut faire la d´ecomposition spectrale de la matriceK.
Cette d´ecomposition est tr`es coˆuteuse lorsque l’on est en pr´esence d’une base de donn´ees
vo-lumineuse. Ce qui rend la m´ethode pratiquement infaisable pour les donn´ees massives. Nous
nous sommes moins focalis´es sur cette technique car notre travail est port´e sur l’analyse des
grandes bases de donn´ees et en grande dimension.
Dans le document
Méthodes aléatoires pour l’apprentissage de données en grande dimension : application à l'apprentissage partagé
(Page 32-36)