• Aucun résultat trouvé

2.4 R´ eduction de dimension

2.4.1 Analyse en composante principale

L’analyse en composantes principales (ACP)-Principal Component Analysis (PCA)-est

l’une des m´ethodes d’analyse multivari´ees les plus utilis´ees. Lorsque la dimension des

va-riables est ´elev´ee, il est impossible d’appr´ehender la structure des donn´ees et la proximit´e

entre les observations en se contentant d’analyser des statistiques descriptives univari´ees

ou mˆeme une matrice de corr´elation (ou de covariance). L’ACP effectue une r´eduction de

dimension par projection des points originaux de dimensionddans un sous-espace vectoriel

de dimension plus r´eduiteken d´eterminant les axes principaux qui maximisent la variance

expliqu´ee.

La solution du probl`eme de maximisation de la variance donne `a l’ACP un double sens :

la projection de l’espace d’origine de dimensionddans le sous-espace de dimensionkfait de

l’ACP une technique de minimisation de l’erreur quadratique d’estimation et la projection

inverse (du sous-espace de dimension k vers le sous-espace de dimension d) permettant

d’estimer les variables initiales fait consid´er´ee l’ACP comme une technique de maximisation

de la variance des projections.

Soit X une matrice de N donn´ees appartenant `a R

d

. On suppose que X est centr´e.

L’objectif de l’analyse en composantes principales est de trouver un sous-espace de

dimen-sion k (k < d) qui permet d’avoir une repr´esentation r´eduite de X. Pour cela, on associe

un vecteur z

i

R

k

`a une observation x

i

`a travers une transformation lin´eaire d´efinie par

UR

d×k

o`uUest une matrice de transformation orthogonale deR

d×k

et v´erifieU

T

U=I.

Ceci revient donc `a poser

z

i

=U

T

x

i

avec U= [u

1,

· · · ,u

k

],u

i

R

d

.

Uest appel´ee aussi matrice de changement de base o`u les vecteurs de la nouvelle base sont

orthogonaux deux `a deux, i.e,u

Ti

u

j

= 0 si i6=j. Les composantes z

i

, avec (i= 1,· · ·, k),

du vecteur caract´eristique z repr´esentent les composantes principales projet´ees du vecteur

x

i

dans le sous-espace r´eduit. La reconstruction de x

i

`a partir de z

i

est donn´ee par :

b

x

i

=Uz

i

=UU

T

x

i

.

Lorsque l’erreur quadratique d’estimation de x est minimale, on dit que la matrice de

projectionUest optimale. Ce probl`eme de recherche des axes principaux se traduit math´

e-matiquement en un probl`eme d’optimisation et s’exprime par :

U

opt

= argmin

U

Section 2.4 – R´eduction de dimension

o`u J

e

d´efinit le crit`ere d’erreur d’estimation de l’ACP. En respectant la contrainte

d’or-thogonalit´e de la matrice de projection U

T

U=I, ce crit`ere peut ˆetre r´e´ecrit sous la forme

suivante :

J

e

=Ehkx

i

xˆ

i

k

2

i=Eh(x

i

−UU

T

x

i

)

T

(x

i

−UU

T

x

i

)i (2.7)

=Ex

iT

x

i

−2x

iT

UU

T

x

i

+x

Ti

UU

T

UU

T

x

i

=Ex

iT

x

i

x

iT

UU

T

x

i

=Ex

iT

x

i

z

iT

z

i

=Etrace(x

iT

x

i

z

iT

z

i

)=Etrace(x

i

x

iT

z

i

z

iT

)

=Ehtrace(x

i

x

iT

)−trace(U

T

x

i

x

iT

U)i

=trace(Σ)−trace(U

T

ΣU).

Minimiser l’expression de J

e

revient simplement `a maximiser le deuxi`eme terme de J

e

qui correspond `a trace(U

T

ΣU), o`u Σ repr´esente la matrice de covariance empirique. En

cons´equence, l’´equivalence entre la maximisation de la variance des donn´ees projet´ees et la

minimisation de l’erreur quadratique devient ´evidente et le probl`eme de l’ACP se r´eduit `a :

U

opt

= argmin

U

J

e

(U) = argmax

U

trace(U

T

ΣU)

L’estimation de la matrice de projection orthogonale U

opt

se fait principalement de

deux fa¸cons. La premi`ere technique consiste `a calculer des valeurs et vecteurs propres de

la matrice de covariance empirique Σdes donn´ees. La deuxi`eme m´ethode est bas´ee sur la

d´ecomposition en valeurs singuli`eres de la matrice des donn´ees X.

2.4.1.1 Avec la covariance

Consid´erons des donn´ees sous la forme d’une matrice centr´eeXR

N×d

, et consid´erons

´egalement la matrice de covariance empirique de tailled×dd´efinie parΣ=X

T

X.

Soit U = [u

1

,· · ·,u

d

] avec u

i

un vecteur unitaire de R

d

tel que ku

i

k

2

= u

Ti

u

i

= 1,

suivant lequel la variance de la projection dexest maximale. D’un point de vue optimisation

de la maximisation de la variance, la fonction objective de l’ACP est donn´ee par

argmax

ui

trace(u

iT

Σu

i

)

s.t u

iT

u

i

= 1.

(2.8)

Lorsque la matriceΣest une matrice r´eelle et sym´etrique etu

i

est un vecteur r´eel non nul,

la solution du probl`eme (2.8) est bien connue sous forme de quotient de Rayleighr(u

i

)[26]

donn´e par :

r(u

i

) = u

T i

Σu

i

u

Ti

u

i

.

La solution qui maximise l’´equation (2.8) est donn´ee paru

i

qui r´epr´esente le vecteur propre

correspondant `a la plus grande valeur propre deΣd´efinie par le scalairer(u

i

). La

diagona-lisation de la matrice de covariance empirique Σ=U∆U

T

donne les vecteurs propres u

i

Section 2.4 – R´eduction de dimension

du probl`eme 2.8. Ainsi, les valeurs propres r´epresentent les variances des donn´ees projet´ees

z

i

sur les axes repr´esent´es par les vecteurs propres u

i

,(i= 1, . . . , d). La direction optimale

suivant laquelle la variance de la projection du vecteur de donn´eesx est maximale, est

re-pr´esent´ee par le vecteur propreu

i

correspondant `a la valeur propre maximaleλ

i

. Le second

axe qui contribue `a la maximisation de la variance est orthogonal au premier axe suivant

la contrainte d’orthogonalit´e. De fa¸con plus g´en´erale, le sous espace vectoriel de dimension

kqui assure une dispersion maximale des observations est d´efini par une base orthonorm´ee

form´ee des k vecteurs propres, commun´ement appel´es axes principaux, correspondant aux

kplus grandes valeurs propres de la matriceΣ.

Les valeurs propres donnent l’information v´ehicul´ee par chaque axe correspondant selon

le pourcentage cumul´e. L’amplitude de chaque valeur propre quantifie pour chaque axe

la quantit´e de l’information encod´ee qu’il v´ehicule. Cela donne un int´erˆet consid´erable de

la m´ethode de l’analyse en composante principale pour la r´eduction de la dimension des

donn´ees. En effet, la technique permet de caract´eriser les directions orthogonales d’un espace

de donn´ees porteuses du maximum d’information au sens de la maximisation des variances

de projections. Lorsque les donn´ees sont issues d’un espace de grande dimension (dlarge),

il est parfois difficile de passer par la diagonalisation de la matrice de covariance pour

obtenir les axes principaux. La m´ethode de l’analyse en composantes principales devient

difficilement r´ealisable avec un temps de calcul assez complexe. Dans ce cas il est pr´ef´erable

de passer par la technique de d´ecomposition en valeurs singuli`eres pour calculer les axes

principaux.

2.4.1.2 Avec la d´ecomposition en valeurs singuli`eres

On appelle d´ecomposition en valeurs singuli`eres (SVD) [27], la d´ecomposition d’une

matrice rectangulaire deR

N×d

sous la forme

X=USV

T

, (2.9)

o`u U est une matrice orthogonale de taille N ×N qui contient les vecteurs singuliers `a

droite,Sune matrice semi-diagonale de tailleN×dqui contient sur sa diagonale les valeurs

singuli`eres etVest une matrice orthogonale de tailled×dcontenant les vecteurs singuliers

`

a gauche de la matriceX. En vertu des propri´et´es matricielles en alg`ebre lin´eaire, les

com-posantes principales qui maximisent la variance et qui minimisent l’erreur de reconstruction

du probl`eme (2.7) peuvent ˆetre ´egalement d´etermin´ees par la d´ecomposition en valeurs

sin-guli`eres (2.9). En effet, en r´e´ecrivant l’expression de la covariance avec la forme de la SVD,

on sait que :

Σ=X

T

X= (USV

T

)

T

(USV

T

)

= (VSS

T

V

T

) =V∆V

T

(2.10)

La relation entre la forme diagonalis´ee de la matrice de covariance et celle de l’´equation

(2.10) montre que les vecteurs singuliers `a droite de la SVD de X sont en fait les vecteurs

propres de la matrice de covariance, ce qui justifie que la matrice Σ partage certaines

Section 2.4 – R´eduction de dimension

propri´et´es spectrales avec la matriceX. Par ailleurs, puisque la matrice Vest orthogonale,

`

a partir de l’´equation (2.9), les composantes principales peuvent s’exprimer par :

z

j

=V

T

x

j

.

L’expression de la forme tronqu´ee de la SVD donne la matrice approxim´ee X

k

de X telle

que :

X

k

=U

k

S

k

V

Tk

, (2.11)

o`u uniquementkpremiers vecteurs deU,V etSsont consid´er´es. En ACP, les donn´ees sont

projet´ees dans le sous-espace engendr´e par leskvecteurs propres associ´es auxkplus grandes

valeurs propres. Pour r´eduire la dimension des donn´ees ded`ak, leskpremi`eres colonnes de

U, etk×kpartie sup´erieure `a gauche deSsont retenues. Ainsi, leskpremi`eres composantes

principalesZ

k

= [z

1

,· · ·,z

k

]sont donn´ees parZ

k

=XV

k

=U

k

S

k

. L’approximation de la

matrice de donn´ees X donnant la meilleure approximation de rang k de X, et est donn´ee

parX

k

conduisant `a une erreur de reconstruction d´efinie par :

kX−XV

k

V

Tk

k

2

=kX−U

k

U

Tk

Xk

2

=

d

X

i=k+1

λ

2i

.

Le calcul des composantes principales par la d´ecomposition en valeurs singuli`eres est une

solution qui peut ˆetre utilis´ee pour calculer les mˆemes composantes principales que dans le

cas de la diagonalisation de la matriceΣ. Il faut aussi noter que la matriceXX

T

=U∆U

T

poss`ede les mˆemes vecteurs singuliers `a gauche que la matrice X. Ainsi, lorsqueN d, il

est plus ´economique de calculer les composantes principales `a travers la SVD de X plutˆot

que d’effectuer la diagonalisation deΣ.

2.4.1.3 Analyse en composante principale `a noyau

L’analyse en composante principale `a noyau (ou Kernel PCA en anglais (KPCA)) permet

de trouver des fonctions de d´ecision non lin´eaires, tout en s’appuyant fondamentalement sur

l’ACP lin´eaire. Le principe de l’ACP `a noyau r´eside particuli`erement sur le fait queN points

de donn´ees ne puissent en g´en´eral pas ˆetre lin´eairement s´eparable dans l’espace de dimension

d < N. En consid´erantN ´echantillons de donn´ees observ´es dans l’espaceR

d

, il est possible

de les transformer dans un espace de dimensionR

N

via une fonction de transformationϕ(x

i

)

telle queϕ:R

d

7→R

N

. Apr`es cette transformation des donn´ees, l’ACP lin´eaire est effectu´ee

sur les nouvelles donn´ees r´esultantes dans l’espace augment´e. ´Etant donn´e que le nouvel

espace est g´en´eralement de tr`es grande dimension, la m´ethode d’ACP `a noyau emploie des

noyaux remplissant les conditions de Mercer [25] au lieu de calculer explicitement la fonction

de transformation. Ce noyau est une fonctionk(x,y) qui, pour toutes les donn´ees {x

i

}

N

i=1

donne lieu `a une matrice positive k

ij

=k(x

i

,x

j

) [28]. On essaye g´en´eralement d’´eviter de

travailler dans l’espace des fonctionsϕ, et construire le noyau de taille N×N par :

K=k(x,y) = (ϕ(x), ϕ(y)) =ϕ(x)

T

ϕ(y)

o`u chaque colonne de K repr´esente le produit scalaire d’un point de donn´ees transform´e

par rapport `a tous les autres points transform´es. La fonction la plus utilis´ee pour calculer

Section 2.4 – R´eduction de dimension

le noyau sont g´en´eralement le noyau Gaussien exprim´e par :

k(x,y) = exp(−kx−yk

2

/2σ

2

)

avec σ un param`etre d’´echelle ou d´eviation standard qui repr´esente la largeur du noyau

Gaussien. La m´ethode d’analyse en composante principale lin´eaire est r´ealis´ee sur la

ma-trice du noyauK. Cette m´ethode `a noyau est tr`es bien adapt´ee pour extraire les structures

des donn´ees non lin´eaires. Cependant, lorsque l’on est en pr´esence des donn´ees volumineuses,

cela conduit `a obtenir un K grand, et le stockage de cette matrice Kd’une part peut

de-venir pratiquement impossible ou n´ecessite beaucoup d’espace m´emoire. D’autre part, pour

calculer les vecteurs propres et valeurs propres conduisant `a l’obtention des composantes

principales dans le nouveau espace, il faut faire la d´ecomposition spectrale de la matriceK.

Cette d´ecomposition est tr`es coˆuteuse lorsque l’on est en pr´esence d’une base de donn´ees

vo-lumineuse. Ce qui rend la m´ethode pratiquement infaisable pour les donn´ees massives. Nous

nous sommes moins focalis´es sur cette technique car notre travail est port´e sur l’analyse des

grandes bases de donn´ees et en grande dimension.