Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

Analyse en composante principale

Dans le document Méthodes aléatoires pour l’apprentissage de données en grande dimension : application à l'apprentissage partagé (Page 32-36)

2.4 R´ eduction de dimension

2.4.1 Analyse en composante principale

L’analyse en composantes principales (ACP)-Principal Component Analysis (PCA)-est

l’une des méthodes d’analyse multivariées les plus utilisées. Lorsque la dimension des

va-riables est élevée, il est impossible d’appréhender la structure des données et la proximité

entre les observations en se contentant d’analyser des statistiques descriptives univari´ees

ou même une matrice de corrélation (ou de covariance). L’ACP effectue une réduction de

dimension par projection des points originaux de dimensionddans un sous-espace vectoriel

de dimension plus r´eduiteken d´eterminant les axes principaux qui maximisent la variance

expliqu´ee.

La solution du probl`eme de maximisation de la variance donne `a l’ACP un double sens :

la projection de l’espace d’origine de dimensionddans le sous-espace de dimensionkfait de

l’ACP une technique de minimisation de l’erreur quadratique d’estimation et la projection

inverse (du sous-espace de dimension k vers le sous-espace de dimension d) permettant

d’estimer les variables initiales fait consid´er´ee l’ACP comme une technique de maximisation

de la variance des projections.

Soit X une matrice de N donn´ees appartenant `a _R

^d

. On suppose que X est centr´e.

L’objectif de l’analyse en composantes principales est de trouver un sous-espace de

dimen-sion k (k < d) qui permet d’avoir une repr´esentation r´eduite de X. Pour cela, on associe

un vecteur z

_i

∈ _R

k

`a une observation x

_i

à travers une transformation linéaire définie par

U∈_R

d×k

o`uUest une matrice de transformation orthogonale deR

^d^×^k

et v´erifieU

^T

U=I.

Ceci revient donc `a poser

z

_i

=U

^T

x

_i

avec U= [u

1,

· · · ,u

_k

],u

_i

∈_R

^d

.

Uest appel´ee aussi matrice de changement de base o`u les vecteurs de la nouvelle base sont

orthogonaux deux `a deux, i.e,u

^T_i

u

_j

= 0 si i6=j. Les composantes z

_i

, avec (i= 1,· · ·, k),

du vecteur caractéristique z représentent les composantes principales projetées du vecteur

x

_i

dans le sous-espace r´eduit. La reconstruction de x

_i

`a partir de z

_i

est donn´ee par :

b

x

_i

=Uz

_i

=UU

^T

x

_i

.

Lorsque l’erreur quadratique d’estimation de x est minimale, on dit que la matrice de

projectionUest optimale. Ce probl`eme de recherche des axes principaux se traduit math´

e-matiquement en un probl`eme d’optimisation et s’exprime par :

U

_opt

= argmin

U

Section 2.4 – R´eduction de dimension

o`u J

_e

d´efinit le crit`ere d’erreur d’estimation de l’ACP. En respectant la contrainte

d’or-thogonalit´e de la matrice de projection U

^T

U=I, ce critère peut être réécrit sous la forme

suivante :

J

_e

=_E^hkx

_i

−xˆ

_i

k

²

ⁱ=_E^h(x

_i

−UU

^T

x

_i

)

^T

(x

_i

−UU

^T

x

_i

)ⁱ (2.7)

=_Ex

_i^T

x

_i

−2x

_i^T

UU

^T

x

_i

+x

^T_i

UU

^T

UU

^T

x

_i

=_Ex

_i^T

x

_i

−x

_i^T

UU

^T

x

_i

=_Ex

_i^T

x

_i

−z

_i^T

z

_i

=_Etrace(x

_i^T

x

_i

−z

_i^T

z

_i

)=_Etrace(x

_i

x

_i^T

−z

_i

z

_i^T

)

=_E^htrace(x

_i

x

_i^T

)−trace(U

^T

x

_i

x

_i^T

U)ⁱ

=trace(Σ)−trace(U

^T

ΣU).

Minimiser l’expression de J

_e

revient simplement `a maximiser le deuxi`eme terme de J

_e

qui correspond `a trace(U

^T

ΣU), o`u Σ repr´esente la matrice de covariance empirique. En

conséquence, l’équivalence entre la maximisation de la variance des données projetées et la

minimisation de l’erreur quadratique devient évidente et le problème de l’ACP se réduit à :

U

_opt

= argmin

U

J

_e

(U) = argmax

U

trace(U

^T

ΣU)

L’estimation de la matrice de projection orthogonale U

_opt

se fait principalement de

deux fa¸cons. La premi`ere technique consiste `a calculer des valeurs et vecteurs propres de

la matrice de covariance empirique Σdes données. La deuxième méthode est basée sur la

décomposition en valeurs singulières de la matrice des données X.

2.4.1.1 Avec la covariance

Considérons des données sous la forme d’une matrice centréeX∈_R

N×d

, et consid´erons

´egalement la matrice de covariance empirique de tailled×dd´efinie parΣ=X

^T

X.

Soit U = [u

₁

,· · ·,u

_d

] avec u

_i

un vecteur unitaire de R

^d

tel que ku

_i

k

2

= u

^T_i

u

_i

= 1,

suivant lequel la variance de la projection dexest maximale. D’un point de vue optimisation

de la maximisation de la variance, la fonction objective de l’ACP est donn´ee par

argmax

ui

trace(u

_i^T

Σu

_i

)

s.t u

_i^T

u

_i

= 1.

(2.8)

Lorsque la matriceΣest une matrice r´eelle et sym´etrique etu

_i

est un vecteur r´eel non nul,

la solution du probl`eme (2.8) est bien connue sous forme de quotient de Rayleighr(u

_i

)[26]

donn´e par :

r(u

_i

) = ^u

T i

Σu

_i

u

^T_i

u

_i

.

La solution qui maximise l’´equation (2.8) est donn´ee paru

_i

qui r´epr´esente le vecteur propre

correspondant `a la plus grande valeur propre deΣd´efinie par le scalairer(u

_i

). La

diagona-lisation de la matrice de covariance empirique Σ=U∆U

^T

donne les vecteurs propres u

_i

Section 2.4 – R´eduction de dimension

du problème 2.8. Ainsi, les valeurs propres répresentent les variances des données projetées

z

_i

sur les axes repr´esent´es par les vecteurs propres u

_i

,(i= 1, . . . , d). La direction optimale

suivant laquelle la variance de la projection du vecteur de donn´eesx est maximale, est

re-pr´esent´ee par le vecteur propreu

_i

correspondant `a la valeur propre maximaleλ

_i

. Le second

axe qui contribue `a la maximisation de la variance est orthogonal au premier axe suivant

la contrainte d’orthogonalité. De fa¸con plus générale, le sous espace vectoriel de dimension

kqui assure une dispersion maximale des observations est d´efini par une base orthonorm´ee

formée des k vecteurs propres, communément appelés axes principaux, correspondant aux

kplus grandes valeurs propres de la matriceΣ.

Les valeurs propres donnent l’information v´ehicul´ee par chaque axe correspondant selon

le pourcentage cumul´e. L’amplitude de chaque valeur propre quantifie pour chaque axe

la quantité de l’information encodée qu’il véhicule. Cela donne un intérêt considérable de

la m´ethode de l’analyse en composante principale pour la r´eduction de la dimension des

donn´ees. En effet, la technique permet de caract´eriser les directions orthogonales d’un espace

de donn´ees porteuses du maximum d’information au sens de la maximisation des variances

de projections. Lorsque les donn´ees sont issues d’un espace de grande dimension (dlarge),

il est parfois difficile de passer par la diagonalisation de la matrice de covariance pour

obtenir les axes principaux. La m´ethode de l’analyse en composantes principales devient

difficilement réalisable avec un temps de calcul assez complexe. Dans ce cas il est préférable

de passer par la technique de d´ecomposition en valeurs singuli`eres pour calculer les axes

principaux.

2.4.1.2 Avec la d´ecomposition en valeurs singuli`eres

On appelle décomposition en valeurs singulières (SVD) [27], la décomposition d’une

matrice rectangulaire de_R

^N^×^d

sous la forme

X=USV

^T

, (2.9)

o`u U est une matrice orthogonale de taille N ×N qui contient les vecteurs singuliers `a

droite,Sune matrice semi-diagonale de tailleN×dqui contient sur sa diagonale les valeurs

singuli`eres etVest une matrice orthogonale de tailled×dcontenant les vecteurs singuliers

`

a gauche de la matriceX. En vertu des propriétés matricielles en algèbre linéaire, les

com-posantes principales qui maximisent la variance et qui minimisent l’erreur de reconstruction

du problème (2.7) peuvent être également déterminées par la décomposition en valeurs

sin-gulières (2.9). En effet, en réécrivant l’expression de la covariance avec la forme de la SVD,

on sait que :

Σ=X

^T

X= (USV

^T

)

^T

(USV

^T

)

= (VSS

^T

V

^T

) =V∆V

^T

(2.10)

La relation entre la forme diagonalis´ee de la matrice de covariance et celle de l’´equation

(2.10) montre que les vecteurs singuliers `a droite de la SVD de X sont en fait les vecteurs

propres de la matrice de covariance, ce qui justifie que la matrice Σ partage certaines

Section 2.4 – R´eduction de dimension

propri´et´es spectrales avec la matriceX. Par ailleurs, puisque la matrice Vest orthogonale,

`

a partir de l’´equation (2.9), les composantes principales peuvent s’exprimer par :

z

_j

=V

^T

x

_j

.

L’expression de la forme tronqu´ee de la SVD donne la matrice approxim´ee X

_k

de X telle

que :

X

_k

=U

_k

S

_k

V

^T_k

, (2.11)

où uniquementkpremiers vecteurs deU,V etSsont considérés. En ACP, les données sont

projetées dans le sous-espace engendré par leskvecteurs propres associés auxkplus grandes

valeurs propres. Pour réduire la dimension des données dedàk, leskpremières colonnes de

U, etk×kpartie supérieure à gauche deSsont retenues. Ainsi, leskpremières composantes

principalesZ

_k

= [z

₁

,· · ·,z

_k

]sont donn´ees parZ

_k

=XV

_k

=U

_k

S

_k

. L’approximation de la

matrice de donn´ees X donnant la meilleure approximation de rang k de X, et est donn´ee

parX

_k

conduisant `a une erreur de reconstruction d´efinie par :

kX−XV

_k

V

^T_k

k

2

=kX−U

_k

U

^T_k

Xk

2

=

d

X

i=k+1

λ

²_i

.

Le calcul des composantes principales par la d´ecomposition en valeurs singuli`eres est une

solution qui peut être utilisée pour calculer les mêmes composantes principales que dans le

cas de la diagonalisation de la matriceΣ. Il faut aussi noter que la matriceXX

^T

=U∆U

^T

possède les mêmes vecteurs singuliers à gauche que la matrice X. Ainsi, lorsqueN d, il

est plus économique de calculer les composantes principales à travers la SVD de X plutôt

que d’effectuer la diagonalisation deΣ.

2.4.1.3 Analyse en composante principale `a noyau

L’analyse en composante principale `a noyau (ou Kernel PCA en anglais (KPCA)) permet

de trouver des fonctions de d´ecision non lin´eaires, tout en s’appuyant fondamentalement sur

l’ACP linéaire. Le principe de l’ACP à noyau réside particulièrement sur le fait queN points

de données ne puissent en général pas être linéairement séparable dans l’espace de dimension

d < N. En considérantN échantillons de données observés dans l’espace_R

^d

, il est possible

de les transformer dans un espace de dimension_R

^N

via une fonction de transformationϕ(x

_i

)

telle queϕ:_R

^d

7→_R

N

. Après cette transformation des données, l’ACP linéaire est effectuée

sur les nouvelles données résultantes dans l’espace augmenté. Étant donné que le nouvel

espace est généralement de très grande dimension, la méthode d’ACP à noyau emploie des

noyaux remplissant les conditions de Mercer [25] au lieu de calculer explicitement la fonction

de transformation. Ce noyau est une fonctionk(x,y) qui, pour toutes les donn´ees {x

_i

}

N

i=1

donne lieu `a une matrice positive k

_ij

=k(x

_i

,x

_j

) [28]. On essaye généralement d’éviter de

travailler dans l’espace des fonctionsϕ, et construire le noyau de taille N×N par :

K=k(x,y) = (ϕ(x), ϕ(y)) =ϕ(x)

^T

ϕ(y)

où chaque colonne de K représente le produit scalaire d’un point de données transformé

par rapport à tous les autres points transformés. La fonction la plus utilisée pour calculer

Section 2.4 – R´eduction de dimension

le noyau sont généralement le noyau Gaussien exprimé par :

k(x,y) = exp(−kx−yk

²

/2σ

²

)

avec σ un paramètre d’échelle ou déviation standard qui représente la largeur du noyau

Gaussien. La méthode d’analyse en composante principale linéaire est réalisée sur la

ma-trice du noyauK. Cette méthode à noyau est très bien adaptée pour extraire les structures

des données non linéaires. Cependant, lorsque l’on est en présence des données volumineuses,

cela conduit `a obtenir un K grand, et le stockage de cette matrice Kd’une part peut

de-venir pratiquement impossible ou n´ecessite beaucoup d’espace m´emoire. D’autre part, pour

calculer les vecteurs propres et valeurs propres conduisant `a l’obtention des composantes

principales dans le nouveau espace, il faut faire la d´ecomposition spectrale de la matriceK.

Cette décomposition est très coûteuse lorsque l’on est en présence d’une base de données

vo-lumineuse. Ce qui rend la m´ethode pratiquement infaisable pour les donn´ees massives. Nous

nous sommes moins focalis´es sur cette technique car notre travail est port´e sur l’analyse des

grandes bases de donn´ees et en grande dimension.

Dans le document Méthodes aléatoires pour l’apprentissage de données en grande dimension : application à l'apprentissage partagé (Page 32-36)

Télécharger maintenant "Méthodes aléatoires po..."

Outline

Documents relatifs