• Aucun résultat trouvé

Compression de variables : Analyse en Composantes Principales (ACP)

L'analyse en composantes principales est une méthode de statistique exploratoire

per-mettant de décrire un grand tableau de données de type individus / variables. L'intérêt

majeur d'une ACP est d'orir une meilleure visualisation possible des données

multi-variées, en identiant les hyperplans dans lesquels la dispersion est maximale, mettant

en évidence avec le maximum de précision les relations de proximité et d'éloignement

entre les variables [55].Une ACP permet donc de fournir une représentation graphique

optimale des observations projetées dans un sous-espace de dimension réduite (d < p),

minimisant la déformation du nuage de points initial.

Mathématiquement, l'ACP correspond à l'approximation de la matrice de donnéesXpar

une matriceT de même dimension(n, p)mais de rangd < p. Ceci est réalisé à travers une

projection orthogonale linéaire qui projette les observations multidimensionnelles

repré-sentées dans un sous-espace de dimensionp dans un sous-espace de dimension inférieure

d en maximisant la variance des projections. La solution de ce problème de

maximisa-tion est basée sur le calcul des valeurs et vecteurs propres de la matrice de covariance

des données, puisqu'on analyse essentiellement la dispersion des données considérées.

Cette solution dénit à la fois la projection du sous-espace de dimensionpdans le

sous-espace de dimension d et la projection inverse permettant de reconstruire les données

observées. L'ACP peut être donc considérée comme une technique de minimisation de

l'erreur quadratique de reconstruction ou une technique de maximisation de la variance

des projections (il faut noter que ces deux critères sont équivalents).

3.2.1 Minimisation d'erreur/maximisation variance

L'objectif d'une ACP étant de trouver un sous-espace de dimension d < p qui permet

d'avoir une représentation réduite de X, cette méthode consiste à trouver une nouvelle

base dans laquelle la projection du nuage de points initial est la plus dèle possible. Cette

nouvelle base est obtenue par combinaison linéaire de la base originelle. C'est donc tout

simplement un problème de changement de base. Soit P une matrice de changement

de base de dimension p×p telle que P = [p

.1

. . . p

.j

. . . p

.p]

, où p

.j

= (p

1j

, . . . , p

pj)T

.

Un nombre d des colonnes de P vont former les vecteurs de base orthonormés d'un

sous-espace R

d

de représentation réduite des données. Ces vecteurs sont orthogonaux

2 à 2 (i.e. p

T.j

p

.k

= 0 si j 6= k) et de norme égale à 1 (i.e. p

T.j

p

.j

= 1). La matrice

T = [t

1.

. . . t

i.

. . . t

n.

]

T

= [t

.1

. . . t

.j

. . . t

.p

] des scores des observations dans la nouvelle

base est telle queT =XP.

Au sens de l'ACP, on construitP de sorte que la représentation réduite minimise l'erreur

de reconstruction de X. Autrement dit, la projection à travers P est optimale si le

critère d'erreur quadratique moyenne MSE(P) (Mean Square Error) d'approximation

des{x

i.

}

(i=1, ..., n)

à l'aide desdpremières colonnes de cette matrice est minimale.

Sous la contrainte d'orthogonalité deP, et sous l'hypothèse de la nullité de la moyenne

d'une observation x

i

, le critère MSE(P) est égal à :

M SE(P) =trace( ˆΣ

2

)−trace(P

T

Σˆ

2

P), (3.1)

Σˆ

2

est la matrice de covariance empirique des variables de terme général Σˆ

2

jk

=

cov(x

.j

, x

.k

),cov(x

.j

, x

.k)

étant la covariance entre les variablesx

.j

etx

.k

. QuandX est

centrée, cette matrice carré symétrique d'ordre pest égale à

ˆ

Σ

2

= 1

nX

T

X. (3.2)

Comme la matrice de covarianceΣˆ

2

est indépendante de P, minimiser M SE(P)revient

à maximiser le second terme de son expression dans l'Equation (3.1) que nous notons

J

v

(P). Ainsi, la minimisation de l'erreur quadratique d'approximation est équivalente à

la maximisation de la variance des projections des données :

P

opt

=arg min

P

M SE(P) =arg max

P

J

v(

P). (3.3)

3.2.2 Axes factoriels et optimisation

Avant de résoudre ce problème d'optimisation, nous introduisons les notions axes

fac-toriels et composantes principales. On appelle premier axe factoriel de X le vecteur

p

.1

(première colonne de la matriceP) sur lequel le nuage se déforme le moins possible

en projection, donc c'est le vecteurp

.1

tel que la variance deXp

.1

est maximale. Le

vec-teur t

.1

= Xp

.1

est appelé première composante principale. D'une façon plus générale,

Le kième axe factoriel de X est le vecteur p

.k

unitaire tel que la variance de la kième

composante principale t

.k

= Xp

.k

soit maximale et que p

.k

soit orthogonal aux k−1

premiers axes factoriels.

Notre objectif maintenant est de chercher un sous-espace de dimension 1 engendré par

p

.1

avec comme contraintep

T.1

p

.1

= 1. La maximisation de la variance de projection sur

p

.1

, sous condition de norme unité du vecteurp

.1

, est donc un problème d'optimisation

sous contraintes d'égalité qui peut être résolu avec la méthode des multiplicateurs de

Lagrange. Le problème d'optimisation est le suivant :

Maximiser

P1

J

v

(P

1

) =P

T

1

Σˆ

2

P

1

,

sous la contrainte P

1T

P

1

= 1. (3.4)

La résolution du problème (3.4) montre que le premier axe factoriel p

.1

est le vecteur

propre associé àλ

1

, la plus grande valeur propre de Σˆ

2

. De façon plus générale, lekième

axe factoriel est le vecteur propre p

.k

associé à λ

k

, la kième plus grande valeur propre

de Σˆ

2

. Rappelons que les valeurs propres de Σˆ

2

sont positives car Σˆ

2

est une matrice

semi-dénie positive.

En outre, les valeurs propres de la matrice de covarianceΣˆ

2

représentent les variances des

projections des données sur les directions représentées par les vecteurs propres p

.j

(j =

1, . . . , p). Les p vecteurs propres unitairesp

.j

représentent lesp directions orthogonales

de l'espace des données suivant lesquelles les variances des projections des données sont

maximales.

Le sous-espace vectoriel de dimension d qui assure une dispersion maximale des

obser-vations est donc déni par une base orthonormée formée des d vecteurs propres

corres-pondant aux d plus grandes valeurs propres de la matriceΣˆ

2

. Ce sous-espace constitue

donc un espace de représentation optimale des données.

3.2.3 Réduction de la dimensionalité

Nous avons vu qu'une ACP permet de caractériser les directions orthogonales d'un

es-pace de données porteuses du maximum d'information au sens de la maximisation des

variances de projections. L'amplitude des valeurs propres de la matrice de covarianceΣˆ

2

des données quantie pour chacune de ces directions la quantité d'information encodée.

Une approximationx˜

i.

de l'observationx

i.

par l'intermédiaire desdcomposantes

princi-pales t

i1

, . . . , t

id

présentant les plus fortes variances est donnée par

˜

x

i.

=

d

X

j=1

t

ij

p

.j

. (3.5)

La perte d'information induite par la réduction de dimension de représentation de chaque

x

i.

est mesurée par la diérence eentre ses représentations exacte et approchée :

e=x

i.

−x˜

i.

=

p

X

j=d+1

t

ij

p

.j

(3.6)

L'erreur d'approximation sur un sous-espace vectoriel de dimensiondest :

E

d

= 1

n

n

X

i=1

kx

.i

−x˜

i.

k

2

=

p

X

k=d+1

λ

k

.

Les p−d composantes principales t

.j

(j = d+ 1, . . . , p)) à partir desquelles l'erreur

d'estimation eest évaluée, sont associées aux plus faibles valeurs propres λ

q+1

, . . . , λ

p

.

Il est par conséquent bien évident que la compression de données préserve d'autant mieux

d'information que ces valeurs propres sont faibles.

3.2.4 Choix de dimension

Pour une reconstruction optimale de données, le choix du nombre de composantes

prin-cipales à retenir d est crucial dans une méthode ACP. Toutefois dans le cadre de

l'ap-plication de l'ACP à la détection d'anomalies (cf. Chapitre4, Section3.3), le nombre de

composantes a un impact signicatif sur la qualité de détection. Si trop peu de

compo-santes sont utilisées, on risque de perdre des informations contenues dans les données de

départ. Si par contre trop de composantes sont utilisées, il y a le risque d'avoir des

com-posantes retenues (les comcom-posantes correspondantes aux valeurs propres les plus faibles

parmi celles retenues dans le modèle) qui sont porteuses de bruit ce qui est indésirable.

De nombreuses règles ont été proposées dans la littérature [33, 91]. Dans la suite nous

allons présenter quelques critères utilisés pour le choix optimal ded.

Pourcentage cumulé de la variance totale (PCV) Le pourcentage de variance

(ou la part d'inertie) expliquée par un sous-espace d'ordredengendré par les dpremiers

axes est donné par :

P CV(d) =

P

d k=1

λ

k

P

p

k=1

λ

k

. (3.7)

Le nombre de composantes à retenir est le plus petit nombredpour lequel au moins une

fractionψ (prédénie par l'utilisateur) de la variance totale soit expliquée.

d=arg min

Par exemple, si nous prenonsψ= 0.8, nous retenons le nombre minimal de composantes

qui préserve 80% de l'information contenue dans les données originelles.

Règle de Kaiser Cette règle consiste à ne prendre en considération que les

com-posantes pour lesquelles l'inertie est supérieure à l'inertie moyenne. En ACP normée,

l'inertie totale est trace( ˆΣ

2

) =p. On ne retiendra donc que les composantes associées à

des variances supérieures à l'unité. Ce critère, utilisé implicitement par SAS, a tendance

à surestimer le nombre de composantes pertinentes.

Eboulis L'éboulis est un graphique présentant la décroissance des valeurs propres. Le

principe consiste à rechercher, s'il existe, un coude suivi d'une décroissance régulière.

On sélectionne les axes se situant avant le coude. Les axes qui suivent ce coude semblent

former une ligne droite horizontale, i.e. la variation des valeurs propres correspondant

à n'importe quel deux axes consécutifs situés après le coude est trop faible par rapport

aux variations observées avant le coude. L'information ajoutée par les axes qui suivent

le coude est donc peu pertinente.