L'analyse en composantes principales est une méthode de statistique exploratoire
per-mettant de décrire un grand tableau de données de type individus / variables. L'intérêt
majeur d'une ACP est d'orir une meilleure visualisation possible des données
multi-variées, en identiant les hyperplans dans lesquels la dispersion est maximale, mettant
en évidence avec le maximum de précision les relations de proximité et d'éloignement
entre les variables [55].Une ACP permet donc de fournir une représentation graphique
optimale des observations projetées dans un sous-espace de dimension réduite (d < p),
minimisant la déformation du nuage de points initial.
Mathématiquement, l'ACP correspond à l'approximation de la matrice de donnéesXpar
une matriceT de même dimension(n, p)mais de rangd < p. Ceci est réalisé à travers une
projection orthogonale linéaire qui projette les observations multidimensionnelles
repré-sentées dans un sous-espace de dimensionp dans un sous-espace de dimension inférieure
d en maximisant la variance des projections. La solution de ce problème de
maximisa-tion est basée sur le calcul des valeurs et vecteurs propres de la matrice de covariance
des données, puisqu'on analyse essentiellement la dispersion des données considérées.
Cette solution dénit à la fois la projection du sous-espace de dimensionpdans le
sous-espace de dimension d et la projection inverse permettant de reconstruire les données
observées. L'ACP peut être donc considérée comme une technique de minimisation de
l'erreur quadratique de reconstruction ou une technique de maximisation de la variance
des projections (il faut noter que ces deux critères sont équivalents).
3.2.1 Minimisation d'erreur/maximisation variance
L'objectif d'une ACP étant de trouver un sous-espace de dimension d < p qui permet
d'avoir une représentation réduite de X, cette méthode consiste à trouver une nouvelle
base dans laquelle la projection du nuage de points initial est la plus dèle possible. Cette
nouvelle base est obtenue par combinaison linéaire de la base originelle. C'est donc tout
simplement un problème de changement de base. Soit P une matrice de changement
de base de dimension p×p telle que P = [p
.1. . . p
.j. . . p
.p], où p
.j= (p
1j, . . . , p
pj)T.
Un nombre d des colonnes de P vont former les vecteurs de base orthonormés d'un
sous-espace R
dde représentation réduite des données. Ces vecteurs sont orthogonaux
2 à 2 (i.e. p
T.jp
.k= 0 si j 6= k) et de norme égale à 1 (i.e. p
T.jp
.j= 1). La matrice
T = [t
1.. . . t
i.. . . t
n.]
T= [t
.1. . . t
.j. . . t
.p] des scores des observations dans la nouvelle
base est telle queT =XP.
Au sens de l'ACP, on construitP de sorte que la représentation réduite minimise l'erreur
de reconstruction de X. Autrement dit, la projection à travers P est optimale si le
critère d'erreur quadratique moyenne MSE(P) (Mean Square Error) d'approximation
des{x
i.}
(i=1, ..., n)à l'aide desdpremières colonnes de cette matrice est minimale.
Sous la contrainte d'orthogonalité deP, et sous l'hypothèse de la nullité de la moyenne
d'une observation x
i, le critère MSE(P) est égal à :
M SE(P) =trace( ˆΣ
2)−trace(P
TΣˆ
2P), (3.1)
où Σˆ
2est la matrice de covariance empirique des variables de terme général Σˆ
2jk
=
cov(x
.j, x
.k),cov(x
.j, x
.k)étant la covariance entre les variablesx
.jetx
.k. QuandX est
centrée, cette matrice carré symétrique d'ordre pest égale à
ˆ
Σ
2= 1
nX
T
X. (3.2)
Comme la matrice de covarianceΣˆ
2est indépendante de P, minimiser M SE(P)revient
à maximiser le second terme de son expression dans l'Equation (3.1) que nous notons
J
v(P). Ainsi, la minimisation de l'erreur quadratique d'approximation est équivalente à
la maximisation de la variance des projections des données :
P
opt=arg min
P
M SE(P) =arg max
P
J
v(P). (3.3)
3.2.2 Axes factoriels et optimisation
Avant de résoudre ce problème d'optimisation, nous introduisons les notions axes
fac-toriels et composantes principales. On appelle premier axe factoriel de X le vecteur
p
.1(première colonne de la matriceP) sur lequel le nuage se déforme le moins possible
en projection, donc c'est le vecteurp
.1tel que la variance deXp
.1est maximale. Le
vec-teur t
.1= Xp
.1est appelé première composante principale. D'une façon plus générale,
Le kième axe factoriel de X est le vecteur p
.kunitaire tel que la variance de la kième
composante principale t
.k= Xp
.ksoit maximale et que p
.ksoit orthogonal aux k−1
premiers axes factoriels.
Notre objectif maintenant est de chercher un sous-espace de dimension 1 engendré par
p
.1avec comme contraintep
T.1p
.1= 1. La maximisation de la variance de projection sur
p
.1, sous condition de norme unité du vecteurp
.1, est donc un problème d'optimisation
sous contraintes d'égalité qui peut être résolu avec la méthode des multiplicateurs de
Lagrange. Le problème d'optimisation est le suivant :
Maximiser
P1J
v(P
1) =P
T1
Σˆ
2P
1,
sous la contrainte P
1TP
1= 1. (3.4)
La résolution du problème (3.4) montre que le premier axe factoriel p
.1est le vecteur
propre associé àλ
1, la plus grande valeur propre de Σˆ
2. De façon plus générale, lekième
axe factoriel est le vecteur propre p
.kassocié à λ
k, la kième plus grande valeur propre
de Σˆ
2. Rappelons que les valeurs propres de Σˆ
2sont positives car Σˆ
2est une matrice
semi-dénie positive.
En outre, les valeurs propres de la matrice de covarianceΣˆ
2représentent les variances des
projections des données sur les directions représentées par les vecteurs propres p
.j(j =
1, . . . , p). Les p vecteurs propres unitairesp
.jreprésentent lesp directions orthogonales
de l'espace des données suivant lesquelles les variances des projections des données sont
maximales.
Le sous-espace vectoriel de dimension d qui assure une dispersion maximale des
obser-vations est donc déni par une base orthonormée formée des d vecteurs propres
corres-pondant aux d plus grandes valeurs propres de la matriceΣˆ
2. Ce sous-espace constitue
donc un espace de représentation optimale des données.
3.2.3 Réduction de la dimensionalité
Nous avons vu qu'une ACP permet de caractériser les directions orthogonales d'un
es-pace de données porteuses du maximum d'information au sens de la maximisation des
variances de projections. L'amplitude des valeurs propres de la matrice de covarianceΣˆ
2des données quantie pour chacune de ces directions la quantité d'information encodée.
Une approximationx˜
i.de l'observationx
i.par l'intermédiaire desdcomposantes
princi-pales t
i1, . . . , t
idprésentant les plus fortes variances est donnée par
˜
x
i.=
dX
j=1t
ijp
.j. (3.5)
La perte d'information induite par la réduction de dimension de représentation de chaque
x
i.est mesurée par la diérence eentre ses représentations exacte et approchée :
e=x
i.−x˜
i.=
pX
j=d+1
t
ijp
.j(3.6)
L'erreur d'approximation sur un sous-espace vectoriel de dimensiondest :
E
d= 1
n
nX
i=1kx
.i−x˜
i.k
2=
pX
k=d+1λ
k.
Les p−d composantes principales t
.j(j = d+ 1, . . . , p)) à partir desquelles l'erreur
d'estimation eest évaluée, sont associées aux plus faibles valeurs propres λ
q+1, . . . , λ
p.
Il est par conséquent bien évident que la compression de données préserve d'autant mieux
d'information que ces valeurs propres sont faibles.
3.2.4 Choix de dimension
Pour une reconstruction optimale de données, le choix du nombre de composantes
prin-cipales à retenir d est crucial dans une méthode ACP. Toutefois dans le cadre de
l'ap-plication de l'ACP à la détection d'anomalies (cf. Chapitre4, Section3.3), le nombre de
composantes a un impact signicatif sur la qualité de détection. Si trop peu de
compo-santes sont utilisées, on risque de perdre des informations contenues dans les données de
départ. Si par contre trop de composantes sont utilisées, il y a le risque d'avoir des
com-posantes retenues (les comcom-posantes correspondantes aux valeurs propres les plus faibles
parmi celles retenues dans le modèle) qui sont porteuses de bruit ce qui est indésirable.
De nombreuses règles ont été proposées dans la littérature [33, 91]. Dans la suite nous
allons présenter quelques critères utilisés pour le choix optimal ded.
Pourcentage cumulé de la variance totale (PCV) Le pourcentage de variance
(ou la part d'inertie) expliquée par un sous-espace d'ordredengendré par les dpremiers
axes est donné par :
P CV(d) =
P
d k=1λ
kP
pk=1
λ
k. (3.7)
Le nombre de composantes à retenir est le plus petit nombredpour lequel au moins une
fractionψ (prédénie par l'utilisateur) de la variance totale soit expliquée.
d=arg min
Par exemple, si nous prenonsψ= 0.8, nous retenons le nombre minimal de composantes
qui préserve 80% de l'information contenue dans les données originelles.
Règle de Kaiser Cette règle consiste à ne prendre en considération que les
com-posantes pour lesquelles l'inertie est supérieure à l'inertie moyenne. En ACP normée,
l'inertie totale est trace( ˆΣ
2) =p. On ne retiendra donc que les composantes associées à
des variances supérieures à l'unité. Ce critère, utilisé implicitement par SAS, a tendance
à surestimer le nombre de composantes pertinentes.
Eboulis L'éboulis est un graphique présentant la décroissance des valeurs propres. Le
principe consiste à rechercher, s'il existe, un coude suivi d'une décroissance régulière.
On sélectionne les axes se situant avant le coude. Les axes qui suivent ce coude semblent
former une ligne droite horizontale, i.e. la variation des valeurs propres correspondant
à n'importe quel deux axes consécutifs situés après le coude est trop faible par rapport
aux variations observées avant le coude. L'information ajoutée par les axes qui suivent
le coude est donc peu pertinente.
Dans le document
Détection multidimensionnelle au test paramétrique avec recherche automatique des causes
(Page 79-83)