Module 3 : Formalisation mathématique de l’ACP
Après avoir introduit à l’aide de deux exemples l’ACP, nous présentons ici la formalisation mathématique de la méthode en généralisant ce que nous avons vu sur un espace réduit à un espace à dimensions quelconques.
A) Généralisation à des espaces de dimensions quelconques
Le tableau de départ qui sera soumis à une ACP se présente de la façon suivante : n
j
1 x x
x L L
N i 1
X(N,n) M M
=
Il s’agit d’un tableau de données quantitatives, avec les variables en colonnes, les individus en lignes et les observations à l’intérieur du tableau.
L’objectif de l’ACP est d’analyser l’information contenue dans le tableau, c'est-à-dire la structure du nuage des individus dans l’espace Rn et des variables dans l’espace RN.
Pour des raisons mathématiques de simplification, mais aussi parce que les variables dans ces tableaux peuvent être de natures différentes, on transforme la matrice X en une matrice Z de variables centrées réduites qui conserve la même information :
) x (
x z x
j j ij
ij σ
= − variables centrées réduites.
- le centrage n’a pas d’influence sur la ressemblance entre individus
- la réduction supprime l’arbitrage des unités et toutes les variables ont la même influence dans le calcul des distances entre individus
Particularités de ces nouvelles variables : - les moyennes sont toutes nulles - les écart types sont égaux à 1
- (z ,z ) z z zijzik
N r 1
cov j k = j k =
∑
avec j≠k La matrice Z des variables centrées réduites s’écrit alors :n j
1 z z
z L L
N i 1
Z(N,n) M M
=
xij
avec N ≥ n
Z
ij Coordonnées dei dans Rn
Coordonnées de
L’information contenue dans cette matrice est donnée par le nuage de points des individus dans l’espace Rn et par le nuage de points des variables dans l’espace RN.
Plaçons nous dans l’espace Rn des variables qui contient le nuage des N points individus. Le système des n axes est orthonormée ou encore la base de ce système
(
er1,er2,...ern)
estorthonormée, c'est-à-dire :
≠
∀
=
=
=
=
j l 0 e
* e
1 e e
j l
n 1
r r
r L r
Un point i quelconque a pour coordonnées
(
zi1,zi2,...zin)
. La distance entre deux points est calculée par la distance euclidienne (théorème de Pythagores). On peut schématiser cet espace de la façon suivante :La distance au carré entre i et i’ est égale à :
( ) ∑ ( )
=
−
′ = n
1 j
2 j 'i
2 ,ii zij z
d .
Les projections orthogonales (les coordonnées) des N points sur un axe quelconque zj sont de moyennes nulles et de variance égale à un par construction. Le centre de gravité G est donc l’origine des axes. La variance totale du nuage multidimensionnel est égale à 1*n=n. Chaque axe porte donc
100 n*
1 de la variance totale.
Dans l’espace Rn des individus, on dispose du nuage des n variables. Le système des N axes est orthonormé : la base de ce système s’écrit :
(
er1,er2,...erN)
avec :
≠
∀
=
=
=
=
l i 0 e
* e
1 e e
l i
N 1
r r
r L r
Un point zi quelconque a pour coordonnées
(
z1j,z2j,...zNj)
. La distance entre deux points est calculée par la distance euclidienne. On peut schématiser cet espace de la façon suivante :(
z 0,...z 0)
0
G≡ 1 = n =
z1
er1
zj
zn
erj
ern i
1
zi
La distance au carré entre zj et z'j est égale à
( ) ( ∑ )
=
−
= N
1 i
' 2 ij ij 'j
2 zj,z z z
d
L’information contenue dans ces espaces est illisible du fait du nombre d’axes. L’ACP a pour but de substituer à ces espaces, des espaces de même dimension mais de telle sorte qu’une grande part de l’information soit lisible à partir d’un, deux ou au maximum trois axes.
Le principe de l’ACP consiste donc à effectuer dans Rn et dans RN un changement de base de telle sorte (lorsque cela est possible) que les variances des projections orthogonales (les coordonnées) sur les nouveaux axes (appelés axes principaux) rassemblent une part significative de la variance totale à partir des deux ou trois premiers axes. On peut schématiser ce principe de la façon suivante dans
Rn.
La variance des coordonnées des N points individus sur zj (quelquesoit j), explique
100 n*
1 de la variance totale.
Système orthonormé d’axes principaux Fj
r
(quelquesoit j), de même origine, de base orthonormée : (b1,....bn)
r r
et tel que la variance des coordonnées de N points individus sur F1,F2
r r
et au maximum F3 r
représente, par exemple, 70% à 80% de la variance totale n.
Changement de base z1
( )
z 1V 1 =
er1
zj
( )
z 1V j =
( )
z 1V z
n n
= erj
ern
G
F1
( )
F1V
b1
r Fj
( )
FjV
( )
nn
F V F bj
r
bn
r
G 1
er1
N eri
erN
zj
j
z1
i 'j
z
0 '
zij
Le vecteur Fj r
, quelquesoit j, dont les éléments sont les projections orthogonales (les coordonnées) des N points sur l’axe Fj porte le nom de composante principale. Il s’écrit :
=
Nj ij
j 1
) 1 , N (
j
F ...
F ...
F
F r
B) Ecriture des composantes principales dans R
n1 Le produit scalaire
L’ACP vise donc à projeter dans Rn orthogonalement les N points individus sur n nouveaux axes appelés axes principaux, sachant que l’origine de ces nouveaux axes reste identique à celui de l’espace de départ. Ce changement d’axes a pour but (lorsque cela est possible), de lire l’information concernant les individus en utilisant un espace restreint à 2 ou 3 dimensions (au maximum).
On remplace donc Z par une nouvelle matrice F : n
j
1 z z
z L L F1 L Fj L Fn
N i 1
Z(N,n) M M
=
N i 1
F(N,n) M M
=
Pour cela, on effectue un changement de base dans l’espace Rn de départ.
Rappelons que si on connaît les coordonnées d’un vecteur quelconque bj r
dans la base Rn de départ, la projection orthogonale Fij (la coordonnée) d’un point i du nuage des N points est donnée par le produit scalaire du vecteur bj
r
par le vecteur Gi r r
ou G est l’origine des axes (G est le centre de gravié du nuage des N points) :
Fj
r (axe principal)
G
bj
r
Fij i
X 0,…,0
Z
ij Base[ ]
=
=
nj kj j 1
in ik 1 i
j i ij
b ...
b ...
b
z ,..., z ,..., z
b
* G F
r r r
= coordonnées du point i (ligne i de la matrice Z) x coordonnées de bj r
dans l’espace Rn de départ.
[
zi1*b1j+...+zik *bkj+...+zin*bnj]
=
L’ensemble des projections orthogonales des N points du nuage sur l’axe principal Fj r
constitue les éléments du vecteur Fj
r
que l’on appelle la composante principale. on a :
) 1 , n (
j ) n , N ( ) 1 , N (
j Z b
F
r r
=
+
= +
=
in nj 1
i j 1
nj hj j 1
in ih
1 i
Ni ij
j 1
z b z
b b
b b
z z
z F
F F
L M
M L
L M
M
Si dans l’expression encadrée de Fj r
, on fait varier j de 1 à n on obtient par les produits scalaires l’ensemble des projections orthogonales (coordonnées) de tous les points N sur tous les axes principaux. Ces coordonnées sont les éléments de la matrice :
) n , n ( ) n , N ( ) n , N (
B Z F =
La matrice F s’écrit et s’interprète : n j
1 F F
F L L
N i 1
F(N,n) M M
=
F
ij Coordonnées du point i dans l’espaceRn des axes principaux
Coordonnées des N points individus sur l’axe principal Fj
r
ou éléments de la composante principale Fj
r
On vérifie avec le produit scalaire Fj =Zbj qui définit la jième composante principale, qu’il s’agit d’une combinaison linéaire des variables de départ, les poids étant les éléments du nouveau vecteur bj
r du changement de base.
2 Détermination des composantes principales
Les composantes principales sont les coordonnées des N projections orthogonales sur les axes principaux. Ces composantes principales (vecteurs principaux) sont le résultat du produit scalaire
) n , n ( ) n , N ( ) n , N
(F = Z B .
Pour déterminer le contenu de F il faut connaître celui de B. Pour cela, considérons la jième composante principale
) 1 , n (
j ) n , N ( ) 1 , N (
j Z b
F = et déterminons ses caractéristiques.
• Calculons la moyenne de la composante principale :
43 42 1 L
43 42 1
L
0 Z
i in nj
0 Z
i 1 i j
1
nj in j
1 1 i i
ij j
n 1
N Z b 1 N Z
b 1
b N Z
b 1 N Z
F 1 N F 1
=
=
+
+
=
+ +
=
=
∑
∑
∑ ∑
∑
0 Fj =
Toutes les composantes principales sont centrées. Les axes principaux ont toujours pour origine le point G, le centre de gravité du nuage des N points.
• Calculons la variance :
[ ] ( )
( ) ( ) ( )( )
j j j j j jj j N
1 i
2 ij N
1 i
2 j ij j
b Z NZ b 1 Zb Z N b Zb 1 N Zb
1
F NF F 1 N F 1 N F
F 1 V
′
= ′
′
= ′
= ′
= ′
=
−
=
∑ ∑
=
=
Et avec Z'Z
N R 1
) n , n
( = (la matrice des coefficients de corrélation linéaire des variables zj de Z) :
[ ]
Fj bjRbjV = ′ qui est l’expression d’une forme quadratique.
Pour atteindre l’objectif de l’ACP, il est nécessaire qu’avec un, deux ou au maximum trois axes principaux on puisse expliquer une part significative de la variance totale du nuage (70 à 80% par exemple) Cela revient donc à maximiser la variance d’une composante principale Fj quelconque. Le problème mathématique à résoudre est donc :
( )
V[ ]
FjMax sachant que le nouveau vecteur de la base bj r
de l’axe principal Fj r
est un vecteur normé, c'est-à-dire :
2 nj 2
j j 1 'j
j 1 bb b .... b
br = = = + +
Il s’agit de la maximisation d’une forme quadratique sous contrainte :
[ ] ( )
=
= 1 b b
Rb b F V Max
' j j
' j j j
Pour résoudre ce problème on utilise le Lagrangien :
(
bb 1)
Rb b
L= ′j .j−λ ′j j − et on cherche la dérivée de L par rapport à l’inconnu bj sachant que la dérivée de la forme quadrtique est
( )
jj ' j
j 2Rb
b Rb b∂ =
∂
0 b 2 Rb b 2
L
j j
j
= λ
−
∂∂ =
[
R I]
b 0b Rb 0 b
Rbj −λ j = ⇔ j =λ j ⇔ −λ j =
En définitive, maximiser la V
[ ]
Fj sous la contrainte que bi soit un vecteur unitaire revient à trouver la solution du système d’équation homogène[
R−λI]
bj =0. Or on sait qu’en dehors de la solution triviale donnée par le déterminant[
R−λI]
≠0, il existe une infinité de vecteurs bj appelés vecteurs propres, associés aux différentes valeurs propres λjde la matrice R. On appelle diagonalisation de la matrice R l’ensemble de ces recherches de valeurs propres et de vecteurs propres.Le vecteur propre b'j est un vecteur normé. De ce fait, parmi l’infinité des vecteurs bj, on choisira un vecteur unitaire c'est-à-dire tel que b′jbj =1.
On peut enfin constater que si dans l’expression de la variance V
[ ]
Fj , on remplace Rbj par la solution que l’on vient de trouver (λjbj), on aura :[ ]
{
1 j j j
j j j j
b b
b b F V
=
λ ′
=
′λ
=
V
[ ]
Fj =λj.En définitive, la solution du problème est le calcul du vecteur propre normé qui correspond à la plus forte valeur propre de la matrice R. Comme R est de dimension n, on va faire l’hypothèse qu’il existe n valeurs propres distinctes pour cette matrice. On disposera donc de n valeurs propres et de n vecteurs propres normés.
En classant les valeurs propres par ordre décroissant et en affectant à chacune des valeurs propres classées son vecteur propre normé correspondant, on construit ainsi la matrice B du changement de base qui a ses coordonnées dans l’espace d’origine.
3 Caractéristiques des composantes principales
Considérons la matrice B obtenue précédemment : λ1
λn n j
1 b b
b
r L r L r
n k 1
) n , n (
z z z
B
M M
=
Les vecteurs colonnes de cette matrice sont normés et orthogonaux 2 à 2.
Les vecteurs bj constituent donc une base orthonormée.
La matrice B qui contient cette nouvelle base est donc une matrice othogonale. Elle vérifie la propriété suivante :
B 1
B′= − ou encore B'B=BB'=Ι
Utilisons ces résultats dans l’expression précédente de la variance de Fj :
[ ]
Fj j bjRbjV =λ = ′
En faisant varier j de 1 à n on a l’expression matricielle B′RB=Λ avec :
λ λ λ
= Λ
n j 1
0
0
la matrice diagonale des valeurs propres rangées par ordre décroissant.
Dans cette expression B est une matrice orthogonale. De ce fait, la trace de la matrice R est égale à la trace de la matrice Λ, c'est-à-dire + + + = =
∑
λj
n j
1 ...
1 1
Il est donc possible de calculer le pourcentage de variance totale
[ ]
*100n R 100 tr n *
j =
λ expliquée
par les différentes composantes principales et de déterminer si avec un nombre restreint d’axes principaux on peut lire l’information donnée par le nuage des N points individus.
Conclusion : résumé de la démarche dans Rn - On dispose d’un tableau X
( )
N,n .- On transforme la matrice X en une matrice Z de variables centrées réduites. Les variables sont de moyenne nulle et de variance égale à 1. La covariance entre deux variables est égale au coefficient de corrélation linéaire entre les 2 variables.
bkj
On se place dans l’espace Rn avec un système orthonormé. On analyse le nuage des N points individus.
- On calcule ZZ N
R= 1 ′ qui est la matrice des coefficients de corrélation linéaire entre les variables. C’est la matrice d’information des variables.
C’est une matrice carrée, symétrique qui contient sur la diagonale les variances des variables et de part et d’autre les coefficients de corrélation entre 2 variables quelconques.
- On diagonalise R, c’est-à-dire qu’on calcule les n valeurs propres de cette matrice.
On divise chacune des valeurs par n, ce qui donne le pourcentage de variance totale expliqué par une composante principale.
On ordonne par ordre décroissant ces pourcentages que l’on cumule et si avec 1, 2 ou au maximum 3 axes on explique 70% de la variance totale, alors l’ACP est réalisable, sinon on arrête les calculs.
- Si l’ACP est réalisable, on calcule alors les vecteurs propres normés associés aux valeurs propres de R et on place les coordonnées de ces vecteurs propres en colonne d’une matrice B dans l’ordre des valeurs propres décroissantes correspondantes.
- On effectue alors le produit scalaire F= ZB, la matrice F contient donc en colonne les composantes principales, c’est-à-dire les projections orthogonales du nuage des N points individus sur les nouveaux axes.
- On sélectionne alors les 2, au maximum les 3 premières colonnes de la matrice F et on réalise le graphique qui permet de lire l’information concernant les individus de la matrice Z.
C) Détermination des composantes principales dans R
NDans l’espace RN se situe le nuage des n variables. Ici aussi le système choisi est orthonormé et une colonne du tableau fournit les coordonnées de la variable. Comme on travaille à partir de Z, les moyennes des lignes (c’est-à-dire des individus) n’ont aucune raison d’être nulles. Donc dans ce cas, l’origine des axes n’est pas au centre de gravité des variables.
Dans le deuxième exercice on a vu que si on conserve Z, la matrice d’information des individus est donnée par la matrice V = ZZ’ qui est une matrice de dispersion des individus. On pourrait donc appliquer le schéma précédent à cet espace, c’est-à-dire diagonaliser V, calculer les vecteurs propres normés correspondants, construire une matrice de changement de base et par l’opération produit scalaire calculer les projections orthogonales des n variables sur les axes principaux.
Concrètement, pour toutes les analyses de données, ces calculs sont inutiles. En effet, nous allons démontrer qu’il est possible de calculer les valeurs propres et les vecteurs propres de V sans utiliser la diagonalisation de cette matrice. Ce calcul s’opère à partir des formules de transition.
1 Démonstration des formules de transition
On va se placer dans Rn, où l’on connaît les valeurs propres et les vecteurs propres normés de R.
La diagonalisation de R s’écrit : j
j
j b
Rb =λ avec ZZ
N
R= 1 ′ et b'jbj =1
D’où ZZbj jbj N
1 ′ =λ
En multipliant les deux membres de cette équation par Z, on obtient : j
j
j Zb
Zb Z NZ
1 ′ =λ avec V =ZZ' on a :V
( )
Zbj =Nλj( )
Zbjet en posant
) 1 , N ( i ) 1 , n (
j ) n , N (
u b
Z = on a
( )
j ii N u
Vu = λ
C’est l’écriture des vecteurs propres ui associés aux valeurs propres Nλj de la matrice V.
Connaissant les valeurs propres λj de la matrice R, il suffit donc de les multiplier par N pour obtenir les valeurs propres de V. Or R est de dimension n, il n’y a donc que n valeurs propres pour R alors que V est de dimension (N,N).
On peut démontrer que les N-n autres valeurs propres sont nulles.
Le vecteur ui qui nous intéresse doit être un vecteur propre normé. Il doit donc vérifier u'iui =1. Or
( ) ( )
1 N b b N
b N b NRb b
Zb Z b Zb Zb u u
j j j j
j j j j j
j j j j i i
≠ λ
′ = λ
=
λ
′ =
=
′
′
′ =
=
′
ui n’est donc pas un vecteur propre normé. Pour le normer on lui impose que :
( )( )
kui′ kui =1 avec k∈R ; soit : 1u u k2 i′ i =
( )
N 1k2 λj = D’où
N j
k 1
± λ
=
Le vecteur propre normé noté ci s’écrit alors : j j i
i Zb
N ku 1
c = = λ
Cette formule montre que connaissant bj et λj, les vecteurs propres normés associés aux valeurs propres de R, il est possible de calculer le vecteur propre normé ci associé à la valeur propre Nλj de la matrice V.
Cette formule qui permet de calculer les vecteurs propres normés de la nouvelle base de RN sans diagonaliser V porte le nom de formule de transition.
On peut démontrer que réciproquement, connaissant les vecteurs propres normés associés aux valeurs propres de V, il est possible de calculer les valeurs propres et les vecteurs propres normés bj de la matrice R.
En définitive les formules de transition s’écrivent :
j j i
i Zb
N ku 1
c = = λ
et i j
j Zc
N
b 1 ′
= λ
2 Les coordonnées des projections des variables
Le changement de base orthonormée (cr1,..cri,...,crn)
(où les ci sont des vecteurs unitaires déterminés par leurs coordonnées dans l’ancienne base) permet de calculer, comme précédemment, les projections orthogonales (les coordonnées) des variables sur les i axes principaux. : Φri
en utilisant le produit scalaire entre le vecteur unitaire cri
et le vecteur Ozrj r
où O est l’origine de N axes.
On appelle Φijla coordonnée de zj sur l’axe principal Φri
obtenu par le produit scalaire entre cri et zj
0r r
. De ce fait
) n , N )( N , 1 ( i ) n , 1
(Φi = C′ Z est la composante principale c'est-à-dire les coordonnées des variables zj (j = 1 … n) sur l’axe principal Φri
.
Pour généraliser ce résultat a une matrice Φ qui contient toutes les coordonnées il faut tenir compte du résultat (formules de transition) précédent qui indique qu’ily a dans cet espace N-n valeurs propres de V qui sont nulles et donc N-n axes principaux qui n’existent pas. La matrice Φ est donc de dimension(n,n) et non (N,n). Elle s’écrit :
Φ
Φ Φ Φ Φ
= Φ
....
..
..
..
...
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
..
...
...
...
z z
z
j
N n i 1
) n , N (
n j
1
) n , n (Φ
=
De même pour la matrice C qui contient les coordonnées des vecteurs propres normés dans l’ancien système :
Φi
cri
ΦN
cr1
crN
zj
Φij
Φ1
0
) n , N ( ) ii
N , N (
N n i
1
C
..
...
...
..
..
..
..
..
..
..
...
..
..
..
..
..
..
..
..
..
..
..
c ..
..
..
..
..
..
..
..
..
..
..
..
N i 1
C
c ...
c c
c
=
=
De ce fait on a :
) n , N ( ) N , n ( ) n , n (
Z '
= C Φ
Or on sait (formule de transition) que : j j
i Zb
N c 1
= λ ce qui s’écrit en faisant varier i et j : 2
/ 1 ) n , n ( ) n , n ( ) n , N ( )
n , N (
B Z N
C = 1 Λ −
D’où
Z Z B N
1 Λ 1/2 ′ ′
=
Φ −
soit avec ZZ ZZ NR
N
R= 1 ′ ⇔ ′ = R B N R ' B N
1 Λ 12 = Λ 12 ′
=
Φ − −
Or : B'Rb=Λ⇒B'R=ΛB−1=ΛB' D’où
' B NΛ 12Λ
=
Φ −
' B N
) n , n ( 2 1 ) n , n ( ) n , n
(Φ = Λ
3 Le choix des projections des variables
Dans le paragraphe précédent, nous avons vu que les projections orthogonales des n variables sur les axes principaux avaient pour coordonnées le contenu de la matrice
) n , n ( ) n , n (
2 1 )
n , n (
B
NΛ ′
=
φ .
Intéressons nous au produit Λ12B′ dans cette formule, et pour cela rappelons quelles sont les caractéristiques des composantes principales Fj dans l’espace Rn.
[ ] [ ]
≠
= λ
=
=
k j 0 F , F Cov
F V
0 F
k j
j j j
Cette dernière caractéristique peut être vérifiée de la façon suivante :
) 1 , N (
j ) N , 1 (
k' k
j F F
N ) 1 F , F (
Cov = Soit avec Fj =Zbj ∀j
( )
' j k j
j ' j k ' j k
' j k k
j
b b
b b
Rb b
Zb ' Z Nb ) 1 F , F ( Cov
λ
= λ
=
=
=
Comme b'k et bj sont des vecteurs propres normés, leur produit scalaire est nul et de fait : 0
) F , F (
Cov j k =
Normons les composantes principales Fj On sait que :
[ ]
ji 2
j Fij
N F 1
V =
∑
=λAppelons alors j1/2 ij j
ij
ij F F
F~ =λ−
= λ
De ce fait
[ ] ∑ ∑ ( ) = ∑
λ =
= λ
=
i i j
2 2 ij
j 2 ij i
2
ij ij 1 1
* N F
F 1 N F~ 1 N F~ 1 V
Sous forme matricielle on aura :
2 / 1 )
n , N (
F F~ −
Λ
= avec
λ λ λ
= Λ−
n j
1 2
/ 1
1 1 1
Les nouvelles composantes principales ont alors pour caractéristiques :
[ ] [ ]
≠
=
=
=
k j 0 F~ , F~ Cov
1 F~ V
0 F~
k j j j
On peut alors vérifier les résultats suivants : F n
F~~ N
1 ′ =Ι
) n , n (
A Z F~ N
1 ′ = qui contient les coefficients de corrélation linéaires entre les composantes principales
F~j
et les variables zk. avec j=1,...n et k =1,...,n En utilisant ces deux résultats on a :
2 / 1 2
/
1 ZB
F
F~ − −
Λ
= Λ
=
On en déduit que : B F~
Z= Λ1/2 ′ (puisque B'=B−1) D’où
Z ' F~ N
A = 1 s’écrit : F~ B' '
F~ N
A= 1 Λ12
Soit :
' B A =Λ12
En définitive on va choisir pour oordonnées des variables dans la nouvelle base, le contenu de la matrice A (au lieu de celui de Φ) qui est constitué de coefficients de corrélation linéaire, c'est-à-dire de chiffres en valeurs absolues inférieurs ou égaux à 1. Cette matrice s’écrit :
n j
1 z z
z
nn 1
n
jj
n 1 j
11
n j 1
) n , n (
a a
a
a z
a
F F F
A =
Propriétés de la matrice A : En utilisant l’expression ZZ
N
R= 1 ′ dans la formule F~A
B F~
Z= Λ1/2 ′= on a :
( ) ( )
A F~ F~ N A 1
A F~ F~ NA
1
A F~ A F~ N R 1
′
= ′
′
= ′
= ′
A A R= ′
Quand on norme les composantes principales, la matrice R=A′A. jème composante principale
Coordonnées de zj sur les n composantes principales
Développons la diagonale de cette égalité : diag R = diag A’A
1er élément a112 + ……. a2j1+ ……. an21 =1=V
( )
z1pème élément a12p + ……. a2jp + ……. anp2 =1=V
( )
zpnème élément a12n + ……. a2jn + ……. ann2 =1=V
( )
zn∑
λ1 λj λn Trace R = VT = nD - L’interprétation d’une ACP 1) la projection des variables
En retenant pour projection des variables le contenu de A, les coordonnées de ces projections sont toutes en valeur absolue inférieures ou égales à 1, c’’est-à-dire sont toutes insérées dans un cercle de rayon unité appelé cercle des corrélations. Considérons, par exemple, le cercle de corrélation dans le plan constitué par deux axes principaux et une variable z1 sur ce cercle. Elle a pour coordonnées
a11 et a21 (Cf. matrice A).
D’après le théorème de pythagore, on peut écrire que : 1
z 0 a
a112 + 221= 12 =
En utilisant la propriété précédente de la matrice A (1er élément du développement de la diagonale), on a :
[ ]
z 1V a a
a
a112 + 221+ 231+L+ 2n1= 1 =
Comme dans cette expression a112 +a221=1 (z1 sur le cercle), on a : 0
a a231+L+ 2n1=
z1
1 1
F Φ +1
-1 -1
+1
a11
a21
θ parfaitement représenté
bien représenté
mal représenté
2 2
F Φ
0
Ce qui signifie que z1 a ses coordonnées nulles sur les autres axes principaux. En d’autres termes, z1
est parfaitement représenté sur le plan F1, F2. Plus généralement :
- une variable qui se trouve en projection sur le cercle de corrélation est une variable parfaitement déterminée sur le plan.
- Une variable proche du cercle de corrélation est une variable dite « bien représentée » dans le plan.
- Une variable proche de l’origine du cercle (zone grisée du graphique) est une variable mal représentée.
Considérons à présent le plan (F1, F2) avec les quatre variables z1, z2, z3 et z4 situées sur le cercle de corrélation de la façon suivante :
On sait que dans un plan, 2 vecteurs forment un angle θ dont le cos=r Pour des variables parfaitement représentées (ou bien représentées à la limite) : - si l’angle θ tend vers 0 : r 1
2 1,z
z →
- si l’angle θ tend vers 90°
= π
2 : r 0
2 1,z
z →
- si l’angle θ tend vers 180 =π : r 1
2 1,z
z →−
En définitive, pour interpréter le graphique des projections des variables : - on sélectionne les variables parfaitement ou bien représentées
- on analyse les proximités des variables sélectionnées en terme de corrélation F1
F2
z1
+1 +1
-1
-1 z4
z2
z3
θ
2) Le graphique des individus
On porte sur les plans factoriels les points individus dont les coordonnées sont données par la matrice F.
3) les aides à l’interprétation : les contributions absolues et relatives
La contribution absolue (CTA) d’un individu (ou d’une variable) à une composante principale est la part de sa variance expliquée par cet individu ou cette variable.
La contribution relative (CTR) d’un individu (ou d’une variable) à une composante principale indique la position de cet individu (ou variable) par rapport à l’axe principal qui porte cette composante principale.
En ACP, on utilise ces aides à l’interprétation que pour les individus. En effet, de part la représentation des variables dans le cercle de corrélation, ces contributions sont inutiles.
a) Les contributions absolues des individus (CTA)
La contribution absolu d’un individu i sur la composante principale Fj est notée :
Fj
CTAi
Comme
[ ] ( 12j ij2 nj2)
i 2
j ij F ...F ... F
N F 1 N F 1
V =
∑
= + + +Par définition :
[ ]
j2 ij i 2 ij
i 2 ij 2 ij F
i N
F F V . N
F F
F
CTA j = = = λ
∑
Par construction 0≤CTA≤1 et CTA 1
n 1 i
F i j =
∑
=
.
Les CTA s’interprètent comme des pourcentages et permettent de sélectionner les individus qui contribuent le plus à l’apparition d’un axe principal.
b) La contribution relative (CTR)
La contribution relative d’un individu i sur la composante principale Fj est notée :
Fj
CTRi .
Considérons un plan factoriel (F1, F2) avec un point i quelconque de coordonnées Fi1 et Fi2 (Cf. la matrice F) :
L’angle θ indique par sa valeur la plus ou moins grande proximité de i par rapport à l’axe F1.On ainsi :
( )
G,id F e hypothénus
adjacent é
cosθ= cot = i1 soit
( )
0,id F
cos 2
2 2θ= ij
et si θ tend vers 0, cos2θ tend vers 1 et i est proche de F1.Au contraire, si θ tend vers 2
π, cos2θ tend vers 0 et i s’éloigne de F1 pour se rapprocher de F2.
On note la quantité
) i , G ( d
F
2 2 1 i la
F1
/
CTRi
En réitérant la procédure pour l’individu i par rapport à F2 on aura :
) i , G ( d
F
2 2 2
i la CTRi/F2 On constate alors que :
1 CTR
0≤ ≤
et 1
) i , G ( d
F CTR F
CTR 2
2 2 i 2 1 2 i F / i 1
F /
i + =
=
+ .
En généralisant ce résultat pour un axe principal quelconque, on aura :
∑
=
=
= n
1 j
2 ij 2 ij 2
2 ij Fj
/ i
F F ) i , G ( d
F CTR
avec 0≤CTR≤1 et
∑
=
=
n 1 j
F /
i 1
CTR j
Les CTR permettent de vérifier si les individus sélectionnés par les CTA sont proches ou au contraire éloignés des axes principaux.
i
G
1
Fi 2
Fi
F1
F2
θ
Schéma de calcul des CTA et CTR :
F1 … Fj … Fn
∑
2 CTR1 CTRj CTRn Σ1 … 1
… …
)=
n , N ( F
i F1i … Fij=A Y i
Y A2
… …
N … 1
∑
2 ZCTA1 CTAj CTAn
1 …
…
i …
Z A2
… N
Σ 1 1
Avec les CTR on sait si les individus sont proches ou loin de l’axe. (Si CTR proche de 1 alors individu proche de l’axe)
Les CTA permettent de répondre à la question : « Qui fait l’axe ? ». Les plus fortes contributions sont les individus qui sont responsables de l’apparition de l’axe