Ricco RAKOTOMALALA Université Lumière Lyon 2
Analyse en Composantes Principales (ACP)
Principes et pratique de l’ACP
PLAN
1. Position du problème
2. ACP : calculs via la diagonalisation de la matrice des corrélations 3. ACP : calculs via la décomposition en valeurs singulières
4. Pratique de l’ACP
5. Rotation des axes pour une meilleure interprétation 6. Les logiciels (SPAD, SAS, Tanagra et R)
7.
Plus loin (1) avec l’ACP : techniques de ré-échantillonnage8. Plus loin (2) : test de sphéricité et indice(s) MSA
9. Plus loin (3) : ACP sur les corrélations partielles, gestion de «
l’effet taille» 10. Plus loin (4) : analyse en facteurs principaux
11. Bibliographie
Construire un nouveau système de représentation
(composantes principales, axes factoriels, facteurs : combinaisons linéaires des variables originelles) qui permet synthétiser l’information
Variables « actives » quantitatives c.-à-d. seront utilisées pour la construction des facteurs
Analyser un tableau de données – Variables toutes quantitatives
Les données « autos »
(Saporta, 2006 ; page 428)
Modele CYL PUISS LONG LARG POIDS V.MAX
Alfasud TI 1350 79 393 161 870 165
Audi 100 1588 85 468 177 1110 160
Simca 1300 1294 68 424 168 1050 152
Citroen GS Club 1222 59 412 161 930 151
Fiat 132 1585 98 439 164 1105 165
Lancia Beta 1297 82 429 169 1080 160
Peugeot 504 1796 79 449 169 1160 154
Renault 16 TL 1565 55 424 163 1010 140
Renault 30 2664 128 452 173 1320 180
Toyota Corolla 1166 55 399 157 815 140
Alfetta 1.66 1570 109 428 162 1060 175
Princess 1800 1798 82 445 172 1160 158
Datsun 200L 1998 115 469 169 1370 160
Taunus 2000 1993 98 438 170 1080 167
Rancho 1442 80 431 166 1129 144
Mazda 9295 1769 83 440 165 1095 165
Opel Rekord 1979 100 459 173 1120 173
Lada 1300 1294 68 404 161 955 140
p j : 1 , ,
n
i : 1 , , x
ijQuestions :
(1) Quelles sont les véhicules qui se ressemblent ? (proximité entre les individus) (2) Sur quelles variables sont fondées les ressemblances / dissemblances
(3) Quelles sont les relations entre les variables
Individus actifs
Position du problème (1)
Analyse des proximités entre les individus
Positionnement des individus (2 variables)
1000 1500 2000 2500 3000
6080100120
CYL x PUIS
CYL
PUISS
Alfasud TI Audi 100
Simca 1300
Citroen GS Club Fiat 132
Lancia Beta
Peugeot 504
Renault 16 TL
Renault 30
Toyota Corolla
Alfetta 1.66
Princess 1800 Datsun 200L
Taunus 2000
Rancho
Mazda 9295 Opel Rekord
Lada 1300
Que voit-on dans ce graphique ?
1. Les variables CYL et PUISS sont liées.
2. « Opel Reckord » et « Taunus 2000 (Ford) » ont le même profil (caractéristiques)
3. « Renault 30 » et « Toyota Corolla » ont des profils opposés…
Un graphique ne fait que révéler des informations présentes dans le tableau de données !
Que faire si on veut prendre en compte (p >
2) variables simultanément ?
Modele CYL PUISS
Toyota Corolla 1166 55
Citroen GS Club 1222 59
Simca 1300 1294 68
Lada 1300 1294 68
Lancia Beta 1297 82
Alfasud TI 1350 79
Rancho 1442 80
Renault 16 TL 1565 55
Alfetta 1.66 1570 109
Fiat 132 1585 98
Audi 100 1588 85
Mazda 9295 1769 83
Peugeot 504 1796 79
Princess 1800 1798 82
Opel Rekord 1979 100
Taunus 2000 1993 98
Datsun 200L 1998 115
Renault 30 2664 128
Tableau trié selon CYL
Positionnement des individus (p >2)
Impossible de créer un nuage à « p » dimensions.
On pourrait croiser les variables 2 à 2, mais :
1. Très difficile de surveiller plusieurs cadrans en même temps.
2. Etiqueter les points rendrait le tout illisible.
Ce type de représentation n’est utile que pour effectuer un diagnostic rapide et repérer les points atypiques.
Ex. Renault 30 : le plus gros moteur, la plus puissante, une des plus lourdes, la plus rapide.
CYL
60 100 160 175 140 170
15002500
60100
PUISS
LONG
400460
160175
LARG
POIDS
8001200
1500 2500
140170
400 440 800 1200
V.MAX
Positionnement des individus – Principe de l’ACP (1) – Notion d’inertie
Principe : Construire un système de représentation de dimension réduite (q<< p) qui préserve les distancesentre les individus. On peut la voir comme une compression avec perte (contrôlée) de l’information.
Distance euclidienne
entre 2 individus (i, i’)
pj
j i
ij
x
x i
i d
1
2 ' 2
( , ' )
Un critère global : distance entre l’ensemble des individus pris 2 à 2, inertie du nuage de points dans l’espace originel.Elle traduit la quantité d’information disponible.
ni n
i
p
d i i
I n
1 ' 1 2
2
( , ' )
2 1
Autre écriture de l’inertie : écart par rapport au barycentre G (vecteur constitué des moyennes des p variables)
ni
p
d i G
I n
1
2
( , ) 1
L’inertie indique la dispersion autour du barycentre, c’est une variance multidimensionnelle (calculée sur p dimensions)
1000 1500 2000 2500 3000
6080100120
CYL x PUIS
PUISS
G
Positionnement des individus – Principe de l’ACP (1) –Régression orthogonale
Habituellement on (a) centre et (b) réduit les variables. On parle d’ACP normée.
(a) Pour que G soit situé à l’origine [obligatoire]
(b) Pour rendre comparables les variables exprimées sur des échelles (unités) différentes [non obligatoire]
j j ij
ij
s
x z x
n
i ij
j x
x n
1
1
n
i
j ij
j x x
s n
1 2 1 2
(1) Trouver la première composante F1qui maximise l’écartement global des points par rapport à l’origine :
796628 .
1 1
1 2 1
1
n
i
F
i n
Cas particulier de 2 variables c.r.
(Ip = p =2)
% 83 .
1 89 Ip
est la part d’inertie expliquée par le 1eraxe factoriel (ou 1èrecomposante)
(2) Trouver la 2ndecomposante F2qui traite l’inertie non-expliquée (résiduelle) par F1(par conséquent, F2est non corrélée avec F1)
p p
k
k I
12 203 . 0 797 .
1
2 10.17% Ip
(3) Et bien évidemment :
203372 .
1 0
1 2 2
2
n
i
F
i n
-3 -2 -1 0 1 2 3
-3-2-10123
CYL x PUIS
CYL.CR
PUISS.CR
O
Minimisation
F1
89.83%
F2 10.17%
Préservation des proximités dans le repère réduit
(1) Les proximités entre individus sont préservées si on prend un nombre q de composantes suffisamment représentatives (en terme de % d’inertie exprimée) (2) Si on prend les « p » facteurs, on retrouve les distances dans le repère originel
Données centrées et réduites
Modele CYL PUISS
1 Toyota Corolla -1.2814 -1.4953 2 Citroen GS Club -1.1273 -1.2933
3 Simca 1300 -0.9292 -0.8389
4 Lada 1300 -0.9292 -0.8389
5 Lancia Beta -0.9209 -0.1319
6 Alfasud TI -0.7751 -0.2834
7 Rancho -0.5219 -0.2329
8 Renault 16 TL -0.1835 -1.4953
9 Alfetta 1.66 -0.1697 1.2316
10 Fiat 132 -0.1284 0.6761
11 Audi 100 -0.1202 0.0196
12 Mazda 9295 0.3779 -0.0814
13 Peugeot 504 0.4522 -0.2834
14 Princess 1800 0.4577 -0.1319
15 Opel Rekord 0.9558 0.7771
16 Taunus 2000 0.9943 0.6761
17 Datsun 200L 1.0081 1.5346
18 Renault 30 2.8408 2.1911
72529 . 1 ) 6 , 1 (
14415 . 1 ) 6 , 2 (
06455 . 0
)) 2933 . 1 ( 4953 . 1 ( )) 1273 . 1 ( 2814 . 1 ( ) 2 , 1 (
2 2
2 2
2
d d
d
Coordonnées dans le repère factoriel
Modele F1 (89.83%) F2 (10.17%) 1 Toyota Corolla 1.9635 0.1513 2 Citroen GS Club 1.7117 0.1174
3 Simca 1300 1.2502 -0.0639
4 Lada 1300 1.2502 -0.0639
5 Lancia Beta 0.7444 -0.5580
6 Alfasud TI 0.7484 -0.3477
7 Rancho 0.5337 -0.2044
8 Renault 16 TL 1.1871 0.9276
9 Alfetta 1.66 -0.7509 -0.9909
10 Fiat 132 -0.3873 -0.5689
11 Audi 100 0.0711 -0.0989
12 Mazda 9295 -0.2097 0.3248
13 Peugeot 504 -0.1194 0.5201
14 Princess 1800 -0.2304 0.4169
15 Opel Rekord -1.2254 0.1263
16 Taunus 2000 -1.1812 0.2250
17 Datsun 200L -1.7980 -0.3723
18 Renault 30 -3.5581 0.4594
(1,6) 1.147632 92783 . 0 ) 6 , 2 (
06340 . 0
) 7117 . 1 9335 . 1 ( ) 2 , 1 (
1 1
1
2 2
2 2
F F
F
d d
d
Si on ne tient compte que de la 1ère composante (1 = 89.83%), les distances sont approximées. On constate néanmoins que les proximités sont assez bien
respectées (globalement).
Distances dans le repère originel (variables centrées et réduites)
Si on tient compte des 2 composantes, on retrouve les distances exactes entre les individus.
(1,6) 1.72529 14415 . 1 ) 6 , 2 (
06455 . 0
) 1174 . 0 1513 . 0 ( ) 7117 . 1 9635 . 1 ( ) 2 , 1 (
2 1
2 1
2 1
, 2
, 2
2 2
, 2
F F
F F
F F
d d
d
Une des questions clés de l’ACP est de définir le nombre de composantes « q » à retenir pour obtenir une
approximation suffisamment
Position du problème (2)
Analyse des relations entre les variables
Relations entres variables – Principe de l’ACP (2) –Matrice des corrélations
Le coefficient de corrélation mesure la liaison (linéaire) entre deux variables Xjet Xm
m j n
i
m im j ij
jm s s
x x x n x
r
1
1
Matrice des corrélations R sur les données « autos »
CYL
60 100 160 175 140 170
15002500
60100 PUISS
LONG
400460
160175
LARG
POIDS
8001200
1500 2500
140170
400 440 800 1200
V.MAX
Elle traduit numériquement ce que l’on peut observer dans les graphiques croisés des variables
CORR CYL PUISS LONG LARG POIDS V.MAX CYL 1 0.797 0.701 0.630 0.789 0.665 PUISS 0.797 1 0.641 0.521 0.765 0.844 LONG 0.701 0.641 1 0.849 0.868 0.476 LARG 0.630 0.521 0.849 1 0.717 0.473 POIDS 0.789 0.765 0.868 0.717 1 0.478 V.MAX 0.665 0.844 0.476 0.473 0.478 1
On peut essayer de la réorganiser manuellement pour mieux faire apparaître les « blocs» de variables mais….
(1) Ce ne sera jamais parfait
(2) La manipulation est inextricable dès que le nombre de variables est élevé
POIDS CYL PUISS LONG LARG V.MAX POIDS 1.000 0.789 0.765 0.868 0.717 0.478
CYL 0.789 1.000 0.797 0.701 0.630 0.665
PUISS 0.765 0.797 1.000 0.641 0.521 0.844
LONG 0.868 0.701 0.641 1.000 0.849 0.476
LARG 0.717 0.630 0.521 0.849 1.000 0.473
V.MAX 0.478 0.665 0.844 0.476 0.473 1.000
Relations entres variables – Principe de l’ACP (2) –Construction des composantes
pj
j
F
r
1
1 2
1
( )
Construire la première composante F1qui permet de maximiser le carré de
sa corrélation avec les variables de la base de données
Habituellement, Inertie totale = Somme des variances des variables
Lorsque les données sont réduites (ACP normée), Inertie totale = Trace(R) = p
I
p p
Part d’inertie expliquée par F1=
p
1De nouveau, on observe la décomposition de l’information en composantes non
corrélées (orthogonales)
p
k
k
p
1
Exemple de traitement pour les p = 6 variables de la base de données
Axis Eigen value Proportion (%) Cumulative (%)
1 4.421 73.68% 73.68%
2 0.856 14.27% 87.95%
3 0.373 6.22% 94.17%
4 0.214 3.57% 97.73%
5 0.093 1.55% 99.28%
6 0.043 0.72% 100.00%
Tot. 6 - -
Correlation scatterplot (PCA_1_Axis_1 vs. PCA_1_Axis_2)
PCA_1_Axis_1
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1
PCA_1_Axis_2
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1
V.M AX LARGLONG
PUISS CYL POIDS
Relations entres variables – Principe de l’ACP (2) –Approximation des corrélations
L’ACP produit aussi une
approximation dans l’espace des variables (approximation des corrélations)
[Ex. si on ne prend en compte que
« q = 1 » facteur]
905 . 0 ) ( F
1
r
poids etr
poids2( F
1) 0 . 819
225 . 0 ) ( F
2
r
poids etr
poids2( F
2) 0 . 050
Si on exploite tous les « p » facteurs
p
k
k poids
F r
1
2
( ) 0 . 819 0 . 050 1
ACP sur les p = 6 variables,
cercle des corrélations. Liaison de la variable « poids » avec le 1eraxe
La représentation de la variable n’est pas complète, on a besoin d’un second facteur F2
789 .
,cyl
0
poids
r
11 1
,
( ) ( ) ( ) 0 . 90519 0 . 89346 0 . 809
q
k
k cyl k
poids cyl
poids
F r F r F
r
Approximation assez bonne parce que POIDS et CYL sont bien représentées sur le 1erfacteur
478 .
max
0
.
,v
poids
r
683 . 0 75471 .
0 90519 .
0 ) (
1max .
,
F
r
poidsvApproximation mauvaise parce que V.MAX est mal représentée sur le
74%
14%
Les mains dans le cambouis : comment sont obtenus les résultats de l’ACP ?
Objectif des calculs
Construire un ensemble de composantes (F1, F2, …, Fk,…), combinaisons linéaires des variables originelles (centrées et réduites), dont on peut apprécier la qualité de restitution de l’information à travers l’inertie reproduite (k)
Qui permettent de calculer les coordonnées des individus dans le repère factoriel, et de juger de leur proximité dans les différents plans factoriels
Que l’on interprétera en calculant leur corrélations (et autres indicateurs dérivés : CTR et COS²) avec les variables originelles (X1, X2, …, Xp)
) (
) (
) (
2 2 1 1
2 2 1 1
1 1
2 21 1
11 1
p p pp p
p p
k p pk k
k k
p p
z a z
a z a F
z a z
a z a F
z a z
a z a F
Comment obtenir les coefficients
« ajk» à partir des données ?
ip pk i
k i
k
ik
a z a z a z
F
1 1
2 2
Valeur de la variable Z2(X2après centrage et réduction) pour l’individu n°i
) (
kx
F
r
jPlus la corrélation est élevée en valeur absolue, plus forte est l’influence de la variable sur le facteur
Calcul via la diagonalisation de la matrice des corrélations
Calcul uniquement dans l’espace des variables,mais résultats disponibles pour les deux points de vue (individus et variables)
#chargement du fichier de données
autos <- read.table(file="autos.txt",sep="\t",row.names=1,header=T,dec=".")
#calcul de la matrice des corrélations autos.cor <- cor(autos)
print(autos.cor)
#trace de la matrice = inertie totale print(sum(diag(autos.cor)))
#diagonalisation avec la fonction eigen autos.eigen <-eigen(autos.cor)
print(autos.eigen)
#calcul des corrélations des variables avec les composantes cor.factors <- NULL
for (j in 1:ncol(autos)){
rf <-sqrt(autos.eigen$values[j])*autos.eigen$vectors[,j]
cor.factors <- cbind(cor.factors,rf) }
rownames(cor.factors) <- colnames(autos)
colnames(cor.factors) <- paste("F",1:ncol(autos),sep="")
#affichage des 2 premières composantes seulement print(cor.factors[,1:2])
Valeurs propres = k
Vecteurs propres= ajk
jk k
k
x
F a
r
j( )
Corrélations
variables x facteurs
Calcul via la décomposition en valeurs singulières de la matrice des données centrées et réduites
Montre bien le caractère dual de l’analyse
#affichage des 3 premières obs. de Z print(head(autos.cr,3))
#décomposition en valeurs singulières svd.autos <-svd(autos.cr)
print(svd.autos,digits=3)
#calcul des inerties associées aux composantes print(svd.autos$d^2/nrow(autos))
zij
V
TU
Z
aveck k k T
k k k
v u
Z
u v
Z
Principe de la SVD
Calcul des inerties :
n
k k
2
V correspond aux vecteurs propres c.-à-d. les coef. ajk
On obtient les coordonnées
factorielles des individus avec
F
ik
k u
ikQue lire et comment lire les résultats de l’ACP ?
Détermination du nombre de composantes à retenir
Valeurs propres et détection empirique du nombre « q » de facteurs à retenir (1) Tableau des valeurs propres
(2) Eboulis des valeurs propres : «scree plot»
Axis Eigen value Difference Proportion (%) Cumulative (%)
1 4.420858 3.564796 73.68% 73.68%
2 0.856062 0.482996 14.27% 87.95%
3 0.373066 0.159144 6.22% 94.17%
4 0.213922 0.121121 3.57% 97.73%
5 0.092801 0.049511 1.55% 99.28%
6 0.04329 - 0.72% 100.00%
Tot. 6 - - -
Indications : (1) sur l’importance des composantes, (2) sur l’évolution de l’importance cumulée, (3) sur la qualité de l’information restituée par les «q » premiers facteurs.
« Règle du coude » de Cattell, négliger les composantes qui emmènent peu d’informations additionnelles. Très performante lorsqu’il y a des «blocs » de variables. Fournit surtout des
scénarios de solutions.
Problème : Intégrer le coude dans la sélection ? Ici, q = 2 ou q = 1 ? Tout dépend de la valeur propre associée au coude, si elle est faible, il faut exclure la composante associée.
Mais, en pratique, (a)il faut au moins « q = 2 » afin de pouvoir réaliser les représentations graphiques; (b) il faut aussi pouvoir
Scree plot
Component
6 5
4 3
2 1
Eigenvalue
4
3
2
1
0
Valeurs propres et détection numériquedu nombre « q » de facteurs à retenir (ACP normée) [1]
Règle de Kaiser-Guttman : si les variables sont indépendantes deux à deux, les valeurs propres k seraient toutes égales à 1.
Remarque 1 : cette règle ne tient pas compte du tout des caractéristiques des données.
Remarque 2 : On peut aussi voir le seuil « 1 » comme la moyenne des valeurs propres.
Axis Eigen value Difference Proportion (%) Cumulative (%)
1 4.420858 3.564796 73.68% 73.68%
2 0.856062 0.482996 14.27% 87.95%
3 0.373066 0.159144 6.22% 94.17%
4 0.213922 0.121121 3.57% 97.73%
5 0.092801 0.049511 1.55% 99.28%
6 0.04329 - 0.72% 100.00%
Tot. 6 - - -
Règle de Karlis-Saporta-Spinaki: rendre la règle plus stricte en tenant compte des caractéristiques (n et p) des données.
1 2 1
1
n
p
A droite, nous avons 2 x écart-type des v.p. sous H0 un test unilatéral à 5%
08465 .
1 2 18
1 2 6
1 1 2 1
1
n
seuil p
Axis Eigen value Difference Proportion (%) Cumulative (%)
1 4.420858 3.564796 73.68% 73.68%
2 0.856062 0.482996 14.27% 87.95%
3 0.373066 0.159144 6.22% 94.17%
4 0.213922 0.121121 3.57% 97.73%
5 0.092801 0.049511 1.55% 99.28%
6 0.04329 - 0.72% 100.00%
Tot. 6 - - -
Valeurs propres et détection numériquedu nombre « q » de facteurs à retenir (ACP normée) [2]
Test des « bâtons brisés » de Frontier (1976) et Legendre-Legendre (1983): si l’inertie était répartie aléatoirement sur les axes, la distribution des v.p.
suivrait la loi des « bâtons brisés ».
Problème : les tables sont rarement accessibles.
Heureusement les valeurs critiques à 5% peuvent être obtenues très facilement.
pk m
k
m
b 1
La composante est validée si :
k b
kEigenvalues - Significance Axis Eigenvalue Broken-stick
critical values
1 4.420858 2.45
2 0.856062 1.45
3 0.373066 0.95
4 0.213922 0.616667
5 0.092801 0.366667
6 0.04329 0.166667
45 . 6 2
1 5 1 4 1 3 1 2 1 1 1
1
b
95 . 6 0
1 5 1 4 1 3 1
3
b
Toutes les approches sont cohérentes : q = 1 seul facteur semble suffire dans cette étude. Par
commodité (hum, pas si sûr, cf. interprétation et rotation des axes), on en choisira q = 2.
Caractérisation des composantes par les variables
Analyse des relations entre les variables via les composantes
Caractérisation des facteurs à l’aide des variables –Cercle des corrélations
Corr. CTR (%) COS² (%) Corr. CTR (%) COS² (%)
POIDS 0.905 19% 82 % (82 %) 0.225 6% 5 % (87 %)
CYL 0.893 18% 80 % (80 %) -0.115 2% 1 % (81 %)
PUISS 0.887 18% 79 % (79 %) -0.385 17% 15 % (93 %)
LONG 0.886 18% 79 % (79 %) 0.381 17% 15 % (93 %)
LARG 0.814 15% 66 % (66 %) 0.413 20% 17 % (83 %)
V.MAX 0.755 13% 57 % (57 %) -0.574 38% 33 % (90 %)
Var. Expl. 4.42086 74 % (74 %) 0.85606 14 % (88 %)
Axis_1 Axis_2
Corrélation: degré de liaison de la variable avec la composante
Contributions: influence de la variable dans la définition de la composante (rarement fournie car redondante avec CORR et COS²)
p
j
jk k
k x
jk r F CTR
CTR j
1 2
1 );
(
Cosinus carré: qualité de représentation de la variable sur la composante. On peut la cumuler sur les q premières composantes.
p
k
jk q
k
jk jq
k x jk
COS
COS COS
F r COS j
1
2 1
2 2
2 2
1 )
( p
j
k k
x F
r j
1
2( )
On utilise souvent le « cercle des corrélations » pour
obtenir une vision synthétique immédiate.
Correlation scatterplot (PCA_1_Axis_1 vs. PCA_1_Axis_2)
PCA_1_Axis_2
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8
V.M AX LARGLONG
PUISS CYL POIDS
On observe (axe 1 : 74%) un
« effet taille» marqué, que l’on peut lier à «l’encombrement / gamme » des véhicules ; mais aussi (axe 2 : 14%), une caractérisation par les performances (sportivité).
Reconstitution des corrélations –Corrélation reproduite et résiduelle
A nombre de composantes fixé, on peut
comparer les corrélations brutes calculées (en bleu) sur les données originelles, et celles estimées à partir du repère factoriel (en vert).
Nous avons choisi q = 2 pour les données
« AUTOS ».
L’approximation sera d’autant meilleure que les variables sont bien représentées dans le repère sélectionné.
COS² des variables cumulé pour les 2 premières composantes
Entre parenthèses la différence entre les corrélations
qk
k x k x j
j
q
x x r F r F
r
j j1
'
) ( ) ( )
, ˆ (
'
Caractérisation des composantes par les individus
Analyse des proximités entre individus via leurs coordonnées factorielles
Caractérisation des facteurs à l’aide des individus –Coordonnées,
contributions et cos²
di²indique la part de l’individu dans l’inertie totale (dans l’espace originel –variables c.r.). C’est le carré de la distance à l’origine.
n
i i n
i p
j ij n
i
p d
z n G n
i n d
I
1 2
1 1
2 1
2 1 1
) , 1 (
N.B.
N° Modele Coord. CTR Cos² Coord. CTR Cos² SUM(COS²)
1 Alfasud TI -2.139 6% 56% -1.786 21% 39% 94%
2 Audi 100 1.561 3% 37% 1.527 15% 35% 71%
3 Simca 1300 -1.119 2% 58% 0.675 3% 21% 79%
4 Citroen GS Club -2.574 8% 98% -0.113 0% 0% 98%
5 Fiat 132 0.428 0% 16% -0.696 3% 41% 57%
6 Lancia Beta -0.304 0% 8% 0.196 0% 3% 12%
7 Peugeot 504 0.684 1% 31% 0.933 6% 58% 88%
8 Renault 16 TL -1.948 5% 67% 0.980 6% 17% 84%
9 Renault 30 4.410 24% 89% -1.064 7% 5% 94%
10 Toyota Corolla -3.986 20% 98% -0.236 0% 0% 98%
11 Alfetta 1.66 0.438 0% 4% -1.912 24% 82% 86%
12 Princess 1800 1.018 1% 53% 0.842 5% 36% 89%
13 Datsun 200L 2.941 11% 78% 0.559 2% 3% 81%
14 Taunus 2000 1.315 2% 70% -0.487 2% 10% 80%
15 Rancho -0.691 1% 24% 0.898 5% 41% 65%
16 Mazda 9295 0.386 0% 22% -0.356 1% 19% 40%
17 Opel Rekord 2.290 7% 86% -0.104 0% 0% 86%
18 Lada 1300 -2.709 9% 93% 0.144 0% 0% 93%
Axe 1 Axe 2
(1) Coordonnéefactorielle de l’individu Fik (permet de situer le positionnement relatif des observations).
(2) Contribution: indique l’influence de l’individu dans la définition du facteur
n
i
ik k
ik
ik CTR
n CTR F
1 2
1
;
(3) Cos²: indique la qualité de la représentation de l’individu sur le facteur (fraction de son inertie restituée par le facteur)
p
j
ik i
ik
ik COS
d COS F
1
2 2
2
2 ; 1
(4) Les cos² s’additionnent.
Qualité des représentations sur les q = 2 premiers facteurs.
Lecture : Les véhicules se
caractérisent par l’encombrement (axe 1, illustrés par les véhicules {9, 10, 13}) et la performance (axe 2, avec surtout {1, 2, 11}).
Remarque : {6, 16 et 5} sont mal représentés sur les q = 2 premières composantes parce qu’ils ne se distinguent ni par l’ encombrement (proche de la moyenne) ni par la performance (se situent dans la moyenne).
Représentation graphique des plans factoriels
Ce graphique fait en très grande partie la popularité de l’ACP. On peut y juger
visuellement des proximités (dissemblances) entre les individus.
Et on peut comprendre le pourquoi des proximités en considérant dans le même temps le cercle des corrélations.
-4 -2 0 2 4
-4-2024
Premier plan factoriel
Comp.1 (74%)
Comp.2 (14%)
Alfasud TI
Audi 100 Simca 1300
Citroen GS Club
Fiat 132 Lancia Beta
Peugeot 504 Renault 16 TL
Renault 30 Toyota Corolla
Alfetta 1.66 Princess 1800
Datsun 200L
Taunus 2000 Rancho
Mazda 9295 Opel Rekord Lada 1300
Correlation scatterplot (PCA_1_Axis_1 vs. PCA_1_Axis_2)
PCA_1_Axis_1
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1
PCA_1_Axis_2
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1
V.M AX LARGLONG
PUISS CYL POIDS
Remarque : certains proposent de mêler les deux représentations dans un graphique dit «biplot». Attention, les proximités individus-variables n’ont pas vraiment de sens. Ce sont les directions qui importent dans ce cas.
Variables illustratives
Renforcer l’interprétation des composantes
Variables illustratives
Variables non utilisées pour la construction des composantes. Mais utilisées après coup pour mieux comprendre / commenter les résultats.
Ex. Les caractéristiques intrinsèques des véhicules sont les variables actives (largeur, poids, puissance, etc.). En illustratives, on utilise des variables
introduisant des considérations subjectives (prix, gamme) ou calculées après coup pour une
meilleure interprétation (rapport poids/puissance).
Modele FINITION PRIX R.POID.PUIS
Alfasud TI 2_B 30570 11.01
Audi 100 3_TB 39990 13.06
Simca 1300 1_M 29600 15.44
Citroen GS Club 1_M 28250 15.76
Fiat 132 2_B 34900 11.28
Lancia Beta 3_TB 35480 13.17
Peugeot 504 2_B 32300 14.68
Renault 16 TL 2_B 32000 18.36
Renault 30 3_TB 47700 10.31
Toyota Corolla 1_M 26540 14.82
Alfetta-1.66 3_TB 42395 9.72
Princess-1800 2_B 33990 14.15
Datsun-200L 3_TB 43980 11.91
Taunus-2000 2_B 35010 11.02
Rancho 3_TB 39450 14.11
Mazda-9295 1_M 27900 13.19
Opel-Rekord 2_B 32700 11.20
Lada-1300 1_M 22100 14.04
Var. illustrative qualitative Var. illustratives quantitatives
Variables illustratives quantitatives
Calculer les corrélations des variables supplémentaires avec les facteurs. c.-à-d. calculer le coefficient de corrélation entre les coordonnées des « n » individus sur les facteurs et les valeurs prises par la variable illustrative. Il est possible de les placer dans le cercle des corrélations.
Correlation scatterplot (PCA_1_Axis_1 vs. PCA_1_Axis_2)
PCA_1_Axis_1
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1
PCA_1_Axis_2
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1
V.M AX LARGLONG
PUISS CYL POIDS
Prix R.Poid.Puis
k y
i n
i ik
F y n
i
k ik i
k
y s
y y n F
s s
F F y n y
F r
k
1 1
1 1
) (
CORR Com p.1 Com p.2
PRIX 0.772 -0.087
R.POID.PUIS -0.589 0.673
Le rapport poids/puissance n’est pas lié positivement avec le poids parce que les voitures lourdes sont
comparativement plus puissantes.
Tester la « significativité » du lien avec la statistique basée sur la transformation de Fisher
r
n r u
y1 ln 1 2
3 1
2uy
Lien significatif à (~) 5% si
SIGNIF. Com p.1 Com p.2
PRIX 3.975 -0.337
R.POID.PUIS -2.619 3.158
Variables illustratives qualitatives
Comparer les moyennes des composantes conditionnellement aux groupes définis par les modalités de la variable illustrative qualitative.
Possibilité de tester la significativité de l’écart par
rapport à l’origine (moyenne des composantes = 0) avec la « valeur test » (Morineau, 1984).
g y i
ik g
gk
i
n
:F
1
g g k gk
g g F
k gk gk
n n
n n n
s n
n n VT F
k
1 0
1
2
2 VT
gk Ecart significatif à (~) 5% siFINITION n_g Moyenne Valeur.Test Moyenne Valeur.Test
1_M 5 -2.0004 -2.43 0.0226 0.06
2_B 7 0.2353 0.37 -0.0453 -0.16
3_TB 6 1.3924 1.93 0.0340 0.11
Comp.1 Comp.2
-4 -2 0 2 4
-4-2024
Premier plan factoriel
Comp.1 (74%)
Comp.2 (14%)
Alfasud TI
Audi 100 Simca 1300
Citroen GS Club
Fiat 132 Lancia Beta
Peugeot 504 Renault 16 TL
Renault 30 Toyota Corolla
Alfetta 1.66 Princess 1800
Datsun 200L
Taunus 2000 Rancho
Mazda 9295 Opel Rekord Lada 1300
M B TB
Conclusion : La finition progresse avec la
« gamme / encombrement», elle n’a aucun lien avec la « sportivité ».
Remarque :On pourrait également s’appuyer sur l’ANOVA pour comparer les moyennes, et/ou calculer le rapport de corrélation.