• Aucun résultat trouvé

Analyse en Composantes Principales (ACP)

N/A
N/A
Protected

Academic year: 2022

Partager "Analyse en Composantes Principales (ACP)"

Copied!
72
0
0

Texte intégral

(1)

Ricco RAKOTOMALALA Université Lumière Lyon 2

Analyse en Composantes Principales (ACP)

Principes et pratique de l’ACP

(2)

PLAN

1. Position du problème

2. ACP : calculs via la diagonalisation de la matrice des corrélations 3. ACP : calculs via la décomposition en valeurs singulières

4. Pratique de l’ACP

5. Rotation des axes pour une meilleure interprétation 6. Les logiciels (SPAD, SAS, Tanagra et R)

7.

Plus loin (1) avec l’ACP : techniques de ré-échantillonnage

8. Plus loin (2) : test de sphéricité et indice(s) MSA

9. Plus loin (3) : ACP sur les corrélations partielles, gestion de «

l’effet taille

» 10. Plus loin (4) : analyse en facteurs principaux

11. Bibliographie

(3)

Construire un nouveau système de représentation

(composantes principales, axes factoriels, facteurs : combinaisons linéaires des variables originelles) qui permet synthétiser l’information

(4)

Variables « actives » quantitatives c.-à-d. seront utilisées pour la construction des facteurs

Analyser un tableau de données – Variables toutes quantitatives

Les données « autos »

(Saporta, 2006 ; page 428)

Modele CYL PUISS LONG LARG POIDS V.MAX

Alfasud TI 1350 79 393 161 870 165

Audi 100 1588 85 468 177 1110 160

Simca 1300 1294 68 424 168 1050 152

Citroen GS Club 1222 59 412 161 930 151

Fiat 132 1585 98 439 164 1105 165

Lancia Beta 1297 82 429 169 1080 160

Peugeot 504 1796 79 449 169 1160 154

Renault 16 TL 1565 55 424 163 1010 140

Renault 30 2664 128 452 173 1320 180

Toyota Corolla 1166 55 399 157 815 140

Alfetta 1.66 1570 109 428 162 1060 175

Princess 1800 1798 82 445 172 1160 158

Datsun 200L 1998 115 469 169 1370 160

Taunus 2000 1993 98 438 170 1080 167

Rancho 1442 80 431 166 1129 144

Mazda 9295 1769 83 440 165 1095 165

Opel Rekord 1979 100 459 173 1120 173

Lada 1300 1294 68 404 161 955 140

p j : 1 ,  ,

n

i : 1 ,  , x

ij

Questions :

(1) Quelles sont les véhicules qui se ressemblent ? (proximité entre les individus) (2) Sur quelles variables sont fondées les ressemblances / dissemblances

(3) Quelles sont les relations entre les variables

Individus actifs

(5)

Position du problème (1)

Analyse des proximités entre les individus

(6)

Positionnement des individus (2 variables)

1000 1500 2000 2500 3000

6080100120

CYL x PUIS

CYL

PUISS

Alfasud TI Audi 100

Simca 1300

Citroen GS Club Fiat 132

Lancia Beta

Peugeot 504

Renault 16 TL

Renault 30

Toyota Corolla

Alfetta 1.66

Princess 1800 Datsun 200L

Taunus 2000

Rancho

Mazda 9295 Opel Rekord

Lada 1300

Que voit-on dans ce graphique ?

1. Les variables CYL et PUISS sont liées.

2. « Opel Reckord » et « Taunus 2000 (Ford) » ont le même profil (caractéristiques)

3. « Renault 30 » et « Toyota Corolla » ont des profils opposés…

Un graphique ne fait que révéler des informations présentes dans le tableau de données !

Que faire si on veut prendre en compte (p >

2) variables simultanément ?

Modele CYL PUISS

Toyota Corolla 1166 55

Citroen GS Club 1222 59

Simca 1300 1294 68

Lada 1300 1294 68

Lancia Beta 1297 82

Alfasud TI 1350 79

Rancho 1442 80

Renault 16 TL 1565 55

Alfetta 1.66 1570 109

Fiat 132 1585 98

Audi 100 1588 85

Mazda 9295 1769 83

Peugeot 504 1796 79

Princess 1800 1798 82

Opel Rekord 1979 100

Taunus 2000 1993 98

Datsun 200L 1998 115

Renault 30 2664 128

Tableau trié selon CYL

(7)

Positionnement des individus (p >2)

Impossible de créer un nuage à « p » dimensions.

On pourrait croiser les variables 2 à 2, mais :

1. Très difficile de surveiller plusieurs cadrans en même temps.

2. Etiqueter les points rendrait le tout illisible.

Ce type de représentation n’est utile que pour effectuer un diagnostic rapide et repérer les points atypiques.

Ex. Renault 30 : le plus gros moteur, la plus puissante, une des plus lourdes, la plus rapide.

CYL

60 100 160 175 140 170

15002500

60100

PUISS

LONG

400460

160175

LARG

POIDS

8001200

1500 2500

140170

400 440 800 1200

V.MAX

(8)

Positionnement des individus – Principe de l’ACP (1) – Notion d’inertie

Principe : Construire un système de représentation de dimension réduite (q<< p) qui préserve les distancesentre les individus. On peut la voir comme une compression avec perte (contrôlée) de l’information.

Distance euclidienne

entre 2 individus (i, i’)

 

p

j

j i

ij

x

x i

i d

1

2 ' 2

( , ' )

Un critère global : distance entre l’ensemble des individus pris 2 à 2, inertie du nuage de points dans l’espace originel.Elle traduit la quantité d’information disponible.



n

i n

i

p

d i i

I n

1 ' 1 2

2

( , ' )

2 1

Autre écriture de l’inertie : écart par rapport au barycentre G (vecteur constitué des moyennes des p variables)

n

i

p

d i G

I n

1

2

( , ) 1

L’inertie indique la dispersion autour du barycentre, c’est une variance multidimensionnelle (calculée sur p dimensions)

1000 1500 2000 2500 3000

6080100120

CYL x PUIS

PUISS

G

(9)

Positionnement des individus – Principe de l’ACP (1) –Régression orthogonale

Habituellement on (a) centre et (b) réduit les variables. On parle d’ACP normée.

(a) Pour que G soit situé à l’origine [obligatoire]

(b) Pour rendre comparables les variables exprimées sur des échelles (unités) différentes [non obligatoire]

j j ij

ij

s

x z x

n

i ij

j x

x n

1

1

 

n

i

j ij

j x x

s n

1 2 1 2

(1) Trouver la première composante F1qui maximise l’écartement global des points par rapport à l’origine :

796628 .

1 1

1 2 1

1

  

n

i

F

i

n

Cas particulier de 2 variables c.r.

(Ip = p =2)

% 83 .

1 89 Ip

est la part d’inertie expliquée par le 1eraxe factoriel (ou 1èrecomposante)

(2) Trouver la 2ndecomposante F2qui traite l’inertie non-expliquée (résiduelle) par F1(par conséquent, F2est non corrélée avec F1)

p p

k

k    I

1

2 203 . 0 797 .

 1

2 10.17% Ip

(3) Et bien évidemment :

203372 .

1 0

1 2 2

2

  

n

i

F

i

n

-3 -2 -1 0 1 2 3

-3-2-10123

CYL x PUIS

CYL.CR

PUISS.CR

O

Minimisation

F1

89.83%

F2 10.17%

(10)

Préservation des proximités dans le repère réduit

(1) Les proximités entre individus sont préservées si on prend un nombre q de composantes suffisamment représentatives (en terme de % d’inertie exprimée) (2) Si on prend les « p » facteurs, on retrouve les distances dans le repère originel

Données centrées et réduites

Modele CYL PUISS

1 Toyota Corolla -1.2814 -1.4953 2 Citroen GS Club -1.1273 -1.2933

3 Simca 1300 -0.9292 -0.8389

4 Lada 1300 -0.9292 -0.8389

5 Lancia Beta -0.9209 -0.1319

6 Alfasud TI -0.7751 -0.2834

7 Rancho -0.5219 -0.2329

8 Renault 16 TL -0.1835 -1.4953

9 Alfetta 1.66 -0.1697 1.2316

10 Fiat 132 -0.1284 0.6761

11 Audi 100 -0.1202 0.0196

12 Mazda 9295 0.3779 -0.0814

13 Peugeot 504 0.4522 -0.2834

14 Princess 1800 0.4577 -0.1319

15 Opel Rekord 0.9558 0.7771

16 Taunus 2000 0.9943 0.6761

17 Datsun 200L 1.0081 1.5346

18 Renault 30 2.8408 2.1911

72529 . 1 ) 6 , 1 (

14415 . 1 ) 6 , 2 (

06455 . 0

)) 2933 . 1 ( 4953 . 1 ( )) 1273 . 1 ( 2814 . 1 ( ) 2 , 1 (

2 2

2 2

2

d d

d

Coordonnées dans le repère factoriel

Modele F1 (89.83%) F2 (10.17%) 1 Toyota Corolla 1.9635 0.1513 2 Citroen GS Club 1.7117 0.1174

3 Simca 1300 1.2502 -0.0639

4 Lada 1300 1.2502 -0.0639

5 Lancia Beta 0.7444 -0.5580

6 Alfasud TI 0.7484 -0.3477

7 Rancho 0.5337 -0.2044

8 Renault 16 TL 1.1871 0.9276

9 Alfetta 1.66 -0.7509 -0.9909

10 Fiat 132 -0.3873 -0.5689

11 Audi 100 0.0711 -0.0989

12 Mazda 9295 -0.2097 0.3248

13 Peugeot 504 -0.1194 0.5201

14 Princess 1800 -0.2304 0.4169

15 Opel Rekord -1.2254 0.1263

16 Taunus 2000 -1.1812 0.2250

17 Datsun 200L -1.7980 -0.3723

18 Renault 30 -3.5581 0.4594

 

 

 (1,6) 1.147632 92783 . 0 ) 6 , 2 (

06340 . 0

) 7117 . 1 9335 . 1 ( ) 2 , 1 (

1 1

1

2 2

2 2

F F

F

d d

d

Si on ne tient compte que de la 1ère composante (1 = 89.83%), les distances sont approximées. On constate néanmoins que les proximités sont assez bien

respectées (globalement).

Distances dans le repère originel (variables centrées et réduites)

Si on tient compte des 2 composantes, on retrouve les distances exactes entre les individus.

(1,6) 1.72529 14415 . 1 ) 6 , 2 (

06455 . 0

) 1174 . 0 1513 . 0 ( ) 7117 . 1 9635 . 1 ( ) 2 , 1 (

2 1

2 1

2 1

, 2

, 2

2 2

, 2

F F

F F

F F

d d

d

Une des questions clés de l’ACP est de définir le nombre de composantes « q » à retenir pour obtenir une

approximation suffisamment

(11)

Position du problème (2)

Analyse des relations entre les variables

(12)

Relations entres variables – Principe de l’ACP (2) –Matrice des corrélations

Le coefficient de corrélation mesure la liaison (linéaire) entre deux variables Xjet Xm

   

m j n

i

m im j ij

jm s s

x x x n x

r

1

1

Matrice des corrélations R sur les données « autos »

CYL

60 100 160 175 140 170

15002500

60100 PUISS

LONG

400460

160175

LARG

POIDS

8001200

1500 2500

140170

400 440 800 1200

V.MAX

Elle traduit numériquement ce que l’on peut observer dans les graphiques croisés des variables

CORR CYL PUISS LONG LARG POIDS V.MAX CYL 1 0.797 0.701 0.630 0.789 0.665 PUISS 0.797 1 0.641 0.521 0.765 0.844 LONG 0.701 0.641 1 0.849 0.868 0.476 LARG 0.630 0.521 0.849 1 0.717 0.473 POIDS 0.789 0.765 0.868 0.717 1 0.478 V.MAX 0.665 0.844 0.476 0.473 0.478 1

On peut essayer de la réorganiser manuellement pour mieux faire apparaître les « blocs» de variables mais….

(1) Ce ne sera jamais parfait

(2) La manipulation est inextricable dès que le nombre de variables est élevé

POIDS CYL PUISS LONG LARG V.MAX POIDS 1.000 0.789 0.765 0.868 0.717 0.478

CYL 0.789 1.000 0.797 0.701 0.630 0.665

PUISS 0.765 0.797 1.000 0.641 0.521 0.844

LONG 0.868 0.701 0.641 1.000 0.849 0.476

LARG 0.717 0.630 0.521 0.849 1.000 0.473

V.MAX 0.478 0.665 0.844 0.476 0.473 1.000

(13)

Relations entres variables – Principe de l’ACP (2) –Construction des composantes

p

j

j

F

r

1

1 2

1

( )

Construire la première composante F1qui permet de maximiser le carré de

sa corrélation avec les variables de la base de données

Habituellement, Inertie totale = Somme des variances des variables

Lorsque les données sont réduites (ACP normée), Inertie totale = Trace(R) = p

I

p

p

Part d’inertie expliquée par F1=

p

1

De nouveau, on observe la décomposition de l’information en composantes non

corrélées (orthogonales)

p

k

k

p

1

Exemple de traitement pour les p = 6 variables de la base de données

Axis Eigen value Proportion (%) Cumulative (%)

1 4.421 73.68% 73.68%

2 0.856 14.27% 87.95%

3 0.373 6.22% 94.17%

4 0.214 3.57% 97.73%

5 0.093 1.55% 99.28%

6 0.043 0.72% 100.00%

Tot. 6 - -

(14)

Correlation scatterplot (PCA_1_Axis_1 vs. PCA_1_Axis_2)

PCA_1_Axis_1

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1

PCA_1_Axis_2

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1

V.M AX LARGLONG

PUISS CYL POIDS

Relations entres variables – Principe de l’ACP (2) –Approximation des corrélations

L’ACP produit aussi une

approximation dans l’espace des variables (approximation des corrélations)

[Ex. si on ne prend en compte que

« q = 1 » facteur]

905 . 0 ) ( F

1

r

poids et

r

poids2

( F

1

)  0 . 819

225 . 0 ) ( F

2

r

poids et

r

poids2

( F

2

)  0 . 050

Si on exploite tous les « p » facteurs

p

k

k poids

F r

1

2

( ) 0 . 819 0 . 050  1

ACP sur les p = 6 variables,

cercle des corrélations. Liaison de la variable « poids » avec le 1eraxe

La représentation de la variable n’est pas complète, on a besoin d’un second facteur F2

789 .

,cyl

 0

poids

r

1

1 1

,

( ) ( ) ( ) 0 . 90519 0 . 89346 0 . 809

q

k

k cyl k

poids cyl

poids

F r F r F

r

Approximation assez bonne parce que POIDS et CYL sont bien représentées sur le 1erfacteur

478 .

max

0

.

,v

poids

r

683 . 0 75471 .

0 90519 .

0 ) (

1

max .

,

F   

r

poidsv

Approximation mauvaise parce que V.MAX est mal représentée sur le

74%

14%

(15)

Les mains dans le cambouis : comment sont obtenus les résultats de l’ACP ?

(16)

Objectif des calculs

Construire un ensemble de composantes (F1, F2, …, Fk,…), combinaisons linéaires des variables originelles (centrées et réduites), dont on peut apprécier la qualité de restitution de l’information à travers l’inertie reproduite (k)

Qui permettent de calculer les coordonnées des individus dans le repère factoriel, et de juger de leur proximité dans les différents plans factoriels

Que l’on interprétera en calculant leur corrélations (et autres indicateurs dérivés : CTR et COS²) avec les variables originelles (X1, X2, …, Xp)

 

 

) (

) (

) (

2 2 1 1

2 2 1 1

1 1

2 21 1

11 1

p p pp p

p p

k p pk k

k k

p p

z a z

a z a F

z a z

a z a F

z a z

a z a F

Comment obtenir les coefficients

« ajk» à partir des données ?

ip pk i

k i

k

ik

a z a z a z

F

1 1

2 2

  

Valeur de la variable Z2(X2après centrage et réduction) pour l’individu n°i

) (

k

x

F

r

j

Plus la corrélation est élevée en valeur absolue, plus forte est l’influence de la variable sur le facteur

(17)

Calcul via la diagonalisation de la matrice des corrélations

Calcul uniquement dans l’espace des variables,

mais résultats disponibles pour les deux points de vue (individus et variables)

(18)

#chargement du fichier de données

autos <- read.table(file="autos.txt",sep="\t",row.names=1,header=T,dec=".")

#calcul de la matrice des corrélations autos.cor <- cor(autos)

print(autos.cor)

#trace de la matrice = inertie totale print(sum(diag(autos.cor)))

#diagonalisation avec la fonction eigen autos.eigen <-eigen(autos.cor)

print(autos.eigen)

#calcul des corrélations des variables avec les composantes cor.factors <- NULL

for (j in 1:ncol(autos)){

rf <-sqrt(autos.eigen$values[j])*autos.eigen$vectors[,j]

cor.factors <- cbind(cor.factors,rf) }

rownames(cor.factors) <- colnames(autos)

colnames(cor.factors) <- paste("F",1:ncol(autos),sep="")

#affichage des 2 premières composantes seulement print(cor.factors[,1:2])

Valeurs propres = k

Vecteurs propres= ajk

jk k

k

x

F a

r

j

( )   

Corrélations

variables x facteurs

(19)

Calcul via la décomposition en valeurs singulières de la matrice des données centrées et réduites

Montre bien le caractère dual de l’analyse

(20)

#affichage des 3 premières obs. de Z print(head(autos.cr,3))

#décomposition en valeurs singulières svd.autos <-svd(autos.cr)

print(svd.autos,digits=3)

#calcul des inerties associées aux composantes print(svd.autos$d^2/nrow(autos))

zij

V

T

U

Z  

avec

k k k T

k k k

v u

Z

u v

Z

 Principe de la SVD

Calcul des inerties :

n

k k

2

 

V correspond aux vecteurs propres c.-à-d. les coef. ajk

On obtient les coordonnées

factorielles des individus avec

F

ik

 

k

u

ik

(21)

Que lire et comment lire les résultats de l’ACP ?

(22)

Détermination du nombre de composantes à retenir

(23)

Valeurs propres et détection empirique du nombre « q » de facteurs à retenir (1) Tableau des valeurs propres

(2) Eboulis des valeurs propres : «scree plot»

Axis Eigen value Difference Proportion (%) Cumulative (%)

1 4.420858 3.564796 73.68% 73.68%

2 0.856062 0.482996 14.27% 87.95%

3 0.373066 0.159144 6.22% 94.17%

4 0.213922 0.121121 3.57% 97.73%

5 0.092801 0.049511 1.55% 99.28%

6 0.04329 - 0.72% 100.00%

Tot. 6 - - -

Indications : (1) sur l’importance des composantes, (2) sur l’évolution de l’importance cumulée, (3) sur la qualité de l’information restituée par les «q » premiers facteurs.

« Règle du coude » de Cattell, négliger les composantes qui emmènent peu d’informations additionnelles. Très performante lorsqu’il y a des «blocs » de variables. Fournit surtout des

scénarios de solutions.

Problème : Intégrer le coude dans la sélection ? Ici, q = 2 ou q = 1 ? Tout dépend de la valeur propre associée au coude, si elle est faible, il faut exclure la composante associée.

Mais, en pratique, (a)il faut au moins « q = 2 » afin de pouvoir réaliser les représentations graphiques; (b) il faut aussi pouvoir

Scree plot

Component

6 5

4 3

2 1

Eigenvalue

4

3

2

1

0

(24)

Valeurs propres et détection numériquedu nombre « q » de facteurs à retenir (ACP normée) [1]

Règle de Kaiser-Guttman : si les variables sont indépendantes deux à deux, les valeurs propres k seraient toutes égales à 1.

Remarque 1 : cette règle ne tient pas compte du tout des caractéristiques des données.

Remarque 2 : On peut aussi voir le seuil « 1 » comme la moyenne des valeurs propres.

Axis Eigen value Difference Proportion (%) Cumulative (%)

1 4.420858 3.564796 73.68% 73.68%

2 0.856062 0.482996 14.27% 87.95%

3 0.373066 0.159144 6.22% 94.17%

4 0.213922 0.121121 3.57% 97.73%

5 0.092801 0.049511 1.55% 99.28%

6 0.04329 - 0.72% 100.00%

Tot. 6 - - -

Règle de Karlis-Saporta-Spinaki: rendre la règle plus stricte en tenant compte des caractéristiques (n et p) des données.

1 2 1

1 

 

n

p

A droite, nous avons 2 x écart-type des v.p. sous H0 un test unilatéral à 5%

08465 .

1 2 18

1 2 6

1 1 2 1

1 

 

 

 

n

seuil p

Axis Eigen value Difference Proportion (%) Cumulative (%)

1 4.420858 3.564796 73.68% 73.68%

2 0.856062 0.482996 14.27% 87.95%

3 0.373066 0.159144 6.22% 94.17%

4 0.213922 0.121121 3.57% 97.73%

5 0.092801 0.049511 1.55% 99.28%

6 0.04329 - 0.72% 100.00%

Tot. 6 - - -

(25)

Valeurs propres et détection numériquedu nombre « q » de facteurs à retenir (ACP normée) [2]

Test des « bâtons brisés » de Frontier (1976) et Legendre-Legendre (1983): si l’inertie était répartie aléatoirement sur les axes, la distribution des v.p.

suivrait la loi des « bâtons brisés ».

Problème : les tables sont rarement accessibles.

Heureusement les valeurs critiques à 5% peuvent être obtenues très facilement.

p

k m

k

m

b 1

La composante est validée si :

k

b

k

Eigenvalues - Significance Axis Eigenvalue Broken-stick

critical values

1 4.420858 2.45

2 0.856062 1.45

3 0.373066 0.95

4 0.213922 0.616667

5 0.092801 0.366667

6 0.04329 0.166667

45 . 6 2

1 5 1 4 1 3 1 2 1 1 1

1

      

b

95 . 6 0

1 5 1 4 1 3 1

3

    

b

Toutes les approches sont cohérentes : q = 1 seul facteur semble suffire dans cette étude. Par

commodité (hum, pas si sûr, cf. interprétation et rotation des axes), on en choisira q = 2.

(26)

Caractérisation des composantes par les variables

Analyse des relations entre les variables via les composantes

(27)

Caractérisation des facteurs à l’aide des variables –Cercle des corrélations

Corr. CTR (%) COS² (%) Corr. CTR (%) COS² (%)

POIDS 0.905 19% 82 % (82 %) 0.225 6% 5 % (87 %)

CYL 0.893 18% 80 % (80 %) -0.115 2% 1 % (81 %)

PUISS 0.887 18% 79 % (79 %) -0.385 17% 15 % (93 %)

LONG 0.886 18% 79 % (79 %) 0.381 17% 15 % (93 %)

LARG 0.814 15% 66 % (66 %) 0.413 20% 17 % (83 %)

V.MAX 0.755 13% 57 % (57 %) -0.574 38% 33 % (90 %)

Var. Expl. 4.42086 74 % (74 %) 0.85606 14 % (88 %)

Axis_1 Axis_2

Corrélation: degré de liaison de la variable avec la composante

Contributions: influence de la variable dans la définition de la composante (rarement fournie car redondante avec CORR et COS²)

p

j

jk k

k x

jk r F CTR

CTR j

1 2

1 );

(

Cosinus carré: qualité de représentation de la variable sur la composante. On peut la cumuler sur les q premières composantes.

p

k

jk q

k

jk jq

k x jk

COS

COS COS

F r COS j

1

2 1

2 2

2 2

1 )

(

p

j

k k

x F

r j

1

2( )

On utilise souvent le « cercle des corrélations » pour

obtenir une vision synthétique immédiate.

Correlation scatterplot (PCA_1_Axis_1 vs. PCA_1_Axis_2)

PCA_1_Axis_2

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8

V.M AX LARGLONG

PUISS CYL POIDS

On observe (axe 1 : 74%) un

« effet taille» marqué, que l’on peut lier à «l’encombrement / gamme » des véhicules ; mais aussi (axe 2 : 14%), une caractérisation par les performances (sportivité).

(28)

Reconstitution des corrélations –Corrélation reproduite et résiduelle

A nombre de composantes fixé, on peut

comparer les corrélations brutes calculées (en bleu) sur les données originelles, et celles estimées à partir du repère factoriel (en vert).

Nous avons choisi q = 2 pour les données

« AUTOS ».

L’approximation sera d’autant meilleure que les variables sont bien représentées dans le repère sélectionné.

COS² des variables cumulé pour les 2 premières composantes

Entre parenthèses la différence entre les corrélations

q

k

k x k x j

j

q

x x r F r F

r

j j

1

'

) ( ) ( )

, ˆ (

'

(29)

Caractérisation des composantes par les individus

Analyse des proximités entre individus via leurs coordonnées factorielles

(30)

Caractérisation des facteurs à l’aide des individus –Coordonnées,

contributions et cos²

di²indique la part de l’individu dans l’inertie totale (dans l’espace originel variables c.r.). C’est le carré de la distance à l’origine.



n

i i n

i p

j ij n

i

p d

z n G n

i n d

I

1 2

1 1

2 1

2 1 1

) , 1 (

N.B.

Modele Coord. CTR Cos² Coord. CTR Cos² SUM(COS²)

1 Alfasud TI -2.139 6% 56% -1.786 21% 39% 94%

2 Audi 100 1.561 3% 37% 1.527 15% 35% 71%

3 Simca 1300 -1.119 2% 58% 0.675 3% 21% 79%

4 Citroen GS Club -2.574 8% 98% -0.113 0% 0% 98%

5 Fiat 132 0.428 0% 16% -0.696 3% 41% 57%

6 Lancia Beta -0.304 0% 8% 0.196 0% 3% 12%

7 Peugeot 504 0.684 1% 31% 0.933 6% 58% 88%

8 Renault 16 TL -1.948 5% 67% 0.980 6% 17% 84%

9 Renault 30 4.410 24% 89% -1.064 7% 5% 94%

10 Toyota Corolla -3.986 20% 98% -0.236 0% 0% 98%

11 Alfetta 1.66 0.438 0% 4% -1.912 24% 82% 86%

12 Princess 1800 1.018 1% 53% 0.842 5% 36% 89%

13 Datsun 200L 2.941 11% 78% 0.559 2% 3% 81%

14 Taunus 2000 1.315 2% 70% -0.487 2% 10% 80%

15 Rancho -0.691 1% 24% 0.898 5% 41% 65%

16 Mazda 9295 0.386 0% 22% -0.356 1% 19% 40%

17 Opel Rekord 2.290 7% 86% -0.104 0% 0% 86%

18 Lada 1300 -2.709 9% 93% 0.144 0% 0% 93%

Axe 1 Axe 2

(1) Coordonnéefactorielle de l’individu Fik (permet de situer le positionnement relatif des observations).

(2) Contribution: indique l’influence de l’individu dans la définition du facteur

 

n

i

ik k

ik

ik CTR

n CTR F

1 2

1

 ;

(3) Cos²: indique la qualité de la représentation de l’individu sur le facteur (fraction de son inertie restituée par le facteur)

p

j

ik i

ik

ik COS

d COS F

1

2 2

2

2 ; 1

(4) Les cos² s’additionnent.

Qualité des représentations sur les q = 2 premiers facteurs.

Lecture : Les véhicules se

caractérisent par l’encombrement (axe 1, illustrés par les véhicules {9, 10, 13}) et la performance (axe 2, avec surtout {1, 2, 11}).

Remarque : {6, 16 et 5} sont mal représentés sur les q = 2 premières composantes parce qu’ils ne se distinguent ni par l’ encombrement (proche de la moyenne) ni par la performance (se situent dans la moyenne).

(31)

Représentation graphique des plans factoriels

Ce graphique fait en très grande partie la popularité de l’ACP. On peut y juger

visuellement des proximités (dissemblances) entre les individus.

Et on peut comprendre le pourquoi des proximités en considérant dans le même temps le cercle des corrélations.

-4 -2 0 2 4

-4-2024

Premier plan factoriel

Comp.1 (74%)

Comp.2 (14%)

Alfasud TI

Audi 100 Simca 1300

Citroen GS Club

Fiat 132 Lancia Beta

Peugeot 504 Renault 16 TL

Renault 30 Toyota Corolla

Alfetta 1.66 Princess 1800

Datsun 200L

Taunus 2000 Rancho

Mazda 9295 Opel Rekord Lada 1300

Correlation scatterplot (PCA_1_Axis_1 vs. PCA_1_Axis_2)

PCA_1_Axis_1

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1

PCA_1_Axis_2

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1

V.M AX LARGLONG

PUISS CYL POIDS

Remarque : certains proposent de mêler les deux représentations dans un graphique dit «biplot». Attention, les proximités individus-variables n’ont pas vraiment de sens. Ce sont les directions qui importent dans ce cas.

(32)

Variables illustratives

Renforcer l’interprétation des composantes

(33)

Variables illustratives

Variables non utilisées pour la construction des composantes. Mais utilisées après coup pour mieux comprendre / commenter les résultats.

Ex. Les caractéristiques intrinsèques des véhicules sont les variables actives (largeur, poids, puissance, etc.). En illustratives, on utilise des variables

introduisant des considérations subjectives (prix, gamme) ou calculées après coup pour une

meilleure interprétation (rapport poids/puissance).

Modele FINITION PRIX R.POID.PUIS

Alfasud TI 2_B 30570 11.01

Audi 100 3_TB 39990 13.06

Simca 1300 1_M 29600 15.44

Citroen GS Club 1_M 28250 15.76

Fiat 132 2_B 34900 11.28

Lancia Beta 3_TB 35480 13.17

Peugeot 504 2_B 32300 14.68

Renault 16 TL 2_B 32000 18.36

Renault 30 3_TB 47700 10.31

Toyota Corolla 1_M 26540 14.82

Alfetta-1.66 3_TB 42395 9.72

Princess-1800 2_B 33990 14.15

Datsun-200L 3_TB 43980 11.91

Taunus-2000 2_B 35010 11.02

Rancho 3_TB 39450 14.11

Mazda-9295 1_M 27900 13.19

Opel-Rekord 2_B 32700 11.20

Lada-1300 1_M 22100 14.04

Var. illustrative qualitative Var. illustratives quantitatives

(34)

Variables illustratives quantitatives

Calculer les corrélations des variables supplémentaires avec les facteurs. c.-à-d. calculer le coefficient de corrélation entre les coordonnées des « n » individus sur les facteurs et les valeurs prises par la variable illustrative. Il est possible de les placer dans le cercle des corrélations.

Correlation scatterplot (PCA_1_Axis_1 vs. PCA_1_Axis_2)

PCA_1_Axis_1

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1

PCA_1_Axis_2

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1

V.M AX LARGLONG

PUISS CYL POIDS

Prix R.Poid.Puis

     

k y

i n

i ik

F y n

i

k ik i

k

y s

y y n F

s s

F F y n y

F r

k  

 

 

1 1

1 1

) (

CORR Com p.1 Com p.2

PRIX 0.772 -0.087

R.POID.PUIS -0.589 0.673

Le rapport poids/puissance n’est pas lié positivement avec le poids parce que les voitures lourdes sont

comparativement plus puissantes.

Tester la « significativité » du lien avec la statistique basée sur la transformation de Fisher

 

 

 

r

n r u

y

1 ln 1 2

3 1

2

uy

Lien significatif à (~) 5% si

SIGNIF. Com p.1 Com p.2

PRIX 3.975 -0.337

R.POID.PUIS -2.619 3.158

(35)

Variables illustratives qualitatives

Comparer les moyennes des composantes conditionnellement aux groupes définis par les modalités de la variable illustrative qualitative.

Possibilité de tester la significativité de l’écart par

rapport à l’origine (moyenne des composantes = 0) avec la « valeur test » (Morineau, 1984).

g y i

ik g

gk

i

n

:

F

 1

g g k gk

g g F

k gk gk

n n

n n n

s n

n n VT F

k

 

 

 

 

1 0

1

2

 2 VT

gk Ecart significatif à (~) 5% si

FINITION n_g Moyenne Valeur.Test Moyenne Valeur.Test

1_M 5 -2.0004 -2.43 0.0226 0.06

2_B 7 0.2353 0.37 -0.0453 -0.16

3_TB 6 1.3924 1.93 0.0340 0.11

Comp.1 Comp.2

-4 -2 0 2 4

-4-2024

Premier plan factoriel

Comp.1 (74%)

Comp.2 (14%)

Alfasud TI

Audi 100 Simca 1300

Citroen GS Club

Fiat 132 Lancia Beta

Peugeot 504 Renault 16 TL

Renault 30 Toyota Corolla

Alfetta 1.66 Princess 1800

Datsun 200L

Taunus 2000 Rancho

Mazda 9295 Opel Rekord Lada 1300

M B TB

Conclusion : La finition progresse avec la

« gamme / encombrement», elle n’a aucun lien avec la « sportivité ».

Remarque :On pourrait également s’appuyer sur l’ANOVA pour comparer les moyennes, et/ou calculer le rapport de corrélation.

(36)

Individus illustratifs (supplémentaires)

Positionner de nouveaux individus

Références

Documents relatifs

— On présente une généralisation de la notion de « contribution d'un facteur à la variance d'une variable » [1] au cas d'un ensemble de facteurs par rapport à un ensemble

PUISS CYLI CoupleMax i LONG LARG HAUT COFFRE RESE POIDS VITE CONS PRIX. Correlation is signific ant at t he 0.01 lev

Note : Dans le cas de l'acp de la matrice des corrélations, les coordonnées des variables sont égales aux corrélations entre les variables et les différents vecteurs propres

Les éléments de A étant les coordonnées des variables observables sur les facteurs communs, si A contient de nombreux éléments nuls (structure simple pour A),

cation de ces ressemblances par le calcul de distances euclidiennes entre les indi- vidus rendu possible par le choix d’une métrique Q sur RP.. L’ANALYSE EN

Nous recherchons un codage des variables nominales (à chaque modalité de chaque variable nominale sera associé un nombre réel) tel que l’analyse en composantes

Dans la mesure où l'on peut définir sur un espace vectoriel sur (C une structure d'espace vectoriel sur fc ( cf. 121), ce qui amène à doubler sa dimension algébrique, on

Ils réalisent une dichotomie &#34;droite-gauche&#34; très classique pour cette sorte d'analyse (cf [1] par exemple). Les combinaisons linéaires corres- pondantes constituent