Analyse en composantes principales
Sidi Mohamed oud maou
19 janvier 2015
Sidi Mohamed oud maou Analyse en composantes principales
Introduction
Dans la plupart des applications on observe un nombrep tr`es grand de variables ;
L’´etude univari´ee et bivari´ee est une phase indispensable mais tout `a fait insuffisante ;
Prendre en compte de leur caract`ere multidimensionnel lors de l’analyse ;
l’ACP est une m´ethode puissante pour explorer la structure multidimensionnelle des donn´ees ;
C’est ´egalement la m`ere de la plupart des m´ethodes descriptives multidimensionnelles
Sidi Mohamed oud maou Analyse en composantes principales
Introduction Premiers calculs M´etriques et inertie Projection des individus Interpretation des r´esultats
Exemple
Ci-dessus les notes de neuf ´etudiants dans quatres disciplines
MATH PHYS FRAN ANGL
jean 6.00 6.00 5.00 5.50
alan 8.00 8.00 8.00 8.00
anni 6.00 7.00 11.00 9.50
moni 14.50 14.50 15.50 15.00 didi 14.00 14.00 12.00 12.50
andr 11.00 10.00 5.50 7.00
pier 5.50 7.00 14.00 11.50
brig 13.00 12.50 8.50 9.50
evel 9.00 9.50 12.50 12.00
Introduction Premiers calculs M´etriques et inertie Projection des individus Interpretation des r´esultats
Premiers calculs
X = xij tableau de donn´es
Y =
xij −x¯j tableau centr´e
Z = xij−x¯j
sj
tableau centr´e r´eduit o`u xij est la valeur prise par la variable num´ero j sur lei-`eme individu.
A chaque variable est associ´ee `a un vecteur de,` (xj)T =
x1j,·,xnj
∈Rn et chaque individu est associ´e `a un vecteur de ,ei =!
xi1,· · ·xip
∈Rp Poids des individusp1, ...pn,
D =
p1 · · · 0 ... . .. ...
0 · · · p
Premiers calculs
Cas usuel : p1=...=pn= n1 et D = 1nIn Le centre de gravit´e du nuage de points g =
x¯1,· · · ,x¯p avec ¯xj =Pn
i=1pixij et sj2 =Pn
i=1pi(xij)2−( ¯xj)2 On pose
D1/s =
1/s1 · · · 0 ... . .. ... 0 · · · 1/sp
g =XTD1; Y = (I−11TD)X; Z =YD1/s; V = XTDX −gTg =YTDY; R=D1/sVD1/s =ZTDZ
Sidi Mohamed oud maou Analyse en composantes principales
Exemple
les moyennes sont les suivantes MATH PHYS FRAN ANGL 9.67 9.83 10.22 10.06
Les moyenne sont de mˆeme ordre grandeur la matrice de variance-covariance
MATH PHYS FRAN ANGL MATH 11.39 9.92 2.66 4.82 PHYS 9.92 8.94 4.12 5.48 FRAN 2.66 4.12 12.06 9.29 ANGL 4.82 5.48 9.29 7.91 Les variances le sont aussi
Sidi Mohamed oud maou Analyse en composantes principales
Introduction Premiers calculs M´etriques et inertie Projection des individus Interpretation des r´esultats
M´ etriques et inertie
.
M une m´etrique sur l’espace des individus (g´en´eralement on prend M =I ouM =D1/s2)
On appelle Inertie du nuage de points Ig =
n
X
i=1
pi(ei −g)M(ei−g)T On montre que
Ig =
n
X
i=1
pikei−gk2M = 1/2
n
X
j=1 n
X
i=1
pjpikei−ejk2M =Trace(MV)
Introduction Premiers calculs M´etriques et inertie Projection des individus Interpretation des r´esultats
M´ etriques et inertie
on a
SiM =I, Ig=Pp
j=1Yj TDYj =Pp
j=1kYjk2D. L’inertie est
´egale la des somme variances des variables ; SiM =D1/s2,Ig=Pp
j=1Zj TDZj =Pp
j=1kZjk2D. L’inertie est
´egale trace deR et est ´egale au nombre de variablesp La notion d’inertie g´en´eralise celle de la variance de le cas multivari´e.
M´ etriques et inertie
Pour ´etudier la proximit´e des variables entre elles il faut munir cet espace d’une m´etrique, c’est-`a-dire trouver une matrice d’ordren d´efinie positive sym´etrique
Ici il n’y a pas d’h´esitation comme pour l’espace des individus et le choix se porte sur la matrice diagonale des poidsD pour les raisons suivantes :
Le produit scalaire de deux variables n’est autre que la covariance
Si les deux variables sont centr´ees. La norme d’une variable en d’autres termes la ”longueur” d’une variable est ´egale `a son
´ecart-type.
L’angle entre deux variables centr´ees est donn´e par leur coefficient de corr´elation
Sidi Mohamed oud maou Analyse en composantes principales
L’analyse
Le principe de l’ACP est d’obtenir une repr´esentation approch´ee dans un sous-espace de dimension faible.
Projeter en d´eformant le moins possible les distances entre projections
Le sous-espace de dimensionk recherch´e est tel l’inertie projet´ee soit la plus grande possible.
Soita∈Rp un axe donn´e de M−norm´e 1. Les coordonn´ees ci des projections du nuage centr´e sur cet axe sont
ci = (ei −g)TMa.
En posantcT = (c1,c2, ...,cn)∈Rn, on ac =YMa.
l’inertie projet´e Ig(a) =V(c) =
n
X
i=1
pici2 =cTDc =aTMYTDYMa=aTMVMa
Sidi Mohamed oud maou Analyse en composantes principales
Introduction Premiers calculs M´etriques et inertie Projection des individus Interpretation des r´esultats
L’analyse
Le probl`eme revient `a chercher l’axe qui maximise l’inertie projet´e
maxaIg(a) s.c. aTMa= 1.
La solution est donn´ee par la m´ethode du multiplicateur de Lagrange
MVMa=λMa aTMa= 1 ⇔
aest v.p. M−norm´e associ´e `a la v.p.λ=aTMVMa pourVM Le sous-espace de dimension k recherch´e est celui engendr´e par k premiers vecteurs propres M−orthonorm´es associ´ee aux valeurs propres les plus grandes de VM.
Introduction Premiers calculs M´etriques et inertie Projection des individus Interpretation des r´esultats
L’analyse
L’ACP revient `a diagonaliser la matriceVM. Siaj sont les v.p.sM−orthonorm´es (aTj Maj = 1 et
ajTMak = 0) associ´es λj pourVM, alors uj =Maj et cj =Yuj
v.p.s associ´es `aλj respectivementM−1−orthonorm´es pourMV et D−orthogonaux pour YMYTD et on a kcjk2D =λj.
a: axes principaux ;u : facteurs principaux et c : composantes principales.
En pratique on cherche les vecteursu.
Cas usuels
Si M =I, on cherche les vecteurs propresu orthonorm´es de la matrice des covariances. Dans ce cas c =Yu
Si M =D1/s2 on cherche les vecteurs propres orthonorm´es de la matrice des correlations. En effet si u tel que
D1/s2Vu=λu, alors D1/sVD1/sD1/s−1u=λD1/s−1u. Donc
v =D1/s−1u est un vecteur propre associ´e `aλpour la matriceR et on avTv = 1. Dans ce casc =Zv.
Sidi Mohamed oud maou Analyse en composantes principales
Nombre d’axes ` a retenir et crit` eres
L’ACP construit de nouvelles variables, fournit des repr´esentations graphiques.
L’interpr´etation des r´esultats est une phase d´elicate.
Pourcentage d’inertie expliqu´ee λ1+· · ·+λk
Ig
= λ1+· · ·+λk
λ1+· · ·+λp
Crit`ere du coude.D´ecrochement (coude) sur l’´eboulis des valeurs propres
Crit`ere de Kaiser.Axes dont l’inertie est sup´erieure `a l’inertie moyenneI/p. En ACP norm´ee : I/p = 1.
Crit`ere du Scree-test. Axes correspondant `a des diff´erences secondes>0
Dans la pratique on retiendra les axes qu’on sait interpr´eter.
Sidi Mohamed oud maou Analyse en composantes principales
Introduction Premiers calculs M´etriques et inertie Projection des individus Interpretation des r´esultats
Exemple
eigenvalue per. of variance cum. per. of variance
comp 1 2.88 71.89 71.89
comp 2 1.12 27.99 99.88
comp 3 0.00 0.09 99.97
comp 4 0.00 0.03 100.00
Introduction Premiers calculs M´etriques et inertie Projection des individus Interpretation des r´esultats
Exemple
comp 1 comp 2 comp 3 comp 4
Eboulis des valeurs popres
eigenvalue 0.00.51.01.52.02.5
Corr´ elations variables-facteurs
Corr´elations variables-facteurs.Donner une signification `a une composante principale en la reliant aux variables initiales Les coefficients de corr´elation lin´eaire r(c;xj). Chercher les plus fortes
Si M =D1/s2 on a r(ck;xj) =√ λkujk, Si M =I,r(ck;xj) =√
λk/sjujk
Pour 2 composantes principales, on synth´etise les corr´elations sur le ”cercle des corr´elations”
Sidi Mohamed oud maou Analyse en composantes principales
Exemple
Les corr´elations des variables-facteurs. Dans le cas d’une ACP sur les donn´ees r´eduites ce sont aussi les coordon´ees
Dim.1 Dim.2 Dim.3 Dim.4 MATH 0.81 -0.58 -0.01 0.02 PHYS 0.90 -0.43 0.03 -0.02 FRAN 0.75 0.66 0.03 0.01 ANGL 0.91 0.40 -0.04 -0.01
Sidi Mohamed oud maou Analyse en composantes principales
Introduction Premiers calculs M´etriques et inertie Projection des individus Interpretation des r´esultats
Exemple
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
Cercle des corrélations
Comp.1(71.89%)
Comp.2(27.99%)
MATH PHYS FRAN
ANGL
Introduction Premiers calculs M´etriques et inertie Projection des individus Interpretation des r´esultats
Contributions des variables
Lacontributionsd’une variables `a l’inertie d’un axe ; CNTVkj = r2(ck;xj)
λk = (ujk)2.
Ce sont les variables dont la contribution est sup´erieure `a la moyenne qui permettent de donner un sens `a l’axe.
On retiendra donc les variables telles que|ujk|> √1p. On diff´erencie ces variable par le signe deujk
Qualit´ e de repr´ esentation des variables
Pour chaque variable on mesure la qualit´e de sa repr´esentation par son cos2.
On a pour la variable j la qualit´e de sa repr´esentation sur l’axe k est donn´ee par
cos2k(xj) =r2(ck,xj) Les cosinus sont additive et donc la qualit´e de la
repr´esentation d’une variable sur le premier plan est la somme des cosinus sur les deux premiers axes :
cos21,2(xj) = cos21(xj) + cos22(xj).
La proximit´e deux variables (bien repr´ensent´ees) sur un axe donne une approximation de leur corr´elation.
Sidi Mohamed oud maou Analyse en composantes principales
Exemple
Les contributions des variables dans la formations des axes Dim.1 Dim.2 Dim.3 Dim.4
MATH 22.89 30.46 4.10 42.54 PHYS 28.29 16.55 19.47 35.69 FRAN 19.71 38.59 28.35 13.35 ANGL 29.11 14.39 48.08 8.41
Les qualit´es de r´epresentations de ces varibles Dim.1 Dim.2 Dim.3 Dim.4
MATH 0.66 0.34 0 0
PHYS 0.81 0.19 0 0
FRAN 0.57 0.43 0 0
ANGL 0.84 0.16 0 0
Sidi Mohamed oud maou Analyse en composantes principales
Introduction Premiers calculs M´etriques et inertie Projection des individus Interpretation des r´esultats
La place et l’importance des individus
On peut r´epresenter les individus par leurs coordonn´ees (ci,1,ci,2) sur le premier plan factoriel
Une forte corr´elation entre c1 etxj signifie que les individus ayant une forte coordonn´ee positive sur l’axe 1 sont
caract´eris´es par une valeur de xj nettement sup´erieure `a la moyenne
En cas d’individus non anonymes, ceux-ci peuvent aider `a l’interpr´etation des axes principaux
On recherchera les individus oppos´es le long d’un axe.
Introduction Premiers calculs M´etriques et inertie Projection des individus Interpretation des r´esultats
Exemple
−2 −1 0 1 2 3
−1.5−1.0−0.50.00.51.01.52.0
1er Plan principal
Comp.1(71.89%)
Comp.2(27.99%)
jean alan
anni
moni
didi
andr pier
brig evel
La place et l’importance des individus
La contribution apport´ee par un individu est donn´ee par CntIik = pi(cik)2
λk .
Pour n grand, on pourra donc consid´erer qu’un individu a une contribution excessive si elle d´epasse 4 fois son poids.
Sidi Mohamed oud maou Analyse en composantes principales
Exemple
Dim.1 Dim.2 Dim.3 Dim.4 jean 29.07 1.81 1.65 5.42 alan 5.95 0.23 0.06 5.25 anni 4.11 10.93 10.55 0.13 moni 38.05 0.34 0.40 23.79 didi 16.26 3.91 1.87 37.97 andr 3.64 22.25 2.13 19.25 pier 0.43 37.25 9.46 0.91 brig 1.49 16.54 13.63 1.63 evel 1.01 6.74 60.25 5.66
Sidi Mohamed oud maou Analyse en composantes principales
Introduction Premiers calculs M´etriques et inertie Projection des individus Interpretation des r´esultats
Qualit´ e des repr´ esentations
La qualit´e de repr´esentation de l’individu i sur l’axek est mesur´ee par
cos2k(ei) = (cik)2
((ci1)2+· · ·+ (cip)2). La proximit´e dans l’espace entre deux individus bien
repr´esent´es traduit la ressemblance de ces deux individus du point de vue des valeurs prises par les variables.
Introduction Premiers calculs M´etriques et inertie Projection des individus Interpretation des r´esultats
Exemple
Dim.1 Dim.2 Dim.3 Dim.4 jean 0.98 0.02 0.00 0 alan 0.98 0.01 0.00 0 anni 0.49 0.51 0.00 0 moni 1.00 0.00 0.00 0 didi 0.91 0.09 0.00 0 andr 0.30 0.70 0.00 0 pier 0.03 0.97 0.00 0 brig 0.19 0.81 0.00 0 evel 0.27 0.71 0.02 0