• Aucun résultat trouvé

Slides ACP

N/A
N/A
Protected

Academic year: 2022

Partager "Slides ACP"

Copied!
7
0
0

Texte intégral

(1)

Analyse en composantes principales

Sidi Mohamed oud maou

19 janvier 2015

Sidi Mohamed oud maou Analyse en composantes principales

Introduction

Dans la plupart des applications on observe un nombrep tr`es grand de variables ;

L’´etude univari´ee et bivari´ee est une phase indispensable mais tout `a fait insuffisante ;

Prendre en compte de leur caract`ere multidimensionnel lors de l’analyse ;

l’ACP est une m´ethode puissante pour explorer la structure multidimensionnelle des donn´ees ;

C’est ´egalement la m`ere de la plupart des m´ethodes descriptives multidimensionnelles

Sidi Mohamed oud maou Analyse en composantes principales

Introduction Premiers calculs etriques et inertie Projection des individus Interpretation des r´esultats

Exemple

Ci-dessus les notes de neuf ´etudiants dans quatres disciplines

MATH PHYS FRAN ANGL

jean 6.00 6.00 5.00 5.50

alan 8.00 8.00 8.00 8.00

anni 6.00 7.00 11.00 9.50

moni 14.50 14.50 15.50 15.00 didi 14.00 14.00 12.00 12.50

andr 11.00 10.00 5.50 7.00

pier 5.50 7.00 14.00 11.50

brig 13.00 12.50 8.50 9.50

evel 9.00 9.50 12.50 12.00

Introduction Premiers calculs etriques et inertie Projection des individus Interpretation des r´esultats

Premiers calculs

X = xij tableau de donn´es

Y =

xij −x¯j tableau centr´e

Z = xijx¯j

sj

tableau centr´e r´eduit o`u xij est la valeur prise par la variable num´ero j sur lei-`eme individu.

A chaque variable est associ´ee `a un vecteur de,` (xj)T =

x1j,·,xnj

∈Rn et chaque individu est associ´e `a un vecteur de ,ei =!

xi1,· · ·xip

∈Rp Poids des individusp1, ...pn,

D =

p1 · · · 0 ... . .. ...

0 · · · p

(2)

Premiers calculs

Cas usuel : p1=...=pn= n1 et D = 1nIn Le centre de gravit´e du nuage de points g =

1,· · · ,x¯p avec ¯xj =Pn

i=1pixij et sj2 =Pn

i=1pi(xij)2−( ¯xj)2 On pose

D1/s =

1/s1 · · · 0 ... . .. ... 0 · · · 1/sp

g =XTD1; Y = (I−11TD)X; Z =YD1/s; V = XTDX −gTg =YTDY; R=D1/sVD1/s =ZTDZ

Sidi Mohamed oud maou Analyse en composantes principales

Exemple

les moyennes sont les suivantes MATH PHYS FRAN ANGL 9.67 9.83 10.22 10.06

Les moyenne sont de mˆeme ordre grandeur la matrice de variance-covariance

MATH PHYS FRAN ANGL MATH 11.39 9.92 2.66 4.82 PHYS 9.92 8.94 4.12 5.48 FRAN 2.66 4.12 12.06 9.29 ANGL 4.82 5.48 9.29 7.91 Les variances le sont aussi

Sidi Mohamed oud maou Analyse en composantes principales

Introduction Premiers calculs etriques et inertie Projection des individus Interpretation des r´esultats

M´ etriques et inertie

.

M une m´etrique sur l’espace des individus (g´en´eralement on prend M =I ouM =D1/s2)

On appelle Inertie du nuage de points Ig =

n

X

i=1

pi(ei −g)M(ei−g)T On montre que

Ig =

n

X

i=1

pikei−gk2M = 1/2

n

X

j=1 n

X

i=1

pjpikei−ejk2M =Trace(MV)

Introduction Premiers calculs etriques et inertie Projection des individus Interpretation des r´esultats

M´ etriques et inertie

on a

SiM =I, Ig=Pp

j=1Yj TDYj =Pp

j=1kYjk2D. L’inertie est

´egale la des somme variances des variables ; SiM =D1/s2,Ig=Pp

j=1Zj TDZj =Pp

j=1kZjk2D. L’inertie est

´egale trace deR et est ´egale au nombre de variablesp La notion d’inertie g´en´eralise celle de la variance de le cas multivari´e.

(3)

M´ etriques et inertie

Pour ´etudier la proximit´e des variables entre elles il faut munir cet espace d’une m´etrique, c’est-`a-dire trouver une matrice d’ordren d´efinie positive sym´etrique

Ici il n’y a pas d’h´esitation comme pour l’espace des individus et le choix se porte sur la matrice diagonale des poidsD pour les raisons suivantes :

Le produit scalaire de deux variables n’est autre que la covariance

Si les deux variables sont centr´ees. La norme d’une variable en d’autres termes la ”longueur” d’une variable est ´egale `a son

´ecart-type.

L’angle entre deux variables centr´ees est donn´e par leur coefficient de corr´elation

Sidi Mohamed oud maou Analyse en composantes principales

L’analyse

Le principe de l’ACP est d’obtenir une repr´esentation approch´ee dans un sous-espace de dimension faible.

Projeter en d´eformant le moins possible les distances entre projections

Le sous-espace de dimensionk recherch´e est tel l’inertie projet´ee soit la plus grande possible.

Soita∈Rp un axe donn´e de M−norm´e 1. Les coordonn´ees ci des projections du nuage centr´e sur cet axe sont

ci = (ei −g)TMa.

En posantcT = (c1,c2, ...,cn)∈Rn, on ac =YMa.

l’inertie projet´e Ig(a) =V(c) =

n

X

i=1

pici2 =cTDc =aTMYTDYMa=aTMVMa

Sidi Mohamed oud maou Analyse en composantes principales

Introduction Premiers calculs etriques et inertie Projection des individus Interpretation des r´esultats

L’analyse

Le probl`eme revient `a chercher l’axe qui maximise l’inertie projet´e

maxaIg(a) s.c. aTMa= 1.

La solution est donn´ee par la m´ethode du multiplicateur de Lagrange

MVMa=λMa aTMa= 1 ⇔

aest v.p. M−norm´e associ´e `a la v.p.λ=aTMVMa pourVM Le sous-espace de dimension k recherch´e est celui engendr´e par k premiers vecteurs propres M−orthonorm´es associ´ee aux valeurs propres les plus grandes de VM.

Introduction Premiers calculs etriques et inertie Projection des individus Interpretation des r´esultats

L’analyse

L’ACP revient `a diagonaliser la matriceVM. Siaj sont les v.p.sM−orthonorm´es (aTj Maj = 1 et

ajTMak = 0) associ´es λj pourVM, alors uj =Maj et cj =Yuj

v.p.s associ´es `aλj respectivementM1−orthonorm´es pourMV et D−orthogonaux pour YMYTD et on a kcjk2Dj.

a: axes principaux ;u : facteurs principaux et c : composantes principales.

En pratique on cherche les vecteursu.

(4)

Cas usuels

Si M =I, on cherche les vecteurs propresu orthonorm´es de la matrice des covariances. Dans ce cas c =Yu

Si M =D1/s2 on cherche les vecteurs propres orthonorm´es de la matrice des correlations. En effet si u tel que

D1/s2Vu=λu, alors D1/sVD1/sD1/s1u=λD1/s1u. Donc

v =D1/s1u est un vecteur propre associ´e `aλpour la matriceR et on avTv = 1. Dans ce casc =Zv.

Sidi Mohamed oud maou Analyse en composantes principales

Nombre d’axes ` a retenir et crit` eres

L’ACP construit de nouvelles variables, fournit des repr´esentations graphiques.

L’interpr´etation des r´esultats est une phase d´elicate.

Pourcentage d’inertie expliqu´ee λ1+· · ·+λk

Ig

= λ1+· · ·+λk

λ1+· · ·+λp

Crit`ere du coude.D´ecrochement (coude) sur l’´eboulis des valeurs propres

Crit`ere de Kaiser.Axes dont l’inertie est sup´erieure `a l’inertie moyenneI/p. En ACP norm´ee : I/p = 1.

Crit`ere du Scree-test. Axes correspondant `a des diff´erences secondes>0

Dans la pratique on retiendra les axes qu’on sait interpr´eter.

Sidi Mohamed oud maou Analyse en composantes principales

Introduction Premiers calculs etriques et inertie Projection des individus Interpretation des r´esultats

Exemple

eigenvalue per. of variance cum. per. of variance

comp 1 2.88 71.89 71.89

comp 2 1.12 27.99 99.88

comp 3 0.00 0.09 99.97

comp 4 0.00 0.03 100.00

Introduction Premiers calculs etriques et inertie Projection des individus Interpretation des r´esultats

Exemple

comp 1 comp 2 comp 3 comp 4

Eboulis des valeurs popres

eigenvalue 0.00.51.01.52.02.5

(5)

Corr´ elations variables-facteurs

Corr´elations variables-facteurs.Donner une signification `a une composante principale en la reliant aux variables initiales Les coefficients de corr´elation lin´eaire r(c;xj). Chercher les plus fortes

Si M =D1/s2 on a r(ck;xj) =√ λkujk, Si M =I,r(ck;xj) =√

λk/sjujk

Pour 2 composantes principales, on synth´etise les corr´elations sur le ”cercle des corr´elations”

Sidi Mohamed oud maou Analyse en composantes principales

Exemple

Les corr´elations des variables-facteurs. Dans le cas d’une ACP sur les donn´ees r´eduites ce sont aussi les coordon´ees

Dim.1 Dim.2 Dim.3 Dim.4 MATH 0.81 -0.58 -0.01 0.02 PHYS 0.90 -0.43 0.03 -0.02 FRAN 0.75 0.66 0.03 0.01 ANGL 0.91 0.40 -0.04 -0.01

Sidi Mohamed oud maou Analyse en composantes principales

Introduction Premiers calculs etriques et inertie Projection des individus Interpretation des r´esultats

Exemple

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

Cercle des corrélations

Comp.1(71.89%)

Comp.2(27.99%)

MATH PHYS FRAN

ANGL

Introduction Premiers calculs etriques et inertie Projection des individus Interpretation des r´esultats

Contributions des variables

Lacontributionsd’une variables `a l’inertie d’un axe ; CNTVkj = r2(ck;xj)

λk = (ujk)2.

Ce sont les variables dont la contribution est sup´erieure `a la moyenne qui permettent de donner un sens `a l’axe.

On retiendra donc les variables telles que|ujk|> 1p. On diff´erencie ces variable par le signe deujk

(6)

Qualit´ e de repr´ esentation des variables

Pour chaque variable on mesure la qualit´e de sa repr´esentation par son cos2.

On a pour la variable j la qualit´e de sa repr´esentation sur l’axe k est donn´ee par

cos2k(xj) =r2(ck,xj) Les cosinus sont additive et donc la qualit´e de la

repr´esentation d’une variable sur le premier plan est la somme des cosinus sur les deux premiers axes :

cos21,2(xj) = cos21(xj) + cos22(xj).

La proximit´e deux variables (bien repr´ensent´ees) sur un axe donne une approximation de leur corr´elation.

Sidi Mohamed oud maou Analyse en composantes principales

Exemple

Les contributions des variables dans la formations des axes Dim.1 Dim.2 Dim.3 Dim.4

MATH 22.89 30.46 4.10 42.54 PHYS 28.29 16.55 19.47 35.69 FRAN 19.71 38.59 28.35 13.35 ANGL 29.11 14.39 48.08 8.41

Les qualit´es de r´epresentations de ces varibles Dim.1 Dim.2 Dim.3 Dim.4

MATH 0.66 0.34 0 0

PHYS 0.81 0.19 0 0

FRAN 0.57 0.43 0 0

ANGL 0.84 0.16 0 0

Sidi Mohamed oud maou Analyse en composantes principales

Introduction Premiers calculs etriques et inertie Projection des individus Interpretation des r´esultats

La place et l’importance des individus

On peut r´epresenter les individus par leurs coordonn´ees (ci,1,ci,2) sur le premier plan factoriel

Une forte corr´elation entre c1 etxj signifie que les individus ayant une forte coordonn´ee positive sur l’axe 1 sont

caract´eris´es par une valeur de xj nettement sup´erieure `a la moyenne

En cas d’individus non anonymes, ceux-ci peuvent aider `a l’interpr´etation des axes principaux

On recherchera les individus oppos´es le long d’un axe.

Introduction Premiers calculs etriques et inertie Projection des individus Interpretation des r´esultats

Exemple

−2 −1 0 1 2 3

−1.5−1.0−0.50.00.51.01.52.0

1er Plan principal

Comp.1(71.89%)

Comp.2(27.99%)

jean alan

anni

moni

didi

andr pier

brig evel

(7)

La place et l’importance des individus

La contribution apport´ee par un individu est donn´ee par CntIik = pi(cik)2

λk .

Pour n grand, on pourra donc consid´erer qu’un individu a une contribution excessive si elle d´epasse 4 fois son poids.

Sidi Mohamed oud maou Analyse en composantes principales

Exemple

Dim.1 Dim.2 Dim.3 Dim.4 jean 29.07 1.81 1.65 5.42 alan 5.95 0.23 0.06 5.25 anni 4.11 10.93 10.55 0.13 moni 38.05 0.34 0.40 23.79 didi 16.26 3.91 1.87 37.97 andr 3.64 22.25 2.13 19.25 pier 0.43 37.25 9.46 0.91 brig 1.49 16.54 13.63 1.63 evel 1.01 6.74 60.25 5.66

Sidi Mohamed oud maou Analyse en composantes principales

Introduction Premiers calculs etriques et inertie Projection des individus Interpretation des r´esultats

Qualit´ e des repr´ esentations

La qualit´e de repr´esentation de l’individu i sur l’axek est mesur´ee par

cos2k(ei) = (cik)2

((ci1)2+· · ·+ (cip)2). La proximit´e dans l’espace entre deux individus bien

repr´esent´es traduit la ressemblance de ces deux individus du point de vue des valeurs prises par les variables.

Introduction Premiers calculs etriques et inertie Projection des individus Interpretation des r´esultats

Exemple

Dim.1 Dim.2 Dim.3 Dim.4 jean 0.98 0.02 0.00 0 alan 0.98 0.01 0.00 0 anni 0.49 0.51 0.00 0 moni 1.00 0.00 0.00 0 didi 0.91 0.09 0.00 0 andr 0.30 0.70 0.00 0 pier 0.03 0.97 0.00 0 brig 0.19 0.81 0.00 0 evel 0.27 0.71 0.02 0

Références

Documents relatifs

Nous nous proposons dans cette question de montrer qu’il n’existe pas d’isomorphisme entre E et E ∗ , qui v´ erifie une propri´ et´ e analogue.. Faisons la preuve

Le groupe sym´ etrique S n est engendr´ e par les transpositions, c’est-` a-dire que toute permutation est un produit de

Pour simplifier les notations on identifie les ´ el´ ements de Z /n Z avec les en- tiers 0, 1,.. Le syst` eme de chiffrement utilis´ e par Alice et Bob est un syst` eme

[r]

f est autoadjoint ⇐⇒ sa matrice [f ] B dans une base orthonorm´ ee B est sym´ etrique (si E est euclidien) (et hermitienne si E est hermitien)..

b) Donner l’exemple d’une suite d´ ecroissante (pour l’inclusion) de parties ouvertes de R dont l’intersection est ferm´ ee, mais non ouverte. De mˆ eme, donner l’exemple

Une matrice sym´ etrique r´ eelle est dite (d´ efinie) positive si toutes ses valeurs propres sont (strictement)

Indication: on pourra relier la forme quadratique q ` a la matrice sym´ etrique