• Aucun résultat trouvé

Analyse en Composantes Principales

N/A
N/A
Protected

Academic year: 2022

Partager "Analyse en Composantes Principales"

Copied!
12
0
0

Texte intégral

(1)

Introduction ethode Exemple esum´e Applications

Analyse en Composantes Principales

Vincent Nozick

Vincent Nozick Analyse en Composantes Principales 1 / 46

Introduction ethode Exemple esum´e Applications

Analyse en Composantes Principales

Introduction :

M´ethode qui permet d’identifier les corr´elations entre des variables.

En anglais : Principal Component Analysis (PCA)

Vincent Nozick Analyse en Composantes Principales 2 / 46

Introduction ethode Exemple esum´e Applications

Analyse en Composantes Principales

Plus pr´ecis´ement :

L’ACP traite un tableau d’individus×variables.

individus









variables

z }| {

Introduction ethode Exemple esum´e Applications

Exemples

individus vins notes examen salaire

variables fruit´e qt´e de travail ann´ees d’´etudes charpent´e pointure exp´erience pro capiteux aime chocolat homme / femme gouleyant

Les enjeux :

´evaluer les ressemblances entre individus.

r´esumer l’ensemble desvariables par un petit nombre de vari- ables synth´etiques (les composantes principales) repr´esentant un groupe de variables li´ees entres elles.

trier les composantes principales par ordre d’impact.

→ permet d’´eliminer les variables non pertinentes.

(2)

Limitations

Age de Miss Americaˆ corr´el´e avec

Meurtres par vapeurs et objets chauds

spurrious correlations : http://tylervigen.com/

Une corr´elation n’implique pas de relation de cause `a effet.

Vincent Nozick Analyse en Composantes Principales 5 / 46

Exemple 2D

individus = points variables = 2 coordonn´ees

A=

12 14

5 8

8 7

20 11

· · · · 14 16 7 10 22 15

Vincent Nozick Analyse en Composantes Principales 6 / 46

Introduction ethode Exemple esum´e Applications

Centrer les donn´ ees

donn´ees de d´epart

Introduction ethode Exemple esum´e Applications

Centrer les donn´ ees

calcul des moyenneshAi•i pour chaque variable i

(3)

Introduction ethode Exemple esum´e Applications

Centrer les donn´ ees

centrer les donn´ees : Aij ←Aij− hAi•i

Vincent Nozick Analyse en Composantes Principales 9 / 46

Introduction ethode Exemple esum´e Applications

Covariance

D´efinition : Cov(x,y) = Pn

i=1(xi− hxi)(yi− hyi) n−1

Corr´elation entre 2 axes :

Cov(x,y)>0 : les 2 dimensions varient conform´ement

Cov(x,y)<0 : les 2 dimensions varient de fa¸con contraire

Cov(x,y) = 0: les 2 dimensions sont ind´ependantes

Notes :

Cov(x,y) =Cov(y,x)

Cov(x,x) = variance dex

Vincent Nozick Analyse en Composantes Principales 10 / 46

Introduction ethode Exemple esum´e Applications

Matrice de covariance

Qui varie avec qui ?

C=

Cov(x,x) Cov(x,y) Cov(x,z)

• Cov(y,y) Cov(y,z)

• • Cov(z,z)

Pour nos donn´ees : C= A>mnAnm n−1 Note : La matrice Cest sym´etrique.

Introduction ethode Exemple esum´e Applications

Matrice de covariance

A=

12 14

5 8

8 7

20 11

· · · · · · 14 16 7 10 22 15

n

C= A>A n−1 =

0.6165 0.6154 0.6154 0.7165

(4)

Vecteurs propres et valeurs propres

C=

0.6165 0.6154 0.6154 0.7165

M´ethode :

Quels sont les “axes forts” de cette matrice?

→ vecteurs propres et valeurs propres.

Vecteurs propres et valeurs propres :

λ1 = 1.2844 v1 = (−0.678,−0.735)>

λ2 = 0.049 v2 = (−0.735,0.678)>

vecteurs norm´es et orthogonaux entre eux.

Vincent Nozick Analyse en Composantes Principales 13 / 46

Vecteurs propres et valeurs propres

λ1 = 1.2844 v1 = (−0.678,−0.735)>

λ2 = 0.049 v2 = (−0.735,0.678)>

Vincent Nozick Analyse en Composantes Principales 14 / 46

Introduction ethode Exemple esum´e Applications

Vecteurs propres et valeurs propres

Un nouvel espace : C=PDP−1=PDP>

Vecteurs propres : P>=

−0.678 −0.735

−0.735 0.678

v>1 v>2

les vecteurs sont tri´es par valeur propres d´ecroissante.

La transformation pour aller dans cet espace :

A0>=P>A> x0=P>x

Note : P> est une matrice de rotation.

Introduction ethode Exemple esum´e Applications

Transformation

A0>=P>A>

(5)

Introduction ethode Exemple esum´e Applications

Transformation

A0> =P>A>

Vincent Nozick Analyse en Composantes Principales 17 / 46

Introduction ethode Exemple esum´e Applications

Transformation

Pour chaque donn´ee : x0 =

v>1 v>2

x

soit

x0 y0

=

−0.678 −0.735

−0.735 0.678

x y

Vincent Nozick Analyse en Composantes Principales 18 / 46

Introduction ethode Exemple esum´e Applications

Simplification des donn´ ees

R´eduction de P> :

On peut supprimer les vecteurs propres associ´es aux valeurs pro- pres les plus faibles. On ne garde que les composantes principales repr´esentant les variables les plus corr´el´es (les plus repr´esentatifs) parmi les donn´ees.

P>=

−0.678 −0.735

−0.735 0.678

→ P0>=

−0.678 −0.735

0 0

Introduction ethode Exemple esum´e Applications

Simplification des donn´ ees

R´eduction de P> :

On peut supprimer les vecteurs propres associ´es aux valeurs pro- pres les plus faibles. On ne garde que les composantes principales repr´esentant les variables les plus corr´el´es (les plus repr´esentatifs) parmi les donn´ees.

P>=

−0.678 −0.735

−0.735 0.678

→ P0>=

−0.678 −0.735

0 0

(6)

Simplification des donn´ ees

R´eduction de P> :

On peut supprimer les vecteurs propres associ´es aux valeurs pro- pres les plus faibles. On ne garde que les composantes principales repr´esentant les variables les plus corr´el´es (les plus repr´esentatifs) parmi les donn´ees.

P>=

−0.678 −0.735

−0.735 0.678

→ P0>=

−0.678 −0.735

0 0

Vincent Nozick Analyse en Composantes Principales 19 / 46

Simplification des donn´ ees

Projection :

x0 =

v>1 0>

x

soit

x0 0

=

−0.678 −0.735

0 0

x y

Vincent Nozick Analyse en Composantes Principales 20 / 46

Introduction ethode Exemple esum´e Applications

Simplification des donn´ ees

x0 0

=

−0.678 −0.735

0 0

x y

Introduction ethode Exemple esum´e Applications

Simplification des donn´ ees

x0 0

=

−0.678 −0.735

0 0

x y

(7)

Introduction ethode Exemple esum´e Applications

Simplification des donn´ ees

Projection :

x0=P0>x

→ on ne garde dans x0 que les k premi`eres composantes, celles qui ont vraiment une signification.

→ chacune de ces composantes regroupe un ensemble de variables corr´el´ees.

Vincent Nozick Analyse en Composantes Principales 23 / 46

Introduction ethode Exemple esum´e Applications

Simplification des donn´ ees

Reprojection : la transformation

x0=PP0>x

renvoie le vecteurxdans son espace d’origine en incluant la simpli- fication.

Vincent Nozick Analyse en Composantes Principales 24 / 46

Introduction ethode Exemple esum´e Applications

Simplification des donn´ ees

x0 =PP0>x

Introduction ethode Exemple esum´e Applications

Simplification des donn´ ees

x0=PP0>x

(8)

Exemple

Quel super h´eros ˆetes-vous?

Vincent Nozick Analyse en Composantes Principales 27 / 46

Exemple

Quel super h´eros ˆetes-vous?

Les variables :

1 poss`ede des super pouvoirs(0 ou 1)

2 porte des collants (appr´eciation entre 1 et 3)

3 travaille en ´equipe(appr´eciation entre 1 et 10)

4 poss`ede un ´equipement particulier(appr´eciation entre 1 et 10)

5 homme / femme (1 ou 0)

Vincent Nozick Analyse en Composantes Principales 28 / 46

Introduction ethode Exemple esum´e Applications

Quel super h´ eros ˆ etes-vous?

Les individus :

Superman Batman Spiderman Hulk

Ironman Catwoman x-or Daredevil

Wonderwoman Bioman x-men Tortues ninjas

Introduction ethode Exemple esum´e Applications

Les donn´ ees

1 2 3 4 5

Superman 1 3 2 2 1

Batman 0 3 7 10 1

Spiderman 1 3 2 2 1

Hulk 1 1 1 1 1

Ironman 0 1 3 10 1

Catwoman 0 3 2 3 0

x-or 0 1 2 10 1

Daredevil 0 3 2 3 1

Wonderwoman 1 2 3 9 0

Bioman 0 3 10 10 0.6

x-men 1 2 8 7 0.5

Tortues Ninja 0 1 10 7 0.8

(9)

Introduction ethode Exemple esum´e Applications

Centrer les donn´ ees

1 2 3 4 5

Superman 1 3 2 2 1

Batman 0 3 7 10 1

Spiderman 1 3 2 2 1

Hulk 1 1 1 1 1

Ironman 0 1 3 10 1

Catwoman 0 3 2 3 0

x-or 0 1 2 10 1

Daredevil 0 3 2 3 1

Wonderwoman 1 2 3 9 0

Bioman 0 3 10 10 0.6

x-men 1 2 8 7 0.5

Tortues Ninja 0 1 10 7 0.8

moyenne 0.41 2.17 4.33 6.17 0.74

Vincent Nozick Analyse en Composantes Principales 31 / 46

Introduction ethode Exemple esum´e Applications

Centrer les donn´ ees

1 2 3 4 5

Superman 0.58 0.83 -2.33 -4.17 0.26

Batman -0.42 0.83 2.67 3.83 0.26

Spiderman 0.58 0.83 -2.33 -4.17 0.26

Hulk 0.58 -1.17 -3.33 -5.17 0.26

Ironman -0.42 -1.17 -1.33 3.83 0.26 Catwoman -0.42 0.83 -2.33 -3.17 -0.74

x-or -0.42 -1.17 -2.33 3.83 0.26

Daredevil -0.42 0.83 -2.33 -3.17 0.26 Wonderwoman 0.58 -0.17 -1.33 2.83 -0.74

Bioman -0.42 0.83 5.67 3.83 -0.14

x-men 0.58 -0.17 3.67 0.833 -0.24

Tortues Ninja -0.42 -1.17 5.67 0.833 0.058

moyenne 0.0 0.0 0.0 0.0 0.0

Vincent Nozick Analyse en Composantes Principales 32 / 46

Introduction ethode Exemple esum´e Applications

Normer les donn´ ees

1 2 3 4 5

Superman 0.58 0.83 -2.33 -4.17 0.26

Batman -0.42 0.83 2.67 3.83 0.26

Spiderman 0.58 0.83 -2.33 -4.17 0.26

Hulk 0.58 -1.17 -3.33 -5.17 0.26

Ironman -0.42 -1.17 -1.33 3.83 0.26 Catwoman -0.42 0.83 -2.33 -3.17 -0.74

x-or -0.42 -1.17 -2.33 3.83 0.26

Daredevil -0.42 0.83 -2.33 -3.17 0.26 Wonderwoman 0.58 -0.17 -1.33 2.83 -0.74

Bioman -0.42 0.83 5.67 3.83 -0.14

x-men 0.58 -0.17 3.67 0.833 -0.24

Tortues Ninja -0.42 -1.17 5.67 0.833 0.058

variance 0.49 0.83 2.9 3.3 0.31

Introduction ethode Exemple esum´e Applications

Normer les donn´ ees

1 2 3 4 5

Superman 1.2 1 -0.79 -1.3 0.83

Batman -0.86 1 0.91 1.2 0.83

Spiderman 1.2 1 -0.79 -1.3 0.83

Hulk 1.2 -1.4 -1.1 -1.6 0.83

Ironman -0.86 -1.4 -0.45 1.2 0.83 Catwoman -0.86 1 -0.79 -0.96 -2.4

x-or -0.86 -1.4 -0.79 1.2 0.83

Daredevil -0.86 1 -0.79 -0.96 0.83 Wonderwoman 1.2 -0.2 -0.45 0.86 -2.4

Bioman -0.86 1 1.9 1.2 -0.46

x-men 1.2 -0.2 1.2 0.25 -0.78

Tortues Ninja -0.86 -1.4 1.9 0.25 0.19

variance 1 1 1 1 1

(10)

Matrice de covariance

C=

1.1 0.04 −0.36 −0.56 −0.13 0.04 1.3 0.01 −0.34 −0.24

−0.36 0.01 1.3 0.68 −0.16

−0.56 −0.34 0.68 1.2 −0.16

−0.13 −0.24 −0.16 −0.16 1.5

Remarque :

Evidement, les meilleures corr´´ elations sont sur la diagonale.

M´ethode :

Quels sont les “axes forts” de cette matrice?

→ vecteurs propres et valeurs propres.

Vincent Nozick Analyse en Composantes Principales 35 / 46

Vecteurs propres et valeurs propres

C=

1.1 0.04 −0.36 −0.56 −0.13 0.04 1.3 0.012 −0.34 −0.24

−0.36 0.012 1.3 0.68 −0.16

−0.56 −0.34 0.68 1.2 −0.16

−0.13 −0.24 −0.16 −0.16 1.5

Vecteurs propres et valeurs propres :

λ1= 2.4 v1 = (0.45,0.18,−0.59,−0.64,0.11)>

λ2= 1.7 v2 = (0.15,0.48,0.14,−0.037,−0.85)>

λ3= 1.2 v3 = (0.35,−0.79,−0.22,0.15,−0.43)>

λ4= 0.8 v4 = (0.7,−0.02,0.67−0.089,0.23)>

λ5= 0.4 v5 = (0.41,0.33,−0.37,0.75,0.17)>

vecteurs norm´es et orthogonaux entre eux.

Vincent Nozick Analyse en Composantes Principales 36 / 46

Introduction ethode Exemple esum´e Applications

Vecteurs propres et valeurs propres

Matrice des vecteurs propres :

P>=

v>1 v>2 ... v>n

les vecteurs sont tri´es par valeur propres d´ecroissante.

Introduction ethode Exemple esum´e Applications

Vecteurs propres et valeurs propres

Un nouvel espace : C=PDP−1 =PDP>

Pour aller dans cet espace : A0> =P>A>

Plus g´en´eralement pour un individu x : x0 =P>x o`u x0 est la repr´esentation dexdans un espace plus pertinent.

(11)

Introduction ethode Exemple esum´e Applications

Simplification des donn´ ees

R´eduction de P> :

P>=

v1>

v2>

... vi>

vi+1 ... vn>

→ P0>=

v>1 v>2 ... v>i

0 ... 0

Vincent Nozick Analyse en Composantes Principales 39 / 46

Introduction ethode Exemple esum´e Applications

Simplification des donn´ ees

R´eduction de P> :

P0>=

v>1 v>2 ... v>i

0 ... 0

→ P0>=

v>1 v>2 ... v>i

Vincent Nozick Analyse en Composantes Principales 40 / 46

Introduction ethode Exemple esum´e Applications

Simplification des donn´ ees

R´eduction de P> :

P>=

0.45 0.18 −0.59 −0.64 0.11 0.15 0.48 0.14 −0.037 −0.85 0.35 −0.79 −0.22 0.15 −0.43 0.7 −0.02 0.67 −0.089 0.23 0.41 0.33 −0.37 0.75 0.17

P0> =

0.45 0.18 −0.59 −0.64 0.11 0.15 0.48 0.14 −0.037 −0.85 0.35 −0.79 −0.22 0.15 −0.43

0 0 0 0 0

0 0 0 0 0

Introduction ethode Exemple esum´e Applications

Simplification des donn´ ees

Projection :

x0 =P0>x

o`u x0 a une dimension inf´erieure `a celle dex.

→ on ne garde dans x0 que les k premi`eres composantes, celles qui ont vraiment une signification.

→ chacune de ces composantes regroupe un ensemble de variables corr´el´ees.

(12)

Lecture de l’acp

Quel super h´eros ˆetes-vous?

on a gard´e 3 dimensions

pour un nouvel individu :

x0 =P0>x− hAi,•i

σ(Ai,•)

on regarde dans ce sous espace quel est le super h´eros le plus proche.

Vincent Nozick Analyse en Composantes Principales 43 / 46

Super r´ esum´ e

R´esum´e :

centrer les donn´ees avec un vecteur hAi,•i

normer les donn´ees avec un vecteur 1 σ(Ai,•)

matrice de covarianceC

vecteurs propres / valeurs propres de C→P>

choisir la dimension du sous espace : P0>

projeter des donn´ees : x0 =P0>x−hAσ(Ai,•i

i,•)

(optionnel) reprojection : x00 =PP0>x

Vincent Nozick Analyse en Composantes Principales 44 / 46

Introduction ethode Exemple esum´e Applications

Applications

Applications :

d´etection de visages

statistiques

iArtist

...

Introduction ethode Exemple esum´e Applications

iArtist

Références

Documents relatifs

a) Quelle est la probabilit´e qu’une personne prise au hasard dans cette population soit daltonienne??. b) Une personne choisie au hasard dans cette population

Note : Dans le cas de l'acp de la matrice des corrélations, les coordonnées des variables sont égales aux corrélations entre les variables et les différents vecteurs propres

cation de ces ressemblances par le calcul de distances euclidiennes entre les indi- vidus rendu possible par le choix d’une métrique Q sur RP.. L’ANALYSE EN

Nous recherchons un codage des variables nominales (à chaque modalité de chaque variable nominale sera associé un nombre réel) tel que l’analyse en composantes

Dans la mesure où l'on peut définir sur un espace vectoriel sur (C une structure d'espace vectoriel sur fc ( cf. 121), ce qui amène à doubler sa dimension algébrique, on

Ils réalisent une dichotomie &#34;droite-gauche&#34; très classique pour cette sorte d'analyse (cf [1] par exemple). Les combinaisons linéaires corres- pondantes constituent

All Rights

Soit l’exp´ erience “une personne lance simultan´ ement deux d´ es cubiques ` a 6 faces et note la valeur obtenue sur la face sup´ erieure de chaque d´ e”.. Soit l’exp´