• Aucun résultat trouvé

B. Analyse en Composantes Principales

1) Principes

Soit X une caractéristique. Celle-ci prend des va­

leurs différentes suivant n individus. Ces réalisations, en­

core appelées mesures ou observations, sont notées : {x1, x2..., xi..., xn}

ou plus simplement {xi} avec 1in

Prenons maintenant p caractéristiques, nous avons donc pas seulement une, mais p variables aléatoires:

{X1, X2..., X j..., Xp} , et les réalisations de Xj se notent :

{x1j, x2j..., xi j..., xn j} 8

La matrice des données regroupe l'ensemble des informa­

tions :

M=

xxxx......1 12 1ni11 xxxx......1 22 2n2i2 .................. xxx.........1n ji jj .................. xxx.........1n pi pp

Comme n≠p cette matrice n'est pas, en général, carrée.

vidu peut aussi être représenté par un vecteur colonne :

Ii=

xxx......ii ji p1

Dans l'espace des individus, les individus sont un en­

semble de points. Cet espace a pour axes les p caractéris­

tiques et la base {e1,e2,...,ej,...,ep} .

Nous allons commencer par calculer la matrice des données normalisée m (centrage et réduction) :

x

i j

= x

i j

−  x

j

Les caractéristiques fluctuent autour d'une valeur moyenne. Les valeurs moyennes et les dispersions dépendent de chaque caractéristique. Or l'analyse en composantes principales (ACP) est basée sur les coefficients de corrélations linéaires entre les différentes caractéristiques, et ces coefficients ne dépendent pas de la moyenne et de l'écart-type :

rjk=

i=1 n

xi jxi k n−1

De ce fait il est plus clair de travailler directement avec la matrice m normale. Si nous gardions M les résultats obtenus seraient les mêmes. Nous trouverons au final, dans un nouvel espace, une nouvelle matrice m' des données que nous pourrions aussi normaliser.

Il faut donc bien garder à l'esprit que pour l'ACP seules les corrélations linéaires comptent. Qu'une grandeur varie sur un millimètre, ou un mètre, autour d'un kilomètre, ou un micromètre, peu où prou, il importe seulement de savoir si cette grandeur varie, ou pas, dans le même sens que les autres. Il convient donc de réfléchir avant de commencer une étude afin de savoir si c'est bien ce type d'analyse qui convient à votre problématique.

Pour les isolants nous obtenons pour M et m :

M =

Moyennes : 59,18 27,64 41,82 17,91

Écart-types : 46,09 7,65 24,81 2,66

x1 x2 x3 x4

L'idée fondamentale de cette étude est basée sur la matrice de corrélation. Nous cherchons les corrélations entre les différentes caractéristiques. Si un ensemble de caractéristiques sont très corrélées entre elles, cela signifie qu'une seule suffirait à décrire notre système sans perte importante d'information.

Comme nous sommes mieux habitué à visualiser les choses en deux dimensions, nous cherchons deux ca­

ractéristiques, combinaisons de toutes les autres, qui contiendraient la majorité de l'information. Ainsi nous pourrions nous ramener à l'essentiel d'un problème en peu de paramètres et simplifier la vision avec des caractéris­

tiques mieux adaptées auxquelles nous n'aurions pas pen­

sées à priori.

Coefficients de corrélations linéaires :

rj k=

i=1 n

xi j− xjxi k− xk

n−1jk

avec rj j=1 et rj k=rk j

nous avons alors une matrice carrée appelée la matrice des corrélations :

r=

rrr...111 21 3p r.........11 2 r.........11 3 ............1 r.........11p

−1ri j1

Nous diagonalisons ensuite la matrice r :

r'=

000001 00 ... 00002 00000 0000j ... 000000 0000p

avec

j=1 p

j=p=trr=trr '

La sommes des valeurs propres λj est p, le nombre de caractéristiques. La somme des valeurs sur la diago­

nale d'une matrice carré est appelée trace de la matrice, celle-ci est invariante par changement de base. Nous les plaçons tel que λ1 ≥ λ2 ≥ ... ≥ λp .

Nous avons alors une nouvelle base, appelée base des vecteurs propres { e '1,e '2,...,e 'j,...,e 'p} , pour la projection de nos individus sur les nouvelles caractéris­

tiques {X '1, X '2..., X 'j..., X 'p} .

Dans ce nouvelle espace toutes les nouvelles ca­

ractéristiques sont décorrélées entre elles. C'est une grande avancée pour l'analyse, nous savons maintenant qu'elles sont les "vraies" caractéristiques. Nous avons le point de vue sur le problème qui donne la vision la plus simple et la plus claire.

De plus avec les valeurs propres nous avons un ordre d'importance des caractéristiques. Le pourcentage d'infor­

mation contenu dans une caractéristique X'j est :

%j =j p

Il n'est pas rare que deux caractéristiques sur une dizaine contiennent à elles seules 90% de l'information totale d'un système de données. C'est un outil descriptif très puissant.

Les valeurs propres se calculent en résolvant l'équation det(r - λI)=0. Nous calculons le déterminant de la matrice des corrélations à laquelle nous avons soustrait la matrice identité multipliée par la valeur propre recher­

chée. Il s'agit d'un problème classique de mathématiques abordé en début d'enseignement supérieur scientifique.

Les calculs sont effectués sur des exemples dans le deuxième exercice. Nous avons ensuite l'habitude de clas­

ser les valeurs propres en ordre décroissant dans la ma­

trice r'.

Les vecteurs propres sont déterminés en résolvant l'équa­

tion :

re 'j=je 'j

Pour obtenir la nouvelle matrice réduite des don­

nées avec les individus en fonction des nouvelles caracté­

ristiques nous avons besoin de la matrice de passage P.

Celle-ci est une matrice carrée dont les colonnes sont les composantes des vecteurs propres. Ensuite m P = m'.

Ce travail effectué pour nos isolants donne :

r =

1,000 -0,810 0,114 -0,936 -0,810 1,000 -0,307 0,725 0,114 -0,307 1,000 0,097 -0,936 0,725 0,097 1,000

r'=

2,671 0,000 0,000 0,000 0,000 1,083 0,000 0,000 0,000 0,000 0,206 0,000 0,000 0,000 0,000 0,040

Cumul des valeurs propres :

Valeurs

propres % cumul %

2,67 67 2,67 67

1,08 27 3,75 94

0,21 5 3,96 99

0,04 1 4 100

λ1 λ2 λ3 λ4

La matrice de passage permet d'avoir la nouvelle base en fonction de l'ancienne, par exemple :

e '1≃0,60e1−0,56e20,11e3−0,57e4

P =

0,60 -0,08 -0,34 -0,72 -0,56 -0,19 -0,81 -0,06 0,11 0,94 -0,31 0,14 -0,57 0,29 0,37 -0,68

1 1 1 1

norme :

Or X1' et X2' contiennent 94% de l'information du système.

Et tracer X1, X2, X3 et X4 en fonction de X1' et X2' donne une bonne vision globale de l'information.

0 1 2 3 4

Éboulis des valeurs propres :

La perte d'information est de seulement 6%.

Nous obtenons ensuite la matrice des données en fonction des composantes principales :

m' =

0,42 -1,18 0,39 0,42

-1,60 -0,83 -0,04 -0,19

1,16 -0,74 -0,21 0,21

-1,58 -0,41 -0,01 -0,01 -2,06 -0,36 -0,82 -0,03

0,58 -0,06 0,70 -0,18

-1,21 0,14 0,09 -0,03

-0,54 0,60 0,66 -0,09

2,96 -0,13 -0,44 -0,06

2,22 0,24 -0,17 -0,24

-0,36 2,73 -0,15 0,21

x1' x2' x3' x4' I1

I2 I3 I4 I5 I6 I7 I8 I9 I10 I11

Nous représentons enfin ces données en fonctions des composantes principales :

Pour trouver rapidement le sens de ces deux nouvelles composantes principales il est pratique de tracer un cercle des corrélations :

Pour cela nous avons calculé la matrice des corrélations entre anciennes et nouvelles variables (composantes prin­

cipales) :

L'interprétation peut maintenant commencer :

Tout d'abord les quatre caractéristiques sont proches des bords du cercle de rayon 1. Elles vont, donc, toutes jouer un rôle important. Si nous avions des caracté­

ristiques proches du centre elles seraient peu ou pas prises en considération dans la description.

Nous voyons que X1, X2 et X4 sont très corrélés avec la première composante principale X1'. X1 positive­

ment, X2 et X4 négativement. Tout d'abord, quand l'épais­

seur augmente, le confort aussi (toujours en terme proba­

biliste, bien sûr). De plus, plus la densité d'un matériau est grande, moins il est confortable (on sait que les bons iso­

lants sont souvent remplis d'air, donc peu denses). Aussi plus la densité d'un matériau est grande et moins il est épais (et volumineux, ce qui est logique aussi). Apparaît donc une caractéristique nouvelle qui combine ces trois paramètres et qui contient 67% de l'information du pro­

blème.

Sur le cercle des corrélation X3 est selon X2' (il est très corrélés positivement avec lui r32' vaut environ 0,97).

La deuxième composante principale correspond donc sim­

plement au prix (poids 27%).

Le prix des matériaux est sans lien avec leur confort. Des grandeurs décorrélées sur le cercle des corré­

lations sont à angle droit avec le centre. Plus elles sont corrélées dans le même sens, plus l'angle est faible ; et si elles sont corrélées en sens contraire, l'angle vaut 180°.

Regardons maintenant les individus et essayons de les re­

grouper en catégories :

Tout d'abord un isolé, l'individu 11, qui à un confort/épaisseur moyen et un prix élevé.

Le groupe le plus intéressant en bas à gauche (2, 5 et 4 ), qui correspond à des isolants à la fois pas cher et confortable (avec une bonne épaisseur).

Et puis ceux qui partent vers la droite, d'un prix moyen mais pas confortable, donc à éviter, à moins que le volume disponible pour l'isolation soit faible.

A vous de prendre votre décision ; cet outil permet de choisir son isolant en connaissance de cause.

Dans le deuxième devoir sont étudiées d'autres isolants avec l'éco-bilan, l'isolation et le confort d'été.

Documents relatifs