B. Analyse en Composantes Principales
1) Principes
Soit X une caractéristique. Celle-ci prend des va
leurs différentes suivant n individus. Ces réalisations, en
core appelées mesures ou observations, sont notées : {x1, x2..., xi..., xn}
ou plus simplement {xi} avec 1in
Prenons maintenant p caractéristiques, nous avons donc pas seulement une, mais p variables aléatoires:
{X1, X2..., X j..., Xp} , et les réalisations de Xj se notent :
{x1j, x2j..., xi j..., xn j} 8
La matrice des données regroupe l'ensemble des informa
tions :
M=
xxxx......1 12 1ni11 xxxx......1 22 2n2i2 .................. xxx.........1n ji jj .................. xxx.........1n pi pp
Comme n≠p cette matrice n'est pas, en général, carrée.
vidu peut aussi être représenté par un vecteur colonne :
Ii=
xxx......ii ji p1
Dans l'espace des individus, les individus sont un en
semble de points. Cet espace a pour axes les p caractéris
tiques et la base {e1,e2,...,ej,...,ep} .
Nous allons commencer par calculer la matrice des données normalisée m (centrage et réduction) :
x
i j= x
i j− x
jLes caractéristiques fluctuent autour d'une valeur moyenne. Les valeurs moyennes et les dispersions dépendent de chaque caractéristique. Or l'analyse en composantes principales (ACP) est basée sur les coefficients de corrélations linéaires entre les différentes caractéristiques, et ces coefficients ne dépendent pas de la moyenne et de l'écart-type :
rjk=
∑
i=1 n
xi jxi k n−1
De ce fait il est plus clair de travailler directement avec la matrice m normale. Si nous gardions M les résultats obtenus seraient les mêmes. Nous trouverons au final, dans un nouvel espace, une nouvelle matrice m' des données que nous pourrions aussi normaliser.
Il faut donc bien garder à l'esprit que pour l'ACP seules les corrélations linéaires comptent. Qu'une grandeur varie sur un millimètre, ou un mètre, autour d'un kilomètre, ou un micromètre, peu où prou, il importe seulement de savoir si cette grandeur varie, ou pas, dans le même sens que les autres. Il convient donc de réfléchir avant de commencer une étude afin de savoir si c'est bien ce type d'analyse qui convient à votre problématique.
Pour les isolants nous obtenons pour M et m :
M =
Moyennes : 59,18 27,64 41,82 17,91
Écart-types : 46,09 7,65 24,81 2,66
x1 x2 x3 x4
L'idée fondamentale de cette étude est basée sur la matrice de corrélation. Nous cherchons les corrélations entre les différentes caractéristiques. Si un ensemble de caractéristiques sont très corrélées entre elles, cela signifie qu'une seule suffirait à décrire notre système sans perte importante d'information.
Comme nous sommes mieux habitué à visualiser les choses en deux dimensions, nous cherchons deux ca
ractéristiques, combinaisons de toutes les autres, qui contiendraient la majorité de l'information. Ainsi nous pourrions nous ramener à l'essentiel d'un problème en peu de paramètres et simplifier la vision avec des caractéris
tiques mieux adaptées auxquelles nous n'aurions pas pen
sées à priori.
Coefficients de corrélations linéaires :
rj k=
∑
i=1 nxi j− xjxi k− xk
n−1jk
avec rj j=1 et rj k=rk j
nous avons alors une matrice carrée appelée la matrice des corrélations :
r=
rrr...111 21 3p r.........11 2 r.........11 3 ............1 r.........11p
−1ri j1Nous diagonalisons ensuite la matrice r :
r'=
000001 00 ... 00002 00000 0000j ... 000000 0000p
avec
∑
j=1 p
j=p=trr=trr '
La sommes des valeurs propres λj est p, le nombre de caractéristiques. La somme des valeurs sur la diago
nale d'une matrice carré est appelée trace de la matrice, celle-ci est invariante par changement de base. Nous les plaçons tel que λ1 ≥ λ2 ≥ ... ≥ λp .
Nous avons alors une nouvelle base, appelée base des vecteurs propres { e '1,e '2,...,e 'j,...,e 'p} , pour la projection de nos individus sur les nouvelles caractéris
tiques {X '1, X '2..., X 'j..., X 'p} .
Dans ce nouvelle espace toutes les nouvelles ca
ractéristiques sont décorrélées entre elles. C'est une grande avancée pour l'analyse, nous savons maintenant qu'elles sont les "vraies" caractéristiques. Nous avons le point de vue sur le problème qui donne la vision la plus simple et la plus claire.
De plus avec les valeurs propres nous avons un ordre d'importance des caractéristiques. Le pourcentage d'infor
mation contenu dans une caractéristique X'j est :
%j = j p
Il n'est pas rare que deux caractéristiques sur une dizaine contiennent à elles seules 90% de l'information totale d'un système de données. C'est un outil descriptif très puissant.
Les valeurs propres se calculent en résolvant l'équation det(r - λI)=0. Nous calculons le déterminant de la matrice des corrélations à laquelle nous avons soustrait la matrice identité multipliée par la valeur propre recher
chée. Il s'agit d'un problème classique de mathématiques abordé en début d'enseignement supérieur scientifique.
Les calculs sont effectués sur des exemples dans le deuxième exercice. Nous avons ensuite l'habitude de clas
ser les valeurs propres en ordre décroissant dans la ma
trice r'.
Les vecteurs propres sont déterminés en résolvant l'équa
tion :
re 'j=je 'j
Pour obtenir la nouvelle matrice réduite des don
nées avec les individus en fonction des nouvelles caracté
ristiques nous avons besoin de la matrice de passage P.
Celle-ci est une matrice carrée dont les colonnes sont les composantes des vecteurs propres. Ensuite m P = m'.
Ce travail effectué pour nos isolants donne :
r =
1,000 -0,810 0,114 -0,936 -0,810 1,000 -0,307 0,725 0,114 -0,307 1,000 0,097 -0,936 0,725 0,097 1,000
r'=
2,671 0,000 0,000 0,000 0,000 1,083 0,000 0,000 0,000 0,000 0,206 0,000 0,000 0,000 0,000 0,040
Cumul des valeurs propres :
Valeurs
propres % cumul %
2,67 67 2,67 67
1,08 27 3,75 94
0,21 5 3,96 99
0,04 1 4 100
λ1 λ2 λ3 λ4
La matrice de passage permet d'avoir la nouvelle base en fonction de l'ancienne, par exemple :
e '1≃0,60e1−0,56e20,11e3−0,57e4
P =
0,60 -0,08 -0,34 -0,72 -0,56 -0,19 -0,81 -0,06 0,11 0,94 -0,31 0,14 -0,57 0,29 0,37 -0,68
1 1 1 1
norme :
Or X1' et X2' contiennent 94% de l'information du système.
Et tracer X1, X2, X3 et X4 en fonction de X1' et X2' donne une bonne vision globale de l'information.
0 1 2 3 4
Éboulis des valeurs propres :
La perte d'information est de seulement 6%.
Nous obtenons ensuite la matrice des données en fonction des composantes principales :
m' =
0,42 -1,18 0,39 0,42
-1,60 -0,83 -0,04 -0,19
1,16 -0,74 -0,21 0,21
-1,58 -0,41 -0,01 -0,01 -2,06 -0,36 -0,82 -0,03
0,58 -0,06 0,70 -0,18
-1,21 0,14 0,09 -0,03
-0,54 0,60 0,66 -0,09
2,96 -0,13 -0,44 -0,06
2,22 0,24 -0,17 -0,24
-0,36 2,73 -0,15 0,21
x1' x2' x3' x4' I1
I2 I3 I4 I5 I6 I7 I8 I9 I10 I11
Nous représentons enfin ces données en fonctions des composantes principales :
Pour trouver rapidement le sens de ces deux nouvelles composantes principales il est pratique de tracer un cercle des corrélations :
Pour cela nous avons calculé la matrice des corrélations entre anciennes et nouvelles variables (composantes prin
cipales) :
L'interprétation peut maintenant commencer :
Tout d'abord les quatre caractéristiques sont proches des bords du cercle de rayon 1. Elles vont, donc, toutes jouer un rôle important. Si nous avions des caracté
ristiques proches du centre elles seraient peu ou pas prises en considération dans la description.
Nous voyons que X1, X2 et X4 sont très corrélés avec la première composante principale X1'. X1 positive
ment, X2 et X4 négativement. Tout d'abord, quand l'épais
seur augmente, le confort aussi (toujours en terme proba
biliste, bien sûr). De plus, plus la densité d'un matériau est grande, moins il est confortable (on sait que les bons iso
lants sont souvent remplis d'air, donc peu denses). Aussi plus la densité d'un matériau est grande et moins il est épais (et volumineux, ce qui est logique aussi). Apparaît donc une caractéristique nouvelle qui combine ces trois paramètres et qui contient 67% de l'information du pro
blème.
Sur le cercle des corrélation X3 est selon X2' (il est très corrélés positivement avec lui r32' vaut environ 0,97).
La deuxième composante principale correspond donc sim
plement au prix (poids 27%).
Le prix des matériaux est sans lien avec leur confort. Des grandeurs décorrélées sur le cercle des corré
lations sont à angle droit avec le centre. Plus elles sont corrélées dans le même sens, plus l'angle est faible ; et si elles sont corrélées en sens contraire, l'angle vaut 180°.
Regardons maintenant les individus et essayons de les re
grouper en catégories :
Tout d'abord un isolé, l'individu 11, qui à un confort/épaisseur moyen et un prix élevé.
Le groupe le plus intéressant en bas à gauche (2, 5 et 4 ), qui correspond à des isolants à la fois pas cher et confortable (avec une bonne épaisseur).
Et puis ceux qui partent vers la droite, d'un prix moyen mais pas confortable, donc à éviter, à moins que le volume disponible pour l'isolation soit faible.
A vous de prendre votre décision ; cet outil permet de choisir son isolant en connaissance de cause.
Dans le deuxième devoir sont étudiées d'autres isolants avec l'éco-bilan, l'isolation et le confort d'été.