Principes - Analyse en Composantes Principales

B. Analyse en Composantes Principales

1) Principes

Soit X une caractéristique. Celle-ci prend des va

leurs différentes suivant n individus. Ces réalisations, en

core appelées mesures ou observations, sont notées : {x₁, x₂..., x_i..., x_n}

ou plus simplement {x_i} avec 1in

Prenons maintenant p caractéristiques, nous avons donc pas seulement une, mais p variables aléatoires:

{X₁, X₂..., X _j..., X_p} , et les réalisations de Xj se notent :

{x₁_j, x₂_j..., x_{i j}..., x_{n j}} ⁸

La matrice des données regroupe l'ensemble des informa

tions :



^x^x^x^x^...^...^{1 1}^{2 1}ⁿⁱ¹¹ ^x^x^x^x^...^...^{1 2}^{2 2}ⁿ²ⁱ² ^...^...^...^...^...^... ^x^x^x^...^...^...¹^{n j}^{i j}^j ^...^...^...^...^...^... ^x^x^x^...^...^...¹^{n p}^{i p}^p



Comme n≠p cette matrice n'est pas, en général, carrée.

vidu peut aussi être représenté par un vecteur colonne :

I_i=



^x^x^x^.^.^.^.^.^.ⁱ^{i j}^{i p}¹



Dans l'espace des individus, les individus sont un en

semble de points. Cet espace a pour axes les p caractéris

tiques et la base {e₁,e₂,...,e_j,...,e_p} .

Nous allons commencer par calculer la matrice des données normalisée m (centrage et réduction) :

x 

_{i j}

= x

_{i j}

−  x

Les caractéristiques fluctuent autour d'une valeur moyenne. Les valeurs moyennes et les dispersions dépendent de chaque caractéristique. Or l'analyse en composantes principales (ACP) est basée sur les coefficients de corrélations linéaires entre les différentes caractéristiques, et ces coefficients ne dépendent pas de la moyenne et de l'écart-type :

r_jk=

∑

i=1 n

x_{i j}x_{i k} n−1

De ce fait il est plus clair de travailler directement avec la matrice m normale. Si nous gardions M les résultats obtenus seraient les mêmes. Nous trouverons au final, dans un nouvel espace, une nouvelle matrice m' des données que nous pourrions aussi normaliser.

Il faut donc bien garder à l'esprit que pour l'ACP seules les corrélations linéaires comptent. Qu'une grandeur varie sur un millimètre, ou un mètre, autour d'un kilomètre, ou un micromètre, peu où prou, il importe seulement de savoir si cette grandeur varie, ou pas, dans le même sens que les autres. Il convient donc de réfléchir avant de commencer une étude afin de savoir si c'est bien ce type d'analyse qui convient à votre problématique.

Pour les isolants nous obtenons pour M et m :

M =

Moyennes : 59,18 27,64 41,82 17,91

Écart-types : 46,09 7,65 24,81 2,66

x₁ x₂ x₃ x₄

L'idée fondamentale de cette étude est basée sur la matrice de corrélation. Nous cherchons les corrélations entre les différentes caractéristiques. Si un ensemble de caractéristiques sont très corrélées entre elles, cela signifie qu'une seule suffirait à décrire notre système sans perte importante d'information.

Comme nous sommes mieux habitué à visualiser les choses en deux dimensions, nous cherchons deux ca

ractéristiques, combinaisons de toutes les autres, qui contiendraient la majorité de l'information. Ainsi nous pourrions nous ramener à l'essentiel d'un problème en peu de paramètres et simplifier la vision avec des caractéris

tiques mieux adaptées auxquelles nous n'aurions pas pen

sées à priori.

Coefficients de corrélations linéaires :

r_{j k}=

∑

i=1 n

x_{i j}− x_jx_{i k}− x_k

n−1_j_k

avec r_{j j}=1 et r_{j k}=r_{k j}

nous avons alors une matrice carrée appelée la matrice des corrélations :



^r^r^r^...¹¹^{1 2}^{1 3}^p ^r^...^...^...¹^{1 2} ^r^...^...^...¹^{1 3} ^...^...^...^...¹ ^r^...^...^...¹¹^p



^−1r^{i j}^1

Nous diagonalisons ensuite la matrice r :

r^'=



^⁰⁰⁰⁰⁰¹ ^⁰^{0 ... 0}⁰⁰⁰² ⁰⁰⁰⁰⁰ ^⁰⁰⁰⁰^j ^{... 0}⁰⁰⁰⁰⁰ ^⁰⁰⁰⁰^p



avec

∑

j=1 p

_j=p=trr=trr '

La sommes des valeurs propres λj est p, le nombre de caractéristiques. La somme des valeurs sur la diago

nale d'une matrice carré est appelée trace de la matrice, celle-ci est invariante par changement de base. Nous les plaçons tel que λ1 ≥ λ2 ≥ ... ≥ λp .

Nous avons alors une nouvelle base, appelée base des vecteurs propres { e '₁,e '₂,...,e '_j,...,e '_p} , pour la projection de nos individus sur les nouvelles caractéris

tiques {X '₁, X '₂..., X '_j..., X '_p} .

Dans ce nouvelle espace toutes les nouvelles ca

ractéristiques sont décorrélées entre elles. C'est une grande avancée pour l'analyse, nous savons maintenant qu'elles sont les "vraies" caractéristiques. Nous avons le point de vue sur le problème qui donne la vision la plus simple et la plus claire.

De plus avec les valeurs propres nous avons un ordre d'importance des caractéristiques. Le pourcentage d'infor

mation contenu dans une caractéristique X'j est :

%j = _j p

Il n'est pas rare que deux caractéristiques sur une dizaine contiennent à elles seules 90% de l'information totale d'un système de données. C'est un outil descriptif très puissant.

Les valeurs propres se calculent en résolvant l'équation det(r - λI)=0. Nous calculons le déterminant de la matrice des corrélations à laquelle nous avons soustrait la matrice identité multipliée par la valeur propre recher

chée. Il s'agit d'un problème classique de mathématiques abordé en début d'enseignement supérieur scientifique.

Les calculs sont effectués sur des exemples dans le deuxième exercice. Nous avons ensuite l'habitude de clas

ser les valeurs propres en ordre décroissant dans la ma

trice r'.

Les vecteurs propres sont déterminés en résolvant l'équa

tion :

re '_j=_je '_j

Pour obtenir la nouvelle matrice réduite des don

nées avec les individus en fonction des nouvelles caracté

ristiques nous avons besoin de la matrice de passage P.

Celle-ci est une matrice carrée dont les colonnes sont les composantes des vecteurs propres. Ensuite m P = m'.

Ce travail effectué pour nos isolants donne :

r =

1,000 -0,810 0,114 -0,936 -0,810 1,000 -0,307 0,725 0,114 -0,307 1,000 0,097 -0,936 0,725 0,097 1,000

r'=

2,671 0,000 0,000 0,000 0,000 1,083 0,000 0,000 0,000 0,000 0,206 0,000 0,000 0,000 0,000 0,040

Cumul des valeurs propres :

Valeurs

propres % cumul %

2,67 67 2,67 67

1,08 27 3,75 94

0,21 5 3,96 99

0,04 1 4 100

λ1 λ2 λ3 λ4

La matrice de passage permet d'avoir la nouvelle base en fonction de l'ancienne, par exemple :

e '₁≃0,60e₁−0,56e₂0,11e₃−0,57e₄

P =

0,60 -0,08 -0,34 -0,72 -0,56 -0,19 -0,81 -0,06 0,11 0,94 -0,31 0,14 -0,57 0,29 0,37 -0,68

1 1 1 1

norme :

Or X1' et X2' contiennent 94% de l'information du système.

Et tracer X1, X2, X3 et X4 en fonction de X1' et X2' donne une bonne vision globale de l'information.

0 1 2 3 4

Éboulis des valeurs propres :

La perte d'information est de seulement 6%.

Nous obtenons ensuite la matrice des données en fonction des composantes principales :

m' =

0,42 -1,18 0,39 0,42

-1,60 -0,83 -0,04 -0,19

1,16 -0,74 -0,21 0,21

-1,58 -0,41 -0,01 -0,01 -2,06 -0,36 -0,82 -0,03

0,58 -0,06 0,70 -0,18

-1,21 0,14 0,09 -0,03

-0,54 0,60 0,66 -0,09

2,96 -0,13 -0,44 -0,06

2,22 0,24 -0,17 -0,24

-0,36 2,73 -0,15 0,21

x₁^' x₂^' x₃^' x₄^' I₁

I₂ I₃ I₄ I₅ I₆ I₇ I₈ I₉ I₁₀ I₁₁

Nous représentons enfin ces données en fonctions des composantes principales :

Pour trouver rapidement le sens de ces deux nouvelles composantes principales il est pratique de tracer un cercle des corrélations :

Pour cela nous avons calculé la matrice des corrélations entre anciennes et nouvelles variables (composantes prin

cipales) :

L'interprétation peut maintenant commencer :

Tout d'abord les quatre caractéristiques sont proches des bords du cercle de rayon 1. Elles vont, donc, toutes jouer un rôle important. Si nous avions des caracté

ristiques proches du centre elles seraient peu ou pas prises en considération dans la description.

Nous voyons que X1, X2 et X4 sont très corrélés avec la première composante principale X1'. X1 positive

ment, X2 et X4 négativement. Tout d'abord, quand l'épais

seur augmente, le confort aussi (toujours en terme proba

biliste, bien sûr). De plus, plus la densité d'un matériau est grande, moins il est confortable (on sait que les bons iso

lants sont souvent remplis d'air, donc peu denses). Aussi plus la densité d'un matériau est grande et moins il est épais (et volumineux, ce qui est logique aussi). Apparaît donc une caractéristique nouvelle qui combine ces trois paramètres et qui contient 67% de l'information du pro

blème.

Sur le cercle des corrélation X3 est selon X2' (il est très corrélés positivement avec lui r32' vaut environ 0,97).

La deuxième composante principale correspond donc sim

plement au prix (poids 27%).

Le prix des matériaux est sans lien avec leur confort. Des grandeurs décorrélées sur le cercle des corré

lations sont à angle droit avec le centre. Plus elles sont corrélées dans le même sens, plus l'angle est faible ; et si elles sont corrélées en sens contraire, l'angle vaut 180°.

Regardons maintenant les individus et essayons de les re

grouper en catégories :

Tout d'abord un isolé, l'individu 11, qui à un confort/épaisseur moyen et un prix élevé.

Le groupe le plus intéressant en bas à gauche (2, 5 et 4 ), qui correspond à des isolants à la fois pas cher et confortable (avec une bonne épaisseur).

Et puis ceux qui partent vers la droite, d'un prix moyen mais pas confortable, donc à éviter, à moins que le volume disponible pour l'isolation soit faible.

A vous de prendre votre décision ; cet outil permet de choisir son isolant en connaissance de cause.

Dans le deuxième devoir sont étudiées d'autres isolants avec l'éco-bilan, l'isolation et le confort d'été.

Dans le document Probabilités, statistiques et analyses multicritères (Page 79-92)