• Aucun résultat trouvé

7.4.1

Introduction

L’Analyse en Composantes Principales (ACP) a pour but d’´etudier un tableau X, de dimen- sion n × p, de mesures dans lequel figurent p colonnes de variables `a valeurs continues et dont les n lignes repr´esentent des individus (un tel tableau sera appel´e tableau individu/caract`eres) et de r´ev´eler les corr´elations existantes entre les variables. L’ACP va repr´esenter les proximit´es entre variables et les diff´erences entre individus.

Si le nombre de variables p est sup´erieur `a 3, il est impossible de visualiser le nuage de points donn´ee par le tableau individu/caract`eres. L’un des objectifs de l’ACP est de repr´esenter

7.4. L’ANALYSE EN COMPOSANTES PRINCIPALES 65 g´eom´etriquement dans un espace `a faible dimension les informations contenues dans le ta- bleau individu/caract`eres `a grande dimension. En d’autres termes, k nouvelles variables sont recherch´ees, combinaison des p variables initiales, faisant perdre le moins d’information possible (k < p). Ces k variables seront appel´ees composantes principales et les axes leur correspondant, les axes principaux. Les variables initiales contenues dans le tableau de donn´ees sont en g´en´eral corr´el´ees, un des objectifs sera de trouver de nouvelles variables non corr´el´ees, ce qui signifie que les k composantes principales devront ˆetre non corr´el´ees, c’est-`a-dire orthogonales. Finalement les deux composantes principales les plus significatives seront choisies pour repr´esenter le nuage de point dans un espace `a deux dimensions.

Le probl`eme ici sera donc de trouver un espace dans lequel projeter le nuage de points tout en minimisant les pertes. Ceci signifie que les composantes choisies vont devoir repr´esenter le mieux possible la variance des donn´ees initiales.

Ce qui suit est tir´e du cours du Professeur Ludovic Lebart du Diplˆome Postgrade en Statistique [192].

7.4.2

Interpr´etations g´eom´etriques

Il s’agit ici du cas o`u les donn´ees sont sous la forme d’un tableau (X) de mesures dont les colonnes repr´esentent des variables continues et dont les lignes repr´esentent les individus sur lesquels ces variables sont mesur´ees.

Soit X = (xij) o`u i repr´esente les individus et j les variables, il serait int´eressant d’avoir une

id´ee de la structure des p variables, ainsi que des similitudes ´eventuelles du comportement entre les groupes d’individus.

Les repr´esentations g´eom´etriques entre les lignes et les colonnes du tableau individus/caract`eres, permettent de visualiser les proximit´es entre les individus et les variables (Fig. 7.4).

7.4.3

Pour les n individus

Dans ℜp

, les n(n−1) distances attach´ees aux couples de points qui repr´esentent des individus ont une interpr´etation directe pour l’utilisateur :

d2(i, i′) =

p

X

j=1

(xij − xi′j)2

Il s’agit de la distance euclidienne classique. Deux points sont tr`es voisins si leurs p coordonn´ees sont tr`es proches. Les deux individus concern´es sont alors caract´eris´es par des valeurs presque ´egales pour chaque variable.

7.4.4

Pour les p variables

Si les valeurs prises par deux variables particuli`eres sont tr´es voisines pour tous les individus, ces variables seront repr´esent´ees par deux points tr´es proches dans ℜn. Cela peut vouloir dire que

ces variables mesurent une mˆeme chose ou encore qu’elles sont li´ees par une relation particuli`ere. Par contre, il est ici difficile de d´eterminer une mesure, en effet comment calculer la distance entre deux variables exprim´ees dans deux unit´es diff´erentes ?

Fig. 7.4 – Principe de repr´esentation g´eom´etrique.

De plus, comment interpr´eter un ´eloignement dans ℜp? Est ce que deux individus proches

dans ℜp auront syst´ematiquement les mˆemes valeurs pour chacune des variables ? L’analyse en

composantes principales permet de donner des ´el´ements de r´eponses `a ces questions.

7.4.5

Analyse du nuage des individus

Dans l’espace des variables, il faut ajuster le nuage des n points par un sous-espace `a une, puis deux dimensions, de fa¸con `a obtenir sur un graphique une repr´esentation la plus fid`ele possible des proximit´es existant entre les n individus, vis `a vis des p variables.

7.4.5.1 Principe d’ajustement

Il faut rendre maximum la somme des carr´es des distances entre tous les couples d’individus projet´es max(H) ( n X i=1 n X i′=1 d2H(i.i′) )

Ceci signifie que la droite d’ajustement H1 ne doit pas forc´ement passer par l’origine.

Si hi et hi′ d´esignent les valeurs des projections des deux points-individus i et i′ sur H1 alors on a la relation :

7.4. L’ANALYSE EN COMPOSANTES PRINCIPALES 67 n X i,i′ d2(i, i) = n X i,i′ (hi− hi′)2 = n n X i,i′ h2 i + n n X i,i′ h2 i′ − 2 n X i hi n X i′ hi′ = 2n2 1 n n X i h2i − h 2 ! = 2n n X i (hi− h)2

o`u h d´esigne la moyenne des projections des n individus et correspond `a la projection sur H1

du centre de gravit´e G du nuage, G = (. . . , xj, . . . ) = (. . . ,1n

Pn i xij, . . . ). Par cons´equent : n X i,i′ d2(i, i′) = 2n n X i d2(i, G)

Rendre maximum la somme des carr´es des distances entre les couples d’individus revient `a maximiser la somme des carr´es des distances entre les points et le centre de gravit´e du nuage G. Si l’origine est prise en G, la quantit´e `a maximiser sera la somme des distances `a l’origine, ce qui correspond au probl`eme d’une analyse g´en´erale dans ℜp. Le sous-espace cherch´e r´esulte

de l’analyse g´en´erale du tableau transform´e Y , de terme g´en´eral : yij = xij − xj

7.4.5.2 Distance entre les individus

Il peut exister des valeurs de j pour lesquelles les variables correspondantes sont d’´echelle tr´es diverse. La distance entre deux points doit ˆetre ind´ependante des unit´es sur les variables. Alors le tableau Y des donn´ees centr´ees r´eduites de terme g´en´eral sera

yij =

xij − xj

sj√n

afin que toutes les variables soient comparables et aient la mˆeme dispersion s2(y

ij) = 1.

7.4.5.3 Matrice `a diagonaliser

En r´esum´e, l’analyse du nuage de points dans ℜp a amen´e `a faire une translation de l’origine

au centre de gravit´e de ce nuage et `a changer les ´echelles sur les diff´erents axes. Donc la somme des carr´es des distances recherch´ee au d´ebut de cette analyse n’est autre que YTY , c’est-`a-

dire que l’analyse du tableau des donn´ees centr´ees r´eduites Y conduit `a maximiser la matrice C = YTY dont le terme g´en´eral c

jj′ s’´ecrit : cjj′ = n X i xijxij′ c’est-`a-dire cjj′ = 1 n n X i (xij − xj)(xij′ − xj′) sjsj′ = cor(j, j′)

Donc, la matrice C n’est autre que la matrice de corr´elation, et qu’il faut maximiser.

Or le meilleur sous-espace `a k dimensions est engendr´e par les k premiers vecteurs propres de la matrice C et correspond aux k plus grandes valeurs propres λ1, λ2, . . . , λk. La matrice C doit

donc ˆetre diagonalis´ee afin d’en extraire ses valeurs propres et ses vecteurs propres.

En conclusion, les vecteurs propres de la matrice de corr´elation C des donn´ees centr´ees r´eduites seront les vecteurs qui engendrent le meilleur sous-espace dans lequel projeter notre nuage de points. Ce qui signifie que la projection de l’ensemble des vecteurs unitaires de l’ensemble ℜp

dans le nouvel ensemble est l’ensemble des vecteurs propres V . Et les valeurs propres seront proportionnelles `a la variance associ´ee `a chaque axe.

D`es lors il va falloir recalculer les coordonn´ees H des points de notre nuage dans le nouvel espace. Pour cela la formule suivante est utilis´ee :

H = Y V

et le pourcentage de variance expliqu´ee par l’axe q, c’est-`a-dire par le qi`eme vecteur propre est

donn´ee par :

λq

Pk

i=1λq

En g´en´eral les deux premier axes (qui `a eux deux expriment la majorit´e de la variance du nuage de points initial) sont choisis pour repr´esenter le nuage projet´e.

7.4.6

Le cercle des corr´elations

Lorsque l’ACP a ´et´e effectu´ee, le nuage de points est projet´e sur le sous-espace d´efini par les deux premiers axes principaux, d`es lors il est possible de visualiser le nuage de points. Cependant les axes repr´esent´es sur ce graphique ne sont pas facilement interpr´etables car ils sont des combinaisons lin´eaires des variables initiales. Une m´ethode pour visualiser l’effet d’une variable `a l’int´erieur des nouvelles composantes est de tracer le cercle des corr´elations. Ce graphique repr´esentera les corr´elations entre les variables initiales et les deux premiers axes principaux et sera calcul´e par :

R =√λV

Plus un point est proche du cercle, plus son poids est important dans la construction de l’axe. Par exemple, une variable situ´ee sur le cercle au niveau du point rouge sur la Fig. 7.5 sera une variable tr´es fortement corr´el´ee positivement avec le premier axe, et tr´es peu corr´el´ee avec le deuxi`eme, ce qui signifie que l’´etalement du nuage de point dans la direction du premier axe est dˆu `a cette variable. Dans ce cas, si cette variable est la variable longueur de la coquille alors plus on se d´eplace vers la droite dans le nuage de points, plus on va vers les grandes coquilles. Une variable situ´ee au niveau du point vert sur le cercle des corr´elations, sera corr´el´ee avec le deuxi`eme axe et non avec le premier. Si dans ce cas, cette variable est le poids, alors plus on se d´eplace vers le haut dans le nuage de points, plus on va vers les coquilles les plus lourdes. Ce cercle des corr´elations est donc tr´es important lorsque l’on souhaite ´etudier les r´esultats fournis par l’ACP, et plus particuli`erement pour expliquer les diff´erences entre d’´eventuels groupes.