• Aucun résultat trouvé

Chapitre 1. Notions préliminaires

1.2. L’analyse en composantes principales

L’analyse en composantes principales (ACP) est une technique qui permet de réduire la dimen- sion d’un jeu de données tout en préservant sa structure au maximum. La notion de préservation maximale de la structure sera explicitée un peu plus tard dans cette section. Il est utile de réduire la dimension d’un jeu de données lorsque, par exemple, celle-ci fait en sorte qu’il est impossible d’estimer les paramètres d’un modèle. C’est le cas lorsque le nombre de variables explicatives est supérieur au nombre d’observations dans un contexte de régression linéaire. Il s’agit d’ailleurs d’un des problèmes étudiés au chapitre5.

L’idée, introduite par Pearson (1901) puis développée par Hotelling (1933), est d’appliquer une transformation linéaire Aqà la matrice contenant le jeu de données X de manière à obtenir une nouvelle matrice de plus petite dimension dont les colonnes, nommées « composantes principales », sont orthogonales. Plus précisément, la multiplication matricielle XAq =: Zq est effectuée. La matrice X est de dimension n × p où n représente habituellement la taille de l’échantillon et p le nombre de variables. La matrice Aq a des colonnes orthonormales et est de dimension p × q, où q ≤ r et r est le rang de la matrice X. La matrice Zq est donc de dimension n × q. Une première façon de préserver la structure de X est de conserver au maximum la variabilité présente dans ce jeu de données. C’est l’idée qu’on eu ces auteurs. Les colonnes de Aq sont donc choisies de manière à ce que les colonnes Zq soient les plus variables possible. La construction est plus précisément la suivante :

1. On débute par la première colonne, c’est-à-dire la maximisation de 1 n− 1 n X i=1 (zi1− ¯z1)2,

en considérant qu’il s’agit d’une fonction de a1, soit la première colonne de Aq, où zi j est l’élément (i, j) de la matrice Zq et ¯z1 := (1/n)Pni=1zi1. Maintenant, supposons que les colonnes de X sont centrées, c’est-à-dire que (1/n) Pn

i=1xi j = 0 pour tout j. Alors, ¯z1 = 0 puisque zi1 = Ppj=1xi jaj1, où ai j est l’élément (i, j) de la matrice Aq. Donc, on peut de manière équivalente maximiser Pn

i=1z 2

i1 = zT1z1 = aT1XTXa1, où z1 est la première colonne de Zq. On maximise alors cette quantité sous la contrainte : aT1a1 = 1 (la matrice Aq a des colonnes orthonormales). On utilise la technique du multiplicateur de Lagrange, ce qui nous mène à l’équation suivante suite à la dérivée par rapport à a1:

(XTX − λI

p)a1 = 0,

où λ est le multiplicateur de Lagrange et Ip est la matrice identité de dimension p × p. Ainsi, λ est une valeur propre de XTX et a

1 est le vecteur propre correspondant. Afin de déterminer à laquelle des valeurs propres on fait référence, on se rappelle que la quantité à maximiser est aT

1XTXa1 = aT1λa1 = λ. Donc, λ (qui est à un facteur près la variance échantillonnale de la première composante) doit être maximale, ce qui implique que a1est le vecteur propre correspondant à la valeur propre la plus élevée que l’on note λ1.

2. Maintenant que nous avons trouvé a1, on trouve a2 de la même façon en ajoutant la contrainte que zT

1z2= 0. On peut démontrer que la solution est similaire, c’est-à-dire que a2 est le vecteur propre de XTX correspondant à la valeur propre la plus élevée, mais en consi- dérant que z2 , z1. Donc, en supposant qu’il n’y a pas répétition dans les valeurs propres, a2 est le vecteur propre correspondant à la deuxième valeur propre la plus élevée, que l’on note λ2. La répétition de valeurs propres est un phénomène inhabituel et nous ne devrions donc pas trop se soucier de ceci en pratique (voirJolliffe (1986), section 2.4 pour de plus amples explications).

3. On procède ainsi jusqu’à aq.

Il est généralement de bonne pratique de travailler avec un jeu de données dont les colonnes sont standardisées, c’est-à-dire que (1/(n − 1))Pn

i=1x2i j = 1 pour tout j (rappel : (1/n) Pn

i=1xi j = 0 pour tout j). Ainsi, les résultats de l’ACP ne sont pas influencés par l’échelle par rapport à laquelle les données sont mesurées. Notons que dans ce cas, la matrice (1/(n − 1))XTX est la matrice de corrélation. Cette matrice joue donc un rôle central dans l’ACP.

À ce point, on pourrait se demander si la construction décrite plus haut préserve la structure du jeu de données au maximum en considérant d’autres critères que la variabilité. C’est en fait le cas, ce qui représente une propriété importante de l’ACP. Afin de fournir un exemple d’un de ces critères, nous introduisons un résultat qui se nomme « décomposition en valeurs singulières ». Il indique qu’une matrice X de dimension n × p peut s’écrire

X = ULAT

, (1.4)

(i) U et A sont des matrices de dimensions respectives n × r et p × r, ayant des colonnes orthonor- males et étant telles que UTU = I

ret ATA = Ir, (ii) L est une matrice diagonale de dimension r × r, (iii) r est le rang de X.

Considérons que X est, comme plus haut, la matrice contenant le jeu de données, et que ses co- lonnes sont centrées. On peut démontrer que X satisfait l’équation (1.4) lorsque

(i) A := Ar, soit la matrice de dimension p × r ayant comme colonnes les vecteurs a1, . . . , ar construits de la façon décrite précédemment,

(ii) U est la matrice dont les colonnes sont données par uj = λ−1/2j Xaj où λj est la j-ième valeur propre de XTX, pour j = 1, . . . , r,

(iii) L est la matrice diagonale de dimension r × r dont les éléments sur la diagonale sont donnés par λ1/2j .

Ce résultat implique que XAr= UL = Zr, nous procurant une méthode alternative pour trouver les composantes principales. Par ailleurs, ce résultat indique que les éléments de la matrice X peuvent s’écrire de la façon suivante :

xi j = r X k=1 uikλ1/2k ajk = r X k=1 zikajk,

où uikest l’élément (i, k) de la matrice U. En ne considérant que les q < r premières composantes principales (ou les q premières colonnes de U et L), on obtient

qˆxi j := q X

k=1 zikajk.

Il est légitime de se demander siqˆxi j est une bonne approximation de xi j. Il se trouve qu’il s’agit de la meilleure approximation obtenue à partir de matrices de rang q. En effet, la matrice de rang q qX qui minimise kqX − Xk est celle composée desqˆxi j, où k · k est la norme euclidienne. Les transformations linéaires de X en utilisant les valeurs et les vecteurs propres de XTX contiennent, en ce sens, beaucoup d’information sur la structure de X.

Plus la valeur de q augmente, plus la structure de X est préservée. La valeur de q est parfois fixée arbitrairement. Par exemple, l’utilisateur pourrait vouloir se restreindre à 2 composantes prin- cipales. Elle est plus souvent déterminée par le biais de critères plus objectifs. L’un de ceux-ci sera décrit au chapitre5.

R

ÉFÉRENCES

Green, P. J. 1995, «Reversible jump Markov chain Monte Carlo computation and Bayesian model determi- nation», Biometrika, vol. 82, no 4, p. 711–732.

Hastings, W. K. 1970, «Monte Carlo sampling methods using Markov chains and their applications», Bio- metrika, vol. 57, no 1, p. 97–109.

Hotelling, H. 1933, «Analysis of a complex of statistical variables into principal components», J. Educ. Psychol., vol. 24, p. 417–441, 498–520.

Jolliffe, I. T. 1986, «Principal component analysis», Springer.

Metropolis, N., A. W. Rosenbluth, M. N. Rosenbluth, A. H. Teller et E. Teller. 1953, «Equation of state cal- culations by fast computing machines», J. Chem. Phys., vol. 21, p. 1087.

Pearson, K. 1901, «On lines and planes of closest fit to systems of points in space», Phil. Mag., vol. 2, no 6,

p. 559–572.

Peskun, P. 1973, «Optimum Monte-Carlo sampling using Markov chains», Biometrika, vol. 60, no 3, p.

607–612.

Sherlock, C. et G. O. Roberts. 2009, «Optimal scaling of the random walk Metropolis on elliptically sym- metric unimodal targets», Bernoulli, vol. 15, no 3, p. 774–798.

Tierney, L. 1994, «Markov chains for exploring posterior distributions», Ann. Statist., p. 1701–1728. Tierney, L. 1998, «A note on Metropolis-Hastings kernels for general state spaces», Ann. Appl. Probab., vol. 8, p. 1–9.

Documents relatifs