Analyse en Composantes Principales d’ordre k du triplet (X, M, D)

L’Analyse en Composantes Principales, en bref ACP, usuelle associée au choix M = Ip et D = n⁻¹In, est une méthode d’analyse exploratoire de données multivariées dont l’un des objectifs est la vision plane à deux dimensions des points lignes et des points colonnes (photos obtenues par projection sur des plans dits factoriels).

Le fait d’envisager des métriques plus générales introduit une distorsion dans la représentation des distances, voir les remarques de la section 2.6. et la section 7.1.3. Ce-pendant, dans la plupart des méthodes factorielles, outreD, la métrique M est diagonale.

Dans ce cas, pour une vision naturelle d’un point il suffit de multiplier chaque coordonnée ipar la racine carrée duième élément diagonal de la métrique. Cela est cependant inutile dans l’ACP usuelle où tous les points lignes ont le même poids ainsi que les points colonnes.

Dans l’Analyse Factorielle des Correspondances (AFC) simple ou multiple, des transfor-mations sur les données sont effectuées pour que les distances Euclidiennes associées au triplet correspondent à la distance duχ² entre vecteurs des fréquences conditionnelles des données d’une enquête. La vision naturelle des points n’est pas, dans ce cas, l’objectif à atteindre.

Calcul Matriciel et Analyse Factorielle des Donn´ees

Les plans factoriels de projection ne sont autres que ceux formés par les couples de vecteurs des bases orthonormées de la DVS du triplet : (Vⁱ, V^j) pour voir les points lignes, ou (Uⁱ, U^j) pour voir les points colonnes. Reste à décider quels sont les k meilleurs plans factoriels, c’est à dire ceux pour qui les photos obtenues seront porteuses d’informations interprétables : l’ACP d’ordre k est définie à partir de la DVS en éliminant la part de bruit incluse dans les données et mesurée grâce au théorème d’Eckart-Young.

7.2.1 D´ efinitions

La matriceXest supposéeD-centrée en colonnes à partir d’une matriceT des données brutes

X = (I_n−1I_n1I^′_nD)T .

Le point origine de l’espace des points lignes deXs’interprète comme le point ligne moyen, 1I^′_nDT, du tableau T. La matrice des covariances entre les variables est V=X^′DX, celle des produits scalaires entre les individus W = XMX^′. À ces matrices sont associés les opérateurs aux valeurs propres-vecteurs propres de la DVS du triplet.

Opérateurs en dualité et inertie du triplet (X, M, D) – Opérateur des covariances : VM =X^′DXM

– Op´erateur des produits scalaires entre individus :WD=XMX^′D – Inertie totale du triplet : kXk²M⊗D =trace(XMX^′D) =trace(X^′DXM)

Expression tirée de la terminologie de la mécanique du point matériel, l’“inertie totale” des n points lignes Mi pesant chacunpi

Xn i=1

pikXik²M = Xn

i=1

piXiMX_i^′ =trace(XMX^′D) = kX^′k²D⊗M =kXk²M⊗D,

est la mesure du moment d’inertie du nuage desn points par rapport à l’origine des coor-données, ici le point ligne moyen. Cette expression mesure l’éloignement de l’origine des points Mi par les carrés de leurs distances pondérés par les poids statistiques.

Dans le cas particulier M = Ip, l’inertie totale trouve une interpr´etation duale par rap-port aux colonnes de X. En effet, trace(X^′DX) = Pp

j=1V^j

j = Pp j=1

i=1p_i(X_i^j)² = Pp

j=1

i=1pi(T_i^j −T^j)² est aussi la variance totale c’est à dire la somme des variances des p variables. Si de plus les variables sont D-centrées réduites l’inertie totale est dans

ce cas, ´egale `a p.

Proposition :

kXk²M⊗D =trace(Λr) = Xr

i=1

λi.

Preuve: utiliser la DVS du triplet et l’orthogonalit´e des matrices U etV. 2

ACP d’ordre k du triplet (X, M, D)

La matriceXétant supposée de rangretD-centrée en colonne, on appelle ACP d’ordre k, k ≤r, du triplet (X, M, D), la DVS incomplète de rang k

Xb_k =U_kΛ^1/2_k V_k^′, telle qu’elle est définie dans le théorème d’Eckart-Young.

Les deux formules de transition s’´ecrivent `a l’ordrek

Uk =XMVkΛ^−1/2_k (∗) et Vk =X^′DUkΛ^−1/2_k (∗∗).

Proposition : L’approximation de rangk deX a pour colonnes (pour lignes) les projec-tions des colonnes (des lignes) de X sur l’espace vectoriel Im Uk (sur Im Vk)

Xbk = Π^D_U_kX et Xbk′ = Π^M_V_kX^′. 2

Preuve : Faisons la preuve pour les colonnes. La deuxi`eme formule de transition (**) donne

Π^D_U_kX = UkU_k^′DX

= Uk(X^′DUk)^′

= UkΛ^1/2_k V_k^′. 2

7.2.2 Principe fondamental de l’Analyse Factorielle

Ce principe est la justification de la projection du nuage des individus sur les axes factoriels{V¹, . . . , V^k}, class´es par ordre d´ecroissant des valeurs propres, λ1 ≥. . .≥λk.

Principe de l’Analyse Factorielle :

Si on admet que le meilleur “clich´e” unidimensionnel est fourni par un axe sur lequel, en projection, le nuage des points lignes est d’inertie maximale, alors, l’axe factorielV¹ est le meilleur axe ; ensuite, V² est meilleur second, orthogonal au premier...

Calcul Matriciel et Analyse Factorielle des Donn´ees

Preuve: Montrons que, parmi tous les vecteurs V ∈(IR^p, M) de longueur 1, V¹ =arg max

kVk²_M=1trace((Π^M_V X^′)^′M(Π^M_V X^′)D).

La fonction objectif à maximiser qui est l’inertie des points lignes projetés sur V, s’écrit ϕ(V) =trace((Π^M_V X^′)^′M(Π^M_V X^′)D) = trace(XMV V^′MX^′D) =V^′MVMV . Ecrivons les équations aux dérivées partielles pour la fonction de Lagrange´

L(V, λ) = ϕ(V) +λ(1−V^′MV),

∇^VL(V, λ) =∇^Vϕ(V)−λ∇^V(V^′MV) = 2MVMV −2λMV = 0.

ce qui donne λ = ϕ(V) et VMV = λV. D’où la conclusion que le maximum est donné par V¹ vecteur propre de VM associé à la plus grande valeur propre λ1.

Montrons seulement queV²maximiseϕ(V) sous les contrainteskVk²M = 1 etV^1′MV = 0.

La restriction de la fonction objectif à l’espace vectoriel V¹^⊥ ={V ∈ IR^p|V¹^′MV = 0}, peut s’écrire ϕ_V^1⊥(V) = V^′M(V − λ1V¹V^1′)MV. Sur V^1⊥, la méthode de Lagrange associée à la contraintekVk²M = 1, conduit àλ=ϕ_V^1⊥(V) et à (V−λ1V¹V^1′)MV =λV. Le maximum est donc réalisé par le couple (V², λ2), λ2 plus grande valeur propre de (V−λ1V¹V^1′)M, étant la deuxième valeur propre de VM... 2

Remarque : Si tous les points lignes ont le même poids, le principe de l’analyse factorielle est un principe géométrique d’allongement maximum des points projetés sur chacun des axes.

ACP du triplet et “déflations” successives de X : Notons X(0) = X, on appelle déflation de X à l’ordre j, j = 1, . . . , k, la matrice,n×p, définie par récurrence,

X(j)=X(j−1)−Π^D_U^jX(j−1) = (In−Π^D_U^j)X(j−1). La matrice des covariances déflatée est notée V_(j)=X_(j)^′ DX(j). Proposition :

L’orthonormalit´e des axes factoriels{U¹, . . . , U^k} a pour cons´equences : pourj = 1, . . . , k,

Π^D_UjX_(j) = Π^D_UjX =p

λjU^jV^j^′ b)

X(j) =X(j−1)−p

λj−1U^j−1V^j−1′ =X−p

λ1U¹V^1′−. . .−p

λkU^jV^j^′ =X−Xˆj.

V_(j) =V_(j−1)−λjV^jV^j′ =V− Xj

i=1

λiVⁱV^i′. 2

Preuve:

a) L’orthogonalité donne Π^D_UjX(j) = Π^D_Uj(In−Π^D_Uj−1)X(j−1)= Π^D_UjX(j−1) =. . .= Π^D_UjX = pλjU^jV^j^′ grâce à la formule de transition (**).

b) De fa¸con évidente, en ajoutant les matrices déflatées, X_(j)=X−Pj i=1

√λ_iUⁱV^i′. c) ´Evident. 2

L’ACP d’ordrekdu triplet (X, M, D) peut donc être considérée d’un double point de vue.

D’abord de fa¸con directe, par la DVS du triplet et le théorème d’Eckart-Young, comme de l’approximation de rang k de X. Ensuite de fa¸con itérative, comme une suite de k

“régressions partielles”, Π^D_UjX(j−1) étant la régression numéro j de la matrice déflatée X_(j−1) sur la variable U^j. La matrice X_(j), de rang r−j, est la matrice des résidus de la régression partielle numéroj. La dernière matrice des résidus,X(k), donne l’approximation de rangk deX par la relation

Xˆ_k=U_kΛ^1/2_k V_k^′ =X−X_(k).

7.2.3 L’ACP usuelle d’ordre k

L’ACP usuelle, dite r´eduite ou norm´ee, est l’ACP d’ordre k du triplet (X, M =Ip, D = 1

nIn)

où X est formée par les n mesures de p variables quantitatives D-centrées réduites.

Dans ce cas la matrice des covariances V = _n¹X^′X est la matrice des corrélations entre les p variables. Parfois, lorsque les variables sont “homogènes”, c’est à dire ont des variances du même ordre de grandeur, il n’est pas nécessaire de réduire les variables. On dit alors que l’ACP est centrée.

Remarques :

R1 Les deux opérateurs VM = _n¹X^′X etWD= _n¹XX^′ jouent un rôle symétrique.

On retrouvera cette symétrie des opérateurs dans le cas où, commeDpour les lignes, M est une matrice diagonale des poids statistiques des points colonnes. L’Analyse Factorielle des Correspondances est l’exemple type de ce choix.

Calcul Matriciel et Analyse Factorielle des Donn´ees

R2 Dans l’espace des variables, la D-orthogonalité est identique à l’orthogonalité usuelle

< x, y >D= ¹_ny^′x= 0⇐⇒y^′x=< x, y >= 0, Π^D_X = Π_Xⁿ¹^Iⁿ = _n¹X(¹_nX^′X)⁺X^′ =X(X^′X)⁺X^′ = Π^I_Xⁿ.

R3 Puisque M =Ip et D= n⁻¹In, le carr´e de l’erreur d’approximation entre Xbk et X s’´ecrit

kX−Xbkk²M⊗D =trace[(X−Xbk)^′D(X−Xbk)M] = 1

nkX−Xbkk²F = Xr i=k+1

λi.

Dans le document Éléments de Calcul Matriciel et d’Analyse Factorielle de Données (Page 106-111)