Repr´esentation des individus - R´egression PLS et Analyse en Composantes Principales usuelle

9.10 R´egression PLS et Analyse en Composantes Principales usuelle

9.11.2 Repr´esentation des individus

Par analogie à l’Analyse en Composantes Principales usuelle, la plupart des logiciels présentent une carte des individus fournie par la représentation graphique (tⁱ, t^j). On va voir pourquoi ce n’est pas une représentation factorielle basée sur une projection, on la qualifie de ”pseudo factorielle”. Elle est cependant, souvent globalement proche de de la carte factorielle exacte (t^∗i, t^∗j) définie dans ce paragraphe et à laquelle est associée une mesure de la qualité de la représentation de chaque individu.

Pour k ∈ {1, . . . , r}, on dispose par la proposition 9.7 (b), de deux familles orthogo-nales,{w¹, . . . , w^k}et{w∗¹, . . . , w∗^k}, dans l’espace, Im X^′, des individus du tableau des prédicteurs. La première est orthogonale au sens usuel, la secondeV-orthogonale. D’autre part, une composante s’écrit

tⁱ =X(i−1)wⁱ =Xw∗ⁱ.

Il est clair que si l’on projetteX^′ sur wⁱ, les coordonnées du nuage des points projetés ne s’exprime pas simplement en fonction de tⁱ et il est impossible d’interpréter les individus projetés par rapport aux variables les plus proches de tⁱ.

Nous utiliserons donc, l’autre famille, {w∗¹, . . . , w∗^k}, comme axes factoriels et pour cela, munirons l’espace Im X^′ de la métrique V. La représentation des individus est ainsi associée au triplet (X,V, D) qui sert d’optique photographique.

Proposition 9.9 : Les points du nuage des individus de X projetés sur l’axe fac-toriel défini par le vecteur unitaire ˜w^∗i = w^∗i/kw^∗ik^V, ont pour mesures algébriques les coordonnées du vecteur

t^∗i =WDt˜ⁱ =XX^′Dtⁱ/ktⁱkD =XpⁱktⁱkD. (9.54) 2

Preuve :

Π^V_w_˜∗iX^′ = ˜w^∗iw˜^∗i′VX^′ = ˜w^∗i(XX^′DXw˜^∗i)^′ = ˜w^∗i(XX^′Dtⁱ/kw^∗ik^V)^′. L’expression de pⁱ donn´ee par (9.32) termine la preuve. 2

Calcul Matriciel et Analyse Factorielle des Donn´ees

Hélas ! Le vecteur t^∗i n’est pas, en général, colinéaire à tⁱ sauf dans deux cas limites pour PLS, celui de l’ACP de X et celui où les variables explicatives standardisées sont non corrélées deux à deux (V = Ip). Ainsi, représenter les individus par la carte (tⁱ, t^j) n’est légitimement fondé que dans ces deux cas extrêmes où l’on retrouve la dualité d’interprétation d’une composante, à la fois axe factoriel du côté des variables et vecteur des coordonnées des individus projetés.

L’écart à la dualité pour une composante tⁱ, appelé “saut de dualité” et notéSDi, est l’expression comprise entre 0 et 1,

SDi = 1−ri,

où ri =r(tⁱ, t^∗i) est le coefficient de corrélation linéaire entret^∗i ettⁱ.

D’apr`es (9.32),cov(tⁱ, t^∗i) = kpⁱk²var(tⁱ)>0 si i≤rang(X). Comme cons´equence, ri est positif, l’angle entre tⁱ ett^∗i est aigu et SDi est compris entre 0 et 1.

Cas SDi = 0 : ∃αi >0 tel que XX^′Dtⁱ =αitⁱ Y =X P LS(X, Y)≡ACP(X), alors ∀i, αi =λi

V=Ip non corr´elation, alors ∀i, αi = 1

Plus SD_i sera voisin de 0 (r_i voisin de 1) et plus il sera justifié d’interpréter la représentation des individus donnée par t^∗i, grâce aux variables explicatives et aux va-riables réponses projetées sur tⁱ.

La V-orthogonalit´e de deux axes factoriels (w^∗i, w^∗j) permet de d´ecomposer la pro-jection des individus sur le plan (i, j) comme la somme des propro-jections sur chacun des axes

Π^V_{( ˜}_w∗i,w˜^∗j)X^′ = Π^V_w_˜∗iX^′+ Π^V_w_˜∗jX^′. Mesure de la qualit´e de la repr´esentation d’un individu

De fa¸con habituelle, une mesure de la qualité de la représentation de l’individu l sur l’axe i ou sur le plan factoriel (i, j), est donnée par le carré du cosinus du V-angle formé par les deux vecteurs d’origine l’origine des coordonnées, et dont les extrémités sont le point-individu l d’une part et sa projection d’autre part. Soit r = rang(X), les contributions relatives de l’axe i et du plan factoriel (i, j) à la représentation de l’individu l sont

cos²θⁱ_l = (t^∗i_l )² Pr

j=1(t^∗j_l )² et cos²θî,j_l = cos²θ_lⁱ+ cos²θ_l^j. (9.55) Remarquons que dans (9.55), le dénominateur est égal àXlVXl′ oùXl est la lième ligne de X. En effet, si l’on note Wf^∗(k) la matrice des vecteurs unitaires, et T^∗(k) la matrice

des vecteurs donnant les coordonn´ees des projections,

Wf^∗(k) = [ ˜w^∗1. . .w˜^∗k] =W^∗(k)[T(k)^′DT(k)]^−1/2, (9.56.a) T^∗(k) = [t^∗1. . . t^∗k] =XX^′DTe(k), (9.56.b) alors, puisque ImWf^∗(r) =Im X^′,X^′ = Π^V_f

W^∗(r)X^′ =Wf^∗(r)T^∗(r)^′ et

T^∗(r)T^∗(r)^′ =T^∗(r)IrT^∗(r)^′ =T^∗(r)[fW^∗(r)^′VWf^∗(r)]T^∗(r)^′ =XVX^′. (9.57) L’élément diagonal (l, l) de ces matrices donne le résultat.

D´ecomposition de l’inertie du nuage des individus

Le nuage des individus a pour inertie, notée Iînd, le carré de la norme de Frobénius de V Iînd=trace(XVX^′D) = trace(V²) =kVk²F. (9.58) En outre, Iînd ≥ trace(V) = I^x si pour tout i, σ(Xⁱ) ≥ 1, ce qui est le cas dans PLS sur variables standardisées. L’inertie des individus Iînd, égale à I^x dans l’ACP usuelle, incorpore dans PLS, non seulement les variances mais aussi les covariances des variables explicatives.

I^ind = Xp

i=1

var²(Xⁱ) + 2X

i6=j

cov²(Xⁱ, X^j)≥ Xp

i=1

var²(Xⁱ).

Il est int´eressant de regarder si I^ind est assez proche de Pp

i=1var²(Xⁱ) (de pdans le cas standardisé) c’est à dire siVest proche d’être diagonale (de la matrice identité dans le cas standardisé). Dans ce cas, toutes les composantes PLS sont certes proches de la dualité au sens défini plus haut mais PLS perd de son intérêt.

D’autre part, l’inertie se d´ecompose en la somme des inerties des points projet´es sur chacun des r axes possibles,

I^ind =trace(T^∗(r)T^∗(r)^′D) = Xr

i=1

trace(t^∗it^∗i′D) = Xr

i=1

Iiînd. L’inertie des individus projetés sur l’axe i est, puisque t^∗i est D-centré,

Iiînd =trace(t^∗it^∗i′D) =t^∗i′Dt^∗i =var(t^∗i), On définit, en pourcentage, la qualité globale du plan factoriel (i, j) par

100Ii,j^ind

I^ind = 100Ii^ind

I^ind + 100Ij^ind

I^ind.

Calcul Matriciel et Analyse Factorielle des Donn´ees

Proposition 9.10 : Expression des inerties associ´ees aux deux triplets

L’inertie des variables explicatives et l’inertie des individus correspondants peuvent s’ex-primer de deux fa¸cons diff´erentes en fonction de tⁱ ou de t^∗i

I^x =trace(V) =

Preuve : Seule la dernière égalité dans chacune des formules est à démontrer, les premières ayant déjà été obtenues.

Si l’on prendk =r =rang(X),X^′ est invariant par projection surImfW^∗(r) de mˆeme,X

9.12 M´ etriques pour les individus et optiques

Dans le document Éléments de Calcul Matriciel et d’Analyse Factorielle de Données (Page 190-193)