9.10 R´egression PLS et Analyse en Composantes Principales usuelle
9.11.2 Repr´esentation des individus
Par analogie `a l’Analyse en Composantes Principales usuelle, la plupart des logiciels pr´esentent une carte des individus fournie par la repr´esentation graphique (ti, tj). On va voir pourquoi ce n’est pas une repr´esentation factorielle bas´ee sur une projection, on la qualifie de ”pseudo factorielle”. Elle est cependant, souvent globalement proche de de la carte factorielle exacte (t∗i, t∗j) d´efinie dans ce paragraphe et `a laquelle est associ´ee une mesure de la qualit´e de la repr´esentation de chaque individu.
Pour k ∈ {1, . . . , r}, on dispose par la proposition 9.7 (b), de deux familles orthogo-nales,{w1, . . . , wk}et{w∗1, . . . , w∗k}, dans l’espace, Im X′, des individus du tableau des pr´edicteurs. La premi`ere est orthogonale au sens usuel, la secondeV-orthogonale. D’autre part, une composante s’´ecrit
ti =X(i−1)wi =Xw∗i.
Il est clair que si l’on projetteX′ sur wi, les coordonn´ees du nuage des points projet´es ne s’exprime pas simplement en fonction de ti et il est impossible d’interpr´eter les individus projet´es par rapport aux variables les plus proches de ti.
Nous utiliserons donc, l’autre famille, {w∗1, . . . , w∗k}, comme axes factoriels et pour cela, munirons l’espace Im X′ de la m´etrique V. La repr´esentation des individus est ainsi associ´ee au triplet (X,V, D) qui sert d’optique photographique.
Proposition 9.9 : Les points du nuage des individus de X projet´es sur l’axe fac-toriel d´efini par le vecteur unitaire ˜w∗i = w∗i/kw∗ikV, ont pour mesures alg´ebriques les coordonn´ees du vecteur
t∗i =WDt˜i =XX′Dti/ktikD =XpiktikD. (9.54) 2
Preuve :
ΠVw˜∗iX′ = ˜w∗iw˜∗i′VX′ = ˜w∗i(XX′DXw˜∗i)′ = ˜w∗i(XX′Dti/kw∗ikV)′. L’expression de pi donn´ee par (9.32) termine la preuve. 2
Calcul Matriciel et Analyse Factorielle des Donn´ees
H´elas ! Le vecteur t∗i n’est pas, en g´en´eral, colin´eaire `a ti sauf dans deux cas limites pour PLS, celui de l’ACP de X et celui o`u les variables explicatives standardis´ees sont non corr´el´ees deux `a deux (V = Ip). Ainsi, repr´esenter les individus par la carte (ti, tj) n’est l´egitimement fond´e que dans ces deux cas extrˆemes o`u l’on retrouve la dualit´e d’interpr´etation d’une composante, `a la fois axe factoriel du cˆot´e des variables et vecteur des coordonn´ees des individus projet´es.
L’´ecart `a la dualit´e pour une composante ti, appel´e “saut de dualit´e” et not´eSDi, est l’expression comprise entre 0 et 1,
SDi = 1−ri,
o`u ri =r(ti, t∗i) est le coefficient de corr´elation lin´eaire entret∗i etti.
D’apr`es (9.32),cov(ti, t∗i) = kpik2var(ti)>0 si i≤rang(X). Comme cons´equence, ri est positif, l’angle entre ti ett∗i est aigu et SDi est compris entre 0 et 1.
Cas SDi = 0 : ∃αi >0 tel que XX′Dti =αiti Y =X P LS(X, Y)≡ACP(X), alors ∀i, αi =λi
V=Ip non corr´elation, alors ∀i, αi = 1
Plus SDi sera voisin de 0 (ri voisin de 1) et plus il sera justifi´e d’interpr´eter la repr´esentation des individus donn´ee par t∗i, grˆace aux variables explicatives et aux va-riables r´eponses projet´ees sur ti.
La V-orthogonalit´e de deux axes factoriels (w∗i, w∗j) permet de d´ecomposer la pro-jection des individus sur le plan (i, j) comme la somme des propro-jections sur chacun des axes
ΠV( ˜w∗i,w˜∗j)X′ = ΠVw˜∗iX′+ ΠVw˜∗jX′. Mesure de la qualit´e de la repr´esentation d’un individu
De fa¸con habituelle, une mesure de la qualit´e de la repr´esentation de l’individu l sur l’axe i ou sur le plan factoriel (i, j), est donn´ee par le carr´e du cosinus du V-angle form´e par les deux vecteurs d’origine l’origine des coordonn´ees, et dont les extr´emit´es sont le point-individu l d’une part et sa projection d’autre part. Soit r = rang(X), les contributions relatives de l’axe i et du plan factoriel (i, j) `a la repr´esentation de l’individu l sont
cos2θil = (t∗il )2 Pr
j=1(t∗jl )2 et cos2θi,jl = cos2θli+ cos2θlj. (9.55) Remarquons que dans (9.55), le d´enominateur est ´egal `aXlVXl′ o`uXl est la li`eme ligne de X. En effet, si l’on note Wf∗(k) la matrice des vecteurs unitaires, et T∗(k) la matrice
des vecteurs donnant les coordonn´ees des projections,
Wf∗(k) = [ ˜w∗1. . .w˜∗k] =W∗(k)[T(k)′DT(k)]−1/2, (9.56.a) T∗(k) = [t∗1. . . t∗k] =XX′DTe(k), (9.56.b) alors, puisque ImWf∗(r) =Im X′,X′ = ΠVf
W∗(r)X′ =Wf∗(r)T∗(r)′ et
T∗(r)T∗(r)′ =T∗(r)IrT∗(r)′ =T∗(r)[fW∗(r)′VWf∗(r)]T∗(r)′ =XVX′. (9.57) L’´el´ement diagonal (l, l) de ces matrices donne le r´esultat.
D´ecomposition de l’inertie du nuage des individus
Le nuage des individus a pour inertie, not´ee Iind, le carr´e de la norme de Frob´enius de V Iind=trace(XVX′D) = trace(V2) =kVk2F. (9.58) En outre, Iind ≥ trace(V) = Ix si pour tout i, σ(Xi) ≥ 1, ce qui est le cas dans PLS sur variables standardis´ees. L’inertie des individus Iind, ´egale `a Ix dans l’ACP usuelle, incorpore dans PLS, non seulement les variances mais aussi les covariances des variables explicatives.
Iind = Xp
i=1
var2(Xi) + 2X
i6=j
cov2(Xi, Xj)≥ Xp
i=1
var2(Xi).
Il est int´eressant de regarder si Iind est assez proche de Pp
i=1var2(Xi) (de pdans le cas standardis´e) c’est `a dire siVest proche d’ˆetre diagonale (de la matrice identit´e dans le cas standardis´e). Dans ce cas, toutes les composantes PLS sont certes proches de la dualit´e au sens d´efini plus haut mais PLS perd de son int´erˆet.
D’autre part, l’inertie se d´ecompose en la somme des inerties des points projet´es sur chacun des r axes possibles,
Iind =trace(T∗(r)T∗(r)′D) = Xr
i=1
trace(t∗it∗i′D) = Xr
i=1
Iiind. L’inertie des individus projet´es sur l’axe i est, puisque t∗i est D-centr´e,
Iiind =trace(t∗it∗i′D) =t∗i′Dt∗i =var(t∗i), On d´efinit, en pourcentage, la qualit´e globale du plan factoriel (i, j) par
100Ii,jind
Iind = 100Iiind
Iind + 100Ijind
Iind.
Calcul Matriciel et Analyse Factorielle des Donn´ees
Proposition 9.10 : Expression des inerties associ´ees aux deux triplets
L’inertie des variables explicatives et l’inertie des individus correspondants peuvent s’ex-primer de deux fa¸cons diff´erentes en fonction de ti ou de t∗i
Ix =trace(V) =
Preuve : Seule la derni`ere ´egalit´e dans chacune des formules est `a d´emontrer, les premi`eres ayant d´ej`a ´et´e obtenues.
Si l’on prendk =r =rang(X),X′ est invariant par projection surImfW∗(r) de mˆeme,X