• Aucun résultat trouvé

Repr´esentation des individus

9.10 R´egression PLS et Analyse en Composantes Principales usuelle

9.11.2 Repr´esentation des individus

Par analogie `a l’Analyse en Composantes Principales usuelle, la plupart des logiciels pr´esentent une carte des individus fournie par la repr´esentation graphique (ti, tj). On va voir pourquoi ce n’est pas une repr´esentation factorielle bas´ee sur une projection, on la qualifie de ”pseudo factorielle”. Elle est cependant, souvent globalement proche de de la carte factorielle exacte (t∗i, t∗j) d´efinie dans ce paragraphe et `a laquelle est associ´ee une mesure de la qualit´e de la repr´esentation de chaque individu.

Pour k ∈ {1, . . . , r}, on dispose par la proposition 9.7 (b), de deux familles orthogo-nales,{w1, . . . , wk}et{w∗1, . . . , w∗k}, dans l’espace, Im X, des individus du tableau des pr´edicteurs. La premi`ere est orthogonale au sens usuel, la secondeV-orthogonale. D’autre part, une composante s’´ecrit

ti =X(i−1)wi =Xw∗i.

Il est clair que si l’on projetteX sur wi, les coordonn´ees du nuage des points projet´es ne s’exprime pas simplement en fonction de ti et il est impossible d’interpr´eter les individus projet´es par rapport aux variables les plus proches de ti.

Nous utiliserons donc, l’autre famille, {w∗1, . . . , w∗k}, comme axes factoriels et pour cela, munirons l’espace Im X de la m´etrique V. La repr´esentation des individus est ainsi associ´ee au triplet (X,V, D) qui sert d’optique photographique.

Proposition 9.9 : Les points du nuage des individus de X projet´es sur l’axe fac-toriel d´efini par le vecteur unitaire ˜w∗i = w∗i/kw∗ikV, ont pour mesures alg´ebriques les coordonn´ees du vecteur

t∗i =WDt˜i =XXDti/ktikD =XpiktikD. (9.54) 2

Preuve :

ΠVw˜∗iX = ˜w∗i∗i′VX = ˜w∗i(XXDXw˜∗i) = ˜w∗i(XXDti/kw∗ikV). L’expression de pi donn´ee par (9.32) termine la preuve. 2

Calcul Matriciel et Analyse Factorielle des Donn´ees

H´elas ! Le vecteur t∗i n’est pas, en g´en´eral, colin´eaire `a ti sauf dans deux cas limites pour PLS, celui de l’ACP de X et celui o`u les variables explicatives standardis´ees sont non corr´el´ees deux `a deux (V = Ip). Ainsi, repr´esenter les individus par la carte (ti, tj) n’est l´egitimement fond´e que dans ces deux cas extrˆemes o`u l’on retrouve la dualit´e d’interpr´etation d’une composante, `a la fois axe factoriel du cˆot´e des variables et vecteur des coordonn´ees des individus projet´es.

L’´ecart `a la dualit´e pour une composante ti, appel´e “saut de dualit´e” et not´eSDi, est l’expression comprise entre 0 et 1,

SDi = 1−ri,

o`u ri =r(ti, t∗i) est le coefficient de corr´elation lin´eaire entret∗i etti.

D’apr`es (9.32),cov(ti, t∗i) = kpik2var(ti)>0 si i≤rang(X). Comme cons´equence, ri est positif, l’angle entre ti ett∗i est aigu et SDi est compris entre 0 et 1.

Cas SDi = 0 : ∃αi >0 tel que XXDtiiti Y =X P LS(X, Y)≡ACP(X), alors ∀i, αii

V=Ip non corr´elation, alors ∀i, αi = 1

Plus SDi sera voisin de 0 (ri voisin de 1) et plus il sera justifi´e d’interpr´eter la repr´esentation des individus donn´ee par t∗i, grˆace aux variables explicatives et aux va-riables r´eponses projet´ees sur ti.

La V-orthogonalit´e de deux axes factoriels (w∗i, w∗j) permet de d´ecomposer la pro-jection des individus sur le plan (i, j) comme la somme des propro-jections sur chacun des axes

ΠV( ˜w∗i,w˜∗j)X = ΠVw˜∗iX+ ΠVw˜∗jX. Mesure de la qualit´e de la repr´esentation d’un individu

De fa¸con habituelle, une mesure de la qualit´e de la repr´esentation de l’individu l sur l’axe i ou sur le plan factoriel (i, j), est donn´ee par le carr´e du cosinus du V-angle form´e par les deux vecteurs d’origine l’origine des coordonn´ees, et dont les extr´emit´es sont le point-individu l d’une part et sa projection d’autre part. Soit r = rang(X), les contributions relatives de l’axe i et du plan factoriel (i, j) `a la repr´esentation de l’individu l sont

cos2θil = (t∗il )2 Pr

j=1(t∗jl )2 et cos2θi,jl = cos2θli+ cos2θlj. (9.55) Remarquons que dans (9.55), le d´enominateur est ´egal `aXlVXl o`uXl est la li`eme ligne de X. En effet, si l’on note Wf(k) la matrice des vecteurs unitaires, et T(k) la matrice

des vecteurs donnant les coordonn´ees des projections,

Wf(k) = [ ˜w∗1. . .w˜∗k] =W(k)[T(k)DT(k)]−1/2, (9.56.a) T(k) = [t∗1. . . t∗k] =XXDTe(k), (9.56.b) alors, puisque ImWf(r) =Im X,X = ΠVf

W(r)X =Wf(r)T(r) et

T(r)T(r) =T(r)IrT(r) =T(r)[fW(r)VWf(r)]T(r) =XVX. (9.57) L’´el´ement diagonal (l, l) de ces matrices donne le r´esultat.

D´ecomposition de l’inertie du nuage des individus

Le nuage des individus a pour inertie, not´ee Iind, le carr´e de la norme de Frob´enius de V Iind=trace(XVXD) = trace(V2) =kVk2F. (9.58) En outre, Iind ≥ trace(V) = Ix si pour tout i, σ(Xi) ≥ 1, ce qui est le cas dans PLS sur variables standardis´ees. L’inertie des individus Iind, ´egale `a Ix dans l’ACP usuelle, incorpore dans PLS, non seulement les variances mais aussi les covariances des variables explicatives.

Iind = Xp

i=1

var2(Xi) + 2X

i6=j

cov2(Xi, Xj)≥ Xp

i=1

var2(Xi).

Il est int´eressant de regarder si Iind est assez proche de Pp

i=1var2(Xi) (de pdans le cas standardis´e) c’est `a dire siVest proche d’ˆetre diagonale (de la matrice identit´e dans le cas standardis´e). Dans ce cas, toutes les composantes PLS sont certes proches de la dualit´e au sens d´efini plus haut mais PLS perd de son int´erˆet.

D’autre part, l’inertie se d´ecompose en la somme des inerties des points projet´es sur chacun des r axes possibles,

Iind =trace(T(r)T(r)D) = Xr

i=1

trace(t∗it∗i′D) = Xr

i=1

Iiind. L’inertie des individus projet´es sur l’axe i est, puisque t∗i est D-centr´e,

Iiind =trace(t∗it∗i′D) =t∗i′Dt∗i =var(t∗i), On d´efinit, en pourcentage, la qualit´e globale du plan factoriel (i, j) par

100Ii,jind

Iind = 100Iiind

Iind + 100Ijind

Iind.

Calcul Matriciel et Analyse Factorielle des Donn´ees

Proposition 9.10 : Expression des inerties associ´ees aux deux triplets

L’inertie des variables explicatives et l’inertie des individus correspondants peuvent s’ex-primer de deux fa¸cons diff´erentes en fonction de ti ou de t∗i

Ix =trace(V) =

Preuve : Seule la derni`ere ´egalit´e dans chacune des formules est `a d´emontrer, les premi`eres ayant d´ej`a ´et´e obtenues.

Si l’on prendk =r =rang(X),X est invariant par projection surImfW(r) de mˆeme,X

9.12 M´ etriques pour les individus et optiques