On noteX(0) =X etY(0) =Y les matrices de l’´echantillon des variables explicatives et des r´eponses D-centr´ees. Le plus souvent ces variables sont standardis´ees. On supposera qu’il n’y a pas de donn´ees manquantes pour une exposition plus claire de la m´ethode.
L’algorithme PLS calcule les composantes t1, . . . , tk ´etape par ´etape, l’´etape i (i = 1, . . . , k) permet de construire ti et d’effectuer deux “r´egressions partielles” sur cette nouvelle variable.
Initialisation X(0) =X, Y(0) =Y
1) Construction de ti t=X(i−1)w, u=Y(i−1)v (9.3)
Etape i `a (wi, vi) =arg max
w′w=v′v=1cov(t, u) (9.4) X(i−1) et Y(i−1) fix´es ti =X(i−1)wi, ui =Y(i−1)vi (9.5)
i= 1, . . . , k 2) R´egressions partielles, X(i) =X(i−1) −ΠDtiX(i−1) (9.6) actualisation de X(i) et Y(i) Y(i)=Y(i−1)−ΠDtiY(i−1). (9.7) Notons que bien que ui soit, comme ti, un compromis lin´eaire de variables, on r´eserve le nom de composante principale uniquement `a ti.
La partie 2) n´ecessite un commentaire imm´ediat. Il s’agit de r´egressions sur la variableti, car ΠDti est la matrice (de rang 1) de la projection D-orthogonale sur cette variable
ΠDti = 1 ktik2D
titi′D. (9.8)
D’apr`es (9.6) et (9.7), la matrice X(i) (respect. Y(i)), matrice dont les colonnes sont les pr´edicteurs (r´eponses) actualis´es, est construite de la fa¸con suivante : chaque variable actualis´ee (i) est le r´esidu de la r´egression de son homologue (i−1) sur la variable ti.
Deux matrices vont jouer un rˆole cl´e dans la m´ethode PLS, celle, n ×k, qui stocke en colonnes les k composantes successivement construites,
T(k) = [t1. . . tk],
et celle, p×k, dont les colonnes sont vecteurs des poids correspondants W(k) = [w1. . . wk].
9.4.1 Le centrage des variables
P1 : Pour i = 1, . . . , k, les variables actualis´ees X(i) et Y(i), les composantes ti et les variablesui sont D-centr´ees. 2
Calcul Matriciel et Analyse Factorielle des Donn´ees
Preuve: Montrons le par r´ecurrence, seulement “du cˆot´e desX”. Supposons les colonnes de X(i−1) D-centr´ees, ce qui est vrai pour X(0) =X, alors ti =X(i−1)w est D-centr´ee car 1In′Dti = 1In′DX(i−1)w = 0. Ce qui implique que les colonnes de X(i) sont aussi centr´ees car, d’apr`es (9.6) et (9.8), 1In′DX(i)= 1In′DX(i−1)−1In′Dtiti′X(i)/ktik2D = 0p. 2
Comme cons´equence, toutes ces variables appartenant `a (IRn, D) ont pour covariances et variances respectivement les produits scalaires et les normes Euclidiennes associ´ees.
Ainsi, pour i= 1, . . . , k,
– var(ti) =ktik2D etvar(ui) = kuik2D, – Vxx
(i) =X(i)′DX(i),Vyy
(i)=Y(i)′DY(i) et Vxy
(i) =X(i)′DY(i)= (Vyx
(i))′ (9.9)
sont les matrices des covariances entre variables actualis´ees, respectivement `a l’int´erieur des pr´edicteurs, `a l’int´erieur des r´eponses et entre les pr´edicteurs et les r´eponses.
Bien sˆur, est aussi D-centr´ee toute combinaison lin´eaire des pr´edicteurs actualis´es ainsi que des r´eponses actualis´ees. D’apr`es (9.3), t =u= 0 et si l’on suppose que les matrices des variables actualis´ees sont de plein rang colonne,
var(t) =ktk2D =kwk2Vxx(i−1), var(u) =kuk2D =kvk2Vyy
(i−1), cov(t, u) =t′Du =w′Vxy
(i−1)v.
Il faut noter que dans de nombreuses applications, les matrices des variables explicatives ne sont pas de plein rang colonne quand, par exemple, il y a plus de variables que d’individus ce qui rend structurellement Vxx
(i) semi d´efinie positive pour tout i.
9.4.2 Construction de la composante t
iLe crit`ere du probl`eme d’optimisation (9.4), est la covariance entre t = X(i−1)w et u=Y(i−1)v, compromis lin´eaires des variables (i−1) (`a l’´etape 1, ce sont des compromis des variables naturelles ou initiales)
cov(t, u) =σ(t)σ(u)r(t, u) =ktkDkukD cos((t, u).
C’est la fonction de IRp×IRq dans IR
(w, v)−→ϕ(w, v) =w′Vxy
(i−1)v =v′Vyx
(i−1)w,
et l’ensemble compact des contraintes est le produit cart´esien des deux sph`eres unit´es {(w, v)∈(IRp, Ip)×(IRq, Iq)|w′w= 1 et v′v = 1}
des espaces Euclidiens (IRp, Ip) et (IRq, Iq).
Construisons la fonction de Lagrange de IRp×IRq×IR×IRdans IR, not´ee L, (w, v, λ, µ)−→L(w, v, λ, µ) =ϕ(w, v) + λ
2(1−w′w) + µ
2(1−v′v),
o`uλ etµsont les multiplicateurs de Lagrange associ´es aux deux contraintes. Le probl`eme (9.4) est ´equivalent `a la maximisation de L(w, v, λ, µ) sans contrainte dont les ´equations aux d´eriv´ees partielles, ou ´equations normales, s’´ecrivent
Les ´equations (e.1) et (e.2) donnent les formules de transition, `a l’´etapei, entre les vecteurs w et v. Les solutions de ce syst`eme fournissent les points critiques ou stationnaires du probl`eme (9.4). Il faudra s´electionner ceux qui donnent un maximum.
Calcul et interpr´etation des multiplicateurs :
Multiplions (e.1) `a gauche par le vecteur lignew′ et utilisons (e.3), de mˆeme, multiplions (e.2) `a gauche par le vecteur ligne v′ et utilisons (e.4). Il vient
λ=µ=w′Vxy
(i−1)v =v′Vyx
(i−1)w=cov(t, u).
Les multiplicateurs de Lagrange sont ´egaux `a la valeur de la fonction objectif `a maximiser dans le probl`eme d’optimisation (9.4). On suppose maintenant que λ=µ6= 0.
Calcul de w et de v :
Multiplions (e.1) par λ, et rempla¸cons dans cette ´equation λv par son expression puis´ee dans (e.2). Faisons de mˆeme en dualit´e sur (e.2). Il vient
Vxy
Calcul Matriciel et Analyse Factorielle des Donn´ees
Il suffit pour cela de multiplier respectivement (9.10) et (9.11) par X(i−1) et par Y(i−1). On peut maintenant, ´enoncer la proposition donnant la solution de la partie 1) de lai`eme
´etape de l’algorithme PLS.
Proposition 9.1: Le triplet (λi =cov(ti, ui), wi, vi) solution du probl`eme (9.4) est donn´e par celui associ´e `a la plus grande valeur singuli`ere dans la d´ecomposition en valeurs singuli`eres de la matrice Vxy
(i−1) =X(i−1)′DY(i−1). 2
Remarque : Dans la pratique on ne recherche la plus grande valeur propre que pour une seule des ´equations (9.10), (9.11), celle de plus faible dimension, et on calcule l’autre vecteur solution par la formule de transition (e.1) ou (e.2) ad´equate.
Dans le cas d’une seule r´eponse (q = 1), historiquement appel´e PLS1 par opposition `a PLS2 qui correspond au cas multi-r´eponses, (9.11) devient triviale, v = 1 avec une seule valeur propre
λi = vu ut
Xp j=1
cov2(Y(i−1), X(i−1)j ).
A l’´etape 1, on a aussi dans ce cas,` u1 =Y(0) =Y.
9.4.3 Les r´ egressions partielles
Visitons maintenant la partie 2) de l’algorithme PLS, celle des r´egressions partielles sur la composante ti = X(i−1)wi pr´ec´edemment calcul´ee dans la partie 1). Notons X(i) = [X(i)1 . . . X(i)p ] etY(i) = [Y(i)1 . . . Y(i)q] les matrices dont les colonnes sont les variables actualis´ees `a l’´etape i.
On appelle r´egression partielle de l’´etape i, la r´egression simple d’une va-riable actualis´ee de l’´etape i−1 sur la composante ti.
On note ˆX(i) = [ ˆX(i)1 . . .Xˆ(i)p ] et ˆY(i) = [ ˆY(i)1 . . .Yˆ(i)q] les matrices des mod`eles partiels de l’´etape i
Xˆ(i) = ΠDtiX(i−1), Yˆ(i) = ΠDtiY(i−1). (9.14) Notons :
pi = (X(i−1))′Dti/ktik2D = [cov(X(i−1)1 , ti)/var(ti), . . . , cov(X(i−1)p , ti)/var(ti)]′ (9.15) le vecteur des coefficients des r´egressions partielles despvariables explicatives etP(k) = [p1. . . pk] la matrice des vecteurs obtenus apr`es k ´etapes ;
ci = (Y(i−1))′Dti/ktik2D = [cov(Y(i−1)1 , ti)/var(ti), . . . , cov(Y(i−1)q , ti)/var(ti)]′ (9.16) le vecteur des coefficients des r´egressions partielles des q variables r´eponses, et C(k) = [c1. . . ck] la matrice des vecteurs obtenus apr`es k ´etapes.
Les matrices des variables estim´ees dans les r´egressions partielles de l’´etapei, s’´ecrivent Xˆ(i) =tipi′, Yˆ(i) =tici′. (9.17) L’actualisation des variables `a l’´etape i, consiste `a enlever l’information apport´ee par la composante ti en prenant les r´esidus des r´egressions partielles
X(i)=X(i−1)−Xˆ(i), Yˆ(i)=Y(i−1)−Yˆ(i). (9.18)
Les expressions (9.17) se d´eduisent directement de (9.14) grˆace `a l’expression (9.8) du projecteur sur ti.
La Figure 22 repr´esente une r´egression partielle (simple) de l’´etape i pour une variable seulement, par exemple la variable explicative X(i−1)j , du double point de vue de l’espace (IRn, D) des variables (partie gauche) et de celui de l’espace IR2 des individus (partie droite).
Calcul Matriciel et Analyse Factorielle des Donn´ees
Projection d’une variable explicative actualisée sur la composante ti
X^
(i-1) j
=
Figure 22 : R´egression partielle, `a l’´etape i, de la variable X(i−1)j sur la composanteti. Bien sˆur, on peut pr´esenter une figure analogue pour les r´egressions partielles “du cˆot´e des Y”.