R EVUE DE STATISTIQUE APPLIQUÉE
M. T ENENHAUS
L’approche PLS
Revue de statistique appliquée, tome 47, n
o2 (1999), p. 5-40
<http://www.numdam.org/item?id=RSA_1999__47_2_5_0>
© Société française de statistique, 1999, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
L’APPROCHE PLS
M. Tenenhaus
Groupe
HEC(Jouy-en-Josas)
RÉSUMÉ
Nous allons étudier dans cet article
l’approche
PLSproposée
par Herman Wold. Cette méthode permetd’analyser
un ensemble de J blocs de variables. On suppose quechaque
bloc est résumé par une variable latente et
qu’il
existe des relations structurelles entre les variables latentes.L’approche
PLS permet d’estimer les variables latentes et les relations structurelles.L’approche
PLS est àl’algorithme
LISREL ce quel’analyse
en composantesprincipales
est àl’analyse
factorielle en facteurs communs etspécifiques. L’approche
PLSest une méthode très
synthétique puisqu’elle
contient comme casparticuliers l’analyse
en composantesprincipales, l’analyse canonique, l’analyse
des redondances, larégression
PLS,l’analyse canonique généralisée
aux sens de Horst et de Carroll, au niveau de lapremière
composante. Deplus l’approche
PLS permetl’analyse
de tableaux avec données manquantes en utilisantl’algorithme
NIPALS et larégression
PLS. Nous décrivons dans cet article lesgrandes lignes
del’algorithme
NIPALS et de larégression
PLS avec leursprincipales propriétés.
Nousprésentons
ensuiteplus
en détaill’approche
PLS, ses liens avec larégression
PLS et montronsqu’elle
contient tous les casparticuliers
mentionnés. Unexemple
entièrement traité terminel’exposé
del’approche
PLS.Mots-clés :
Approche
PLS, Modélisation douce, NIPALS,Régression
PLS, Relations structu- relles sur variables latentes,Analyse canonique généralisée.
ABSTRACT
This paper is devoted to a
presentation
of the Partial LeastSquares approach (Soft Modeling) proposed by
Herman Wold and to its links with PLSregression.
This method allows toanalyse
a set of J blocks of variables. We suppose that each block can be summarizedby
one latent variable and that it exists structuralrelationships
between the latent variables.The PLS
approach
allows to estimate the latent variables and the structuralrelationships.
ThePLS
approach
can becompared
to the LISRELalgorithm
asprincipal
componentanalysis
tofactor
analysis.
The PLSapproach
is a verysynthetic
method since it contains asparticular
cases
principal
componentanalysis,
canonical correlationanalysis, redundancy analysis,
PLSregression,
andgeneralized
canonicalanalysis according
to Horst and Carroll, at the first component level. Furthermore, the PLSapproach
allows toanalyse
tables withmissing
databy using
the NIPALSalgorithm
and PLSregression.
In this paper, wegive
ageneral description
ofthe NIPALS
algorithm
and of PLSregression
with their mainproperties.
Next, we present thePLS
approach
in detail, its links with PLSregression
and we show that it contains all mentionedparticular
cases. Acompletely analyzed example
ends thepresentation
of the PLSapproach.
Keywords :
PLSapproach, Soft modeling,
NIPALS, PLSregression, Structural-equation
modelwith latent variables,
generalized
canonicalanalysis.
1. Introduction
Dans un cadre très
général appelé
Partial LeastSquares (PLS),
Herman etSvante Wold ont
proposé
des méthodesd’analyse
des donnéespermettant
d’étudier J blocs de variables observées sur les mêmes individus.La méthode NIPALS
(Nonlinear
estimationby
iterative Partial LeastSquares), proposée
par Wold(1966), permet
d’étudier un seul bloc de variables(J
=1).
Elleconduit à
l’analyse
encomposantes principales lorsque
les données sontcomplètes,
mais fonctionne
également lorsqu’il
y a des donnéesmanquantes.
La
régression
PLSpermet
de relier un bloc de variables àexpliquer
à un blocde variables
explicatives (J == 2).
Elle a étéproposée
parWold,
Martens & Wold(1983).
On obtient lescomposantes
PLS parapplications
successives del’analyse
factorielle inter-batteries de Tucker
(1958).
L’utilisation desprincipes
del’algorithme
NIPALS
permet
le traitement des donnéesmanquantes.
Ilpeut
y avoirbeaucoup plus
de variables que d’observations. La
régression
PLS est sans doute actuellement la meilleureréponse
auproblème
de la multicolinéarité enrégression multiple.
Le cas de J blocs a été étudié dans le cadre de la modélisation de relations structurelles sur variables latentes
(Path
models with latentvariables).
L’estimation de ces modèlespeut
être abordée de deux manières très différentes :l’approche
maximum de vraisemblance ou
l’approche
PLS.L’approche
maximum de vraisemblance a étédéveloppée
parJôreskog (1970)
à travers le
logiciel
LISREL(Jôreskog
et Sôrbom(1979,1984)
etHayduk ( 1987)).
Cette
approche
estdisponible
dans lelogiciel
SAS(Proc CALIS)
et dans lelogiciel
AMOS
(Arbuckle, 1997)
diffusé par SPSS.L’approche
PLSproposée
par Wold(1975, 1982, 1985)
est aussi décrite dans Lohmoller(1989)
et Fomell & Cha(1994). L’approche
PLS a étéparticulièrement développée
en France par Valette-Florence(1988a,b, 1990)
pour desapplications
en
Marketing. L’approche
PLS estdisponible
dans le programme LVPLS 1.8 de Lohmoller(1987).
Ce programme et sa documentation sont diffusésgratuitement
par J.J. McArdle(Department of Psychology, University
ofVirginia, Charlottesville,
VA22903, USA).
Ils sont aussi accessibles par internetdepuis
le site de l’Université deVirginie.
Les
approches
LISREL et PLS ont étécomparées
dansJôreskog
et Wold(1982).
Les différences entre
l’analyse
factorielle etl’analyse
encomposantes principales
seretrouvent entre ces deux
approches.
L’approche
maximum de vraisemblance repose sur deshypothèses
de multi-normalité et
permet
une modélisation de la matrice des covariances entre les variables observées. Ilpeut
y avoir desproblèmes
d’identification et non convergence de l’al-gorithme.
Les variables latentes ne sont pas estimées au niveau des individus.Par contraste,
l’approche
PLS est d’unegrande simplicité.
Il y a peud’hy- pothèses probabilistes.
On modélise directement les données à l’aide d’une succes-sion de
régressions simples
oumultiples.
Iln’y
a aucunproblème
d’identification et les variables latentes sont estimées au niveau des individus.L’approche
NIPALSet la
régression
PLSpermettent
le traitement des donnéesmanquantes. L’approche
PLS, appelée
aussi modélisation douce(soft modeling)
par HermanWold,
corres-pond
tout à fait àl’esprit
del’analyse
des données. Elle contient d’ailleurs comme casparticuliers l’analyse
encomposantes principales, l’analyse canonique, l’analyse
desredondances,
larégression PLS, l’analyse canonique généralisée
de Horst et l’ana-lyse canonique généralisée
deCarroll,
au niveau de lapremière composante. Malgré
toutes ces
qualités l’approche
PLS semble avoir atteint un niveau de diffusion voisin de celui del’analyse
descorrespondances
dans les années soixante-dix.Nous décrivons dans cet article les
grandes lignes
del’algorithme
NIPALS etde la
régression
PLS avec leursprincipales propriétés.
Nousprésentons
ensuiteplus
en détail
l’approche
PLS et ses liens avec larégression
PLS . Nous montronsqu’elle
contient tous les cas
particuliers
mentionnés. Unexemple
entièrement traité termine enfin cetexposé
del’approche
PLS.2. La méthode NIPALS
L’algorithme
NIPALS(Wold, 1966) permet
de réaliser uneanalyse
en compo- santesprincipales
d’un tableau individus x variables X avec donnéesmanquantes,
sans avoir à
supprimer
les individus à donnéesmanquantes
ni à estimer les donnéesmanquantes.
Décrivons les
principes
de cetalgorithme.
La formule de
décomposition
del’analyse
encomposantes principales
d’untableau X formé de variables centrées s’écrit
où a est le rang de la matrice
X, th
la h-ièmecomposante principale
et Ph le h-ièmeaxe factoriel. Inversement on
peut
considérer la formule(1)
comme un modèle etchercher à «estimer» les vecteurs th et Ph. On retrouve les
composantes principales
et les axes factoriels en
imposant
au modèle(1)
des contraintesd’orthogonalité
surles
vecteurs th
et d’orthonormalité sur les vecteurs Ph.Nous notons dans cette section xj la
j-ième
colonne du tableau X et xi le vecteur-colonne obtenu entransposant
la i-ièmeligne
du tableau X.Chaque
valeurthi
de lacomposante principale th
pour l’individu ireprésente également
le coefficient derégression
de larégression simple
sans constantede xi
sur Ph. Demême, chaque
coordonnée Phj du vecteur Ph
représente
le coefficient derégression
de larégression simple
sans constante de xj surth.
Décrivons
l’étape
courante del’algorithme
NIPALS. Onpart
d’un vecteur arbitrairetel) orthogonal
aux vecteursprécédents tl, ..., th-1
en choisissant uneh-1 .
colonne de la matrice X -
03A3tip’i représentant
les résidus de larégression
de Xi=l
sur
tl,
...,th-le
On obtientensuite
un vecteurp(1)
en normant le vecteur formé descoefficients de
régression
de larégression
de X surt (1).
On obtient un nouveau vecteurthe
enrégressant chaque
xisur p(1)h.
Cetteprocédure
est itéréejusqu’à
convergence desvecteurs t(k)h
vers la solutionth.
Lorsqu’il n’y
a pas de donnéesmanquantes,
cetalgorithme
conduit à unvecteur th égal
à la h-ièmecomposante principale
du tableau X. Maislorsqu’il
ya des données
manquantes,
il restepossible d’appliquer
les différentesphases
del’algorithme présenté
sur les donnéesdisponibles.
On obtient alors des vecteursth
et Phreprésentant
des «estimations» de la h-ièmecomposante principale
et duh-ième axe factoriel du tableau X sans données
manquantes.
Deplus
la formule dereconstitution
( 1 ) permet
au final d’estimer les valeurs de ces donnéesmanquantes.
Ontrouvera une
description plus
détaillée de cetalgorithme
et unexemple d’application
dans Tenenhaus
(1998).
Par ailleursl’algorithme
NIPALS estdisponible
dans leslogiciels
SIMCA-P(Umetri, 1996)
et The Unscrambler(Camo, 1996).
3. La
régression
PLSLa
régression
PLS(Wold,
Martens &Wold, 1983) permet
de modéliser la liaison entre un bloc de variables Y et un bloc de variables X. Cette méthode consiste à rechercher dans unpremier temps
descomposantes orthogonales th,
combinaisons linéaires des variablesX, expliquant
au mieux à la fois les X et les Y. Leséquations
derégression
PLS sont ensuite obtenues enrégressant chaque
variable Y sur les
composantes th, puis
enexprimant
cesrégressions
en fonctiondes variables X
d’origine. L’algorithme d’origine
estprésenté
sous la forme d’unalgorithme permettant d’intégrer
les donnéesmanquantes
selon lesprincipes
deNIPALS. Nous décrivons cet
algorithme
en détail dans Tenenhaus(1998). Lorsqu’il n’y
a pas de donnéesmanquantes,
lescomposantes PLS th peuvent
être obtenuescomme solutions successives de
problèmes d’optimisation.
Martens & Naes(1989) distinguent
larégression
PLS 1(une
variable Y àexpliquer)
de larégression
PLS2(plusieurs
variables Y àexpliquer).
Nous allons décrire dans cette section les critèrespermettant
d’obtenir lescomposantes
PLS dans ces deuxsituations, lorsqu’il n’y
apas de données
manquantes,
et exposer lesprincipales propriétés mathématiques
deces méthodes.
3.1 La
régression
PLSILe tableau Y est formé d’une seule variable notée y. Le tableau X est formé de p colonnes notées dans cette section xj. Toutes ces variables sont
supposées
centrées-réduites. Les
composantes
PLSorthogonales th peuvent
s’écrire en fonction de X(th
=X03C9*h),
mais sont en fait calculées en les écrivant en fonction du résiduX h-l
de la
régression
de X surtl, ..., th_1 (th
=Xh-lWh),
où l’on aposé Xo
= X.On recherche à
chaque étape h
le vecteur normé Wh maximisant le critèreLe vecteur normé Wh maximisant le critère
(2)
est donné par la formuleOn déduit ensuite la matrice
On trouvera la
justification
de cette formule dans Tenenhaus(1998).
L’équation
derégression
PLS de y surX,
obtenue en utilisant les hpremières composantes
PLSt 1, ..., th,
est calculée enrégressant y
sur lescomposantes tl, ..., th, puis
enexprimant
cetterégression
en fonction de X.L’équation
derégression de y
sur les
composantes t 1, ... , th
s’écritoù Cl =
y’tl/t’ltl.
PosonsCh
=[c1, ..., ch].
On obtientl’expression
del’équation
derégression
PLS(4)
en fonction de X :Notons
bh ----Wh*Ch
le vecteur des coefficients derégression PLS bj.
On déduitde
(6)
la formule derégression
PLSreliant y
auxvariables Xl, ...,
.KpLe coefficient de
régression bj représente
leproduit
scalaire entre laj-ième ligne
de la matriceWh
et levecteur-ligne Ch.
Ce résultatpermet
dejustifier
les cartesdes variables habituellement construites en
régression
PLS à l’aide des vecteursw;
et cl . Dans le cas où deux
composantes
PLS suffisent àexpliquer
y à l’aide des X(h
=2),
les variables xj et y sontreprésentées
dans unplan
par lespoints (03C9*1j, W2j)
et(Cl, C2).
Leproduit
scalaire de ces deuxpoints représente
le coefficient derégression bj.
Parconséquent
les coefficients derégression bj
sontpositifs,
nuls ounégatifs
selonque les vecteurs du
plan représentant
les variables xi et y forment unangle aigu,
droitou obtus.
Une
présentation plus
directe de larégression
PLS 1 a étéproposée
par deJong (1993a)
dans le cadre de sonalgorithme
SIMPLS décritplus
loin dans leparagraphe
3.2. Il montre que lescomposantes PLS th - X wh
sontobtenues,
àune normalisation
près,
encherchant,
pour des valeurs successives de l’indiceh,
àmaximiser le critère
sous les contraintes
(i)
le vecteurwh
estnormé,
(ii)
lacomposante th
=X wh
estorthogonale
auxcomposantes tl , ..., th-le
Lalogique
de larégression
PLS 1 devient très clairelorsqu’on
réécrit le critère(9)
sous la formePour h = 1 la
régression
PLS 1apparaît
comme uncompromis
entre larégres-
sion
multiple
de y sur X(cor(y, Xw*) maximum)
et la recherche de lapremière
com-posante principale
de X(var(Xwi ) maximum).
Pour l’indicegénéral h
on rechercheune nouvelle
composante th = X Wh orthogonale
auxcomposantes précédentes tl , ..., th_ 1
et aussiexplicative
quepossible de y (cor(y, X wh ) maximum)
et deX
(var(Xwh) maximum).
Suivant de
Jong (1993a),
on obtient trèssimplement
les vecteurswh :
Pour h = 1 :
À
une normalisationprès,
les coordonnées du vecteurwi représentent
donc lescorrélations entre les variables x j et y Pour h > 1 :
On calcule tout d’abord le résidu
X’h-1
de larégression
de X’ sur les vecteursX’t 1, ... , X’th _ 1.
Puis on obtientIndiquons
deuxpropriétés
intéressantes de larégression
PLS 1 découvertes par deJong (1993b, 1995).
Dans l’article intitulé
«PLSfits
closer thanPCR»,
il montre que la corrélationmultiple
entre y et les hpremières composantes
PLS est nécessairementsupérieure
ou
égale
à la corrélationmultiple
entre y et les hpremières composantes principales
du tableau X. Ce résultat est évident
pour h = 1,
mais ne l’estplus pour h
> 1 et deJong
en donne alors la démonstration.Dans l’article «PLS shrinks» de
Jong
étudie l’évolution du vecteurbh
des coefficients des variables X dansl’équation
derégression
PLS construite àpartir
des h
premières composantes
PLS. Il montre que la norme du vecteurbh
croît avecl’ indice h et que,
pour h
= a =rang (X ),
où
(X’X )+
est l’inversegénéralisé
de Moore-Penrose de la matriceX’X.
Autrementdit, lorsqu’on
utilise toutes lescomposantes
PLSdisponibles,
larégression
PLS fournitla solution des
équations
normales de norme minimum.3.2 La
régression
PLS2Le tableau Y est maintenant formé
de q
colonnes notées Yk etsupposées
centrées-réduites. Le tableau X est formé de p colonnes xj
supposées
centrées-réduites. Comme en
régression PLS 1,
lescomposantes
PLSorthogonales th peuvent
s’écrire en fonction de X(th
=X03C9*h),
mais sont en fait calculées en les écrivant enfonction du résidu
Xh-l
de larégression
de X surtl, ...,
th_1(th
=Xh-lWh).
On recherche à
chaque étape h
le vecteur normé Wh maximisant le critèreLe vecteur Wh est obtenu par
analyse
factorielle inter-batteries(Tucker, 1958)
des tableaux
X h _ 1
et Y : c’est levecteur propre
de la matriceX h _ 1 YY’ X h _ 1
associéà la
plus grande
valeur propre.On
peut
ensuite calculer les vecteurswh
à l’aide de la formule(3).
L’équation
derégression
PLS de Y surX,
obtenue en utilisant les hpremières composantes
PLSt 1, ..., th,
est calculée enrégressant
Y sur lescomposantes tl, ..., th, puis
enexprimant
cetterégression
en fonction de X.L’équation
derégression
de Ysur les
composantes tl, ..., th
s’écrit maintenantoù cl =
Y’tl/tltl.
PosonsCh == [CI, ..., Ch].
On obtientl’expression
del’équation
derégression
PLS(15)
en fonction de X :Notons B =
Wh Ch
la matrice des coefficients derégression
PLSbjk.
Ondéduit de
(17)
la formule derégression
PLS reliant Yk aux variables Xl, ..., XpLe coefficient de
régression bjk représente
leproduit
scalaire entre laj-ième ligne
de la matriceWh
et la k-ièmeligne
de la matriceCh.
Ce résultatjustifie,
comme en
régression PLS1,
les cartes des variables construites à l’aide des vecteurswi
et cl . Dans le cas où deuxcomposantes
PLS suffisent àexpliquer
Y à l’aidedes X
(h
=2),
les variables xj et Yk sontreprésentées
dans unplan
par lespoints
(03C9*1j, W2j)
et(Cl k, C2k).
Leproduit
scalaire de ces deuxpoints représente
le coefficient derégression bjk.
Les coefficients derégression bjk
sontpositifs,
nuls ounégatifs
selon que les vecteurs
représentant
les variables xi et Yk forment unangle aigu,
droitou obtus.
Un
algorithme plus direct,
SIMPLS(Straightforward Implementation of
astatistically inspired Modification of
the PLSmethod)
a étéproposé
par deJong (1993a).
On recherche successivement descomposantes th - X ah
maximisant le critèresous les contraintes
(i)
le vecteur ah estnormé,
(ii)
lacomposante th
=Xah
estorthogonale
auxcomposantes tl,
...,th-le
Ladécomposition
de(20)
enmontre que
l’algorithme
SIMPLS réalise uncompromis
entre uneanalyse
desredondances de Y par
rapport
à X(03A3qk=1 cor2 (Yk, X ah ) maximum)
et uneanalyse
en
composantes principales
de X(var(Xah) maximum).
On obtient les vecteurs ah comme suit : Pourh = 1 :
On retrouve que le vecteur al est vecteur propre de la matrice X’YY’X associé à la
plus grande
valeur propre.Pour h > 1 :
On calcule tout d’abord le résidu
h
de larégression
de X’ sur lesvecteurs
X’tl, Xith- 1 .
Puis on obtient ah comme vecteur propre de la matricexi - YY’Xh-1
associé à laplus grande
valeur propre.L’algorithme
SIMPLS donnesystématiquement
des résultats très voisins de larégression
PLS2. Cetalgorithme
estdisponible
dans la Proc PLS dulogiciel
SAS
(version 6.12).
D’unpoint
de vuepratique,
larégression
PLS restecependant compétitive
car ellepermet l’analyse
de tableaux avec données manquantes. Elle estdisponible
dans leslogiciels
SIMCA-P et The Unscrambler.4.
L’approche
PLSL’objectif
de cet article est de montrer les nombreux intérêtsthéoriques
etpratiques
del’approche
PLS. Nous allonsprésenter l’algorithme
PLS de base(Wold, 1982),
enexploitant systématiquement
lepoint
de vuegéométrique
de Bookstein(1982).
Nousindiquerons
les extensions del’algorithme proposées
par Lohmoller(1989).
Enfin nous comparerons sur unexemple
l’utilisation deslogiciels
SIMCA-Pet LVPLS 1.8.
4.1 Les
données,
leshypothèses
et le modèleLes données sont formées de J blocs de variables
Xj = {xj1,
...,Xjkj 1
observées sur n individus. Les variables Xjh sont
appelées
«variables manifestes»et
supposées
centrées-réduites. On conservera la notationXj
pour la matrice des données observées duj-ième
groupe.Relation entre les variables manifestes et les variables latentes
Chaque
groupe de variables constituel’expression
observable d’une «variablelatente
centrée-réduite.On
distingue
deux manières de relier les variables manifestes Xjh d’un bloc à leur variable latente03BEj.
Un bloc est formé de variables manifestes x j h
réflectives (en anglais : reflective (outward) model)
si l’on considèrequ’elles
reflètent la variable latenteÇ,j, qu’elles
en sont une
conséquence, qu’elles
sont créées par celle-ci. Elles sont reliéesà 03BEj
parl’équation
linéaireoù 03B5jh
est un terme aléatoire de moyenne nulle et non corrélé à la variable latente03BEj.
Un bloc est formé de variables manifestes
xjh formatives (en anglais formative
(inward) model)
si c’est la variable latenteçj qui
est créée par l’ensemble des variables dubloc, qu’elle
en est uneconséquence.
La variablelatente
vérifiel’équation
linéaire
où 03B4j
est un terme aléatoire de moyenne nulle et non corrélé aux variables manifestes Xjh.Il est utile
(mais
nonindispensable)
depréciser
lessignes d j h
des coefficientsAjh
ou 03C0jh.Relation entre les variables latentes
Le
phénomène
étudié est décrit par des relations structurelles entre les variables latentes. Ondistingue
les variables latentesendogènes (elles
sontexpliquées
par d’autres variableslatentes)
des variables latentesexogènes (elles
sonttoujours explicatives).
Il estd’usage
de noter ~j les variables latentesendogènes et 03BEi
lesvariables latentes
exogènes.
Par soucis desimplicité
au niveau desnotations,
nouspréférons noter 03BEi
toutes les variables latentes. Les relations structurelles entre les variables latentes sont de la formeoù (j
est un terme aléatoire de moyenne nulle et non corrélé aux variables latentesexplicatives 03BEi apparaissant
dans le second membre de(24).
Certains coefficients{3ji
sont structurellement nuls et la variable
correspondante 03BEi n’apparaît
donc pas dansl’équation (24).
On a enparticulier (3jj
= 0 et lavariable n’apparaît
pas à droite dusigne égal
dans(24).
L’utilisateur définit les
équations (24).
Ilpeut préciser
le sens de la liaison entre la variable latentedépendante 03BEj
et les autres variables latentesindépendantes 03BEj apparaissant
dansl’équation (24) :
Les coefficients cij non nuls
peuvent
aussi être estimés àpartir
des données.On
représente
les données et le modèle sous la forme d’un schéma fléché. Les variables manifestes sontreprésentées
par desrectangles
et les variables latentes par desellipses.
Les relations de causalité décrites par les relations(22), (23)
et(24)
sontsymbolisées
par des flèches.L’origine
de la flèche est la variable «cause»(variable explicative)
et lapointe
de la flèche est la variable «effet»(variable
àexpliquer).
Pour les blocs réflectifs les flèches
partent
des variables latentes et sontpointées
vers les variables manifestes
(outwards direction).
La situation est inversée pour les blocs formatifs : les flèches vont des variables manifestes vers les variables latentes(inwards direction).
Dans uneoptique
deprévision,
il estplutôt
naturel que les blocsendogènes
soient réflectifs et les blocsexogènes
formatifs. Onreprésente également
sur le schéma les
signes
cij des corrélations entre les variables latentes reliées entre elles et lessignes djh
des coefficientsÀjh
ou 03C0jh.L’exemple
décrit dans lafigure
1 suffit àprésenter
lesaspects
lesplus importants
de la méthode. Il y a trois blocs de variables. Les variables latentes
ç 1
et03BE2
sontexogènes
et la variable latente03BE3 endogène.
Les deuxpremiers
blocs sont formatifset le troisième bloc est réflectif.
FIGURE 1
Réseau de causalité pour trois groupes de variables
4.2 Estimation des variables latentes
Les variables
latentes
sont estimées de deux manières différentes :1)
l’esti-mation externe
Yj
àpartir
des variables manifestes Xjh, et2)
l’estimation interneZj
à
partir
des estimations externesYi
des variableslatentes
liées àçj.
Estimation
externe
de la variablelatente çj
L’estimation externe
Yj
de la variablelatente
est construite comme unecombinaison linéaire des variables manifestes Xjh :
où wj est le vecteur-colonne des coefficients Wjh. On
impose
à la variableYj
d’êtrecentrée-réduite.
Estimation interne
Zj
de la variablelatente
On définit une autre
approximation Zj de 03BEj appelée
estimation interne de03BEj.
Elle est construite à l’aide des estimations externes
Yi
des variableslatentes 03BEi
liéesà ej :
où le
signe
ocsignifie
que la variable située àgauche
de cesigne
est obtenue par réduction de la variable située à droite.Lohmoller
(1989)
décrit trois manières de choisir les coefficients eji.(1)
Le schéma centroideLe schéma centroïde
(Centroid weighting scheme)
consiste à poser eji = cji, où les coefficients non nuls cji(égaux
à 1ou - 1)
sont fournis par l’utilisateur ou bien estimés par lessignes
des corrélations rji entre les variables latentes estiméesYj
etYi.
C’est le schémaproposé
par Wold dansl’algorithme
PLS de base.(2)
Leschéma factoriel
Dans le schéma factoriel
( factor weighting scheme)
on pose eji i = rji i -cor(Yj, Yi). L’approximation Zj
est alors construite comme lapremière composante
PLS réduite dans larégression
PLS deYj
sur l’ensemble des variablesYi
liées àYj (Cji ~ 0).
(3)
Le schéma structurelDans la troisième
approche,
Lohmollerdistingue
deux groupes devariables
liées à
çj.
D’unepart
lesvariables explicatives
de la variableçj.
Ellesapparaissent
à droite du
signe égal
dansl’équation (24).
D’autrepart
lesvariables expliquées
par la variable
çj.
Ellesapparaissent
àgauche
dusigne égal
dans une deséquations
structurelles
(24).
On notebji
les coefficients derégression
de larégression multiple de Yj
sur les variablesYi
estimations desvariables 03BEi explicatives
de la variableçj.
Le schéma structurel
(path weighting scheme)
consiste à poser eji =bji
si la variable03BEi
estexplicative
de la variableçj,
et eji = rjisi
lavariable 03BEi
estexpliquée
par la variable03BEj.
En reliant les estimations externes
Yj
et internesZj
dechaque
variable latenteçj,
Wold obtient des conditions de stationnaritéqui permettent
de déterminer les variablesYj.
On résoud leséquations
de stationnarité par un processus itératif. La convergence du processus estprouvée
dans le cas de deux groupes et constatée dans lapratique
pour les situationsplus générales.
Liaison entre les estimations
externes
et internesZj
des variableslatentes çj
Wold propose deux modes de relation entre les deux
approximations Yj
etZj
dela variable latente
çj.
Nous proposons une troisième solutionplus générale
consistantà utiliser la
régression
PLS.Le Mode A
(outwards direction)
Dans le mode A la variable
Yj
est reliée à la variableZj
par la formuleL’équation (27) peut
aussi s’écrireD’où la condition de stationnarité pour une variable
Yj
dans le mode A :Le Mode B
(inwards direction)
Dans le mode B la variable
Yj
est obtenue parrégression multiple
deZj
sur lescolonnes xjh de la matrice
Xj, puis
réduction :D’où la condition de stationnarité pour une variable
Yj
dans le mode B :On trouve dans la documentation du programme LVPLS 1.8 de Lohmoller
(1987)
des indications sur le choix du mode en fonction de la nature des blocs :1)
Le mode A estplutôt adapté
à des blocs réflectifs et le mode B à des modes formatifs.2)
Le mode A estplutôt adapté
à des blocsendogènes
et le mode B à des blocsexogènes.
3) Lorsque
la matriceXj
n’est pas de rangplein,
le mode As’impose.
Utilisation de la
régression
PLSOn
peut
remarquer que le mode Acorrespond
à une utilisation de larégression
PLS :
Yj
ocXjX’jZj représente
laprévision
deZj
réduite dans larégression
PLS de
Zj
surXj
en utilisant une seulecomposante
PLS(ou bien,
cequi
revientau
même, Yj représente
lapremière composante
PLSréduite).
Dans le modeB,
Yj
ocXj(X’jXj)-1X’jZj représente
aussi laprévision
deZj
réduite dans larégression
PLS deZj
surXj
en utilisant toutes lescomposantes
PLSdisponibles.
On
peut
donc penser à une solution intermédiaire consistant à construireYj
commela
prévision
deZj
réduite obtenue parrégression
PLS deZj
surXj,
où le nombre de composantes est choisi par validation croisée(procédure Autofit
deSIMCA-P).
Cetteapproche présente
un doubleavantage : 1)
il y a une solution de continuité entre les modes A etB,
et le choix est fait en fonction desdonnées,
et2)
larégression
PLSfonctionne même avec des données
manquantes.
Calcul des estimations
externes
des variableslatentes
L’algorithme
itératifproposé
par Wold est maintenant naturel.À l’étape
initialeon
part
de valeurs initiales des estimations externesYi
fixées selon desrègles
décritesplus
loin. On obtient à l’aide deséquations (29)
et/ou(31)
de nouvelles valeurs deces variables. Les estimations
Yj
des variableslatentes
sont obtenues en itérant ceprocessus
jusqu’à
convergence. Les vecteurs wj se déduisent ensuite deséquations (29)
et(31).
Il semble que le choix du schéma de construction des estimations internes
Zy
ait peu d’influence sur le calcul des estimations externes
Yj.
Noonan et Wold(1982)
ont
comparé
ces différents schémas sur un modèle à 16 variables latentes décrites par 49 variables manifestes évaluées sur un échantillon d’environ 3 200 individus.Ils ont constaté que les variables
Yj
variaient très peu d’un schéma à l’autre. Dans la conclusion de leurarticle,
ils conseillent donc l’utilisation du schéma centroïde.Les autres schémas ont
cependant
un intérêtthéorique
car c’est leur utilisationqui permet
de montrer quel’approche
PLS contient comme casparticuliers l’analyse
encomposantes principales
etl’analyse canonique généralisée
aux sens de Horst et deCarroll au niveau de la
première composante (cf.
les sections 4.5 et4.6).
De
même,
le choix des estimations externes initialesYi
influe peu sur la convergence del’algorithme.
S’iln’y
a pas de donnéesmanquantes,
onpeut
choisir de démarrer avec une variable manifestereprésentant
bien leconcept
décrit par le bloc.S’il y a des données
manquantes,
une bonne solution consiste à choisir lapremière composante principale
du bloc estimée par laprocédure
NIPALS.4.3 Estimation des relations structurelles et mesure de la
qualité
du modèlepar le test de validation croisée de Stone-Geisser
On estime les
paramètres
des modèles définis par leséquations (22), (23)
et(24)
parrégression
enremplaçant
les variables latentes03BEj
par leur estimationYj.
Siles coefficients cij sont fixés a
priori,
la vérification des similitudes dessignes
entreles corrélations entre
Yi
etYj
et les coefficients cij est unpremier
test de cohérence.On étudie la
capacité
du modèle àprédire
les variables manifestes Xjh des blocsendogènes Xj.
On relie tout d’abord la variable manifeste Xjh à sa variable latenteestimée Yj
parrégression simple :
Les
équations (24)
sont estimées parrégression multiple de Yj
sur les variablesYi qui
lui sont structurellement liées(03B2ji ~ 0) :
On
peut
mesurer laqualité
du modèle défini parl’équation (24)
et tester deshypothèses
structurelles(nullité
de certains coefficients03B2ji)
par validation croisée.Pour cela Wold utilise
l’approche
de Stone(1974)
et Geisser(1974) qui,
pourreprendre
sonexpression, «fits soft modeling
like hand inglove ».
Tout d’abord onpeut
relier le blocendogène Xj
aux blocsXi correspondant
à des coefficientscij ~
0en
remplaçant
dans leséquations (32)
et(33) Yj
parXj03C9j
et on obtientl’équation
de
prédiction :
où
pj == (pj1,...,pjkj).
Ondécoupe
ensuite les données du tableauXj
en G classes.Wold (1982,
p.31) précise
la construction de ces classes. On lit le tableauXj
colonnepar colonne et on numérote les données Xjhi de 1 à n x
kj.
Lapremière
classe estformée des données numérotées
1,
G+ 1, 2G + 1,...,
la deuxième classe des données numérotées2, G + 2, 2G + 2, ...,
et ainsi de suitejusqu’à
la G-ième classe. On élimine à tour de rôlechaque
classe d’individus. On estime àchaque
fois le modèle sur les G - 1 classes restantes et on utilise la formule deprévision (34)
pourprédire
lesvaleurs de la classe exclue. On note
pred Xj
laprévision
deXj
obtenue de cette manière. D’où une somme des carrés résiduellePar ailleurs on calcule une
prévision
«naïve» de la valeur x j hi de la variable Xjh pour l’individu i en calculant la moyenneXjh(-i)
de la variable Xjh en excluant l’individu i. Wold propose de mesurer laqualité
de reconstitution du tableauXj
àl’aide du critère de Stone-Geisser
QJ
défini parL’expérience
montre que le critèreQ2j
est relativement robuste au choix du nombre de classes G. Wold conseille de choisir entre 5 et 10 classes. Il faut deplus
bien
répartir
dans le tableauXj
la localisation des donnéessupprimées
à tour de rôle.Il est
préférable
de choisirpour
G un nombre entierpremier
parrapport à kj
et n.Dans le
logiciel
LVPLS 1.8 le nombre de classes G doitsimplement
être différent du nombre n d’individus. Le critèreQJ
estanalogue
à un coefficient de déterminationR2, mais
ilpeut
êtrenégatif.
Dans ce dernier cas le modèle étudié n’est pasacceptable.
Considérons maintenant une
hypothèse Ho
consistant leplus
souvent à annulerdes coefficients
03B2ji dans l’équations (24).
Onpeut
calculer les sommes de carrés résiduelles[6’CjRy]o
et[SCRj]1 correspondant respectivement
à l’estimation du modèle sousl’hypothèse Ho
et sanshypothèse
restrictiveparticulière.
On en déduitdes valeurs associées
Q2j0 et Q2j1 du
critère de Stone-Geisser. Onrejette l’hypothèse Ho lorsque Q2j0
est nettement inférieur àQ2j1.
4.4
Étude
du cas de deux blocsNous montrons dans cette section comment l’utilisation de
l’algorithme
PLS debase
permet
de retrouver lesprincipales
méthodes utilisées pour relier deux groupes de variables au niveau de lapremière étape.
Onprécise
dans le tableau 1 les méthodescorrespondant
aux différents choixpossibles
des modes A ou B de calcul pourVi
et
Y2.
TABLEAU 1
Équivalence
entrel’algorithme
PLSappliqué à
deux blocsde variables
X1
etX2
et lapremière étape de différentes
méthodesPour vérifier ces résultats il suffit d’écrire les conditions de stationnarité
(28)
et
(30)
pour ces différentes situations. On suppose poursimplifier,
et sans enleverde
généralité,
que les variables latentesç 1
et03BE2
sont corréléespositivement.
Parconséquent Zl
=Y2
etZ2
=Y1.
Analyse canonique
Les conditions de stationnarité s’écrivent en utilisant le mode B pour
YI
etY2 :
L’algorithme
PLS converge donc bien vers lespremières composantes
canoni- ques del’analyse canonique
deXi
etX2.
Analyse factorielle
inter-batteriesLes conditions de stationnarité s’écrivent en utilisant le mode A