R EVUE DE STATISTIQUE APPLIQUÉE
J ÉRÔME P AGÈS
M ICHEL T ENENHAUS
Analyse factorielle multiple et approche PLS
Revue de statistique appliquée, tome 50, n
o1 (2002), p. 5-33
<http://www.numdam.org/item?id=RSA_2002__50_1_5_0>
© Société française de statistique, 2002, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ANALYSE FACTORIELLE MULTIPLE ET APPROCHE PLS
Jérôme
PAGÈS(1),
MichelTENENHAUS(2)
(1) ENSA-INSFA, Rennes, (2) Groupe HEC, Jouy-en-Josas
RÉSUMÉ
L’analyse
factoriellemultiple
etl’approche
PLSs’appliquent
à des tableaux danslesquels
un même ensemble d’individus est décrit par
plusieurs
groupes de variables. Bien que de nature différente, tant par leurobjet
(l’une est purementdescriptive,
l’autre repose sur un modèle dont on estime lesparamètres),
que par les calculsqu’elles impliquent
(l’une reposesur une
diagonalisation,
l’autre sur unalgorithme
itératif), ellespossèdent
un fort dénominateurcommun :
chaque
groupe de variables estpris
en compte non par le sous-espacequ’il engendre,
mais par la
répartition
de l’inertie des variables dans ce sous-espace. L’articleanalyse
lesconséquences
de ce dénominateur commun, mettant en évidence uneremarquable
convergence des résultats enpratique,
ainsi que leursspécificités.
Il en résulte que, l’utilisationconjointe
desdeux méthodes constitue une
méthodologie complète
d’étude de tableauxmultiples,
comportant à la fois des aspectsdescriptifs
et modélisateurs.Ce texte a été
présenté
ausyposium
sur les méthodes PLSorganisé
par le CISIA et le groupe HEC les 5 et 6 octobre 1999 àJouy-en-Josas.
Mots-clés : Tableaux
multiples, Analyse factorielle multiple, Approche
PLS.ABSTRACT
Multiple
FactorAnalysis
(MFA) and PLSapproach
(PLSA) deal with tables in whicha same set of individuals is described
by
several groups of variables.Although they greatly
differ, so muchby
their aim (MFA is apurely descriptive
method, PLSA rests on a modelwhose parameters are estimated), than
by
calculationsthey imply
(MFAperforms
the calculusof
eigenvectors,
PLSA uses iterativealgorithm), they
have a strong common denominator : each group of variables is taken into account notby
thesubspace
which it generates, butby
thedistribution of the inertia of the variables in this
subspace.
The paperanalyses
the consequences of this common denominator,highlighting
a remarkable convergence of the results inpractice
but also their
specificities.
It shows that thejoint
use of the two methods constitutes acomplete methodology
in thestudy
ofmultiple
tables,comprising
bothdescriptive
andmodelling
aspects.This text was
presented during symposium conceming
PLS methodsorganised by
CISIAand HEC group the 5th of October 1999 in
Jouy-in-Josas
(France).Keywords : Multiple
tables,Multiple factor analysis,
PLSapproach.
Introduction
L’analyse
factoriellemultiple
a étéproposée
par Escofier &Pagès ( 1983, 1998)
pour rechercher les structures communes à un ensemble de J tableaux de données observés sur les mêmes individus. Elle
permet
de visualiser ces structures communes au niveau des variables et des individus.Lorsque chaque
tableau de donnéesreprésente
un ensemble de manifestations observables d’une variable latente et
qu’il
existe desrelations de causalité
explicites
entre les variableslatentes,
il est intéressant d’utiliserl’approche
PLSproposée
par Wold(1975, 1982, 1985).
Cetteapproche
a étéreprise
et
développée
par Lohmoller( 1987, 1989)
sur lesplans théorique
etinformatique.
EnFrance
l’approche
PLS a étéparticulièrement
étudiée par Valette-Florence(1988a,b, 1990) et Tenenhaus ( 1999).
Lorsqu’il n’y
a pas de relations de causalité entre lesblocs,
onpeut
encoreadopter
lepoint
de vue del’approche
PLS. Pour cela Wold(1982)
propose de constituer un bloc fictif constitué de lajuxtaposition
de tous les blocs et de relierchaque
bloc individuel au bloc fictif.L’approche
PLSpermet
alors de retrouver diverses méthodes commel’analyse canonique généralisée
de Horst(1961),
celle deCarroll
(1968), l’analyse
encomposantes principales
etl’analyse
factoriellemultiple.
Cette article
précise
les liens entrel’approche
PLS etl’analyse
factoriellemultiple.
Les liens entrel’approche
PLS et d’autres méthodesd’analyse
de tableauxmultiples
sontprésentés
dansGuinot,
Tenenhaus et Latreille(1999).
1.
Données ;
notationsLes données
auxquelles
nous nous intéressonsprésentent
une structure trèsclassique : plusieurs
groupes de variables ont été mesurées sur le même ensemble d’individus. Ces donnéespeuvent
êtreprésentées
sous la forme d’un tableauunique (cf. Figure 1)
structuré en sous-tableaux. Nous notons : X le tableaucomplet;
I l’ensemble des
individus;
K l’ensemble des variables(tous
groupesconfondus);
J l’ensemble des
sous-tableaux; Kj
l’ensemble des variables dugroupe j; (K = Lez ) ; Xj
le tableau associé augroupe j.
Lessymboles I, J,
K ouKj désignent
àla fois l’ensemble et son cardinal. Une variable du groupe
Kj
est notée :vk(k~ Kj).
Pour
simplifier l’exposé,
sansperte
degénéralité,
les variables sontsupposées
centrées-réduites et de même
poids
apriori.
Demême,
les individus sontsupposés
demême
poids 1/7.
FIGURE 1 Tableau des données
2.
Problématique
La
problématique
associée à cetype
de tableau est très riche. Elleprésente
denombreux aspects
qui
tousdérivent, plus
au moinsdirectement,
del’interrogation
suivante :
quelles
sont les structures communes aux différentsgroupes?
Pour
cela,
on construit des combinaisons linéaires des variables d’un seul groupe. Ces combinaisons linéaires sontappelées
variablescanoniques
ou com- posantes ou encore variables latentes. Une structure commune est mise en évidence par unJ-uplet
de variablescanoniques (une
pargroupe)
corrélées entre elles.La mise en évidence de
plusieurs
structures communes conduit à rechercher danschaque groupe j
une suite de combinaisons linéaires des variables de ce groupe{Fjs; s 1, SI
telles que, entre les groupes, les combinaisonsayant
le même rang s{FI; j = 1, J}
soient corrélées leplus possible.
On
exprime
queFi
est combinaison linéaire des variables Vk du groupeKj
enécrivant :
Différentes méthodes s’inscrivent dans cette
problématique.
Nous en situonsquelques-unes ci-après.
A)
Cas où les variablescanoniques
de même rang doivent seulement être corréléesentre elles.
Dans le cas de deux groupes, ce
problème
estclassique
et est résolu parl’analyse canonique (Hotelling 1936). Fi
est la variablecanonique
de rang s dugroupe j.
Lesvariables sont telles que :
r(Fs1, Fs )
maximumavec
en notant
r(x, y)
le coefficient de corrélation entre x et y.Dans le cas de
plus
de deux groupes,plusieurs généralisations
ont étéproposées
dont la
plus
féconde semble être celle de Carroll(1968)
décriteplus
loin(§ 3).
B )
Cas où les variablescanoniques
de même rang doivent être corrélées entre elleset aux variables du groupe
qu’elles représentent.
Dans le cas de deux groupes, une solution est donnée par
l’analyse
inter-batteries de Tucker
(1958)
bien décrite dans Tenenhaus(1998
p23).
Dans cetteméthode,
les variablescanoniques, appelées
icicomposantes,
sont telles que :Selon ce
critère, FI
etFus
sont à la fois corrélées entre elles et« expliquent »
une part élevée de la variance du groupe
qu’elles représentent.
Les contraintes s’écrivent :
Dans le cas
général,
une solution est donnée par l’AFM décriteplus
loin(§ 4).
C)
Cas où tous les groupes nejouent
pas le même rôle.Dans le cas de deux groupes,
l’un,
notéY,
doit êtreexpliqué
par l’autre(noté X).
La méthode de référence est la
régression
usuelle(lorsque
Y estmultidimensionnel, chaque
variable de Y est« régressée » séparément) :
commel’analyse canonique
usuelle dont elle
peut
être vue comme un casparticulier,
larégression
usuelle neprend
en compte les variables du tableau Xqu’au
travers du sous-espacequ’elles engendrent (et
non de larépartition
des variables dans cesous-espace).
Lesrégressions
PLS
(notée
PLS 1 si Y ne comportequ’une variable,
PLS2 si non;cf.
Tenenhaus1998)
résolvent ce
problème
via descomposantes analogues
à celles del’analyse
de Tucker.Dans le cas
général,
le rôle des groupes estspécifié
par un modèlequi
relieles
variables,
diteslatentes, représentant
les groupes. Ce modèle peut êtrefiguré
parun
graphe
dont les sommets sont les groupes et lesarêtes, orientées,
les relations de causalité entre groupes.L’approche
PLS identifie ces variables latentes enimposant
aux seuls groupes reliés par le modèle d’avoir des variables latentes corrélées entre elles.
3.
Analyse canonique généralisée
de CARROLLOn recherche des suites de variables
canoniques,
combinaisons linéaires des variables d’un groupe :Ces variables ne sont pas obtenues directement. On recherche d’abord une suite de variables normées
{zs; s == 1, 5’},
ditesgénérales
ouauxiliaires,
liées chacune leplus possible
à l’ensemble des groupes.Pour
cela,
il est nécessaire de définir d’abord une mesure de liaison entre unevariable et un groupe de variable
Kj.
EnACG,
cette mesure est le carré du coefficient de corrélationmultiple.
SoitIl est alors naturel de définir la liaison entre une
variable z,
et l’ensemble des groupes de variables par :En
ACG,
la variablegénérale
de rang s est définie par :Ces variables sont obtenues par la
diagonalisation
deY- Xj (Xi, Xi) - 1 Xi,
j
Une fois la variable
générale Zs obtenue,
la variablecanonique Fi
est définiepar :
Ce
qui
revient à réaliser larégression
de z, en fonction deXj.
Dans cette
démarche,
2022 z, peut être considérée comme une structure commune aux différents groupes
(par
construction elle est liée autant quepossible
à tous lesgroupes) ;
.
Fi la représentation
de cette structure commune dans le groupeKj (combinai-
son linéaire des variables de
Kj
liée àzs ).
L’intérêt
théorique
de l’ACG de Carroll estgrand.
Dans le cas de deux groupes,on retrouve
l’analyse canonique
usuelle. Dans le cas oùchaque
groupe estcomposé
d’une seule variable
quantitative,
on retrouve l’ACP. Dans le cas oùchaque
groupe estcomposé
des indicatrices d’une variablequalitative,
on retrouve l’ACM. Tout cecia été étudié par
Saporta (1975).
4.
Analyse
FactorielleMultiple
L’AFM
(Escofier
&Pagès
1983 et1998)) procède
à la fois de laproblématique
de
l’analyse
factorielle(recherche
de directions d’inertiemaximum)
et del’analyse canonique (recherche
de facteurscommuns).
C’est ce secondpoint
de vue que nousadoptons
pour laprésenter
ici.4.1. Pondération des variables
En
AFM, chaque
variable Vk du groupeKj
est affecté dupoids :
mk =1/03BBj1
en
appelant À{
lapremière
valeur propre de l’ACPséparée
du groupeKj. Ainsi,
enfaisant l’ACP
séparée
du groupeKj
avec lespoids
mk, lapremière
valeur proprevaut 1. En d’autres termes, avec cette
pondération,
l’inertie axiale maximum de laconfiguration
desindividus,
ou de celle desvariables,
vaut 1.Notations :
Mj
est la matrice(égale
à l’identité à un coefficientprès)
despoids
des variables du groupe
Kj
et M la matricediagonale
despoids
des variables tousgroupes confondus.
4.2. Mesure de liaison entre une variable z et un groupe
Kj
En
AFM,
cette mesure est définie de lafaçon
suivante(les
Vk étantsupposées centrées-réduites) :
Cette mesure est
apparentée
à la redondance(Van
denWollenberg 1977) qui,
avec nos
notations,
s’écrit :Les deux mesures varient entre 0 et 1.
Elles vérifient la
propriété :
selon
laquelle
la liaison entre z etKj
est nullelorsque z
est non corrélée àchaque
variable du groupe
Kj.
Pour les deux mesures, la valeur de 1
correspond
à une liaison maximum maisce maximum n’a pas la même
signification
pourRd
etzig.
Cette
situation,
danslaquelle
toutes les variables du groupeKj
sontparfaitement
corrélées entre
elles,
necorrespond
pas, biensûr,
à une situation concrète.Lg (z, Kj) ==
1 ::> z est lapremière
composanteprincipale
deKj.
On retrouve ici l’idée de l’ ACP selon
laquelle
lescomposantes principales
sontdes variables
synthétiques,
c’est-à-dire liées leplus possible
aux variables initiales.4.3. Recherche des variables
générales
A l’instar de
l’ACG,
on cherche en AFM une suite de variablesgénérales (ou
auxilliaires)
liées leplus possible
avec l’ensemble des groupes.Il est naturel de définir la liaison entre une variable z et l’ensemble des groupes
Kj par :
En AFM la variable
générale
de rang s est donc définie par :En
remarquant
que :La
quantité
à maximiser s’écrit :Ce
qui
montre que z, est lacomposante principale
normée de rang s issue de l’ACP(les
variables étantpondérées
parM)
du tableaucomplet
X.En notant
Às
la valeur propre de rang s de cette ACP etFs
lacomposante principale associée,
on a :Fs == 03BBsZs.
L’intérêt de cette
démarche,
parrapport
à celle deCarroll,
est double :2022 elle conduit à des variables
générales plus
liées aux variables initiales touten assurant, du fait des
poids
mk, une formed’équilibre
entre les groupes devariables;
2022 étant des
composantes principales,
les variablesgénérales
bénéficient de toutesles
propriétés
de l’ACP.4.4. Recherche des variables
canoniques
Suivant
toujours
leprincipe
deCarroll,
onassocie,
àchaque
variablegénérale
zs, une variable
canonique FI
danschaque
groupej.
EnAFM,
cette variable estdéfinie par :
A un coefficient
près,
on retrouve lapremière composante
PLS de larégression
PLS de
Fs
en fonction deXj.
L’intérêt de la
démarche,
par rapport à celle deCARROLL,
est double :2022 ici encore, elle conduit à des variables
canoniques plus
liées aux variablesinitiales;
. les
FI
fournissent chacun unereprésentation
des individusqui
peut êtresuperposée
à celle de l’ACP(Fs) grâce
aux deuxpropriétés
décrites ci-après.
Propriété
1Au coefficient
1/J près,
lareprésentation
de l’individu i parFs
est aubarycentre
des
représentations
de i par lesFI.
Enpratique,
on dilate lesFI
selon le coefficient J pour queFs (i)
soit unbarycentre
exact. Soit :Dans la
terminologie
del’AFM,
on dit quel’image globale (i. e.
dupoint
devue de l’ensemble des
groupes)
d’un individu est au centre degravité
de sesimages partielles (i. e.
dupoint
de vue de l’un desgroupes).
Propriété
2Soit
Gs(k)
la coordonnée de la variable Vk sur l’axe de rang sc’est-à-dire,
ici où les variables sontcentrées-réduites,
le coefficient de corrélation entre Vk etFs .
Notons
Vk (i)
la valeur de Vk pour l’individu i.Appliquons
à l’AFM la relation de transition usuelle de l’ACP :Cette relation
peut
être restreinte augroupe j :
Cette définition de
Fi
estéquivalente
à celle donnée au début de ceparagraphe,
dans
laquelle apparaît
laquantité
dont le ke terme n’est autre que
Gs(k).
Cette relation restreinte au
groupe j permet
uneinterprétation
desFI
d’unpoint
de vue
analytique (les
coefficientsGs (k)
sontproportionnels
à ceux de la combinaison linéaireexprimant Fi
en fonction desVk)
et d’unpoint
de vuegéométrique (un
individu
partiel ij
est du côté des variables pourlesquelles
il a une forte valeur et àl’opposé
de celles pourlesquelles
il a une faiblevaleur).
Remarque
On
peut exprimer
matriciellementFs
etFI
en tant que combinaisons linéaires des variables initiales. Soit :On montre que
(ps
est lefragment
de cpscorrespondant
aux variables dugroupe j .
5.
Régressions
PLS et AFM : cas de deux groupes de variablesAvant d’aborder le cas
général
à J groupes, il est utile d’étudier le cas de deux groupes. Lespropriétés respectives
des variablescanoniques
de l’AFM et descomposantes
PLSapparaissent
defaçon plus flagrante.
Remarque.
Les calculs concernant les méthodes PLS ont été réalisées à l’aide dulogiciel
LVPLS de Lohmoller( 1989).
Lesoptions
choisies sont lesplus
courantes : schéma factoriel pour les estimationsinternes,
mode A pour les estimations externes.5.1. Notations
Cs : composante
PLS de rang s pour legroupe j. C1
est, pour les méthodesPLS, l’analogue
de la variablecanonique FI
pour l’AFM.Mj:
matricediagonale
despoids
desvariables;
elle est engénéral
confondueavec l’identité dans les
présentations
des méthodes PLS. Dans ce cas, enAFM,
cette matrice estégale
à la matrice identité mais au coefficient1/ À{ près.
Dans le cas de la
régression PLS,
iln’y
a que 2 groupes de variablesqui,
enoutre, ne
jouent
pas le même rôle. Conformément àl’usage,
nous réservons la lettreY au tableau de données à
expliquer (éventuellement
réduit à unecolonne)
et X auxdonnées
explicatives.
Lescomposantes
PLS s’écrivent alorsCes
etCs ;
les variablescanoniques
de l’ AFM :Fs
etF’f .
5.2. Cas où l’un des deux groupes est réduit à une variable
Nous définissons la
première
composante de larégression
PLS univariée(PLS 1)
en
reprenant
la relation donnée par Tenenhaus(1998)
avec nos notations. Soit :où le terme à
gauche
dusigne
oc estégal
au terme de droite centré-réduit.En AFM
(cf. § 4.4) :
On met en évidence ici une
analogie
entre les deuxapproches : prendre
encompte
un ensemble de variables(ici
les colonnes deX)
non pas dupoint
de vue duseul sous-espace
qu’elles engendrent (comme
enrégression usuelle)
mais en tenantcompte
de la distribution de ces variables dans le sous-espace.Ainsi,
on montre que(1/ I)X X/Y
estplus
corrélé aux colonnes de X que ne l’est laprédiction
parrégression
usuelleX(X/ X)-l
X’Y.(Escofier
&Pagès
1998 p.163).
Les deux formules ne sont toutefois pas
identiques :
dans larégression PLS, l’opérateur ( 1 / I )
X X’s’applique
à la variable àprédire Y ;
dansl’AFM,
ils’applique
à la variable
générale Fi, qui exprime déjà
uncompromis
entre Y et X. Onpeut
donc s’attendre à :2022 une corrélation entre
Cf
et Yplus
fortequ’entre Fi
etY;
2022 des corrélations entre
Cf
et les colonnes de Xplus
faiblesqu’entre Fl’
et lescolonnes de X.
En ce sens,
Cf
est intermédiaire entreFl’
et l’estimation de Y par larégression
usuelle
(notée Yreg);
de soncôté, F1
est intermédiaire entreCf
et lapremière composante principale
de X(notée (Cp1X).
L’analogie
ne va pas au-delà de la composante de rang 1. Eneffet,
larégression
PLS
impose 7"[Cxs Cl]
= 0si s =f t
cequi
n’est pas le cas en AFM.Exemple
des données de CornellPour évaluer
l’impact pratique
del’analogie
entre PLS 1 etl’AFM,
ces deuxméthodes ont été
appliquées
aux données de Comell citées par Tenenhaus(1998
p.78).
Dans cet
exemple,
lapremière
composante PLS et lapremière
variablecanonique (du
groupeX)
de l’AFM sont trèsproche : r(Cx1,Fx1) = .9997; plus généralement,
letableau 1 rassemble les corrélations entre les différentes
prédictions (incluant CP1X,
1e
composante principale
de l’ACP deX).
TABLEAU 1
Données de Cornell : corrélation entre 4
prédictions. Régression
usuelle(Yreg)
et PLS
(cri ),
AFM(FI) et 1 ère
composanteprincipale
de X(Cp1 X )
Le tableau 2 donne
quelques caractéristiques
des différentesprédictions :
· r
(., Y) :
corrélation entre la variable étudiée et la variable Y àprédire;
·
Vx = 03A3kr(., Vk )2 :
variance de l’ensemble des variables de Xexpliquée
parla variable
étudiée;
·
Lg (., X) :
mesure de liaison entre X et la variable étudiée(cf. 3 4.2).
TABLEAU 2
Données de Cornell :
caractéristiques comparées
de 4prédictions : régression
usuelle(Yreg)
et PLS(CI),
AFM(Fi )
et
1ère
composanteprincipale
de X(Cp1X)
Cet
exemple
illustre bien les résultats attendus. Sur les données« actives »,
en excluant lapremière composante principale qui
sert seulement de référence :2022 la
régression
usuelle fournit le meilleurajustement
et l’AFM leplus mauvais;
2022 la
régression
usuelle fournit laprédiction
la moins liée aux variablesexplicatives
et l’ AFM la
plus
liée.Dans ces
données, Yreg
est trèsproche
de lapremière composante principale
de X. L’étroite corrélation entre
CI
etFi
n’est donc pas trèsprobante.
Exemple
de données choisiesUn
jeu
de données choisies(tableau 3)
met en évidence les différences entre les méthodes defaçon flagrante.
TABLEAU 3
Données choisies pour la
régression
univariée.A)
Données.B) Régressions,
AFM et ACP.C) Propriétés
des colonnes deB)
FIGURE 2
Données choisies pour la
régression
univariée(cf.
tableau3).
Représentation
desvariables,
respectant lesangles
et leslongueurs (possible
icipuisque l’espace
des variables centrées est de dimension3).
Ex :
sous-espaceengendré
parXI
etX2
L’ensemble des
variables,
initiales etcalculées,
estreprésentée figure
2.On retrouve bien le résultat
attendu,
à savoir l’ordreYreg, CI, FÍ, Cpl X
décroissant du
point
de vue de la corrélation avec Y et croissant dupoint
de vue dela variance
expliquée
de X.L’étroite
parenté
entre lapremière composante
PLS(Cx1
et lapremière
variablecanonique
de l’AFMF1 ,
estflagrante.
5.3. Cas
général
de deux groupesLes deux
premières
composantes de larégression
PLS multivariée(PLS2)
vérifient :
où le terme à
gauche
dusigne
oc estégal
au terme de droite centré-réduit. Ceséquations
assurent uncompromis
entre descomposantes
étroitement corrélées entreelles
(cas
des variablescanoniques usuelles)
et des composantes« représentant »
bienleur groupe
(cas
descomposantes principales
de chacun desgroupes).
L’AFM suit le même
objectif
dans le mêmeesprit
mais enprocédant légèrement
différemment :
L’analogie
entre les deux méthodes est de même type que pour PLS 1. Ellepeut
être illustrée en
appliquant
à la fois PLS2 et l’AFM aux données de Linnerud étudiées par Tenenhaus(1998,
p.142).
TABLEAU 4
Données de Linnerud : corrélations entre composantes PLS et variables
canoniques
de l’AFM
TABLEAU 5
Données de Linnerud :
comparaison
deprédictions
A : corrélations entre variables initiales
(de Y)
et composantes PLS ou variablescanoniques
de l’AFM.B :
propriétés
desdifférentes prédictions.
PourYreg,
il y a 3prédictions puisque
3régressions
Les résultats obtenus illustrent les
propriétés
attendues :e les
composantes
PLS sont trèsproches
des variablescanoniques
del’AFM;
e par
rapport
à larégression usuelle,
les variablescanoniques
de l’ AFMprésentent
les
caractéristiques
descomposantes
PLS defaçon plus marquée :
elles sontmoins corrélées aux variables à
prédire (pour
les donnéesactives)
etplus
corrélées aux variables
explicatives.
5.4. Conclusion sur les cas de deux groupes
Dans les cas
étudiés,
au niveau de lapremière composante,
les résultats de l’AFM et de PLS sont trèsproches.
Plus dans le
détail,
la variablescanonique F1
de l’AFMprésente
defaçon amplifiée
lescaractéristiques
de lapremière composante
PLS. Onpeut
se demandersi,
de cefait,
l’AFM nepeut
pas être utilisée dans uneoptique
derégression.
Ce n’est pas le cas. En
pratique,
lapremière composante
PLS est souvent insuffisamment corrélée aux variables àprédire,
ce àquoi
on remédie en faisantintervenir une ou
plusieurs
descomposantes
PLS suivantes. Cette démarche est moins intéressante en AFM du fait de la nonorthogonalité
des variablescanoniques
entreelles.
6.
Approche
PLS et AFM : cas de J groupes de variables 6.1.L’approche
PLSDans
l’approche PLS,
les données secomposent,
comme enAFM,
de J groupes de variables définis sur les mêmes individus.Mais,
enplus,
un modèle relie ces groupes de lafaçon
suivante :2022
chaque
groupe estreprésenté
par une variablelatente;
2022 les variables latentes sont reliées entre elles par un ensemble de relations
linéaires.
Le coeur de
l’algorithme
recherche l’ensemble des variables latentes defaçon
telle que :
2022
chaque
variable latente«représente»
bien le groupe en ce sensqu’elle
est corrélée aux variables de ce groupe; cette
propriété
estassurée,
dansl’algorithme,
par l’estimation externe detype
ModeA;
2022 les variables latentes reliées par les
équations
du modèle sont corrélées entreelles;
cettepropriété
estassurée,
dansl’algorithme,
par l’estimation interne.Cette
problématique
estproche
de celle del’AFM,
les variablescanoniques jouant
le rôle de variables latentes. Laprincipale
distinction entre les deuxapproches
est que la notion de modèle n’existe pas en AFM :
concrètement,
enAFM,
les variablescanoniques (de
mêmerang)
sont corrélées entre elles autant quepossible,
sans
privilégier
certainscouples
d’entre elles.6.2.
Influence
du modèle dans le calcul de variables latentes PLSAvant de comparer les deux
approches,
il est utile d’examiner ladépendance
des variables latentes PLS vis à vis du modèle
adopté.
Apriori,
onpeut
s’attendre àce que les structures communes à tous les groupes
apparaissent
en tant que variables latentesquel
que soit le modèle. Cette situation doit être enprincipe
laplus fréquente :
elle
correspond
au modèlepostulé
àl’origine (Wold H., 1975),
danslequel chaque
groupe est unidimensionnel et bien
représenté
par une seule variable latente dont les variables brutes sont desexpressions
observables.Ainsi,
les données de Russett(Tenenhaus
1998 p239)
ont été soumises aux troismodèles dans
lesquels
un groupe estexpliqué
par les deux autres. Les corrélationsentre les deux
premières composantes
PLS dechaque
groupe pour les trois modèles sont données tableau 3. D’un modèle àl’autre,
lescomposantes
PLShomologues
sont étroitement corrélées.
Ainsi,
leplus
faible(en
valeurabsolue)
coefficient de corrélation entrepremières composantes homologues
issues de modèles différents vaut .981 . Les deuxièmecomposantes
sontégalement
stables d’un modèle àl’autre,
àl’exception
de celle du groupe 3 dans le modèle2,
sensiblement différente de sonhomologue
dans les deux autres modèles. Cette instabilité est sans doute liée au caractère presque unidimensionnel du groupe 2(91
% de son inertie est concentrédans une
direction) qui joue
un rôle central dans le modèle 2.On remarquera au passage la non-corrélation entre
composantes
PLS d’un même groupe.En
revanche,
s’il existe des structures fortes communes à certains groupesseulement,
lescomposantes
PLSpeuvent
varier considérablement selon le modèlecomme l’illustre
l’exemple
de lafigure
3.FIGURE 3
Deux modèles pour un même ensemble de données choisies.
Chaque
groupe estreprésenté
par unrectangle
contenant les variables du groupe(ex :
le groupe 1comprend
les variables A etB);
l’ensemble des groupes est bâti àpartir
de trois .variables non corrélées
A,
B et C. Les liaisons dedépendance
entre groupes sont matérialisées pardes flèches;
au-dessus dechaque rectangle figure
la lecomposante PLS du groupe :
ainsi,
pour le modèle1,
la composante PLS du groupe 1est Y1 ==
BDans cet
exemple,
àpartir
de 3 variables non corréléesA,
B etC,
on constitue les groupes( 1 ), (2)
et(3).
Le schémaindique
lespremières composantes
PLS(Y1, Y2, Y3 )
obtenues à
partir
des modèles MI(réduit
àl’équation : Y3
=a 1 Yl
+a2 Y2 )
et M2(réduit
àl’équation : Y1
= a2Y2 + a3Y3 )
matérialisés par des flèches.TABLEAU 6
Données de Russett : corrélations entre composantes PLS obtenues par
différents
modèles sur les mêmes données.
Yjs
se composante PLS du groupej. Définition
desgroupes 3
6.4.1Sur cet
exemple,
selon lemodèle,
les variables latentes varient considérablement.Cette variation est en accord
(prévisible)
avec le modèle.Ainsi,
le modèle 1privilégie
les liaisons entre les groupes 1 et 3 d’une
part
et 2 et 3 d’autrepart :
la variableA,
commune aux seuls groupes 1 et 2
n’apparaît
pas dans les variables latentes.En
revanche,
le calcul des variables latentes nedépend
pas de l’orientation des liaisons dans le modèle(sauf lorsque
l’estimation interne est réalisée selon le schémastructurel).
6.3.
Comparaisons
entre variables latentes PLS et variablescanoniques
de l’AFM6.3.1. Cas où il existe une structure
forte
commune à tous les groupesDans ce cas, on
peut s’attendre, indépendamment
dumodèle,
à unegrande
similitude entre les variables latentes PLS et les variables
canoniques
de l’ AFM. Ceci est illustré(cf.
tableau7)
par le traitement des données de Russett en utilisant le modèle 1 du tableau 6.TABLEAU 7
Données de Russett. Corrélations entre composantes
PLS,
variablescanoniques
del’AFM et
premières
composantesprincipales. (Var :
variance des variables du groupequ’elle représente expliquée
par la composanteétudiée). Lg : liaison, cf.
3 4.2,
entre la composante et le groupequ’elle représente
Comme attendu :
2022 les
composantes
PLS et les variablescanoniques
de l’AFM sont trèsproches
entre elles
(mais aussi, proches
despremières composantes principales);
2022 les
composantes
PLS extraientlégèrement
moins d’inertie que les variablescanoniques
de l’AFM.2022 La
composante
PLS du groupe 3 estplus
corrélée aux composantes PLS des groupes 1 et 2 que ne le sont lescomposantes
obtenues par AFM ou ACP.Les modèles finaux
s’écrivent,
lescomposantes
PLS et les variablescanoniques
de l’AFM étant normées :
Les deux méthodes conduisent ici
pratiquement
au même modèle.6.3.2. Cas où il existe des
structures fortes
communes à certains groupes seulement Dans ce cas, les résultats différentgrandement
d’une méthode à l’autre commele montrent les traitements des données de la
figure
3(modèle MI)
dont les résultats sont rassemblés tableau 8.TABLEAU 8
Données choisies
(cf. Figure 3,
ModèleMI ) :
composantes PLS et variablescanoniques
issues de l’AFM.Exemple :
la1 ère
composante PLS du groupe 2 estconfondue
avec la variable C.o : variable constante
égale
à 0L’AFM fournit ici les trois facteurs communs aux
couples
de groupes et restituebien la
façon
dont les données ont été construites.Remarquons
queici,
les variables étantnormées,
l’ordre des facteurs est arbitraire.L’approche
PLS est,quant
àelle,
focalisée sur le groupe 3. Elle met en évidenceune combinaison des variables du groupe 3 à la fois liée au groupe 1 et au groupe 2.
Ici,
aucune méthode n’est meilleure que l’autre. Ces résultats illustrent lespoints
de vue des méthodes
qui
sont, dans cetexemple,
biencomplémentaires.
Remarque :
des résultats trèsproches
ont été obtenus en bruitantlégèrement
ces données afin de se
prémunir
contre d’éventuelsproblèmes
de convergence du programme LVPLS.6.3.3. Cas de coïncidence entre les deux méthodes
Lohmoller
(1989;
démonstrationreprise
dans Tenenhaus( 1999))
a montré que,en utilisant le mode A pour l’estimation externe, le schéma structurel pour l’estimation interne et un modèle dans
lequel chaque
groupe de variablesexplique
un groupeartificiel rassemblant toutes les
variables,
lesfragments
de lapremière composante principale
du tableaucomplet
vérifient leséquations
de stationnarité des variables latentes. La convergence del’algorithme
del’approche
PLS vers cette solution n’est pas démontrée mais a été constatée enpratique.
Nous testons ici cette convergence dans le cas de l’AFM.Le coeur de l’AFM pouvant être vu comme une ACP
pondérée,
etcompte
tenu de la remarquedu § 4.4, l’approche
PLS dans les conditionsdu § précédent
doit conduireaux variables
canoniques
de rang 1 de l’AFM(à
condition de transformer les données defaçon
telle que leurACP,
ici nonnormée,
ait pourpremière
valeur propre1).
Nous avons constaté ce résultat dans le cas des données de Russett et l’avons testé sur les données du tableau 9.
TABLEAU 9
Données choisies pour tester le cas de coïncidence exacte entre
l’approche
PLS et l’AFMLes variables
A,
B et C sont centrées-réduites et non corrélées. Dans unpremier temps,
A =A’; B == B’ ; C
= C’. Confronté à ces donnéesparticulières, l’algorithme
du programme LVPLS ne converge pas. Dans un deuxième
temps,
A’A;
B’B ; C’
C. La coïncidenceprévue
par Lohmoller est à nouveau constatée(le
coefficient de corrélation entre variableshomologues
entre les deux méthodes esttoujours supérieur
à.999999)
sur ces données difficiles car sans facteur commun à tous les groupes.6.4.
Représentations
associées auxcomposantes
PLSet aux variables
canoniques
de l’AFM6.4.1.
Représentation
des variablesLes
composantes
PLS successives d’un même groupe sontorthogonales.
Il estdonc
possible
dereprésenter
l’ensemble des variables(tous
groupesconfondus)
enprojection
sur uncouple
de composantes(généralement
les deuxpremières)
d’unmême groupe de la
façon
usuelle :2022 la coordonnée de la variable v k sur la composante
C 1
vautr ( v k, C 1) ;
2022 l’ensemble des
points représentant
les variabless’interprète
comme une pro-jection
du nuage des variables définis àpartir
de l’ensemble des coordonnées.Pour les deux
premières composantes,
parexemple,
il y a donc autant dereprésentations
que de groupes, comme enanalyse canonique usuelle; chaque représentation privilégie
lepoint
de vue d’un groupe.Ce
type
dereprésentation
n’est paspossible
en AFM du fait de la non-orthogonalité
des variablescanoniques.
Enrevanche,
les variablesgénérales Fs, qui
bénéficient de la
propriété F, - S-Fi,
sontorthogonales
et fournissent un cadre« moyen » pour
représenter
les variables.Exemple
des données de RussettL’ensemble des variables est
représenté
d’unepart
sur deuxpremières
com-posantes
PLS du groupe 3(à expliquer)
et d’autrepart
sur les deuxpremiers
axes del’AFM
(figure 4).
Comme
attendu,
lareprésentation
sur les deuxpremières
composantes PLS du groupe 3privilégie...
les variables du groupe 3. De soncôté,
enpartie
du fait de lapondération,
lareprésentation
de l’AFM assure desqualités
dereprésentation plus homogènes
d’un groupe à un autre(cf.
tableau10).
TABLEAU 10
Données de Russett.
Qualités
dereprésentation
des groupes de variablesfournies
par
l’approche
PLS(deux premières
composantes du groupe3)
et l’AFM(deux premiers axes).
Laqualité
est mesurée par le rapport inertieprojetée
/ inertie totale.Dans la colonne tous groupes, ces rapports ne sont pas exactement
comparables
entre eux
puisque
les variables ont despoids différents
selon les méthodesListe des
variables,
par groupeGroupe
1 :inégalité
dans larépartition
des terres. Gini : indice deGini;
Farm :plus grand
% de fermierspossédant
la moitié des terres; Rent : % de fermiers locataires de leurs terres;Groupe
2 :développement
industriel.Gnpr :
PNB parhabitant;
Labo : % d’actifs travaillant dansl’agriculture;
Groupe
3 : instabilitépolitique.
Inst : indice de stabilitépolitique
variant entre 0(très stable)
et 17(très instable) ;
Ecks : indice d’Eckstein mesurant le nombre de con-flits violents sur la
période 1946-1961;
Deat : nombre de tués lors de manifestationsFIGURE 4
Données de Russett :
représentation
des variables.En haut : sur les deux
premières
composantes PLS du groupe3;
En bas : sur les deux