R EVUE DE STATISTIQUE APPLIQUÉE
P. C AZES
Adaptation de la régression PLS au cas de la régression après analyse des correspondances multiples
Revue de statistique appliquée, tome 45, n
o2 (1997), p. 89-99
<http://www.numdam.org/item?id=RSA_1997__45_2_89_0>
© Société française de statistique, 1997, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ADAPTATION DE LA RÉGRESSION PLS AU CAS DE LA RÉGRESSION
APRÈS ANALYSE DES CORRESPONDANCES MULTIPLES
P. Cazes
LISE-CEREMADE, Université Paris 9
Dauphine,
Place du Maréchal de Lattre de
Tassigny,
75775 Paris cedex 16RÉSUMÉ
Après
avoir effectué desrappels
et donné descompléments méthodologiques
sur laRégression
PLS et sur laRégression après Analyse
desCorrespondances Multiples,
onadapte
la
première technique
à la seconde, cequi
permet d’obtenir des composantesprincipales
noncorrélées sur
lesquelles
on peut effectuer larégression.
Mots-clés :
Analyse
enComposantes Principales, Analyse
desCorrespondances Multiples, Régression
PLS,Régression après Analyse
desCorrespondances Multiples.
ABSTRACT
After
giving principles
andproperties
of PLSRegression
andRegression
afterMultiple Correspondence Analysis,
the first technics is matched to the second. Thus, we obtain uncorrelatedprincipal
components, on whichregression
can beperformed.
Keywords : Principal Components Analysis, Multiple Correspondence Analysis,
PLSRegres-
sion,Regression after Multiple Correspondence Analysis.
1. Introduction
Le but de ce
papier
estd’adapter
larégression
PLS au cas de larégression après analyse
descorrespondances multiples (cf. [1]).
En effet lepremier
pas de cette méthodequi
fournit descomposantes principales
corrélées surlesquelles
oneffectue la
régression peut
être considéré comme lepremier
pas d’unerégression
PLS
(où l’Analyse
enComposantes Principales
estremplacée
parl’Analyse
desCorrespondances Multiples (A.C.M.)).
L’intérêt de cetteadaptation
est de fournir descomposantes principales
non corrélées surlesquelles
on pourra effectuer larégression.
L’article est divisé en trois
parties.
Dans lapremière,
on fait desrappels,
dans un cadre
plus général (i. e.
avec desmétriques quelconques)
sur larégression
PLS,
et on donne descompléments méthodologiques.
Dans la deuxièmepartie,
onrappelle
lesprincipes
de larégression après A.C.M.,
on donnequelques propriétés
de cette
technique,
et on fournitégalement
descompléments méthodologiques.
Enfinla dernière
partie
concernel’adaptation
de larégression
PLS au cas de larégression après
A.C.M.2.
Rappels
etcompléments
sur larégression
P.L.S.(cf. [3], [5], [6])
2.1.
Rappels
On suppose
qu’on
a p + q variablesquantitatives
x1, x2,..., Xp, yl, Y2, ... , ?2/g mesurées sur un échantillon de taille n et l’ondésigne
par X et Y les tableauxn x p et n x q associés. On désire
expliquer
les variables y1,...,yq en fonction des variables Xl, x2,..., xp. Le but de larégression
PLS est de fournir de nouvelles variablesel, 03C82,
....’l/Jr (r p)
combinaisons linéaires des variablesexplicatives
xi, non
corrélées,
fonction de la liaison entre les Yj et les xi, variables surlesquelles
on effectuera la
régression
dechaque
yj.On suppose
l’espace
Rn muni de lamétrique
despoids
N =Dp (en général
n Idn, Idn
étant lamétrique identité,
cequi
revient à donner mêmepoids
àchaque observation)
et les espaces RP et Rq desmétriques
définiesrespectivement
par les matricesM11
etM22.
On supposera les variablescentrées,
et l’onposel :
Vil
=X’NX
: matrice variance des variablesexplicatives V12
= X’NY =(V21)’
: matrice des covariances entre lesvariables xi
et les
variables yj
On posera encore :
notations
qui
seront utiles dans le processus itératif de larégresion
PLS.Au
premier
pas de cetterégression,
on recherche les combinaisons linéaires03C8 = Xa, ~ = Y c de
covariancemaximale,
les formes linéaires a E(RP)*
etc E
(Rq)*
étant normées pour lesmétriques Mill
etMi2l respectivement
induitespar
M11
etM22
dans(Rp)*
et(Rq)* :
La covariance à maximiser étant
égale
àO’N 71 = Q’ V12
c, il est facile de voir(cf. [3])
que a et c doivent vérifier leséquations
1 On désigne de façon classique par A’ la transposée d’une matrice A
avec
On déduit alors de
(3)
et(4)
que a(resp. c)
est le vecteur propre QI(resp. c1)
normé
(pour Mïil (resp. Mi2l))
deMil V12 M22 V21 (resp. M22 V21 Mll V12)
associé à la
plus grande
valeur propre de cetteapplication.
On pose alors :
et on
désigne
parA1 l’opérateur
deprojection
dans Rn(toujours
muni de lamétrique N) sur l’hyperplan orthogonal
à03C81 et par El
=A1E0 (resp. F1
=A1F0)
les matrices résiduelles deEo (resp. Fo) après régression sur 03C81.
On pose encore :
et il est facile de voir que :
Au second pas de
l’algorithme,
on recherche les combinaisonslinéaires 03C8 =
El
aet 77
=Fi c
de covariance maximale sous les contraintes de normalisation(2).
Les solutions a2 et c2 sont donc
respectivement
les vecteurs propres associés à laplus grande
valeur propre deM11M(1)22 et V(1)21M11V(1)12.
On pose
alors P-2 = E1a2,~2 = FI
c2, et on considère les matrices résiduellesE2
etF2 après régression
deEl
etFI sur e2’
Onpeut
alors continuer le processus en recherchant a et c tels que Cov(E2
a,F2c)
soit maximale sous les contraintes(2).
De
façon générale,
au pask,
on recherchera lecouple
de vecteurs normés(a, c)
tel que Cov
(Ek-1
a,Fk-1 c)
soit maximum.2.2.
Remarques
etcompléments
1)
Larégression
PLSclassique correspond
au cas où lesmétriques MIl
etM22
sont les
métriques
usuelles de RP et Rqrespectivement.
2)
Par construction lescomposantes PLS P-k
sont noncorrélées,
et l’onpeut
montrer
(cf. [3])
que les ak sont orthonormés(pour Mill).
3)
On déduit de(7)
que les résultats de larégression
PLS sont inaltérés si àchaque
pas de
l’algorithme,
on necorrige
que le tableau X= Eo
et pas Y =Fo.
Aupas
k,
on recherche alors les combinaisonslinéaires 03C8
=Ek-1 a
et 03B8 =Fo c
de covariance maximale sous les contraintes
(2).
4) Après
avoir extrait lescomposantes PLS P-k, composantes qui
par constructiondépendent
de la liaison entre les variables àexpliquer yj
et les variablesexplicatives
xi, onpeut
effectuer larégression
dechaque
sur les03C8k.
Au lieude considérer les
ek,
on aurait pu aussi faire larégression
sur lescomposantes principales Gk (qui
commeles
sont noncorrélées)
issues de l’ACP dutriplet (X, Ml 1, Dp).
L’avantage
de raisonner sur lescomposantes
PLS et non sur lescomposantes principales
pour effectuer larégression
estd’avoir,
comme on vient de ledire,
descomposantes explicatives dépendant
de la liaison entre les yj et les xi, cequi permet d’optimiser
dans un certain senschaque régression,
si on negarde
que les
premières composantes PLS,
contrairement au cas de larégression
surles
composantes principales,
où certainescomposantes Gk
de faible variancepeuvent
être éliminées alorsqu’elles peuvent
être corrélées defaçon
nonnégligeable
à certaines des variables àexpliquer
yj. Par contre les résultats obtenus avec larégression
PLS sontbiaisés, puisqu’on
utilise pourexpliquer
les yj des
composantes qui
sontdéjà
fonction des liaisons entre les yj et les variables àexpliquer
xi. On aura donc intérêt à utiliser un échantillond’épreuve
pour
juger
de la validité de larégression
obtenue avecles 03C8k.
5)
Achaque pas k
de larégression PLS,
on extrait lepremier
facteur issu de l’ACP(non centrée)
dutriplet (V(k-1)12, M11, M22)
tandis que lescomposantes
PLS03C8k
et~k peuvent
être considérées comme calculées àpartir
des tableauxE’k-1
et
Fk-1 rajoutés respectivement
en colonnes et enlignes supplémentaires
àV(k-1)12 (on projette chaque ligne
deEk-1 (resp. Fk-1)
sur lepremier
axefactoriel dans RP
(resp. Rq)
issu de l’ACP deV(k-1)12).
Au lieu de
corriger
àchaque
pas les tableauxEo
= X etFo
=Y,
on aurait pu faire l’ACP(non centrée)
dutriplet (Vi2, Mn, M22)
les tableaux X et Y étantrajoutés
ensupplémentaires.
Lescomposantes
=Xak et ’!1k
=Y ck
ainsiobtenues maximisent successivement Cov
(03C8k,~k)
sous la contrainte que les ak(resp. ck)
sont normés etorthogonaux (pour
lamétrique Mill (resp. Mi2l))
aux Qm
(resp. cm)
pourm k -
1.On obtient alors
l’analyse
de co-inertie de Chessel et Mercier(cf. [4])
entre lestriplets (X, M11, N)
et(Y, M22, N), analyse qui généralise
au cas demétriques quelconques l’analyse
interbatteries de Tucker(cf. [7]).
Le nombre maximum decomposantes
que l’onpeut
extraire estégal
au rang deV12
et donc inférieurou
égal
àMin(rangX, rangY)
alorsqu’en régression PLS,
il estégal
au rang de X.Les
composantes
obtenues enanalyse
de co-inertie etqui peuvent
servir de variablesexplicatives (au
lieu desxi)
pourexpliquer
les yj sont, comme dans le cas de larégression PLS, centrées,
et tiennentcompte
de la liaison entre les yj et les xi . Par contre, elles ont ledésavantage
de neplus
être non corrélées.C’est cette
façon d’opérer (i. e.
sanscorriger
les tableaux X etY) qui
est utiliséedans la
régression après analyse
descorrespondances multiples,
l’ACP étantremplacée
parl’Analyse
Factorielle desCorrespondances (AFC),
le tableauY
(resp. X)
par le tableaudisjonctif complet
associé aux indicatrices de laou des variables à
expliquer (resp. explicatives).
Si on veutobtenir,
pour faire larégression,
descomposantes explicatives
noncorrélées,
il fautadapter
laprocédure
PLS au cas del’analyse
descorrespondances multiples.
C’estl’objet après
desrappels
sur larégression après analyse
descorrespondances multiples (§ 3)
duparagraphe
4.3. La
Régression après Analyse
desCorrespondances Multiples (cf. [1], [2]
et[3])
3.1.
Rappels
etCompléments
On suppose ici que toutes les variables x1,...,Xi,... , xP, y1,...,yj,...,Yq
ont été
découpées
entranches,
et l’ondésigne
parKXi (resp. KYj)
l’ensemble des modalités de la variable xi(1 i p) (resp.
Yj(1 j q))
et parKX (resp.
KY)
l’uniondisjointe
desKxi (resp. Kyj),
i. e. l’ensemble de toutes les modalitésexplicatives (resp.
àexpliquer) :
Si E
désigne
l’ensemble des nobservations,
on considère alors le tableaudisjonctif complet SEKX qu’on
noteraégalement S,
associé aux variables xi et dontle terme
général S(e, k)
est défini par : Ve eE,
Vk EKxi
CKX :
S(e, k)
= 1 si e aadopté
la modalité k de xi= 0 sinon
On note de même
TEK y,
ouplus simplement T,
le tableaudisjonctif complet
associé aux variables yj, et l’on
désignera
parT(e, k) (e E E,
k EKy),
le termegénéral
de T.La
régression après analyse
descorrespondances multiples
revient à effectuer lesétapes
suivantes :1) Après
la division en tranches des variables xi et yj, construire le tableauC = T’ S
qui
rassemble l’ensemble des pq tableaux decontingence
croisant toute variablexi
(1 i p)
avec toutevariable (1 j q).
2)
Effectuerl’analyse
descorrespondances
du tableau C. Ondésignera
par( ’1’;; x , ’1’;; y)
leaè" couple
de facteurs associés de variance 1 issu de cetteanalyse
et parÀQ
la valeur proprecorrespondante.
3) Rajouter
le tableau S ensupplémentaire
deC,
i.e.projeter
sur les rpremiers
axes factoriels trouvés en
2)
lesprofils
deslignes
e du tableau S. SoitF03B1(e)2
la coordonnée du
profil
de laligne
e de E sur l’axe factoriel a.Compte
tenu de2 On emploie ici la notation Fa au lieu de 03C803B1, cette notation étant plus classique en analyse des correspondances.
ce que
4)
Effectuer larégression
usuelle dechaque (avant découpage
enclasses)
surles Fa .
Soit
la valeur
approchée de yj
pour l’individu e.Compte
tenu de(8),
on a :avec
soit si
i (e) désigne
la tranchede xi
danslaquelle
tombe e :qui
n’est rien d’autrequ’une
formuled’analyse
de variance.3.2.
Quelques propriétés (cf [2], [3])
Les
composantes principales F Q
sontcentrées;
par contre elles ne sont pas non corrélées.Par
ailleurs, soit3
la coordonnée sur l’axe factoriel a du
profil
de la colonne e du tableau T’rajouté
ensupplémentaire
à C. Alors on a3 On emploie ici la notation Go,
(au
lieu de~03B1),
cette notation étant plus classique en analyse des correspondances.De
plus,
si’PK x
et’PK y
sont des fonctions centrées de variance 1(avec
lesmétriques
despoids
déduites del’analyse
descorrespondances
deC),
et si on poseAlors F et G sont de covariance maximale si F =
Fl,
G =Gl,
cette covarianceétant
d’après (14) égale
à03BB1.
De
plus
si onimpose
àcpKx (resp. ~KY)
d’être non corrélé aux~KX03B2 (1
/3
a -1) (resp. cp%y (1 03B2 03B1 - 1)),
lecouple (F, G)
de covariance maximale est lecouple (Fa, Ga).
3.3.
Remarques
1)
Comme l’ontremarqué
Chessel et Mercier(cf. [4]), l’analyse
des corres-pondances
du tableau C revient àl’analyse
de co-inertie des deuxtriplets
suivants
D K x (resp. D Ky)
étant la matricediagonale
desproportions
desdifférentes
modalités de
Kx (resp. Ky), 1ns (resp. 1nt)
la matrice n x s(resp.
n xt)
necomportant
que des1, s (resp. t)
le nombre de colonnes de S(resp. T) (i. e.
lecardinal de
Kx (resp. KY)),
etI dn
la matrice identité d’ordre n.L’analyse
descorrespondances
du tableau C est aussiéquivalente
à l’ana-lyse
de co-inertie des deuxtriplets
suivants, cette
façon
de voir étantplus
en accord avec l’es-prit
de cet article(cf.
fin de la remarque5) du § 2.2, cf 3 3.2,
ainsi que les calculsqui
serontdéveloppés au §
4.2)
Lescomposantes principales Fa
étantcorrélées,
si on élimine unecomposante principale,
parcequ’elle
est peu liée aux yj, ouqu’elle
est associée à une valeur proprefaible,
il faut recalculer les coefficients derégression gj
dans la formule(9).
La formule(11)
n’est donc pas additive dans la mesure où lasuppression
d’une
composante principale F{3
ne revient passimplement
àsupprimer
le terme0 k associé,
maisoblige
à recalculer les autres termes de cette formule.3)
Au lieu de faire larégression
sur lesFa,
on aurait pu faire larégression
surles
composantes principales
issues del’analyse
descorrespondances
du tableaudisjonctif complet
S(en
mettant le tableau C ensupplémentaire
pour visualiser les liaisons entre les xi et lesYj) qui
ontl’avantage
d’être non corrélées.Les formules
(8)
à(12)
restent encore valables(~KX03B1
étant maintenant lea ème
facteur de variance
1,
etFa
lacomposante principale associée,
i. e. le facteursur E de variance la valeur propre
Àa,
dansl’analyse
descorrespondances
deS),
les formules(9)
et(11)
étant additives dans la mesure où lasuppression
(ou l’ajout)
d’unecomposante principale
revientsimplement
àsupprimer (ou
rajouter)
le termecorrespondant
dans ces formules.L’avantage
de raisonner sur lescomposantes principales
issues del’analyse
descorrespondances
du tableau C est d’avoir descomposantes dépendant
de laliaison entre les yj et les xi, ce
qui permet d’optimiser
dans un certain sens lesrégressions.
Par contre les résultats de cesrégressions
sont biaiséespuisqu’on prend
pour variablesexplicatives
des variablesdépendant
des liaisons entre lesYj et les xi . On aura donc intérêt à utiliser un échantillon test pour valider les résultats obtenus. On retrouve ainsi des commentaires
analogues
à ceuxdéjà
effectués dans le cas de la
régression
PLS(cf.
remarque4) du § 2.2).
4)
L’intérêt dedécouper
les variables en tranchespuis
de faire larégression
sur lescomposantes principales
issues del’analyse
descorrespondances
du tableau Cavec S en
supplémentaire (ou
de S avec C ensupplémentaire)
réside dans lespoints
suivantsa)
du fait dudécoupage
enclasses,
onprend
encompte
les liaisons non linéaires entre les yj et les xi .b)
On visualise ces liaisons par lareprésentation
simultanée deKx
etKy
fournie par
l’analyse
descorrespondances
de C(ou
de S avec C ensupplémentaire).
c)
Onpeut
traiter sansproblème
le cas où les variablesexplicatives
sontqualitatives (elles
sont naturellement définies par desclasses)
ou le casd’un
mélange
de variablesqualitatives
etquantitatives (par découpage
entranches de ces
dernières).
d)
Laméthodologie précédente
setranspose
aisément au cas où certainesvariables
sontqualitatives.
Ilsuffit,
pour cesvariables,
d’effectuerl’analyse
factorielle discriminante et la discrimination sur lesFa,
au lieude faire la
régression.
e)
Comme dans toute méthode derégression après analyse factorielle,
laméthodologie précédente permet
de s’affranchir desproblèmes
deliaisons entre les variables
explicatives,
et d’éliminer le bruit dû auxfluctuations
d’échantillonnage.
f)
Dansl’analyse
descorrespondances
de C avec S ensupplémentaire (ou l’inverse)
leprofil
dechaque ligne k (k
EKyj
CKY)
est lecentre de
gravité
desprofils
deslignes
e de S associées aux individuse tombant dans la tranche k de yj.
L’analyse
descorrespondances
de Ccorrespond
donc à uneanalyse
interclasses. Ils’agit
en fait d’uneanalyse
factorielle discriminante où l’on a
remplacé
lamétrique
de Mahalanobis par lamétrique
du chi-deux.g)
Unexemple
derégression après analyse
descorrespondances multiples
est donné dans CAZES
(1976) (cf. [1]).
h)
Engénéral
larégression après analyse
descorrespondances multiples
estutilisée
quand
on a une seule variable àexpliquer (i.e.
q =1).
4.
Régression
PLSaprès Analyse
desCorrespondances Multiples
4.1. Le
principe
On a vu
(cf 9 3.2; cf. également
la1ère
remarque du§ 3.3)
quequand
on effectuel’analyse
descorrespondances
du tableauC,
lecouple
depremiers
facteurs normés associés(~KX1 , ~KY1)
est lecouple
de fonctions(~KX, ~KY)
normésqui
maximisela covariance entre les fonctions F et G définies par
(15),
la valeur maximale de la covariance étantégale
à03BB1.
On est donc dans le cadre du
premier
pas de larégression PLS,
à ceciprès qu’il
fautremplacer
les tableaux X et Y par les tableaux6’/p
etT/q respectivement (l’introduction
des facteurs1/p
et1/q
dans les tableauxdisjonctifs complets
vientdu fait
qu’on
raisonne sur desprofils),
lesmétriques Mil
etM22
étant lesmétriques
du chi-2 induites par
l’analyse
descorrespondances
du tableau C.L’espace
Rn étantmuni de la
métrique
despoids Dp = 1 I dn
induite parl’analyse
descorrespondances
de S
(ou
deT)
le tableauV12
considéré au débutdu § 2
n’est autre que le tableau1 C’
dontl’analyse
descorrespondances
estidentique
à celle de C.On
peut donc,
au lieu d’extraire les facteurs successifs issus del’analyse
descorrespondances
deC, qui produisent
des facteursFa centrés,
maiscorrélés, opérer
comme dans la
régression
PLS encorrigeant
àchaque
pas le tableaudisjonctif complet
des variables
explicatives
S.Les résultats de la
régression
PLS étantinchangés
si on necorrige
pas la matrice des variables àexpliquer,
ici le tableaudisjonctif complet
T(cf. 3ème
remarquedu § 2.2),
nous ne modifierons pas ici par souci desimplification
le tableau T.Soit S*
(e,k)/p (k
EKX)
lacomposante k
de laprojection
de laligne
e dutableau
S/p
sur la droiteengendrée
parFi
dans Rn. On a :avec
On
peut
noterpuisque FI
est centré que :Les marges du tableau S* sont donc nulles.
On pose alors :
et on
peut
noter que les tableaux S etSel)
ont mêmes marges.On pose de même :
dont le terme
général
s’écrit : Vk EKy, ~k’
EKx :
Il est facile de voir compte tenu de (18) et de ce que 03A3{T(e,k)|k)|k
EKY}
= q,que les tableaux C et
C(1)
ont même marge. Il en résulte que lesmétriques
induitespar
l’analyse
descorrespondances
du tableauC(l) sont identiques
à celles induites parl’analyse
descorrespondances
de C.Remplaçant
le tableau S parS(1),
onpeut
alors rechercher lecouple
de fonctions(~KX,cpKY )
normées(avec
les mêmesmétriques
queprécédemment) qui
maximisela covariance entre les fonctions F et G définies par
(15) (où
S estremplacé
parS(1)).
La solution(~KX2, ~KY2)
est fournie par lepremier couple
de facteurs normés associés issu del’analyse
descorrespondances
du tableauC(1).
SiÀ2
est la valeurpropre la
plus grande
issue de cetteanalyse,
la covariance maximale estégale
à03BB2.
Si
F2
etG2
sont les fonctions sur Eassociées,
il est immédiat de vérifier queF2
estnon corrélée à
FI.
On
peut
ensuite continuer le processusqui
revient donc àcorriger
les tableauxSel) puis C(1) pour
obtenir des tableauxS(2)
etC(2),
extraire lepremier couple
defacteurs normés associés issu de
l’analyse
descorrespondances
deC(2) ,
en déduirela combinaison linéaire associée
F3, corriger
enconséquence S (2)
etC (2)
etc.On voit donc que cette
façon d’opérer
revient à faire une suited’analyse
descorrespondances.
Si on effectue ranalyses,
on obtient pourexpliquer
les yj(avant découpage
enclasses)
rcomposantes Fa centrées,
non corrélées.4.2.
Remarques
1)
Onpeut
noter que les tableauxC(1), C(2), 1 ...1C(r) peuvent comporter
des valeursnégatives,
mais comme ils ont des margespositives,
onpeut
sans difficulté en fairel’analyse
descorrespondances.
Deplus,
toutes les valeurs propres issues del’analyse
descorrespondances
deC(03B1)
sont inférieures ouégales
à 1(donc comprises
entre 0 et1).
Eneffet,
laplus grande
valeur propreÀa+l
issue del’analyse
deC(03B1)
estégale
au carré de la covarianceoptimisée
au pas a +
1, qui
est donc inférieure àAi
carré de la covarianceoptimisée
sans contraintes
(à part
la contrainte denorme)
aupremier
pas,Ai
étantinférieure ou
égale
à1,
commeplus grande
valeur propre issue del’analyse
des
correspondances
du tableauC(O) =
Cqui
necomporte
pas d’élémentsnégatifs.
2)
Pour les mêmes raisons que pour larégression
PLS(cf.
fin de la remarque4) du § 2.2)
et que pour larégression après
ACM(cf.
fin de la remarque3) du § 3.3)
les résultats fournis par larégression
PLSaprès
ACM sont biaisés.3)
Laméthodologie précédente s’applique
bien sûr sansproblème
si on a une seulevariable à
expliquer
soit si q = 1.4)
La méthode derégression
PLSdéveloppée
ci-dessus diffère de larégression
PLS
qualitative préconisée
par Tenenhaus et al.(1995) (cf. [6]) :
dans cettedernière
méthode,
on effectue larégression
PLSclassique
sur lescomposantes principales respectivement
issues del’analyse
descorrespondances
des tableauxdisjonctifs complets
S etT, puis
on se sert des formules de reconstitution pour reconstituer les yj(i.e.
lesT(e, k), k
EKy)
en fonctiondes xi (i.e.
desS(e,k), k~KX)).
Remerciements
L’auteur remercie vivement M. Tenenhaus pour avoir relu l’article et effectué des
suggestions
pour l’améliorer.Bibliographie
[1] CAZES
P.(1976). Régression
par boule et parl’analyse
descorrespondances, R.S.A.,
Vol. 24 n°4,
pp. 5-22.[2]
CAZES P.(1980). L’ analyse
de certains tableauxrectangulaires décomposés
enblocs :
généralisation
despropriétés
rencontrées dans l’étude des correspon- dancesmultiples.
I. Définitions etapplications
àl’analyse canonique
des va-riables
qualitatives,
Les Cahiers del’Analyse
desDonnées,
Vol. V n°2,
pp.145-161.
[3]
CAZES P.(1996).
Méthodes deRégression, Polycopié
de3ème cycle,
UniversitéParis
Dauphine.
[4]
CHESSELD.,
MERCIER P.(1993). Couplage
detriplets statistiques
et liaisonsespèces-environnement,
In : Biométrie etEnvironnement,
LEBRETONJ.D.,
ASSELAIN B.(Eds), Masson, Paris,
pp. 15-44.[5]
TENENHAUSM.,
GAUCHIJ.P.,
MENARDO C.(1995). Régression
PLS etapplications, RSA,
Vol.43,
n°1,
pp. 7-63.[6]
TENENHAUS M.(1995).
Apartial least
squaresapproach
tomultiple regression, redundancy analysis,
and canonicalanalysis,
Les Cahiers de Recherche deHEC,
CR 550/1995.[7]
TUCKER L.R.(1958).
Aninter-battery
method of factoranalysis, Psychometrica,
Vol. 23