R EVUE DE STATISTIQUE APPLIQUÉE
M. T ENENHAUS J.-P. G AUCHI
C. M ÉNARDO
Régression PLS et applications
Revue de statistique appliquée, tome 43, n
o1 (1995), p. 7-63
<http://www.numdam.org/item?id=RSA_1995__43_1_7_0>
© Société française de statistique, 1995, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
RÉGRESSION PLS ET APPLICATIONS
M. Tenenhaus
(1),
J.-P. Gauchi(2),
C. Ménardo(3)
(1 )Groupe
HEC,Jouy-en-Josas
(2)
Rhône-Poulenc, CRA, Aubervilliers(3)
Rhône-Poulenc, CRIT, DécinesCharpieu
RÉSUMÉ
La
régression
PLS permet de relier un ensemble de variablesdépendantes
Y -1 Y,, .... Yp }
à un ensemble de variablesindépendantes
X ={Xi,..., Xm 1 lorsque
le nombrede variables
indépendantes
et/oudépendantes
est élevé. Larégression
PLS consiste à effectuerune
analyse
en composantesprincipales
de l’ensemble de variables X sous la contrainte que les(pseudo-)
composantesprincipales
desXj
soient aussi«explicatives»
quepossible
del’ensemble de variables Y. Il est alors
possible
deprédire
lesYk
àpartir
desXj
enséparant
mieux le
signal
(cequi
estsynthétique,
structuré, commun auxdonnées)
du bruit (cequi
estplus spécifique
à l’échantillon de donnéesétudié).
Nousprésentons
dans cet article larégression
PLS d’un
point
de vue« analyse
des données »,puis
exposons deuxapplications
industrielles, l’une réalisée au Centre de Recherches d’Aubervilliers et l’autre au Centre d’Industrialisation de Décines de Rhône-Poulenc. Enfin nous montrons comment utiliser larégression
PLS usuellelorsque
les données sontqualitatives.
Mots-clés :
analyse
discriminante PLS,régression
PLS,régression
sur composantesprinci- pales, régression qualitative
PLS.SUMMARY
Partial
Least-Squares regression
makes itpossible
to relate a set ofdependent
variablesY =
{Yl,..., Yp }
to a set ofindependent
variables X ={Xi,..., XM },
when there is alarge
number of
independent
and/ordependent
variables. PartialLeast-Squares regression
consists incarrying
out aprincipal
componentanalysis
of the set of variables Xsubject
to the constraintthat the
(pseudo-) principal
components of theXj
are as"explanatory"
aspossible
of theset of variables Y. It is then
possible
topredict
theYk
from theXj by
betterseparating
thesignal (which
issynthetic,
structured, common to thedata)
from the noise(which
is morespecific
to thesample
understudy).
We present in this paper PLSregression
with a "dataanalysis" point-of-view,
and describe two industrialapplications,
one carried out at the Centrede Recherches d’Aubervilliers, and the other at the Centre d’Industrialisation de Décines, both at Rhône-Poulenc. At least we show how to use PLS
regression
when the data arecategorical.
Keywords :
PLS discriminantanalysis,
PLSqualitative
regression, PLSregression, regression
on
principal
components.Introduction
La
régression
PLS(Partial
LeastSquares Regression) permet
de relier un ensemble de variablesdépendantes
Y ={Vi,..., Yp}
à un ensemble de variablesindépendantes
X ={X1, ... , Xi 1 lorsque
le nombre de variablesindépendantes
et/ou
dépendantes
est élevé. Larégression
PLS consiste à effectuer uneanalyse
encomposantes principales
de l’ensemble de variables X sous la contrainte que les(pseudo-)composantes principales
desXj
soient aussi«explicatives»
quepossible
de l’ensemble de variables Y. Il est alors
possible
deprédire
lesYk
àpartir
desXj
en
séparant
mieux lesignal (ce qui
estsynthétique, structuré,
commun auxdonnées)
du bruit
(ce qui
estplus spécifique
à l’échantillon de donnéesétudié). Après
avoirdétaillé la
théorie,
nous illustrons l’utilisation de la méthode derégression
PLS à l’aidede deux
exemples
tirés de la littérature et traités à l’aide dulogiciel
SIMCA. Dansune deuxième
partie
nousprésentons
deuxapplications industrielles,
l’une réaliséeau Centre de Recherches d’Aubervilliers et l’autre au Centre d’Industrialisation de Décines de
Rhône-Poulenc,
et montrons comment utiliser larégression
PLS usuellelorsque
les données sontqualitatives.
Ce travails’appuie
sur les références suivantes : Geladi et Kowalski(1986), Glen,
Dunn III et Scott(1989),
Hôskuldsson(1988),
Kvalheim
(1988),
Martens et Naes(1989)
et Wold(1989).
On trouvera uneapplication
détaillée de la
régression
PLS en chimie de formulation dans Gauchi(1995).
1. La
régression
PLS1.1. Données et notations
Les notations de la
régression
PLS sont relativement bien standardisées dans la littérature. Les voici :N = Nombre d’individus
M = Nombre de variables
indépendantes Xi
P = Nombre de variables
dépendantes Yk
A = Nombre decomposantes
retenuesX = Matrice des données
(N
xM)
pour les variablesindépendantes
Y = Matrice des données
(N
xP)
pour les variablesdépendantes Eo
= Matrice des variablesXj
centrées-réduitesFo
= Matrice des variablesYk
centrées-réduitesEh
= Matrice des résidus de ladécomposition
deEo
en utilisant hcomposantes
Ehj = j-ième
colonne deEh
Fh
= Matrice des résidus de ladécomposition
deFo
en utilisant hcomposantes
Fhk
= k-ième colonne deFh.
1.2. La méthode
Il
s’agit
d’étudier les liaisons entre les variablesdépendantes Yk
et les variablesindépendantes Xj
enprenant
encompte
les relations internes entre les variables dechaque
groupe.L’algorithme
de larégression
PLS est itératif. Nous allons en décrire leprincipe, puis
étudierplus
en détail lespropriétés
de la solution.L’algorithme
de larégression
PLSEtape
0 Onpart
des tableauxEo
etFo.
Etape
1 On construit une combinaison linéaire ul des colonnes deFo
et unecombinaison linéaire
tl
des colonnes deEo
maximisant cov(03BC1, t1) =
cor
(u1, t1) · var (UI) .
var( t 1 ) .
On obtient donc deux variables ul ett 1
aussi corrélées quepossible
et résumant au mieux les tableauxFo
etEo.
Onconstruit ensuite les
régressions :
Etape
2 Onreprend l’étape
1 enremplaçant
les tableauxEo
etFo
parEl
etFl.
On obtient donc deux nouvellescomposantes :
U2, combinaison linéaire des colonnes deFl, t2,
combinaison linéaire des colonnes deEl.
D’où lesdécompositions
obtenues parrégression :
On itère la
procédure jusqu’à
ce que lescomposantes tl , ... , tA expliquent
suffisamment
Fo.
Lescomposantes th
sont des combinaisons linéaires des colonnes deEo,
et non corrélées entre elles. De ladécomposition Fo = tlri
+ ... +thrh + Fh
on
peut
donc déduire leséquations
derégression
PLS :1.3. Recherche
et propriétés
descomposantes
PLSNous allons décrire dans cette section la recherche des deux
premières
compo- santes PLS et donner ensuite des résultatsgénéraux.
1.3.1. Recherche de
tel
et u 1On recherche une
composante tl
=EOWI
et unecomposante
ul =Focl,
avecIlwI11 = 11 cl 11
=1,
telles que la covariance entretl
et u 1 soit maximum. Onadopte
ici la norme usuelle. Comme cov
(tl, ul)
=var (ti)
var(ui)
cor(tl, ul )
on essaieainsi de maximiser simultanément la variance
expliquée
partl,
la varianceexpliquée
par ul et la corrélation entre ces deux
composantes.
On cherche donc des vecteurs normés uy et ci maximisantt1, u1 >= ~t1~ · IluI11 .
cor(t1, u1).
Utilisons la méthode desmultiplicateurs
deLagrange.
On poseOn annule les dérivées
partielles :
Des
égalités (1)
à(4)
on déduit :D’où les relations :
Ainsi wl est vecteur propre de
EôFoFôEo
associé à laplus grande
valeur propre9i,
et ci est vecteur propre deFôEoEôFo
associé à laplus grande
valeur propre03B821.
On effectue ensuite deux
régressions :
deEo
surtl, puis
deFo
surtl :
où
est le vecteur des coefficients de
régression
desEoj
surtl.
où
est le vecteur des coefficients de
régression
desFok
surtl.
On a les
propriétés
suivantes :(a) p’1w1 = 1
(b)
n =blcl
oùbl
est le coefficient derégression
de ul surtl.
Les vecteurs rI et ci sont donc colinéaires.
Montrons
(a) :
Montrons
(b) :
où
bl
=OI/lltll12
=u’1t1/~t1~2 est
bien le coefficient derégression
de ïzi surtl.
La recherche de
tl
et ul est visualisée dans lafigure 1,
et lesrégressions
deEo
et
Fo
surtl
dans lafigure
2.FIGURE 1
Visualisation de la recherche des composantes
tl
et ulFIGURE 2
Régressions
deEo
etFo
surtl
1.3.2. Recherche det2
et U2On
remplace
dans la sectionprécédente Eo
etFo
par les matrices résiduellesEl
etFi.
D’où :où
b2
=u’2t2/~ t2112
est le coefficient derégression
de U2 surt2.
Et ainsi de suite pour les autres
étapes.
1.3.3. Résultats
généraux
Nous allons
présenter
dans cette section lespropriétés
descomposantes
PLS.Ces résultats sont nécessaires à une
compréhension approfondie
de la méthode.On obtient les résultats suivants :
A
l’étape h
leséquations (5)
à(8)
deviennentLes
équations ( 13)
et( 16)
ou( 14)
et( 15) permettent
d’obtenir Wh et Ch et lescomposantes
PLS Uh =Fh_ 1 ch
etth
=Eh_ 1 wh,
avecOh
=uhth .
Les
équations (9)
à( 12)
deviennentoù
où
avec bh
coefficient derégression
de uh surth.
On a aussi : et
propriété
de larégression.
Relations
cycliques
Partant de Wh on obtient la suite de relations suivantes :
La relation
(24) provient
de(14)
et(25)
de(13).
On
peut
schématiserRelations
d’orthogonalité
Il y a de nombreuses relations
d’orthogonalité
au niveau del’analyse
desvariables
Xj.
Ceci n’estplus
vrai au niveau del’analyse
desYk.
On a les relations
d’ orthogonalité
suivantes :Preuve :
1)
Démonstration det’htl
=0,
l > h La preuve se fait par récurrence.-
t i t2 = t’1 E1 w2
=0, puisque zen
= 0.-
Supposons tl, ... , th orthogonaux,
alors :tl, ... , th+l
sontorthogonaux.
Montrons que
th+1
estorthogonal
aux vecteurstl, ... , th :
puisque
et ainsi de
suite,
d’où le résultat.2)
Démonstration de On a :puisque W’ h Ph
= 1.Montrons maintenant que
w’hE’l = 0, 1 > h, implique wh El+ 1
= 0. On a :d’où le résultat.
3)
Démonstration de On a :4)
Démonstration de ’ On a :puisque 1j
5)
Démonstration deL’égalité
est vraie pourSi l > h on a:
Formules de
décomposition
Les matrices
Eo
etFo peuvent
sedécomposer
parrégression
sur les compo- santestl, ... , tA,
où 4 est le rang deEo :
Les
vecteurs th
étantorthogonaux
entre eux on retrouve bien les mêmes coefficients derégression
dans leséquations (26)
et(27)
que dans la méthode itérative décriteplus
haut.La matrice des résidus
Eh
àl’étape h peut s’exprimer
en fonction deEo :
Montrons ce résultat.
Supposons
ladécomposition (28)
vraiepour h = j.
Montronsqu’elle
est vraiepour h = j + 1 :
d’où le résultat.
Ces
décompositions
entraînent trois résultatsimportants
au niveau del’interpré-
tation.
Notons Il Eo 112
la somme des carrés des différents éléments de la matriceEo.
On a alors :
Cette formule permet de mesurer le
pouvoir
dechaque th (ou
des hpremiers)
pour résumer
Eo.
On utiliseMontrons
(29) :
Les
tl , ... , tA
étantorthogonaux
on obtient pourchaque
colonneEoj,
enutilisant
(26) :
et par
conséquent
On aura de même la
décomposition :
On mesure le
pouvoir
dechaque th (ou
des hpremiers)
pourexpliquer Fo à
l’aide de
Enfin il est
important
de remarquer que lacomposante th
est combinaison linéaire des colonnes deEo :
1Le vecteur
wh = 03A0(I - wlp’l)wh
des coefficients des variablesE0j
n’estl=1
cependant
pas normé à 1.Les
composantes
PLSt1, ... , th
sont donc des combinaisons linéaires des colonnes deEo,
non corrélées entreelles,
résumant au mieuxEo
tout enexpliquant
autant que
possible Fo.
Cescomposantes
PLS sont doncanalogues
à descomposantes principales
desXl, ... , XM expliquant
au mieux les variablesY1 , ... , Yp.
Les
composantes
PLS u1,..., Uh n’ont pas cettepropriété.
Lacomposante
ul est bien combinaison linéaire des colonnes de
Fo,
mais ce n’estplus
le cas desautres
composantes.
Lescomposantes
U2, ..., Uh sont des variables intermédiairesplus
difficiles àinterpréter.
Les
graphiques
Le
plan (t1, t2) permet
de visualiser les individus dans unplan
résumant aumieux les
Xj,
tout en étant orienté versl’explication
desYk.
Le
plan (t1,u1) permet
de visualiser la liaison entre lesYk
et lesXj
détectéepar ces
premières composantes
PLS.Pour
interpréter
lescomposantes PLS th
en fonction desXj
et desYk
il estnaturel de calculer les corrélations entre
Xj
etth, puis
entreYk
etth.
On obtient :Bien que la division par N - 1
plutôt
que N nes’impose
pas, nous l’avons utilisée pour être cohérent avec les sorties dulogiciel
SIMCA.Notant
Ah
la variancede th on
obtient :Et de même
Pour
interpréter ti
ett2,
on construit donc le cercle des corrélations envisualisant dans un
plan
lespoints
et
représentant
les corrélations deXj
etYk
avectl
ett2.
Les
produits
scalairesAj, Aj’
>,Bk, Bk’
> etAj, Bk
>représentent
des
approximations
à l’ordre 2 des cor(Xj, Xj’),
cor(Yk, Yk,)
et cor(Xj, Yk)
respectivement.
En effet :
On démontre de même les autres
approximations.
La norme de
Aj représente
la corrélationmultiple
entreXj
et(tl, t2)
et cellede
Bk
la corrélationmultiple
entreYk
et(tl, t2).
On a en effetpuisque
les variablesti
ett2
sont non corrélées. D’où le résultat. Et de même pourYk.
Ainsi le cercle des corrélations
indique
les variables bien corrélées aux deuxpremières composantes
PLS. Pour les variables bienexpliquées
parti
ett2,
le cercle des corrélations traduit aussi bien les corrélations internes àchaque
groupe de variables que les corrélationsinter-groupes.
1.4. Les
équations
derégression
PLSDe la
décomposition
deFo
surtel, .. th
on déduit larégression
PLS dechaque
variable
Yk
surXl,,..., XM.
Onpart
dePosons
On trouve dans les programmes de
régression
PLS troistypes
de résultats :(1)
Les variablesYk
et lesXj
sont centrées-réduites.D’où :
(2)
On utilise les variables réduites D’où :Les coefficients de
régression (3j
sontcomparables
et doncinterprétables
auniveau de
l’explication
deYk
par lesXj.
(3)
On utilise les variablesd’origine.
D’où :
1.5. Le cas
particulier
d’une seule variabledépendante
La
régression
PLS estparticulièrement
utilelorsqu’on
cherche àexpliquer
une variable Y à l’aide de
plusieurs
variablesXj
très corrélées entreelles,
ou même linéairementdépendantes,
etqu’on
ne souhaite pas abandonner des variablesexplicatives.
Les formules des sectionsprécédentes
sesimplifient.
Nous allons doncreprendre
lesétapes
de la méthode derégression
PLS pour ce casparticulier.
Etape
1La matrice
Fo
se réduit à une colonneF -
y* =Y - y.
Parconséquent
Sy
cl = 1 et ul =
Fo.
On recherche unecomposante
tiEowl, avec ~w1~
-1,
telle que la covariance entre
t,
et u 1 soit maximum. Comme cov(t 1, u 1 )
=Var (t1)
x cor(ti, ul )
on essaie de maximiser simultanément la varianceexpliquée
par
tl
et la corrélation entre Y ettl.
On réalise ainsi uncompromis
entre larégression multiple
de Y surXi,..., XM
etl’analyse
encomposantes principales
des
Xi,..., XM. L’équation (5) permet
d’obtenir directement w1puisque
ci = 1 etque Ilwill
= 1 :on déduit :
et
Par
conséquent
On obtient une
composante t 1 qui
s’écritdont
l’interprétation
est tout-à-fait naturelle. On effectue ensuite lesrégressions
deEoj
surtl, puis
deFo
surtl :
où plj =
E’0jt1/~t1~2
est le coefficient derégression
deEoj
sur ti et ri =F0’t1/~t1~2
le coefficient derégression
deFo
sur tl. On pose :D’où les
décompositions :
Etape 2
On
remplace
dans lapremière étape Eo
etFo
par la matrice résiduelleEl
et levecteur résiduel
Fi.
On obtient C2= 1,
U2 =t
et W2 =E’1F1 E’1F1~.
et
combinaison linéaire des colonnes de
Eo.
On pose :
coefficient de
régression
deFI
surt2.
D’où les
décompositions :
et ainsi de suite pour les autres
étapes.
Résultats
généraux
On obtient les
décompositions
suivantes à l’ordre h :Chaque composante th
étant combinaison linéaire desX*j = Eoj,
onpeut
écrire
l’équation
derégression
PLS1.6.
Exemple
1On trouve dans Kettaneh-Wold
[1992] l’exemple
suivant tiré de Cornell[1990] :
L’indice d’octane moteur de douze différents
mélanges
a étéenregistré
afin dedéterminer l’influence des
sept composants
suivants : Distillation directeReformat
Naphta
de craquagethermique Naphta
de craquagecatalytique Polymère
Alkylat
Essence naturelle
Les douze
mélanges (Tableau 1)
ont été choisis selon unplan d’expériences D-optimal,
en sélectionnant unepartie
des sommets.TABLEAU 1 Données de Cornell
On calcule la matrice des corrélations :
TAB LEAU 2 Matrice des corrélations
Les corrélations les
plus importantes
sont en gras.La
régression
PLS va nouspermettre
de relier la variable y à l’ensemble des variablesexplicatives
x1, ... , X7.1.6.1. Etude de la
première
dimensionDe la formule
on déduit :
et
où
Eoj
est la variableXj
centrée-réduite.La
composante tl
calculée sur les douzeexpériences
del’exemple
de Comellest donnée dans le tableau 3.
Dans le
logiciel
SIMCA le calcul de u 1 =Fo cl n’impose
pas au vecteur ci d’être unitaire. La contrainte consiste àimposer
au coefficient derégression
de ul surt,
d’êtreégal
à 1 :D’où on déduit que :
On obtient donc :
On trouve ul dans le tableau 3.
TABLEAU 3
Les composantes de la
régression
PLSOn effectue ensuite les
régressions
des variablesEoj
etFo
sur tl :On réalise donc huit
régressions simples.
On obtient :
et les huit colonnes de résidus
El l ,
... ,E17, F1.
Pour évaluer la
qualité
de lapremière composante tl
on calcule :2022 Part de variance de Y
expliquée
partl
2022 Part de variance de X
expliquée
partl
La
décomposition Eo
=t1p’1
+El donne ~E0~2
=~t1~2 X ~p1~2 + ~E1~2,
soit en divisant par N -
1,
les variablesEoj
étantcentrées-réduites,
La
part
de variance de Xexpliquée
part,
vaut donc :1.6.2. Etude de la deuxième dimension
On
part
des résidusEl
etFI
de ladécomposition
à unecomposante :
On obtient :
et
De la formule
on déduit :
et :
On trouve la
composante t2
dans le tableau 3.On
décompose (régresse) El
etFI
surt2 :
On obtient
On calcule U2 =
Fl /r2
de manière à avoir unerégression
de U2 surt2 ayant
un coefficient de
régression égal
à 1. Lacomposante
U2 est donnée dans le tableau 3.Qualité
de ladécomposition
surtl, t2
. Part de variance de Y
expliquée
part2
e Part de variance de Y
expliquée
partl, t2
. Part de variance de X
expliquée
part2
e Part de variance de X
expliquée
partl, t2
1.6.3. Etude de la troisième dimension
On obtient comme
précédemment
lescomposantes
t3 et u3 données dans le tableau 3.Le vecteur W3 vaut :
Qualité
de ladécomposition
surti, t2, t3
2022 Part de variance de Y
expliquée
part3
a Part de variance de Y
expliquée
partl,
t2,t3
e Part de variance de X
expliquée
part3
. Part de variance de X
expliquée
partl, t2, t3
Bien que
l’apport
de la troisièmecomposante
soit minime dansl’explication
deY,
nous l’avons conservée pour retrouver les résultats de l’article de Kettaneh-Wold.1.6.4.
L’équation
derégression
PLSOn étudie la
décomposition
deFo
surtl, t2, t3 :
En revenant aux variables de
départ,
il vientOn
peut
aussi écrire le modèle sur les variables réduites afin de mieux mettre en évidence l’influencemarginale
dechaque
variable :où
y’
=y/sy
etxj
=xj/sxj représentent
les variables y et xi réduites.L’examen de la matrice des corrélations montre la cohérence de
l’équation
derégression
sur les variables réduites.(1) signes
cohérents des coefficients derégression (2)
rôlenégligeable
de X5 sur y(3)
forte influence de la variable X6 sur y.1.6.5. Les
graphiques
Nous commentons dans cette section différents
graphiques
fournis par lelogiciel
SIMCA et le cercle des corrélations non fourni par SIMCA.
Le
graphique (tl, ul) représenté
dans lafigure
3 illustre la forte corrélation entre Y ettl.
Il est
possible
deprédire
les trois classes de valeurs de y à l’aide des xiLe deuxième
graphique (figure 4)
isole lesobjets
4 et 6qui
sont effectivementen bas de la
première
classe au niveau du y : Y4 = 92 et Y6 = 91.2.Le
graphique
de lafigure
5 est moins intéressant :toutefois,
5apparaît séparé
de 12.
Le
graphique (tel, t2)
de lafigure
6 estl’équivalent
d’unpremier plan principal
orienté vers
l’explication
de y. On retrouve clairement les différentes classesd’objets
identifiées ci dessus.
Enfin le cercle des corrélations de la
figure
7 est construit àpartir
du tableau 4.FIGURE 3
Graphique (tl, ul)
FIGURE 4
Graphique (t2, Ul)
FIGURE 5
Graphique (t3, Ul)
FIGURE 6
Graphique (t1, t2)
TABLEAU 4
De
Ai
= Var(tl)
= 3.98 etÀ2
= Var(t2)
= 0.71 on déduit que lapremière
colonne du tableau 4 vaut
B/3.98 [p1 r1] et la deuxième colonne
0.71 [p2 r2].
FIGURE 7 Le cercle des corrélations
Ce
graphique
traduit à la fois les liaisons internes aux variables xj et entre lesxj et y :
- corrélations
positives
entre Xl, X3, X4, X7- corrélation
positive
entre X5 et X6- y est corrélée
positivement
à X5 et X6 etnégativement
aux variables xi, x3,X4, X7.
1.7.
Exemple
21.7.1. Les données
On trouve dans Jackson
[1991]
unexemple
derégression
PLS sur les données suivantes :Les données ont été collectées par le Dr. A.C. Linnerud de l’Université de Caroline du Nord. Il a mesuré sur
vingt
hommesd’âge
moyen s’entraînant dans un club degymnastique
troiscaractéristiques physiques
et leurs résultats à troistypes
d’exercice. Les variablesphysiques
sont les variablesexplicatives,
et les résultats aux exercices les variables àexpliquer.
Les données
figurent
dans le tableau 5.TABLEAU 5 Données de Linnerud
Il
s’agit
de relier les variables y, =Tractions,
Y2 =Flexions,
Y3 = Sauts auxvariables
explicatives
x, =Poids,
X2 = Tour detaille,
X3 = Pouls.L’analyse
de lamatrice des corrélations
(tableau 6)
montre lespoints
suivants :- corrélation
positive
entre Poids et Tour detaille,
- corrélations
négatives
entre(Poids,
Tour detaille)
etPouls,
- corrélations
positives
entreTractions,
Flexions etSauts,
- les variables
Tractions,
Flexions et Sauts sont corréléesnégativement
à Poidset Tour de
taille,
etpositivement
à Pouls.TABLEAU 6
Données de
Linnerud,
matrice de corrélationsUne
régression
« cohérente » devrait donc être de laforme Yk = (30
+(31
Poids +/?2
Tour de taille +/3s
Pouls + c avec03B21, /?2
0 et03B23
> 0.Les estimations
gj
du tableau 7 des résultats desrégressions
des variables centrées-réduitesTractions*,
Flexions* et Sauts* sur les variables centrées réduitesPoids*,
Tour detaille*,
Pouls* montrent des résultats incohérents.TABLEAU 7
Données de
Linnerud,
résultats desrégressions
La
régression
PLS vapermettre
d’améliorer ces résultats.1.7.2. Résultats de la
régression
PLS1.7.2.1. Calcul des composantes
th,
UhLe
logiciel
SIMCApermet
d’obtenir les vecteurs propres Wh, Ch et lescomposantes
PLSth,
Uh. Ces résultats sont donnés dans le tableau 8.TABLEAU 8
Données de
Linnerud,
résultats de larégression
PLSDans SIMCA
chaque composante
PLS Uh est normalisée de manière à ce que le coefficient derégression
de Uh surth
soitégal
à 1. On trouve donc dans le tableau 8 lescomposantes PLS Uh
définies paroù bh
=t’hFh-1ch t’ht’h
est le coefficient derégression
deFh-1ch
surth.
Les résultats des
régressions
sont donnés dans le tableau 9.
TABLEAU 9
Données de
Linnerud, coefficients
desrégressions
deEo
etFo
surtl, t2, t3
on déduit et
Les
composantes
PLS Uhpouvant s’exprimer
directement en fonction des rh, lelogiciel
SIMCA ne fournit pas les vecteurs propres Ch.1.7.2.2. Valeurs
explicatives
des composantes PLS Les formules(29)
et(30)
s’écrivent :et
Ona:
d’où le tableau 10 donnant les variances
expliquées
par lescomposantes th.
TABLEAU 10 Pouvoir
explicatif
desth
Ainsi les données étudiées sont essentiellement
unidimensionnelles,
au niveau de la relation entre Y et X.1.7.2.3.
Interprétation
des composantes PLSLes
composantes PLS th peuvent
s’écrire en fonction desXj
centrées-réduites :On donne dans le tableau 11 les corrélations de
chaque Xj
avec lesth.
TABLEAU 11
Corrélations entre les variables et les composantes PLS
On déduit donc que la
composante tl
oppose la variable Pouls aux variables Poids et Tour de taille. Elle classe les individus desgrands/gros
auxpetits/maigres.
La deuxième
composante t2
est essentiellement corrélée à la variable Pouls.La dernière
composante t3 n’apporte plus
d’information.La
composante
PLS ul =F0r1/~r1~2
s’écrit :La
composante
ul est un indice deperformance
donnantplus
depoids
auxvariables Tractions et Flexions
qu’à
la variable Sauts. On a cor(ul, tl)
= 0.55.La
composante
U2 s’écrit :où
Flk
est le vecteur des résidus de larégression
deFOk
surtl.
Cettecomposante
U2 nepeut s’exprimer
en fonction des variables Yk, mais onpeut
utiliser les corrélations entre lesYk
et U2 du tableau 11 pourl’interpréter.
Lacomposante
U2 est redondanteavec ul. On a cor
(Ul, U2) =
0.83. Il en va de même pour lacomposante
u3 :cor
(Ul, U3)
= 0.72 et cor(U2, U3)
= 0.90.1.7.2.4. Les
graphiques
Le
plan (tel, t2)
de lafigure
8 estanalogue
à unpremier principal
dansl’espace
des
Xj,
mais orienté versl’explication
desYk.
Cette carte des individus montre clairement laposition particulière
de l’individu 14. Il est très gros(Poids
=247,
Tour de taille =46)
et obtient lesplus
faibles résultats du groupe en Traction(= 1)
et Flexion(= 50).
FIGURE 8
Plan des composantes
(tl, t2)
Le cercle des corrélations de la
figure
9 traduit bien les corrélations internes àchaque
groupe de variablesX,
Y comme les corrélations entre les groupes X et Y.Le
graphique
de lafigure
10 met en évidence les rôlesparticuliers joués
par les individus10,
14 et 20 :- les individus 10 et 20 ont à peu
près
les mêmescaractéristiques physiques
et des résultats aux exercices
opposés :
l’individu 10 obtient les meilleurs scores aux exercicesTractions,
Flexions et Sauts sur l’ensemble des 20individus,
alors que l’individu 20 estparmi
lesplus faibles,
- l’individu 14 a
déjà
été mis en évidence dans lafigure
8.Il faudrait refaire
l’analyse
en mettant enpoints supplémentaires
ces troisindividus.
On
peut également
montrer lesgraphiques
desrégressions
deFlexions,
Trac-tions et Sauts
sur tl.
Ces 3
graphiques
confirment les rôlesparticuliers
des individus 14 et 20 pour laprédiction
des variables Tractions et Flexions. L’individu 10 a un score en Sauts(=250) exceptionnel.
FIGURE 9 Le cercle des corrélations
FIGURE 10
Graphique (u1, tl)
FIGURE 11
Régression
de Tractions surtl
FIGURE 12
Régression
de Flexions surt1
FIGURE 13
Régression
de Sauts surt1
1.7.2.5. Leséquations
derégression
PLSSeule la
composante tl explique
unepart
de variance deYk significative.
Nousavons donc réalisé les
régressions simples
deTractions,
Flexions et Sauts sur lacomposante tl.
La
composante tl
s’écrivant :on
peut
revenir aux donnéesd’origine :
et en données centrées réduites :
La
comparaison
avec les résultats desrégressions multiples
ordinaires(Tableau 7)
est instructive : on a rendu leséquations
derégressions
cohérentes enacceptant
une
légère
diminution despouvoirs explicatifs
dechaque régression.
1.8. Conclusion
La
régression
PLSpermet
derapprocher
le statisticien du chercheur dans lesproblèmes
de modélisation. Engénéral
ce dernier souhaite en effet conserver dans sonmodèle toutes les variables
importantes
tout en obtenant deséquations
derégression
cohérentes.
Lorsque,
enrégression multiple
il y a multicolinéarité et/ou un nombreimportant
de variablesexplicatives
parrapport
au nombred’observations,
la solution laplus
courante consiste à exclure des variablesexplicatives
par des méthodes de pas-à-pas.
Larégression
PLSpermet
dans ces situations de conserver toutes les variablesexplicatives
tout en obtenant uneéquation
derégression
cohérente.Lorsqu’il s’agit
de relier un ensemble deYk
à un ensemble deXj,
onpeut
essayer
l’analyse canonique.
L’intérêtpratique
de cette méthode est souvent faiblecar elle ne fait le
plus
souventqu’isoler
descouples (Xj, Yk)
à forte corrélation.Ainsi les variables
canoniques expliquent
unepart qui peut
être faible des variances des groupes de variables X et Y.La
régression
PLSapparaît
comme uncompromis
entrel’analyse canonique
des groupes de variables X et Y et des
analyses
encomposantes principales
de chacunde ces groupes de variables.
2.
Applications
Nous allons
présenter
dans cette deuxièmepartie
deuxapplications
réaliséeschez
Rhône-Poulenc,
lapremière
au Centre de Recherches d’Aubervilliers et la seconde au Centre d’Industrialisation de Décines.Les données relatives à ces
applications
ont laparticularité
de contenir des variablesqualitatives.
Laprise
encompte
de variablesqualitatives
enrégression
PLS ne pose pas de
problèmes particuliers. Après
avoir étudié en détail les deuxapplications
nous proposerons en conclusion uneméthodologie générale
de larégression
PLSqualitative.
2.1.
Un problème de formulaction
d’une huilesilicone fonctionnalisée
2.1.1.
Description du problème
Il
s’agit d’optimiser
les niveaux decinq
facteursexpérimentaux gouvernant
la stabilité d’une micro-émulsion d’une huile silicone fonctionnalisée. Les facteursXi
à
X4 représentent
desquantités
de constituants actifs etprennent
lesniveaux -1, 0,1
et le facteur
X5
est une condition de fabrication codée -1 ou 1. On aégalement
introduit toutes les interactions
Xh
xXk
et les carrésX21,..., X24.
Ainsi l’ensemble X des variablesexplicatives
est constitué de 19 variables :Un
plan d’expérience D-optimal (Fedorov, 1972)
apermis
d’obtenir 58expériences
décrites dans le tableau 12.
Pour
chaque expérience l’aspect
de la formulation a été noté ensept
instants différents. Le résultatYk
de l’observation à l’instant k se traduit par l’attribution d’une note(1,
2 ou3) correspondant
à unedescription
totalementqualitative
del’aspect
dela formulation :
- 1 =
système polyphasique (SP),
la formulation s’estdégradée,
- 2 =
système
fluidetransparent (SFT),
la formulation eststable,
ne sedégrade
pas,- 3 =
système
dit "toutsystème visqueux" (TSV),
la formulation n’est pascomplète-
ment
dégradée
mais n’est pas conforme.Après
entretien avec lechercheur,
il est clair que cette variableréponse
n’estpas ordinale. Cette variable sera donc considérée par la suite comme nominale à 3 modalités. Le tableau des résultats
figure ci-après (tableau 13).
Il
s’agit
donc de relier lesréponses qualitatives
auxsept
instants Y ={Y1,..., Y7}
aux conditions de fabrication décrites par X ={X1,
... ,X5, X2
... ,X24, X1 X2,...,X4 X5}.
2.1.2 La
méthodologie statistique
On cherche à établir une
équation
derégression expliquant
la stabilité de l’émulsion en fonction des facteursexpérimentaux.
Pour ce faire nous avonsadopté
la
méthodologie
suivante :a)
On réalise uneanalyse
descorrespondances multiples
du tableau Y desréponses
aux 7 instants. On ne retient que les
composantes principales
utiles à l’in-terprétation
des résultats.b)
On réalise desanalyses
de la variance univariées dechaque composante principale
retenue en
a)
sur les conditions de fabrication décrites par X. On ne retient que les variables lesplus explicatives.
c)
On calcule larégression
PLS descomposantes principales
retenues ena)
sur lesfacteurs
explicatifs
retenus enb).
TABLEAU 12 Le
plan d’expériences
TABLEAU 13 Observations à 7
époques
d)
On détermine enfin les niveaux des facteursexplicatifs
favorisant lesproduits qualifiés
SFT.2.1.2.1.
L’analyse
descorrespondances multiples
Les
principaux
résultats de l’ACM sont :- Le tableau des valeurs propres
(tableau 14)
montrequ’il
y aquatre
valeurs propressupérieures
à1/7
= 0.14. La structure recherchée étant mise en évidence dans lepremier plan principal
nous n’avons conservé dans cette étude que les deuxpremières composantes principales.
TABLEAU 14
Décomposition
de l’inertie- Nous donnons dans le tableau 15 les coordonnées des
points-modalités
etla carte des modalités dans la
figure
14. Cette carte estparticulièrement
informativepuisque
les formulations y sont nettementséparées
selon leuraspect.
TAB LEAU 15
Coordonnées des
points-modalités
FIGURE 14 Carte des modalités
A propos du tableau 15 nous
précisons
que les troispremiers points
correspon- dent aux modalitésSP, SFT,
TSV àl’époque 1,
les trois suivantscorrespondant
à cesmêmes modalités à
l’époque
2 ... et les trois derniers à ces modalités àl’époque
7.- Les résultats concernant les
points-individus (les expériences)
sont donnésdans le tableau 16 et visualisés dans la
figure
15.Remarque :
lepoint
18 cache lespoints n°3, 4, 6, 9, 10, 11, 12, 13, 17, 18, 20, 24, 26, 27, 28, 29, 33, 35, 38, 39, 40, 41, 47, 48, 49, 53, 55, 56, 57, 58;
tous cespoints correspondent
à uneexpérience
àréponses
SP auxsept époques.
La carte des
expériences
de lafigure
15 montre la difficulté duproblème
àrésoudre. Le bon
quadrant (produits SFT) comporte
peud’expériences,
et la seuleexpérience
entièrement satisfaisante(expérience n°42) apparaît
comme isolée. Elle est associée à des valeurs des deuxpremières composantes principales
minimales.La
première composante principale CPI sépare
la formulationdégradée (SP)
des autres cas. La deuxième
composante principale CP2 sépare
ensuite la situation intermédiaire(TSV)
de la formulation recherchée(SFT).
On recherche donc des conditions de fabrication rendant aussi
négatives
quepossible
les deuxpremières composantes principales.
TABLEAU 16
Coordonnées des
points-individus (expériences)
2.1.2.2.
Analyse
de la variance des composantesprincipales
sur lesconditions de
fabrication
Les
analyses
de la variance univariées descomposantes principales CPI, CP2
sur les conditions de fabrication ont
permis
de détecter des termesparticulièrement explicatifs :
-X3, X23, Xl
XX2, Xl
XX3, X2
XX3, X3
XX4, X3
XX5 pour CP,
- X3, X2
XX3 pour CP2.
Les résultats de ces