HAL Id: hal-01604598
https://hal.archives-ouvertes.fr/hal-01604598
Submitted on 1 Jun 2020
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Distributed under a Creative Commons Attribution - ShareAlike| 4.0 International
License
Régression PLS et applications.
M. Tenenhaus, Jean-Pierre Gauchi, C. Ménardo
To cite this version:
R
EVUE DE STATISTIQUE APPLIQUÉE
M. T
ENENHAUS
J.-P. G
AUCHI
C. M
ÉNARDO
Régression PLS et applications
Revue de statistique appliquée, tome 43, n
o1 (1995), p. 7-63
<http://www.numdam.org/item?id=RSA_1995__43_1_7_0>© Société française de statistique, 1995, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi-tions générales d’utilisation (http://www.numdam.org/legal.php). Toute utili-sation commerciale ou impression systématique est constitutive d’une in-fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
RÉGRESSION
PLS ET
APPLICATIONS
M. Tenenhaus
(1),
J.-P. Gauchi(2),
C. Ménardo(3)
(1 )
Groupe
HEC,Jouy-en-Josas
(2)
Rhône-Poulenc, CRA, Aubervilliers(3)
Rhône-Poulenc, CRIT, DécinesCharpieu
RÉSUMÉ
La
régression
PLS permet de relier un ensemble de variablesdépendantes
Y-1 Y,, .... Yp }
à un ensemble de variablesindépendantes
X ={Xi,..., Xm 1 lorsque
le nombre de variablesindépendantes
et/oudépendantes
est élevé. Larégression
PLS consiste à effectuerune
analyse
en composantesprincipales
de l’ensemble de variables X sous la contrainte que les(pseudo-)
composantesprincipales
desXj
soient aussi«explicatives»
quepossible
de l’ensemble de variables Y. Il est alorspossible
deprédire
lesYk
àpartir
desXj
enséparant
mieux le
signal
(cequi
estsynthétique,
structuré, commun auxdonnées)
du bruit (cequi
estplus
spécifique
à l’échantillon de donnéesétudié).
Nousprésentons
dans cet article larégression
PLS d’un
point
de vue« analyse
des données »,puis
exposons deuxapplications
industrielles,l’une réalisée au Centre de Recherches d’Aubervilliers et l’autre au Centre d’Industrialisation de Décines de Rhône-Poulenc. Enfin nous montrons comment utiliser la
régression
PLS usuellelorsque
les données sontqualitatives.
Mots-clés :
analyse
discriminante PLS,régression
PLS,régression
sur composantesprinci-pales, régression qualitative
PLS.SUMMARY
Partial
Least-Squares regression
makes itpossible
to relate a set ofdependent
variablesY =
{Yl,..., Yp }
to a set ofindependent
variables X ={Xi,..., XM
},
when there is alarge
number of
independent
and/ordependent
variables. PartialLeast-Squares regression
consists incarrying
out aprincipal
componentanalysis
of the set of variables Xsubject
to the constraint that the(pseudo-) principal
components of theXj
are as"explanatory"
aspossible
of theset of variables Y. It is then
possible
topredict
theYk
from theXj
by
betterseparating
thesignal (which
issynthetic,
structured, common to thedata)
from the noise(which
is morespecific
to thesample
understudy).
We present in this paper PLSregression
with a "dataanalysis" point-of-view,
and describe two industrialapplications,
one carried out at the Centre de Recherches d’Aubervilliers, and the other at the Centre d’Industrialisation de Décines, bothat Rhône-Poulenc. At least we show how to use PLS
regression
when the data arecategorical.
Keywords :
PLS discriminantanalysis,
PLSqualitative
regression, PLSregression, regression
Introduction
La
régression
PLS(Partial
LeastSquares Regression)
permet
de relier unensemble de variables
dépendantes
Y ={Vi,..., Yp}
à un ensemble de variablesindépendantes
X ={X1, ... , Xi 1
lorsque
le nombre de variablesindépendantes
et/ou
dépendantes
est élevé. Larégression
PLS consiste à effectuer uneanalyse
encomposantes
principales
de l’ensemble de variables X sous la contrainte que les(pseudo-)composantes
principales
desXj
soient aussi«explicatives»
quepossible
de l’ensemble de variables Y. Il est alorspossible
deprédire
lesYk
àpartir
desXj
en
séparant
mieux lesignal
(ce
qui
estsynthétique,
structuré,
commun auxdonnées)
du bruit
(ce qui
estplus spécifique
à l’échantillon de donnéesétudié). Après
avoir détaillé lathéorie,
nous illustrons l’utilisation de la méthode derégression
PLS à l’aidede deux
exemples
tirés de la littérature et traités à l’aide dulogiciel
SIMCA. Dansune deuxième
partie
nousprésentons
deuxapplications
industrielles,
l’une réalisée au Centre de Recherches d’Aubervilliers et l’autre au Centre d’Industrialisation de Décines deRhône-Poulenc,
et montrons comment utiliser larégression
PLS usuellelorsque
les données sontqualitatives.
Ce travails’appuie
sur les références suivantes : Geladi et Kowalski(1986),
Glen,
Dunn III et Scott(1989),
Hôskuldsson(1988),
Kvalheim
(1988),
Martens et Naes(1989)
et Wold(1989).
On trouvera uneapplication
détaillée de la
régression
PLS en chimie de formulation dans Gauchi(1995).
1. La
régression
PLS1.1. Données et notations
Les notations de la
régression
PLS sont relativement bien standardisées dans la littérature. Les voici :N = Nombre d’individus
M = Nombre de variables
indépendantes
Xi
P = Nombre de variables
dépendantes
Yk
A = Nombre de
composantes
retenuesX = Matrice des données
(N
xM)
pour les variablesindépendantes
Y = Matrice des données
(N
xP)
pour les variablesdépendantes
Eo
= Matrice des variablesXj
centrées-réduitesFo
= Matrice des variablesYk
centrées-réduitesEh
= Matrice des résidus de ladécomposition
deEo
en utilisant hcomposantes
Ehj
= j-ième
colonne deEh
Fh
= Matrice des résidus de ladécomposition
deFo
en utilisant hcomposantes
1.2. La méthode
Il
s’agit
d’étudier les liaisons entre les variablesdépendantes
Yk
et les variablesindépendantes
Xj
enprenant
encompte
les relations internes entre les variables dechaque
groupe.L’algorithme
de larégression
PLS est itératif. Nous allons en décrire leprincipe,
puis
étudierplus
en détail lespropriétés
de la solution.L’algorithme
de larégression
PLSEtape
0 Onpart
des tableauxEo
etFo.
Etape
1 On construit une combinaison linéaire ul des colonnes deFo
et unecombinaison linéaire
tl
des colonnes deEo
maximisant cov(03BC1, t1) =
cor(u1, t1) ·
var
(UI) .
var( t 1 ) .
On obtient donc deux variables ul ett 1
aussi corrélées que
possible
et résumant au mieux les tableauxFo
etEo.
On construit ensuite lesrégressions :
Etape
2 Onreprend l’étape
1 enremplaçant
les tableauxEo
etFo
parEl
etFl.
On obtient donc deux nouvellescomposantes :
U2, combinaison linéairedes colonnes de
Fl,
t2,
combinaison linéaire des colonnes deEl.
D’où lesdécompositions
obtenues parrégression :
On itère la
procédure
jusqu’à
ce que lescomposantes tl , ... , tA
expliquent
suffisamment
Fo.
Lescomposantes th
sont des combinaisons linéaires des colonnes deEo,
et non corrélées entre elles. De ladécomposition
Fo =
tlri
+ ... +thrh
+ Fh
on
peut
donc déduire leséquations
derégression
PLS :1.3. Recherche
et propriétés
descomposantes
PLSNous allons décrire dans cette section la recherche des deux
premières
1.3.1. Recherche de
tel
et u 1On recherche une
composante tl
=EOWI
et unecomposante
ul =Focl,
avecIlwI11
=
11 cl 11
=1,
telles que la covariance entretl
et u 1 soit maximum. Onadopte
ici la norme usuelle. Comme cov
(tl,
ul)
=var
(ti)
var(ui)
cor(tl, ul )
on essaie ainsi de maximiser simultanément la varianceexpliquée
partl,
la varianceexpliquée
par ul et la corrélation entre ces deuxcomposantes.
On cherche donc des vecteursnormés uy et ci maximisant
t1, u1
>= ~t1~ · IluI11 .
cor(t1, u1).
Utilisons la méthode desmultiplicateurs
deLagrange.
On poseOn annule les dérivées
partielles :
Des
égalités (1)
à(4)
on déduit :D’où les relations :
Ainsi wl est vecteur propre de
EôFoFôEo
associé à laplus grande
valeur propre9i,
et ci est vecteur propre deFôEoEôFo
associé à laplus grande
valeur propre03B821.
On effectue ensuite deux
régressions :
deEo
surtl,
puis
deFo
surtl :
est le vecteur des coefficients de
régression
desEoj
surtl.
où
est le vecteur des coefficients de
régression
desFok
surtl.
On a les
propriétés
suivantes :(a)
p’1w1 = 1
(b)
n =blcl
oùbl
est le coefficient derégression
de ul surtl.
Les vecteurs rI et ci sont donc colinéaires. Montrons
(a) :
Montrons
(b) :
où
bl
=OI/lltll12
=u’1t1/~t1~2 est
bien le coefficient derégression
de ïzi surtl.
La recherche de
tl
et ul est visualisée dans lafigure
1,
et lesrégressions
deEo
et
Fo
surtl
dans lafigure
2.FIGURE 1
FIGURE 2
Régressions
deEo
etFo
surtl
1.3.2. Recherche de
t2
et U2On
remplace
dans la sectionprécédente
Eo
etFo
par les matrices résiduellesEl
etFi.
D’où :où
b2
=u’2t2/~
t2112
est le coefficient derégression
de U2 surt2.
1.3.3. Résultats
généraux
Nous allons
présenter
dans cette section lespropriétés
descomposantes
PLS. Ces résultats sont nécessaires à unecompréhension
approfondie
de la méthode.On obtient les résultats suivants :
A
l’étape h
leséquations
(5)
à(8)
deviennentLes
équations
( 13)
et( 16)
ou( 14)
et( 15)
permettent
d’obtenir Wh et Ch et lescomposantes
PLS Uh =Fh_ 1 ch
etth
=Eh_ 1 wh,
avecOh
=uhth .
Les
équations
(9)
à( 12)
deviennentoù
où
avec bh
coefficient derégression
de uh surth.
On a aussi :
et
propriété
de larégression.
Relationscycliques
La relation
(24)
provient
de(14)
et(25)
de(13).
On
peut
schématiserRelations
d’orthogonalité
Il y a de nombreuses relations
d’orthogonalité
au niveau del’analyse
desvariables
Xj.
Ceci n’estplus
vrai au niveau del’analyse
desYk.
On a les relations
d’ orthogonalité
suivantes :Preuve :
1)
Démonstration det’htl
=0,
l > h La preuve se fait par récurrence.-
t i t2 = t’1 E1 w2
=0,
puisque
zen
= 0.-
Supposons
tl, ... , th
orthogonaux,
alors :tl, ... ,
th+l
sontorthogonaux.
puisque
et ainsi de
suite,
d’où le résultat.2)
Démonstration de On a :puisque
W’ h Ph
= 1.Montrons maintenant que
w’hE’l
= 0,
1 > h,
implique
wh El+ 1
= 0. On a :d’où le résultat.
3)
Démonstration de On a :4)
Démonstration de ’ On a :puisque 1j
5)
Démonstration deSi l > h on a:
Formules de
décomposition
Les matrices
Eo
etFo
peuvent
sedécomposer
parrégression
sur lescompo-santes
tl, ... ,
tA,
où 4 est le rang deEo :
Les
vecteurs th
étantorthogonaux
entre eux on retrouve bien les mêmes coefficients derégression
dans leséquations
(26)
et(27)
que dans la méthode itérativedécrite
plus
haut.La matrice des résidus
Eh
àl’étape h
peut
s’exprimer
en fonction deEo :
Montrons ce résultat.
Supposons
ladécomposition
(28)
vraiepour h = j.
Montronsqu’elle
est vraiepour h = j + 1 :
d’où le résultat.
Ces
décompositions
entraînent trois résultatsimportants
au niveau del’interpré-tation.
Notons Il Eo 112
la somme des carrés des différents éléments de la matriceEo.
Cette formule permet de mesurer le
pouvoir
dechaque th (ou
des hpremiers)
pour résumer
Eo.
On utiliseMontrons
(29) :
Les
tl , ... , tA
étantorthogonaux
on obtient pourchaque
colonneEoj,
enutilisant
(26) :
et par
conséquent
On aura de même la
décomposition :
On mesure le
pouvoir
dechaque th (ou
des hpremiers)
pourexpliquer Fo à
l’aide de
Enfin il est
important
de remarquer que lacomposante th
est combinaison linéaire des colonnes deEo :
1Le vecteur
wh =
03A0(I -
wlp’l)wh
des coefficients des variablesE0j
n’estl=1
cependant
pas normé à 1.autant que
possible
Fo.
Cescomposantes
PLS sont doncanalogues
à descomposantes
principales
desXl, ... ,
XM
expliquant
au mieux les variablesY1 , ... , Yp.
Les
composantes
PLS u1,..., Uh n’ont pas cettepropriété.
Lacomposante
ul est bien combinaison linéaire des colonnes de
Fo,
mais ce n’estplus
le cas desautres
composantes.
Lescomposantes
U2, ..., Uh sont des variables intermédiairesplus
difficiles àinterpréter.
Les
graphiques
Le
plan
(t1, t2)
permet
de visualiser les individus dans unplan
résumant aumieux les
Xj,
tout en étant orienté versl’explication
desYk.
Le
plan
(t1,u1)
permet
de visualiser la liaison entre lesYk
et lesXj
détectée par cespremières
composantes
PLS.Pour
interpréter
lescomposantes
PLS th
en fonction desXj
et desYk
il estnaturel de calculer les corrélations entre
Xj
etth,
puis
entreYk
etth.
On obtient :Bien que la division par N - 1
plutôt
que N nes’impose
pas, nous l’avonsutilisée pour être cohérent avec les sorties du
logiciel
SIMCA.Notant
Ah
la variancede th on
obtient :Et de même
Pour
interpréter
ti
ett2,
on construit donc le cercle des corrélations envisualisant dans un
plan
lespoints
et
représentant
les corrélations deXj
etYk
avectl
ett2.
Les
produits
scalairesAj, Aj’
>,Bk,
Bk’
> etAj, Bk
>représentent
des
approximations
à l’ordre 2 des cor(Xj, Xj’),
cor(Yk, Yk,)
et cor(Xj,
Yk)
En effet :
On démontre de même les autres
approximations.
La norme de
Aj
représente
la corrélationmultiple
entreXj
et(tl, t2)
et celle deBk
la corrélationmultiple
entreYk
et(tl, t2).
On a en effetpuisque
les variablesti
ett2
sont non corrélées. D’où le résultat. Et de même pourYk.
Ainsi le cercle des corrélations
indique
les variables bien corrélées aux deuxpremières
composantes
PLS. Pour les variables bienexpliquées
parti
ett2,
le cercle des corrélations traduit aussi bien les corrélations internes àchaque
groupe de variables que les corrélationsinter-groupes.
1.4. Les
équations
derégression
PLSDe la
décomposition
deFo
surtel, ..
th
on déduit larégression
PLS dechaque
variable
Yk
surXl,,...,
XM.
Onpart
dePosons
On trouve dans les programmes de
régression
PLS troistypes
de résultats :(2)
On utilise les variables réduitesD’où :
Les coefficients de
régression
(3j
sontcomparables
et doncinterprétables
auniveau de
l’explication
deYk
par lesXj.
(3)
On utilise les variablesd’origine.
D’où :1.5. Le cas
particulier
d’une seule variabledépendante
La
régression
PLS estparticulièrement
utilelorsqu’on
cherche àexpliquer
une variable Y à l’aide de
plusieurs
variablesXj
très corrélées entreelles,
oumême linéairement
dépendantes,
etqu’on
ne souhaite pas abandonner des variablesexplicatives.
Les formules des sectionsprécédentes
sesimplifient.
Nous allons doncreprendre
lesétapes
de la méthode derégression
PLS pour ce casparticulier.
Etape
1La matrice
Fo
se réduit à une colonneF -
y* =Y - y.
Parconséquent
Sy
cl = 1 et ul =
Fo.
On recherche unecomposante
tiEowl,
avec
~w1~
-1,
telle que la covariance entre
t,
et u 1 soit maximum. Comme cov(t 1, u 1 )
=Var (t1)
x cor(ti, ul )
on essaie de maximiser simultanément la varianceexpliquée
par
tl
et la corrélation entre Y ettl.
On réalise ainsi uncompromis
entre larégression multiple
de Y surXi,...,
XM
etl’analyse
encomposantes
principales
des
Xi,...,
XM.
L’équation
(5)
permet
d’obtenir directement w1puisque
ci = 1 eton déduit :
et
Par
conséquent
On obtient une
composante t 1
qui
s’écritdont
l’interprétation
est tout-à-fait naturelle. On effectue ensuite lesrégressions
deEoj
surtl,
puis
deFo
surtl :
où plj =
E’0jt1/~t1~2
est le coefficient derégression
deEoj
sur ti et ri =D’où les
décompositions :
Etape 2
On
remplace
dans lapremière
étape
Eo
etFo
par la matrice résiduelleEl
et levecteur résiduel
Fi.
On obtient C2= 1,
U2 =t
etW2 =
E’1F1 E’1F1~.
et
combinaison linéaire des colonnes de
Eo.
On pose :
coefficient de
régression
deFI
surt2.
D’où les
décompositions :
et ainsi de suite pour les autres
étapes.
Résultats
généraux
Chaque
composante th
étant combinaison linéaire desX*j =
Eoj,
onpeut
écrire
l’équation
derégression
PLS1.6.
Exemple
1On trouve dans Kettaneh-Wold
[1992]
l’exemple
suivant tiré de Cornell[1990] :
L’indice d’octane moteur de douze différents
mélanges
a étéenregistré
afin dedéterminer l’influence des
sept composants
suivants :Distillation directe Reformat
Naphta
de craquagethermique
Naphta
de craquagecatalytique
Polymère
Alkylat
Essence naturelle
Les douze
mélanges (Tableau 1)
ont été choisis selon unplan d’expériences
D-optimal,
en sélectionnant unepartie
des sommets.TABLEAU 1
On calcule la matrice des corrélations :
TAB LEAU 2
Matrice des corrélations
Les corrélations les
plus importantes
sont en gras.La
régression
PLS va nouspermettre
de relier la variable y à l’ensemble desvariables
explicatives
x1, ... , X7.1.6.1. Etude de la
première
dimensionDe la formule
on déduit :
et
où
Eoj
est la variableXj
centrée-réduite.La
composante tl
calculée sur les douzeexpériences
del’exemple
de ComellDans le
logiciel
SIMCA le calcul de u 1 =Fo cl
n’impose
pas au vecteur cid’être unitaire. La contrainte consiste à
imposer
au coefficient derégression
de ul surt,
d’êtreégal
à 1 :D’où on déduit que :
On obtient donc :
On trouve ul dans le tableau 3.
TABLEAU 3
Les composantes de la
régression
PLSOn effectue ensuite les
régressions
des variablesEoj
etFo
sur tl :On obtient :
et les huit colonnes de résidus
El l ,
... ,E17, F1.
Pour évaluer la
qualité
de lapremière
composante tl
on calcule :2022 Part de variance de Y
expliquée
partl
2022 Part de variance de X
expliquée
partl
La
décomposition
Eo
=t1p’1
+El
donne ~E0~2
=~t1~2
X
~p1~2
+
~E1~2,
soit en divisant par N -
1,
les variablesEoj
étantcentrées-réduites,
La
part
de variance de Xexpliquée
part,
vaut donc :1.6.2. Etude de la deuxième dimension
On
part
des résidusEl
etFI
de ladécomposition
à unecomposante :
On obtient :
De la formule
on déduit :
et :
On trouve la
composante t2
dans le tableau 3. Ondécompose (régresse)
El
etFI
surt2 :
On obtient
On calcule U2 =
Fl /r2
de manière à avoir unerégression
de U2 surt2 ayant
un coefficient derégression égal
à 1. Lacomposante
U2 est donnée dans le tableau 3.Qualité
de ladécomposition
surtl, t2
. Part de variance de Y
expliquée
part2
. Part de variance de X
expliquée
part2
e Part de variance de X
expliquée
partl, t2
1.6.3. Etude de la troisième dimension
On obtient comme
précédemment
lescomposantes
t3 et u3 données dans le tableau 3.Le vecteur W3 vaut :
Qualité
de ladécomposition
surti, t2, t3
2022 Part de variance de Y
expliquée
part3
a Part de variance de Y
expliquée
partl,
t2,t3
e Part de variance de X
expliquée
part3
. Part de variance de X
expliquée
partl, t2, t3
Bien que
l’apport
de la troisièmecomposante
soit minime dansl’explication
de1.6.4.
L’équation
derégression
PLSOn étudie la
décomposition
deFo
surtl, t2, t3 :
En revenant aux variables de
départ,
il vientOn
peut
aussi écrire le modèle sur les variables réduites afin de mieux mettreen évidence l’influence
marginale
dechaque
variable :où
y’
=y/sy
etxj
=xj/sxj
représentent
les variables y et xi réduites.L’examen de la matrice des corrélations montre la cohérence de
l’équation
derégression
sur les variables réduites.(1) signes
cohérents des coefficients derégression
(2)
rôlenégligeable
de X5 sur y(3)
forte influence de la variable X6 sur y.1.6.5. Les
graphiques
Nous commentons dans cette section différents
graphiques
fournis par lelogiciel
SIMCA et le cercle des corrélations non fourni par SIMCA.Le
graphique
(tl, ul)
représenté
dans lafigure
3 illustre la forte corrélationentre Y et
tl.
Il est
possible
deprédire
les trois classes de valeurs de y à l’aide des xiLe deuxième
graphique (figure
4)
isole lesobjets
4 et 6qui
sont effectivementen bas de la
première
classe au niveau du y : Y4 = 92 etY6 = 91.2.
Le
graphique
de lafigure
5 est moins intéressant :toutefois,
5apparaît séparé
de 12.Le
graphique
(tel,
t2)
de lafigure
6 estl’équivalent
d’unpremier plan principal
orienté versl’explication
de y. On retrouve clairement les différentes classesd’objets
identifiées ci dessus.FIGURE 3
Graphique
(tl, ul)
FIGURE 4
FIGURE 5
Graphique
(t3,
Ul)
FIGURE 6
TABLEAU 4
De
Ai
= Var(tl)
= 3.98 etÀ2
= Var
(t2)
= 0.71 on déduit que lapremière
colonne du tableau 4 vaut
B/3.98
[p1 r1]
et la deuxième colonne0.71 [p2 r2].
FIGURE 7
Le cercle des corrélations
Ce
graphique
traduit à la fois les liaisons internes aux variables xj et entre les- corrélations
positives
entre Xl, X3, X4, X7- corrélation
positive
entre X5 et X6-
y est corrélée
positivement
à X5 et X6 etnégativement
aux variables xi, x3,X4, X7.
1.7.
Exemple
2 1.7.1. Les donnéesOn trouve dans Jackson
[1991]
unexemple
derégression
PLS sur les donnéessuivantes :
Les données ont été collectées par le Dr. A.C. Linnerud de l’Université de
Caroline du Nord. Il a mesuré sur
vingt
hommesd’âge
moyen s’entraînant dans unclub de
gymnastique
troiscaractéristiques physiques
et leurs résultats à troistypes
d’exercice. Les variablesphysiques
sont les variablesexplicatives,
et les résultats auxexercices les variables à
expliquer.
Il
s’agit
de relier les variables y, =Tractions,
Y2 =
Flexions,
Y3 = Sauts aux
variables
explicatives
x, =Poids,
X2 = Tour detaille,
X3 = Pouls.L’analyse
de la matrice des corrélations(tableau 6)
montre lespoints
suivants :- corrélation
positive
entre Poids et Tour detaille,
- corrélations
négatives
entre(Poids,
Tour detaille)
etPouls,
- corrélations
positives
entreTractions,
Flexions etSauts,
- les variables
Tractions,
Flexions et Sauts sont corréléesnégativement
à Poidset Tour de
taille,
etpositivement
à Pouls.TABLEAU 6
Données de
Linnerud,
matrice de corrélationsUne
régression
« cohérente » devrait donc être de laforme Yk = (30
+(31
Poids +/?2
Tour de taille +/3s
Pouls + c avec03B21, /?2
0 et03B23
> 0.Les estimations
gj
du tableau 7 des résultats desrégressions
des variables centrées-réduitesTractions*,
Flexions* et Sauts* sur les variables centrées réduitesPoids*,
Tour detaille*,
Pouls* montrent des résultats incohérents.TABLEAU 7
Données de
Linnerud,
résultats desrégressions
1.7.2. Résultats de la
régression
PLS1.7.2.1. Calcul des composantes
th,
UhLe
logiciel
SIMCApermet
d’obtenir les vecteurs propres Wh, Ch et lescomposantes
PLSth,
Uh. Ces résultats sont donnés dans le tableau 8.TABLEAU 8
Dans SIMCA
chaque
composante
PLS Uh est normalisée de manière à ce quele coefficient de
régression
de Uh surth
soitégal
à 1. On trouve donc dans le tableau 8 lescomposantes
PLS Uh
définies paroù bh
=t’hFh-1ch t’ht’h
est le coefficient derégression
deFh-1ch
surth.
Les résultats des
régressions
sont donnés dans le tableau 9.
TABLEAU 9
Données de
Linnerud,
coefficients
desrégressions
deEo
etFo
surtl, t2, t3
on déduit
et
Les
composantes
PLS Uhpouvant
s’exprimer
directement en fonction des rh,le
logiciel
SIMCA ne fournit pas les vecteurs propres Ch.et
Ona:
d’où le tableau 10 donnant les variances
expliquées
par lescomposantes th.
TABLEAU 10 Pouvoir
explicatif
desth
Ainsi les données étudiées sont essentiellement
unidimensionnelles,
au niveau de la relation entre Y et X.1.7.2.3.
Interprétation
des composantes PLSLes
composantes
PLS th
peuvent
s’écrire en fonction desXj
centrées-réduites :TABLEAU 11
Corrélations entre les variables et les composantes PLS
On déduit donc que la
composante tl
oppose la variable Pouls aux variablesPoids et Tour de taille. Elle classe les individus des
grands/gros
auxpetits/maigres.
La deuxième
composante t2
est essentiellement corrélée à la variable Pouls. La dernièrecomposante t3
n’apporte plus
d’information.La
composante
PLS ul =F0r1/~r1~2
s’écrit :La
composante
ul est un indice deperformance
donnantplus
depoids
auxvariables Tractions et Flexions
qu’à
la variable Sauts. On a cor(ul, tl)
= 0.55.La
composante
U2 s’écrit :où
Flk
est le vecteur des résidus de larégression
deFOk
surtl.
Cettecomposante
U2ne
peut
s’exprimer
en fonction des variables Yk, mais onpeut
utiliser les corrélationsentre les
Yk
et U2 du tableau 11 pourl’interpréter.
Lacomposante
U2 est redondanteavec ul. On a cor
(Ul, U2) =
0.83. Il en va de même pour lacomposante
u3 : cor(Ul, U3)
= 0.72 et cor(U2, U3)
= 0.90.1.7.2.4. Les
graphiques
Le
plan
(tel, t2)
de lafigure
8 estanalogue
à unpremier
principal
dansl’espace
des
Xj,
mais orienté versl’explication
desYk.
Cette carte des individus montreclairement la
position particulière
de l’individu 14. Il est très gros(Poids
=247,
Tourde taille =
46)
et obtient lesplus
faibles résultats du groupe en Traction(= 1)
et FlexionFIGURE 8
Plan des composantes
(tl, t2)
Le cercle des corrélations de la
figure
9 traduit bien les corrélations internes àchaque
groupe de variablesX,
Y comme les corrélations entre les groupes X et Y. Legraphique
de lafigure
10 met en évidence les rôlesparticuliers joués
par les individus10,
14 et 20 :- les individus 10 et 20 ont
à peu
près
les mêmescaractéristiques physiques
et des résultats aux exercices
opposés :
l’individu 10 obtient les meilleurs scores aux exercicesTractions,
Flexions et Sauts sur l’ensemble des 20individus,
alors quel’individu 20 est
parmi
lesplus
faibles,
- l’individu 14 a
déjà
été mis en évidence dans lafigure
8.Il faudrait refaire
l’analyse
en mettant enpoints supplémentaires
ces troisindividus.
On
peut
également
montrer lesgraphiques
desrégressions
deFlexions,
Trac-tions et Sautssur tl.
Ces 3
graphiques
confirment les rôlesparticuliers
des individus 14 et 20 pourla
prédiction
des variables Tractions et Flexions. L’individu 10 a un score en SautsFIGURE 9 Le cercle des corrélations
FIGURE 10
FIGURE 11
Régression
de Tractions surtl
FIGURE 12
FIGURE 13
Régression
de Sauts surt1
1.7.2.5. Les
équations
derégression
PLSSeule la
composante tl
explique
unepart
de variance deYk
significative.
Nousavons donc réalisé les
régressions simples
deTractions,
Flexions et Sauts sur lacomposante tl.
La
composante tl
s’écrivant :et en données centrées réduites :
La
comparaison
avec les résultats desrégressions
multiples
ordinaires(Tableau
7)
est instructive : on a rendu leséquations
derégressions
cohérentes enacceptant
unelégère
diminution despouvoirs
explicatifs
dechaque
régression.
1.8. Conclusion
La
régression
PLSpermet
derapprocher
le statisticien du chercheur dans lesproblèmes
de modélisation. Engénéral
ce dernier souhaite en effet conserver dans sonmodèle toutes les variables
importantes
tout en obtenant deséquations
derégression
cohérentes.
Lorsque,
enrégression multiple
il y a multicolinéarité et/ou un nombreimportant
de variablesexplicatives
parrapport
au nombred’observations,
la solutionla
plus
courante consiste à exclure des variablesexplicatives
par des méthodes depas-à-pas.
Larégression
PLSpermet
dans ces situations de conserver toutes les variablesexplicatives
tout en obtenant uneéquation
derégression
cohérente.Lorsqu’il s’agit
de relier un ensemble deYk
à un ensemble deXj,
onpeut
essayer
l’analyse canonique.
L’intérêtpratique
de cette méthode est souvent faiblecar elle ne fait le
plus
souventqu’isoler
descouples
(Xj, Yk)
à forte corrélation. Ainsi les variablescanoniques
expliquent
unepart
qui
peut
être faible des variances des groupes de variables X et Y.La
régression
PLSapparaît
comme uncompromis
entrel’analyse canonique
des groupes de variables X et Y et des
analyses
encomposantes
principales
de chacun de ces groupes de variables.2.
Applications
Nous allons
présenter
dans cette deuxièmepartie
deuxapplications
réalisées chezRhône-Poulenc,
lapremière
au Centre de Recherches d’Aubervilliers et la seconde au Centre d’Industrialisation de Décines.Les données relatives à ces
applications
ont laparticularité
de contenir des variablesqualitatives.
Laprise
encompte
de variablesqualitatives
enrégression
PLS ne pose pas de
problèmes particuliers. Après
avoir étudié en détail les deuxapplications
nous proposerons en conclusion uneméthodologie générale
de la2.1.
Un problème
de formulaction
d’une huilesilicone fonctionnalisée
2.1.1.
Description
du problème
Il
s’agit d’optimiser
les niveaux decinq
facteursexpérimentaux
gouvernant
la stabilité d’une micro-émulsion d’une huile silicone fonctionnalisée. Les facteursXi
àX4
représentent
desquantités
de constituants actifs etprennent
lesniveaux -1, 0,1
et le facteur
X5
est une condition de fabrication codée -1 ou 1. On aégalement
introduit toutes les interactions
Xh
xXk
et les carrésX21,...,
X24.
Ainsi l’ensemble X des variablesexplicatives
est constitué de 19 variables :Un
plan d’expérience D-optimal
(Fedorov, 1972)
apermis
d’obtenir 58expériences
décrites dans le tableau 12.Pour
chaque expérience l’aspect
de la formulation a été noté ensept
instants différents. Le résultatYk
de l’observation à l’instant k se traduit par l’attribution d’unenote
(1,
2 ou3) correspondant
à unedescription
totalementqualitative
del’aspect
de la formulation :- 1 =
système
polyphasique
(SP),
la formulation s’estdégradée,
- 2 =
système
fluidetransparent
(SFT),
la formulation eststable,
ne sedégrade
pas,- 3 =
système
dit "toutsystème
visqueux"
(TSV),
la formulation n’est pascomplète-ment
dégradée
mais n’est pas conforme.Après
entretien avec lechercheur,
il est clair que cette variableréponse
n’est pas ordinale. Cette variable sera donc considérée par la suite comme nominale à 3 modalités. Le tableau des résultatsfigure ci-après (tableau 13).
Il
s’agit
donc de relier lesréponses qualitatives
auxsept
instants Y ={Y1,..., Y7}
aux conditions de fabrication décrites par X ={X1,
... ,
X5,
X2
... ,X24, X1
X2,...,X4 X5}.
2.1.2 La
méthodologie
statistique
On cherche à établir une
équation
derégression expliquant
la stabilité de l’émulsion en fonction des facteursexpérimentaux.
Pour ce faire nous avonsadopté
la
méthodologie
suivante :a)
On réalise uneanalyse
descorrespondances multiples
du tableau Y desréponses
aux 7 instants. On ne retient que les
composantes
principales
utiles àl’in-terprétation
des résultats.b)
On réalise desanalyses
de la variance univariées dechaque
composante
principale
retenue en
a)
sur les conditions de fabrication décrites par X. On ne retient queles variables les
plus explicatives.
TABLEAU 13 Observations à 7
époques
d)
On détermine enfin les niveaux des facteursexplicatifs
favorisant lesproduits
qualifiés
SFT.2.1.2.1.
L’analyse
descorrespondances
multiples
Lesprincipaux
résultats de l’ACM sont :- Le
tableau des valeurs propres
(tableau 14)
montrequ’il
y aquatre
valeurs propressupérieures
à1/7
= 0.14. La structure recherchée étant mise en évidencedans le
premier plan principal
nous n’avons conservé dans cette étude que les deuxTABLEAU 14
Décomposition
de l’inertie- Nous donnons dans le tableau 15 les coordonnées des
points-modalités
etla carte des modalités dans la
figure
14. Cette carte estparticulièrement
informativepuisque
les formulations y sont nettementséparées
selon leuraspect.
TAB LEAU 15FIGURE 14 Carte des modalités
A propos du tableau 15 nous
précisons
que les troispremiers points
correspon-dent aux modalités
SP, SFT,
TSV àl’époque
1,
les trois suivantscorrespondant
à cesmêmes modalités à
l’époque
2 ... et les trois derniers à ces modalités àl’époque
7.- Les résultats concernant les
points-individus (les expériences)
sont donnés dans le tableau 16 et visualisés dans lafigure
15.Remarque :
lepoint
18 cache lespoints
n°3, 4, 6, 9, 10, 11, 12, 13, 17, 18, 20,
24, 26, 27, 28, 29, 33, 35, 38, 39, 40, 41, 47, 48, 49, 53, 55, 56, 57, 58;
tous cespoints
correspondent
à uneexpérience
àréponses
SP auxsept
époques.
La carte des
expériences
de lafigure
15 montre la difficulté duproblème
à résoudre. Le bonquadrant (produits SFT)
comporte
peud’expériences,
et la seuleexpérience
entièrement satisfaisante(expérience
n°42)
apparaît
comme isolée. Elleest associée à des valeurs des deux
premières
composantes
principales
minimales. Lapremière
composante
principale
CPI sépare
la formulationdégradée
(SP)
des autres cas. La deuxièmecomposante
principale
CP2
sépare
ensuite la situationintermédiaire
(TSV)
de la formulation recherchée(SFT).
On recherche donc des conditions de fabrication rendant aussi
négatives
queTABLEAU 16
Coordonnées des
points-individus (expériences)
2.1.2.2.
Analyse
de la variance des composantesprincipales
sur lesconditions de
fabrication
Les
analyses
de la variance univariées descomposantes
principales
CPI, CP2
sur les conditions de fabrication ont
permis
de détecter des termesparticulièrement
explicatifs :
-X3,
X23,
Xl
XX2, Xl
XX3, X2
XX3, X3
XX4, X3
XX5
pour CP,
- X3, X2
XX3 pour CP2.
FIGURE 15 Carte des individus
TABLEAU 17
Analyses
de la variance sur les conditionsde fabrication (variables
significatives)
2.1.2.3.
Régression
PLS des composantesprincipales
CP1
etCP2
sur les variablesexplicatives significatives
Il est essentiel pour le chercheur de conserver dans un modèle
prédictif
toutesconduit aux modèles
et la
régression
PLS auxéquations
derégression
Les
signes
des coefficients de larégression
PLS sontplus
cohérents que ceuxde la
régression
pas à pas descendante.Les
équations
(33)
et(34)
sont construites àpartir
de deuxcomposantes
PLStl
ett2
expliquant
30% de la variance du tableau des conditions de fabricationsignificatives
et 57% du tableau des
Yk.
Les reconstitutions des
composantes
principales
CPI,
CP2
par leséquations
derégression
PLS(33)
et(34) apparaissent
sur lesfigures
16 et 17. Le cercle des corrélations est donné dans lafigure
18.FIGURE 16
FIGURE 17
Graphique
[cp2
calculée,
CP2observée]
FIGURE 18
2.1.2.4. Détermination des conditions
optimales
On cherche à minimiser CP1 et CP2 pour être dans le
quadrant
où se trouventles 7 modalités SFT. En examinant les
équations
derégression
PLS et le cercle descorrélations,
on constate que laconfiguration
permettant
de minimiser lescomposantes
principales
est déterminée pourXl, X2, X3
etX4
fixés à -1 et pourX5
fixé à 1. Dans ces conditionsCPI
vaut -1.35,
cequi
estsatisfaisant,
maisCP2
n’est que faiblementnégative,
à savoirCP2
= -0.19. En conclusion le chimiste estcapable (ceci
a été confirméexpérimentalement)
d’éviter la fabrication deproduits
d’aspect
SP,
très rhédibitoire.Toutefois,
il est encore difficile de savoir commentorienter
l’aspect plutôt
vers SFT que TSV enjouant
sur les facteursexpérimentaux
pris
encompte
dans cette étude. Ainsi la modélisation obtenue nepermet
pas dereproduire
laqualité
del’expérience
n°42.2.2.
Application
de larégression
PLS à laspectrométrie infrarouge
2.2.1. IntroductionLes
spécifications
d’unproduit
finipeuvent
correspondre
à desconcentra-tions
(pureté, impuretés...),
à des données de testsphysico-chimiques
etplus
par-ticulièrement à des résultats de tests
d’application.
Ces résultats se
présentent
généralement
sous la forme :- test
correct,
- test incorrect.
Quand
la nature du test lepermet,
onpeut
souhaiterpréciser
ces données de lafaçon
suivante : - test correct, - test incorrect(valeurs inférieures),
- test incorrect(valeurs supérieures).
Ce test
qui
fournit un résultat trèsimportant
sur laqualité
duproduit
fini et sonorientation
future,
aparfois
l’inconvénient d’êtrelong
à mettre en oeuvre.Il est donc intéressant de chercher à
développer
une méthode deremplacement
plus rapide.
Dans le cas que nousprésentons,
laspectrométrie
IR et larégression
PLSpermettent
d’obtenir des résultats similaires au testd’application
en cours avec ungain
detemps
trèsimportant.
On trouvera une
présentation
détaillée du contexte de cetteapplication
dans Ménardo(1993).
2.2.2. Présentation des données
- incorrect
pour
l’application
(valeurs inférieures)
~Groupe
1-
correct pour
l’ application
~Groupe
2-
incorrect pour
l’application
(valeurs supérieures)
~Groupe 3
La matrice Y est construite de la
façon
suivante :La variable indicatrice
Yj
vaut 1 pour les individus dugroupe j
et 0 pour les autres.Pour
chaque
échantillon,
lespectre
IR a étéenregistré
sur le mêmespectromètre
IRTF Bruker
IFS48,
dans les mêmes conditions.La matrice X est constituée de 20
lignes (20 échantillons)
et de 2946 colonnesreprésentant
des mesures d’absorbances entre 3950 et 1300cm-l.
Le format de la matrice X est donc de 20 x 2946.Le
logiciel
GRAM386-PLSPLUSpermet
de traiter cetype
de données.2.2.3. Etude
exploratoire : analyse
encomposantes
principales
Nous avons utilisé le
logiciel
GRAMS386-PLSPLUS pour réaliserl’analyse
enFIGURE 19
Analyse
en composantesprincipales
de la matrice X,composantes
principales
1 et 2Le
premier plan principal (Figure 19)
nepermet
pas deséparer
les groupes. Parcontre on constate sur le
graphique
(CP1, CP3)
de lafigure
20 que la troisièmecom-posante
principale
apporte
une meilleure discrimination des trois groupes initiaux.2.2.4.
Régression
sur composantesprincipales
Nous avons réalisé une
régression
de chacune des variablesYj
sur les troispremières
composantes
principales
du tableau X.Chaque
échantillon est affecté augroupe pour
lequel
l’indicateur calculéYk
est leplus
élevé. Les résultats sontprésentés
dans la
figure
21.On note 5 échantillons mal classés sur les 20 initiaux. En validation croisée on
FIGURE 20
Analyse
en composantesprincipales
de la matriceX,
composantes
principales
1 et 3FIGURE 21
2.2.5. La
régression
PLS2.2.5.1.
Régression
PLS entre Y =IY,,
Y2,
Y3}
et le tableau XPour choisir le nombre de
composantes
PLS àretenir,
on a utilisé le critère PRESSproposé
dans GRAMS. Pourchaque
échantillon on calcule l’erreur deprévision
desYk
sans utiliser cet échantillon pour construire le modèle. Le critèrePRESS revient à choisir le nombre de
composantes
pourlequel
la somme des carrésdes erreurs de
prévision
est minimale. Ceci nous a conduit à retenir les troispremières
composantes
PLStl, t2
ett3.
Les
plans
(tl, t2)
et(tl, t3)
desfigures
22 et 23 montrent que c’est l’axe 1qui
apporte
la meilleure discrimination des trois groupes.FIGURE 22
Régression
PLS de Y sur X.Représentation
des échantillons dansle plan
tl, t2
Dans la méthode de
régression
PLS,
le calcul des axes est orienté versl’explication
de Y.Utilisant des
composantes th
orientées versl’explication
deY,
laprévision
des groupesd’origine
va évidemment s’améliorer.Chaque
échantillon est affecté augroupe pour
lequel
l’indicateur calculéPk
est leplus
élevé. Les résultats sontprésentés
FIGURE 23
Régression
PLS de Y sur X.Représentation
des échantillons dans leplan
tl, t3
FIGURE 24
On ne note maintenant que 3 échantillons mal classés sur les 20 initiaux. En
validation croisée on obtient 7 échantillons mal classés sur 20.
2.2.5.2.
Régression
PLS dechaque
Yk
sur XOn réalise maintenant trois
régressions
PLSindépendantes.
Nous avons retenules trois
premières
composantes
PLS pourchaque
régression
PLS. Onreprésente
les troisplans
(tl, t2)
correspondant
aux troisrégressions
PLS dans lesfigures
25, 26
et27. On
peut
noter que l’axe 1apporte
bien la meilleure discrimination parrapport
à chacun des trois groupes initiaux. On remarque aussi que dans lesplans
(t1, t2)
dechaque analyse
les groupes visés sont bien isolés.FIGURE 25
Régression
PLS deY1
sur XChaque
échantillon est affecté au groupe pourlequel
l’indicateur calculéYk
estle
plus
élevé. Les résultats sontprésentés
dans lafigure
28.Il
n’y
a maintenantqu’un
seul échantillon mal classé sur les 20 initiaux. Envalidation croisée le résultat s’améliore
également :
5 mal classés sur 20.2.2.6. Conclusion
Les travaux
présentés
dans cettepartie
mettent en évidence sur un cas réell’intérêt de la
régression
PLS parrapport
à larégression sur
composantes
principales.
En
régression
PLS la méthode PLS-1(on
régresse
chaque
Yk
surX)
semble nettementFIGURE 26
Régression
PLS deY2
sur XFIGURE 27