R EVUE DE STATISTIQUE APPLIQUÉE
F. H USSON J. P AGÈS
Nuage plan d’individus et variables supplémentaires
Revue de statistique appliquée, tome 51, n
o4 (2003), p. 83-93
<http://www.numdam.org/item?id=RSA_2003__51_4_83_0>
© Société française de statistique, 2003, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
NUAGE PLAN D’INDIVIDUS ET VARIABLES
SUPPLÉMENTAIRES
F.
HUSSON,
J.PAGÈS
Laboratoire de
Mathématiques appliquées,
ENSA de Rennes, 65 rue de Saint-Brieuc, 35042 Rennes Cedexhusson@agrorennes.educagri.fr
RÉSUMÉ
On veut souvent
compléter l’interprétation
desgraphes
usuels(x, y)
à l’aide devariables
quantitatives supplémentaires.
La méthode PREFMAP(modèle
vectoriel) propose unereprésentation
de ces variablessupplémentaires.
Dans cet article, on met en évidencequelques
inconvénients de la méthode PREFMAP
lorsque
les variables x et y sont corrélées et l’on proposeune
représentation analogue
en substituant dans la méthode PREFMAP larégression
usuellepar la
régression
PLS. Legraphique
obtenu est enrichi par une visualisation de laqualité
dereprésentation
des variables à l’aide de courbes de niveau.Mots-clés : PREFMAP, PLS,
biplot
ABSTRACT
Often one wants to
complete
theinterpretation
of the usualgraphs (x, y)
with additionalquantitative
variables. The PREFMAP method (vectorial model) proposes arepresentation
ofthese additional variables. In this article, we
highlight
somedisadvantages
of the PREFMAPmethod when the variables x
and y
are correlated and we propose a similarrepresentation
tothe PREFMAP method but with the substitution of the
regression by
the PLSregression.
Thegraph
obtained is enrichedby
arepresentation
of the level lines ofquality
ofrepresentation.
Keywords :
PREFMAP, PLS,biplot
1. Introduction
La
représentation
d’un nuage de n individus en fonction de deux variables quan- titatives(x
ety)
est sans doute legraphe
leplus
utilisé enstatistique. L’interprétation
de tels
graphes
est enrichielorsque
l’onpeut
relier x et y à d’autres variablesdisponi-
bles. Notons Rn
l’espace
des variables et notonsEx,y
leplan
de R’engendré
par les variables x et y. Leparadigme
est legraphe
de l’ACP où les variables x et y sont lescomposantes principales.
Soit k une variable centrée réduite(nous
supposerons dans la suite de cet article que les variables sont centréesréduites,
cequi
ne nuit pas à lagénéralité
des résultatsobtenus).
Legraphe
de l’ACPpermet de juger
la corrélation de la variable k avec chacune des composantesprincipales (la
coordonnée de la variablek sur l’axe s est son coefficient de corrélation avec la
composante principale s)
maiségalement
dejuger
la liaison entre la variable k et l’ensemble des 2 composantesprincipales (grâce
à laproximité
entre lepoint
et le cercle descorrélations).
Cettepropriété
de l’ACP est assurée par la non-corrélation descomposantes principales.
Ce
graphe présente
donc despropriétés
intéressantes :- les coordonnées d’une variable k
correspondent
au coefficient de corrélation entre k et chacune descomposantes principales (si k
est centréeréduite);
- la norme
(au carré)
duprojeté
de k sur leplan correspond
au coefficient de détermination de larégression
de k en fonction des variables x et y ;- le coefficient de corrélation entre deux variables k et l
correspond
au cosinusde
l’angle
entre k et 1 dansl’espace
Rn. Si les variables k et 1 sontproches
duplan
deprojection Ex,y,
alorsl’angle
entre leprojeté
de k et leprojeté
de estproche
del’angle
entre k et 1 et donc le cosinus del’angle
entre leprojeté
dek et le
projeté
de 1 donne une bonne idée du coefficient de corrélation entre k et l. Si les variables sont malreprésentées,
on nepeut
rien dire concernant leurliaison;
- il y a une dualité entre la
représentation
des individus et celle des variables et doncpossibilité
de faire une lecture simultanée dugraphe
des individus et dugraphe
des variables.Cependant,
les variables que l’on étudie x et y sont très souvent corrélées. C’est presquetoujours
le caslorsqu’elles
sont définies apriori,
mais c’estégalement
le caslorsqu’elles
sont issuesd’analyse
comme, parexemple,
la construction d’un modèle INDSCAL(Carroll
etChang, 1970).
Ceproblème
adéjà
été étudié et estclassiquement
résolu par
l’aspect
vectoriel de la méthode PREFMAP(Caroll, 1972,1980).
Onprésente
alors un
graphe
avec x et yorthogonaux (on
notera ceplan R2x,y)
et onreprésente
chaque
variable k de lafaçon
suivante : ses coordonnées sontproportionnelles
auxcoefficients de la
régression
de k en fonction desrégresseurs
x et y et sa norme estégale
à la racine carrée du coefficient de détermination de cetterégression.
La normemesure ici la
qualité
dereprésentation
de la variable sur leplan R2x,y :
si la norme duprojeté
de la variable estproche
de1,
alors le coefficient de détermination estproche
de 1 donc la variable est
proche
duplan
deprojection.
Cette méthode fondée sur la
régression
enprésente
les inconvénients :lorsque
les
prédicteurs
sontcorrélés,
les coefficients de larégression
nereprésentent
pas la liaison « directe » entre la variable et leprédicteur.
Il est mêmepossible qu’un
coefficient soit
négatif
alors que le coefficient de corrélation entre leprédicteur
et lavariable est
positif.
On propose dans cet article une
représentation analogue
à celle de PREFMAP mais enremplaçant
larégression
linéaire par larégression
PLS-1 cequi
résout lesproblèmes d’interprétation
des coefficients de larégression.
2. Méthode pour une
représentation
de variables associéeà un nuage
plan
d’individus 2.1.Principe
Dans la forme la
plus simple
de larégression
PLS-1(nous
utilisons ici laterminologie
de Tenenhaus où une seule variable est àexpliquer)
on utilise une seulecomposante
PLS : les coefficients desprédicteurs
dansl’équation
deprédiction
sont,à un facteur
multiplicatif près,
les coefficients de corrélation entre la variable et lesprédicteurs. Remplacer
dans PREFMAP larégression
usuelle par larégression
PLS-1 revient alors à construire un
graphe
similaire à celui de l’ ACPpuisque chaque
coordonnée
correspond
au coefficient de corrélation entre le facteur et leprédicteur.
Ces
graphes
sont utilisés parexemple
dans laprocédure
bivar deSpad (SPAD, 2001).
Dans cegraphique,
les coordonnées des variables sontinterprétables
mais leurdistance à
l’origine
ne l’est paspuisque
deux variables de mêmelongueur peuvent
avoir desqualités
dereprésentation
différentes. La relation entre lalongueur
d’unevariable et sa
qualité
dereprésentation dépend
de la corrélation entre les variables xet y et, à corrélation entre x et y
fixée,
de la direction de la variable. D’où l’idée de construire des courbes de niveau dequalité
dereprésentation
dont laplus
extrêmeserait
l’analogue
du cercle des corrélations en ACP.2.2. Domaine de
définition
de la variable k dans leplan R2x,y
La
qualité
de lareprésentation
de la variable k dans leplan R2x,y (proposée
dansle
paragraphe 2.1) peut
être mesurée par le coefficient de corrélation entre la variable k et sareprésentation
surR2x,y.
Ce coefficient de corrélation(que
l’on noteraR)
estfonction des coefficients de corrélation entre k et x
(i. e. rkx)
et entre k et y(i. e. rky) puisque
la coordonnée de k sur l’axe x(resp. y) correspond
à rkx(resp. rky).
Déterminons dans un
premier temps
le domaine de définition de la fonctionf qui
aucouple (rkx, rky)
associe R.f
est une fonction de[-1;1]2
dans[0 ; 1].
Cependant,
les coefficients de corrélation rkx et rky ne sont pasindépendants.
Ilsdépendent
du coefficient de corrélation rxy.Le coefficient de corrélation rxy étant
fixé,
onpeut
calculer les bornes du domaine de définition def
en considérant fixée la valeur de rkx. Il suffit alors de borner les valeurs quepeut prendre
rky, cequi
est réalisé par laproposition
2.1.PROPOSITION 2.1. - Le domaine de
définition
de lafonction f
est tel que :Preuve. - Les trois variables x, y et k étant dans un espace à au
plus
troisdimensions,
la matrice de corrélation des trois variables x, y, et k doit être définiepositive
ou semi-définiepositive.
Or ceci est vrai si et seulement si le déterminant de cette matrice estpositif
ou nul(l’implication
est vraie pardéfinition,
laréciproque
estvraie car toutes les corrélations sont inférieures
à 1).
On a alors :Et ce déterminant est
positif
ou nul si et seulement siLa
figure
1 donne les limites du domaine de définition(le
domaine de définitioncorrespond
à l’intérieur desellipses)
pour des coefficients de corrélation r xy variantentre 0 et 0.8. On
peut
remarquer que pour un coefficient de corrélation de0,
onretrouve bien le cercle des corrélations de l’ACP.
Lorsque
le coefficient de corrélation rxy estélevé,
la forme du domaine de définition devient uneellipse
d’autantplus
«
allongée »
que rxy estgrand.
FIGURE 1
Limite du domaine de
définition
de R pourplusieurs coefficients
de corrélation entre x et y 2.3.
Qualité
dereprésentation
PROPOSITION 2.2. - Sur le domaine de
définition
où lafonction f
estdéfinie
(voir proposition 2.1),
on a :Preuve. - Par
construction,
lareprésentation
de la variable k surIR;,y
cor-respond
à laprédiction
de k par la méthode PLS-1(à
une normalisationprès
par lecoefficient
multiplicateur précité).
On notera alors ceprojeté kpls
et onadoptera
lanorme
l dn/n
dans IRn(I dn
étant la matrice Identité de taille n xn).
Ainsi on aavec X la matrice ayant pour
première
colonne les valeursprises
par la variable x etayant
pour deuxième colonne les valeursprises
par y.R étant le coefficient de corrélation entre k et sa
représentation
surR2x,y (i. e.
pls),
on a :La norme de
XX’k/n correspond
à lalongueur
de ladiagonale
d’unparallélo-
gramme
ayant
des côtés delongueur
rkx et rky et formant unangle (x, y),
et donc :Ainsi,
on a2.4. Courbes de niveau de
qualité
dereprésentation
Les
graphes
de lafigure
2 montrent l’allure des courbes de niveau dequalité
dereprésentation
pour des corrélations entre x et y variant de 0 à0.9 ;
lesgraphes
obtenusavec des corrélations
négatives
ne sont pasprésentés
car ce sont lessymétriques,
parrapport
à l’axe desordonnées,
de ceux obtenuslorsque
la corrélation estpositive.
Quand
les deux facteurs sontindépendants,
on retrouve le cercle de corrélation de l’ACP.Lorsque
rxy estgrand
en valeurabsolue,
les courbes de niveau dequalité
dereprésentation
sontindispensables
pour connaître laqualité
dereprésentation
d’unevariable. En
effet,
il est clair que la distance d’unpoint
àl’origine
dugraphe
nereprésente
pas laqualité
dereprésentation.
3.
Application : projection
de variablessupplémentaires
dans le cadre d’un modèle INDSCALLe modèle INDSCAL
(Carroll
etChang, 1970) permet
d’effectuer une évaluation directe etglobale
de la différence sensorielle entreproduits.
Leprotocole classique
consiste à proposer à un ensemble d’individus
(appelés juges)
un ensemble deproduits, paire
parpaire. Chaque juge
évalue la différence entre deuxproduits
parune note et fournit finalement une matrice d’indices de dissimilarités.
Ainsi,
pour Jjuges
et Iproduits,
lejuge j
évalueglobalement
la dissimilaritéentre les
produits
i etpar
la notedj (i, l )
variant parexemple
de 0(produits identiques)
à 10
(produits
trèsdifférents).
Selon le modèleINDSCAL,
la dissimilaritédj (i, l)
dérive d’une
configuration
desproduits
en S dimensions(soit Zs (i)
la coordonnée duproduit
i sur l’axe de rang s de cetteconfiguration), chaque juge j
accordant unpoids
spécifique qjs
à la dimension s :où ej
(i, l )
est le résidu du modèle.L’estimation des
paramètres
de ce modèle est effectuée de manière itérative(une
itération comprenant une estimation des coordonnéesZr (i)
et une estimationdes
poids).
Les facteurs ainsi obtenus sont souvent corrélés.Nous
appliquons
laprocédure présentée
ci-dessus à des sorties du modèle INDSCAL dérivant d’uneapplication
enanalyse
sensorielle. Dans cetteapplication,
six chocolats ont été évalués par six
jurys
à l’aide de 14descripteurs (i. e. variables)
sensoriels.
À partir
des notes obtenues sur les 14descripteurs,
les dissimilarités entre chocolats ont été calculées(par
la distanceeuclidienne).
Unedescription
détaillée duplan d’expériences
et des données est fournie dans l’article dePagès
et Husson(2001).
L’analyse
de ces données dans le cadre du modèle INDSCAL fournit uneconfiguration
« commune » des six chocolats
(voir figure 3)
danslaquelle
les deux facteursFi
etF2
sont fortement corrélés
(rF1,F2 = -0.805).
La construction du modèle INDSCAL est détaillée et commentée dans l’article dePagès
et Husson(soumis
àComputational
Statistics and Data
Analysis).
Pourinterpréter
cetteconfiguration
« commune », ondispose
de trois variablesphysico-chimiques (la
teneur enCACAO,
lepourcentage
de SACCHAROSE et le pourcentage deMATIÈRE GRASSE)
ainsi que des moyennes(tout jury confondu)
des 14descripteurs
sensoriels(acide,
amer,sucré, etc.).
FIGURE 2
Courbes de niveau de
qualité
dereprésentation
pour
plusieurs coefficients
de corrélation entre x et yFIGURE 3
Représentation
des chocolats obtenue par le modèle INDSCAL(rF1,F2
=-0.805)
3.1. Corrélation entre les variables
Méthode PREFMAP
(figure 4).
Legraphe suggère
une liaison entre les variablesfondant,
O. lait et S. lait d’unepart
et le facteur 1 d’autrepart. Effectivement,
cestrois variables sont étroitement corrélées avec ce facteur
(rfondant,F1 = 0.995,
rO.lait,F1 = 0.995 et rS.lait,F1 =
0.994).
Enrevanche,
cegraphe suggère
uneabsence de liaison entre les variables
(teneur en)
CACAO et acide d’unepart
et le facteur 1 d’autrepart.
Ceci n’est pas vraipuisque
rCACAO,Fl = -0.754 et racide,F1 = -0.764. Afortiori,
legraphe suggère
une absence de liaison entre les variables acideet fondant (par exemple)
alors que racide,fondant = -0.700.Méthode PREFMAP-PLS
(figure 5).
Pardéfinition,
on lit bien sur legraphe
lescorrélations entre les variables et chacun des facteurs. La
plupart
des variables sont fortement corrélées aux deux facteurs. Les courbes de niveauindiquent
les corrélationsqui peuvent
être déduites de laposition
des variables.Ainsi,
parexemple,
sucré etvanille sont bien
représentées
et leurproximité suggère
une forte corrélation. Eneffet,
rsucré,varzille = 0.98. Enrevanche,
SACCHAROSE et croquant sont malreprésentées
et on ne
peut
rien inférer de leurposition
relative. Leuropposition
sur legraphe
netraduit pas forcément une corrélation
négative.
Eneffet,
RSACCHAROSE, croquant = 0.06.Dimension 1
FIGURE 4
Représentation
des variables par la méthode PREFMAPsur les données chocolat
(rF1,F2 = -0.805)
FIGURE 5
Représentation
des variables sur les données chocolat(rFl,F2 = -0.805)
3.2.
Interprétation
simultanée dugraphe
des individus et dugraphe
des variables Méthode PREFMAP-PLS(figure 5).
Comme enACP,
dansl’interprétation
simultanée du
graphe
des individus et desvariables,
onprend
encompte
defaçon privilégiée
les variables bienreprésentées. Ainsi, l’opposition majeure
révélée par legraphique
de lafigure
3(entre
les chocolats A etC)
concerne, certes, l’ensemble des variables maisplus particulièrement
les variables bienreprésentées
comme parexemple sucré, vanille, astringent,
Scacao et à undegré
moindre les variables les moins bienreprésentées : SACCHAROSE, MATIÈRE
GRASSE et croquant. Cecipeut
être contrôlé par la différence entre les valeurs centrées réduites des chocolats A et C. Les différences sont toutesimportantes
en valeur absolue mais à undegré
moindre pour les trois variables
SACCHAROSE, MATIÈRE
GRASSE et croquant(voir
la dernièreligne
du tableau1).
Méthode PREFMAP
(figure 4).
Legraphique suggère
quel’opposition
entred’une part croquant et SACCHAROSE et d’autre
part MATIÈRE
GRASSE ne concernepas
l’opposition
entre lesproduits
A et C.Or,
le tableau 1 montre quel’opposition
entre les
produits
A et C est bien réelle pour ces troisdescripteurs
même si cetteopposition
estplus
forte pour d’autresdescripteurs.
4. Conclusion
L’interprétation
dugraphique
issu de la méthode PREFMAP n’est pas sansrisque
du fait de sa ressemblance avec le
graphe
du « cercle des corrélations ». Legraphe
PREFMAP-PLS annule ce
risque,
ne serait-ce que par saspécificité graphique
maissurtout
grâce
à l’informationcomplémentaire exprimée
par les courbes de niveau dequalité
dereprésentation.
Bibliographie
Carroll J.D.
(1972),
IndividualDifferences
and MultidimensionalScaling,
in R.N.Shepard,
A.K.Romney,
and S.B. Nerlove(eds.),
MultidimensionalScaling : Theory
andApplications
in the Behavioral Sciences(Volume 1),
New York :Seminar Press.
Carroll J.D.
(1980),
Models andmethods for
multidimensionalanalysis of preferential
choice
(or
otherdominance)
data in E.D.Lantermann andH.Feger (Eds.), Similarity
andChoice,
pp. 234-289. Bern : Hans Huber.Carroll J.D. et
Chang
J.J.(1970), Analysis
of individual differences in multidimen- sionalscaling
via anN-way generalization
of« Eckart-Young » decomposition.
Psychometrika, 35, 283-319.
Pagès
J. et Husson F.(2001), Inter-laboratory comparison
of sensoryprofiles.
Methodology
and results. FoodQuality
andPreference, 12,
297-309.Pagès
J. et Husson F.(submitted)
INDSCAL Model :geometrical interpretation
andmethodology. Computational
Statistics and DataAnalysis.
Spad (2001), Logiciel
distribué par le Decisia.Tenenhaus M.