R EVUE DE STATISTIQUE APPLIQUÉE
B. E SCOFIER J. P AGES
Méthode pour l’analyse de plusieurs groupes de variables.
Application à la caractérisation de vins rouges du Val de Loire
Revue de statistique appliquée, tome 31, n
o2 (1983), p. 43-59
<http://www.numdam.org/item?id=RSA_1983__31_2_43_0>
© Société française de statistique, 1983, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
43
METHODE POUR L’ANALYSE DE PLUSIEURS GROUPES
DEVARIABLES - APPLICATION
A LACARACTERISATION
DE VINS ROUGES DU VAL
DELOIRE
B. ESCOFI ER
(*)
J. PAGES(**)
1. INTRODUCTION
Nous proposons ici une méthode
d’analyse
de tableaux de données croisantun ensemble d’individus et
plusieurs
groupes de variables. Il est très courant d’étu- dier cetype
de tableauxqui peuvent comprendre
des variablesnumériques,
ou desvariables
qualitatives.
L’unité d’un groupeprovient
de ce que les variablesqui
leconstituent se réfèrent à un même
thème,
à une même date...Dans
l’exemple qui
nousguidera
au cours de cetteprésentation,
les individus sont 19 vinsproposés
à desdégustateurs professionnels.
Ces vins sontjugés
selon21 critères
qui
serapportent
aux trois sens de la vue, de l’odorat et dugoût.
Lenombre de critères pour chacun de ces trois sens est
respectivement
de5,
9 et 7.Le tableau étudié
prend
encompte
les moyennes des "notes" attribuées à cesvins par les 24
dégustateurs.
Les
questions
que l’onpeut
se poser devant cetype
de tableau sont diverses et ont donné lieu à des méthodes très différentes. Citons parexemple l’analyse multicanonique (Carroll),
la méthode STATIS(Escoufier) [4
et6].
Nous abordons l’ensemble de ces
questions,
et proposons une solution op- timale(en
un certainsens)
àchaque problème.
Nous aboutissons à une méthodeunique,
basée sur uneanlayse
encomposante principale
du tableau de données.Dans cette
analyse,
pouréquilibrer
le rôle des groupes devariables,
chacun d’entreeux est
pondéré.
Les résultats obtenuspermettent
enparticulier
unereprésentation
graphique
cohérente : .- du nuage d’individus
(ici
lesvins)
défini par l’ensemble desvariables ;
- de nuages d’individus définis par
chaque
groupe de variables(ici
3nuages) ;
- du nuage des
variables ;
- de
points (ici 3) représentant chaque
groupe de variables.L’exposé complet
de la méthode se trouve dans[3].
Nous nous contentons ici d’en exposer lesprincipes
et de commenter unexemple d’application.
2. NOTATIONS
Le tableau de données X croise un ensemble d’individus noté
I,
et un en- semble de variables noté K. Ce dernier est divisé en J groupesnotés Kj,
définissant ainsi Jsous tableaux
notésXj.
(*) IRISA, Campus de Beaulieu, avenue du Général Leclerc, 35042 Rennes Cédex.
(**) ENSAR, 69 route de Saint Brieuc, 35042 Cédex.
Revue de Statistique Appliquée, 1983. vol. XXXI, n° 2
Mots-Clés :
Analyse
encomposantes principales, Analyse
descorrespondances
mul-tiples, Analyse multicanonique, Comparaison
de tableaux.44
A
chaque
groupe de variablesKj, correspond
un nuage d’individus situé dansl’espace RKj.
On noteNjl
ce nuage etij
lepoint représentant
i dans ce nuage.Des
poids peuvent
être affectés aux individus et aux variables. Nous notonsrespectivement
D et M les matricesdiagonales
despoids pi
des individus et despoids mk
des variables etMj
la matricediagonale
despoids
des variables du groupeKj.
Nous notons
Wj
leproduit XjMjXj
oùest
latransposée
deXj.
C’est lamatrice d’inertie du nuage des variables du groupe
Kj.
Nous notons de mêmeW =
XMX’.
3. COMPARAISON DES NUAGES D’INDIVIDUS A L’AIDE D’UNE REPRE- SENTATION SIMULTANEE
Dans
l’exemple,
nous sommes enprésence
de 3 nuagesreprésentant
les19 vins
jugés
selon des critèresvisuels,
olfactifs etgustatifs.
Un desproblèmes posés
dans l’étude de cetype
de tableau est lacomparaison
de ces nuages. Plusprécisément,
on souhaite savoirsi, généralement,
deux vinsproches
dupoint
devue de l’oeil le sont aussi du
point
de vue du nez et dugoût.
Si cette situation estréalisée,
il sera intéressant de mettre en évidence desexceptions.
Une autrefaçon
d’aborder ce
problème
consiste à rechercher des dimensions communes à ces trois nuages(i.e.
des "facteurscommuns").
Une
représentation
simultanée de ces trois nuages sur des espaces depetite
dimension
permet
derépondre
enpartie
à cesquestions,
à condition que cetteRevue de Statistique Appliquée, 1983. vol. XXXI, n° 2
45
représentation possède
certainesqualités.
Plusprécisément
il estpossible
dedégager
4
propriétés
essentielles pourqu’une
tellereprésentation
simultanée soit utilisable :P(l)
Lareprésentation
dechaque
nuage d’individus doit être uneprojection
de cenuage.
P(2)
Laqualité
dereprésentation
de chacun de ces nuages doit être assezbonne ;
cette
qualité
est mesurée par lepourcentage
d’inertie extrait par laprojec-
tion.
P(3)
Lespoints représentant
le même individu dans chacun des nuages doivent être assezproches.
Cecipermet
dedégager
des facteurs communs, s’il enexiste,
et de faciliter lacomparaison
despositions
des individus dans les dif- férents nuages.Il est évident que les deux dernières
propriétés
nepeuvent généralement
pas être
optimisées
simultanément etqu’il
faudra trouver uncompromis
entreelles. En
effet,
la meilleurequalité
dereprésentation
de chacun des nuages sur unplan
est donnée par les deuxpremiers
facteurs del’analyse
des variables de songroupe. La
superposition
de cesplans
nepermet
pas de comparer facilement les nuages : une ressemblancepeut
êtremasquée
par une rotation ou une inversion dans l’ordre des facteurs. Al’opposé,
unereprésentation
où tous lespoints
seraient confondusoptimiserait
lapropriété P(3)
mais n’aurait aucun intérêt.P(4)
Pour faciliter lacomparaison
des nuages, surtout s’ils sont asseznombreux,
il est nécessaire
qu’apparaisse
aussi laprojection
d’un nuage"moyen"
compromis
entre tous les nuages. Pour que ce nuagejoue
bien son rôle decompromis
il faut que chacun de sespoints
soitprojeté
au centre degravité
des
points homologues
de tous les nuages.Solution
proposée
Considérons
l’espace RK engendré
par l’ensemble de toutes les variables.Cet espace, muni de la
métrique diagonale
despoids
des variables. est la sommedirecte de J sous-espaces,
isomorphes
aux espacesRKj,
etorthogonaux
entreeux. Il est ainsi
possible
deplonger
les J nuages.NiI,
situés dans lesR Kj
dans lemême espace
R .
Cettereprésentation
estartificielle, puisque
ces nuages évoluent dans des sous-espacesorthogonaux
entre eux, mais servira de base à leurreprésen-
tation simultanée.
Dans cet espace
R K,
nous pouvons construire un nuage moyen notéN*I compromis
entre les J nuages. Lepoint i* représentant
un individu i dans ce nuage moyen est situé aubarycentre
des Jpoints P représentant
i dans lesnuages8Z’,
Revue de Statistique Appliquée, 1983, vol. XXXI, n° 2
46
Pour obtenir une
représentation
simultanéedes NjI
dans un espace depetite
dimension,
nous allons lesprojeter
sur un sous-espace deR K .
Lapropriété P(l)
sera ainsi
automatiquement
vérifiée et laprojection
du nuage moyen sur ce mêmesous espace assure la réalisation de la
propriété P(4).
Ceprincipe
étantacquis,
seules les
propriétés P(2)
etP(3)
induisent le choix du sous-espace deRK. Or,
ces
propriétés peuvent s’exprimer
en termes d’inertie. Une bonnequalité
derepré-
sentation des
NjI (propriété P(2)) implique
que l’inertie de leurprojection
soitgrande ;
il faut donc que l’inertie de l’union de ces nuages soitgrande.
L’inertiede ce gros nuage
comprenant
1 x Jpoints peut
sedécomposer
selon le théorème deHuyghens,
en une inertie inter et une inertie intra. L’inertie inter est l’inertie des centres degravité
des Jpoints ij représentant
le mêmeindividu,
soit l’inertie du nuage moyenN*I.
L’inertie intra est l’inertie de cespoints ii
autour de leur centrede
gravité
i*.Pourque
cespoints
soientproches
entre eux(propriété P(3)),
il fautrendre cette inertie "intra" faible.
Pour rendre à la fois l’inertie totale
grande
et l’inertie intra faible nous choisis-sons les sous-espaces rendant maximum
l’inertie
inter.Puisque
cette inertie inter est celle du nuageN*I,
nousprojeterons
lesNjI
etN*I
sur les sous espaces engen- drés par lespremiers
axes d’inertie deN*I.
La solution
numérique
est trèssimple.
Eneffet, N*I
seconfond,
au facteurd’homothétie
1/J près,
avec le nuage associé à l’ensemble de toutes les variables.L’analyse
revient à réaliserf analyse
encomposantes principales (s’il s’agit
devariables
numériques)
du tableau X et àprojeter
en élémentssupplémentaires
les individus
ij.
Pour être réellement
utilisable,
cettereprésentation
simultanée doit êtrecomplétée
par des indices mesurant lesqualités
desreprésentations
des nuages et leur ressemblance. Nous enprésenterons quelques
uns dans le commentaire del’exemple.
Remarque
1La
projection
du nuage moyen sur. uJt axe us’écrit,
au facteur1/J près,
F = XMu. Celle d’un nuage
D’( 1
s’écritâi
=XjMu où Xj
est un tableau de dimen- sion 1 x K constitué parXj complété
par des zéros.Si u est un axe
d’inertie,
la dualité del’analyse
encomposantes principales permet
d’écrire le vecteur normé u en fonction de 91où
X’
est letransposé
de X et À la valeur propre associée à Siet u.D’où :
Ainsi,
laprojection
dunuage NiI
dansRK s’interprète
dansl’espace RI
associé au même tableau : à un coefficient
près,
onapplique l’opérateur WjD
aux
composantes principales.
Remarque
2Si
ui
est laprojection de
u sur le sous espaceR Ki et 03B8j l’angle
entre u etui
alors la
projection Fj
deNjI
sur u estégale,
au coefficient cos03B8j près,
à sa pro-jection
suruj.
Revue de Statistique Appliquée, 1983, vol. XXXI, n° 2
47 Bien que la
qualité
dereprésentation
deNjI
soit meilleure surUj
que suru, c’est la
projection
sur uqui
est utilisée dans lareprésentation
simultanée. En effet : lesprojections
surRKj
de deux axesorthogonaux
u etu’ ne
sontgénérale-
ment pas
orthogonales ;
d’autrepart,
lesprojections
sur lesuj
ne vérifient pas lapropriété P(3)
etn’optimisent
pasP(4).
Remarque
3Dans le cas de groupes réduits à une seule
variable,
la méthodeproposée
dans ce
paragraphe
estidentique
à uneanalyse
encomposantes principales
normée.4. COMPARAISON DES NUAGES DE VARIABLES
Le
paragraphe précédent
nous a conduit à uneanalyse
encomposantes prin- cipales
de l’ensemble des variables. Cetteanalyse
inclut unereprésentation
desvariables
qui permet
d’étudier les corrélations entre variables de même groupe mais aussi entre variables de groupes différents. On effectue ainsi une compa- raisonpoint
parpoint
des nuages de variables.Une autre
approche,
consiste à caractériser les groupes de variables par leurscomposantes principales.
Une A.C.P. de ces
composantes, pondérées
par leurinertie,
est un moyen efficace pour comparer les groupes de variables.Or,
cetteanalyse
estéquivalente
à celle de l’ensemble des variables. Il suffit donc d’introduire les
composantes principales
des groupes de variables en tantqu’élément supplémentaire
de l’ana-lyse
de l’ensemble des variables.5. ANALYSE DES LIAISONS ENTRE LES GROUPES DE VARIABLES
Nous
adoptons
maintenant un tout autrepoint
de vue : celui del’analyse canonique généralisée,
dont le but est de rechercher des combinaisons linéaires des variables dechaque
groupe lesplus
liées entre elles. Latechnique
laplus
clas-sique,
basée sur une idée de Carroll[1
et5] passe
par l’intermédiaire de variablesgénérales
liées à l’ensemble des groupes. La mesure de liaison entre une variable et un groupe est le coefficient de corrélationmultiple.
Lapremière
variablegénérale
est la variable rendant maximum la somme des carrés des corrélationsmultiples ;
on calcule ensuite les combinaisons linéaires des variables dechaque
groupe les
plus
corrélées à cette variablegénérale ;
on itère alors leprocédé
enajoutant
une contrainted’orthogonalité
sur les variablesgénérales.
Le choix du coefficient de corrélation
multiple
comme mesure de liaisonprésente quelques
inconvénients car il ne tientcompte
que du sous-espace deRI engendré
par les variables du groupe. Ainsi parexemple,
les variables u etu’
du
graphique
ci-dessous ont le même coefficient de corrélationmultiple
avec lesvariables
(v1, v2)
bien queu’
soit très peu lié à ces variables.D’autre
part lorsque vI
etv2
sont trèscorrélées,
le sous espaceengendré,
et par voie de
conséquence
le coefficient de corrélationmultiple
avec une variablequelconque
est très instable.Revue de Statistique Appliquée, 1983. vol. XXXI. n° 2
48
C’est
pourquoi,
nous proposons de suivre la démarche de Carroll en rem-plaçant
le carré du coefficient de corrélationmultiple
par une autre mesure pourapprécier
la liaison entre une variable u et un ensemble de variables{vk/k
=1, Kj};
cette mesure s’écrit :
Cette mesure croît
lorsque
u, àangle égal
avec le sous espaceengendré
par les vk,s’approche d’une
direction degrande
inertie desvk.
Elle estbeaucoup plus
stable que la corrélation
multiple.
La solution de cette
analyse multicanonique particulière
est trèssimple ;
la variable
qui
maximise la somme des liaisons(telles
que nous venons de lesdéfinir)
avec tous les groupes est clairement lapremière composante principale
de l’ensemble des variables. L’itération avec contrainte
d’orthogonalité
conduitaux
composantes principales
suivantes.Nous aboutissons à la méthode
proposée
auparagraphe
3qui
se trouveainsi enrichie d’une autre
interprétation
etcomplétée
par un indice de liaison entre unecomposante
et un groupe.Les
composantes principales
sont les vecteurs propres de la matrice WD où W est la somme des J matrices d’inertieWj. L’opérateur
associé WD est donc lasomme des
opérateurs WjD. Or,
dansl’analyse multicanonique classique,
lesvariables
générales
sont les vecteurs propres de la somme desopérateurs
deprojec-
tions
orthogonales
sur les sous espacesengendrés
par les variables dechaque
groupe.Le
changement
d’indice de liaison se traduit donc par leremplacement
par lesWjD
de ces
opérateurs
deprojections orthogonales
que nous notonsPj.
Dans la deuxième
phase
del’analyse canonique généralisée
au sens deCarroll,
on
applique
aux variablesgénérales
lesopérateurs
deprojection Pj ;
on obtientainsi les combinaisons linéaires de variables de
chaque
groupe lesplus
corréléesaux variables
générales.
Dans la méthode que nous proposons, nouschoisissons,
à la deuxième
phase, d’appliquer
aux variablesgénérales
lesopérateurs WjD.
Cechoix se
justifie
parplusieurs
raisons :w
déjà
dans lapremière phase
nous avonsindiqué
les rôlesparallèles joués
par les
opérateurs Pj
etWjD
dans la méthode de Carroll et celle que nous pro- posons.. en
appliquant l’opérateur WjD plutôt
quePj,
on obtient des variablesqui représentent
mieux les groupes.En
effet,
onpeut
montrer queWjDu correspond
à une direction deplus grande
inertie quePju. (sauf
dans le cas extrême oùPjU
est colinéaire à un vec- teur propre deWjD, auquel
casPjU
etWjDu
ont des directionsidentiques).
Revue de Statistique Appliquée, 1983, vol. XXX I, n° 2
49
Rappelons
que c’est un soucianalogue qui
nous aguidé
dans le choix de lamesure de liaison utilisée dans la
première phase.
. les variables obtenues
s’interprètent,
à un facteur d’homothétieprès,
commeles coordonnées des
points
du nuageNjI
dans lareprésentation
décrite au para-graphe
3.(le
résultat y est démontré dans la remarque située à la fin de ce para-graphe).
Ceci
permet
d’associer àl’analyse
des liaisons des groupes unereprésen-
tation simultanée des nuages
jouissant
en elle même de bonnespropriétés
et ré-ciproquement.
6. COMPARAISON GLOBALE DES GROUPES DE VARIABLES
Un
point
de vue encore différent réside dans lacomparaison globale
desgroupes de variables :
quels
sont les groupesqui
se ressemblent ? Certains groupespeuvent-ils
être considérés comme intermédiaires entre deux autres ?Cette
comparaison globale
nécessite la définition d’une mesure de distanceou de liaison entre groupes.
Or,
il existe une mesure bienadaptée qui peut
d’ail- leurs être introduite demultiples façons :
parexemple,
on choisira dereprésenter chaque
groupe de variablesKJ
par la matriceW. qui s’interprète,
à lafois,
commela matrice des
produits
scalaires entre lespoints
dunuafe
et comme la ma-trice d’inertie du nuage des variables
Kj
dansl’espace
R . Les matricesWj
appar-tiennent à un espace de dimension
12 que
nous noteronsR 12
et que l’onmunit
duproduit
scalaire induit par leproduit
scalaire D deRI.
Soit :Les matrices
W. auxquelles
nous nous intéressons sonttoujours positives
ou semi définies
positives,
ceproduit
scalaire esttoujours positif
pour cetype
de matrices.Ce
produit
scalaire constitue une mesure de liaison entre les groupes de variables. Ilsuffit,
pour s’en convaincre de considérer les deux casparticuliers
suivants:
- si chacun des groupes ne
comporte qu’une
variable centréeréduite,
ilconduit au carré de leur coefficient de corrélation.
Revue de Statistique Appliquée, 1983. vol. XXXI, n° 2
50
- si l’un des groupes est réduit à une variable centrée
réduite,
il conduit à la mesure de liaison utilisée auparagraphe précédent.
Dans le contexte
d’analyse
factoriellequi
est lenôtre,
afin de comparer facilement lespoints Wj,
il est naturel de lesprojeter
sur un sous-espace depetite
dimension de
RI2. Un ajustement
au moindre carré desWj, équivalent
à uneanalyse
encomposantes principales,
donne une bonne idée des distances entre lesWj
mais aucun élémentd’interprétation
de ces distances.Afin d’obtenir des éléments
d’interprétation
en termes de variables(ou d’individus)
nousproposons
deprojeter
lesW.
sur un sous-espaceengendré
par des éléments deR 2
d’untype
trèsparticulier : des
matrices associées à un groupe de variablescomposé
d’un seul élément. Ainsichaque
vecteur de base du sous-espace
(dans RI2) correspondra
à une variable(dans RI)
et lesproximités
des pro-,jections
deWj s’interpréteront
ens’appuyant
sur ces variables.Nous chercherons donc un
premier
vecteur deRI2
notéZ
1 associé à ununique
vecteur centré normé de RI noté Z1(Z1
= Z1 Dz;).
Le critèred’ajustement
au moindre carré conduirait à chercher un vecteur
Z, rendant
maximum la sommedes carrés des
projections
desWj
associés aux J groupes de variablesKj.
Nousavons
préféré
rendre maximum la somme de cesprojections.
Ceci est licitepuisque,
le
produit
scalaire entreWj
etZ
1 estpositif
etpermet
d’assurer la cohérence avecles autres
points
de vue. Eneffet,
laprojection
deWj
surZl
vaut :Si
Z
1 rend maximum la somme desprojections
desWj(1 j J),
alorsz 1 rend maximum la somme de l’inertie des
projections
desvk (k
EK).
Le vecteurZl est donc la
première composante principale
de l’ensemble des variables et la coordonnées deWj
surZ
1 estégale
à la contribution du groupe devariables j
à l’inertie de cette
composante.
La recherche d’un vecteur
Z2
deRI2 , orthogonal
àZ 1 ,
associé à ununique
vecteur Z2 de
RI, optimisant
le même critère conduit de la mêmefaçon
à la secondecomposante principale
etc.L’analyse proposée
est doncparfaitement
liée auxautres
points
de vue et le calcul desprojections
desWj
se déduit des résultats de l’A.C.P.Les
projections
desWj
sur le sous- espace deRI2
définici-dessus,
étant descombinaisons linéaires d’une même suite de vecteurs de
RI2
associés chacun à unevariable,
sont des sommespondérées
deproduits
scalaires induit chacun par unese ule variable.
Nous
rejoignons
ainsi un tout autreaspect
de lacomparaison
detableaux,
celuiqui
estproposé
dans le modèle INDSCAL[2]
où l’on cherche àdécomposer
un ensemble de matrices de
proximités (ou
deproduits scalaires)
suivant des fac-teurs
qui
leurs sont communs.La méthode
proposée
fournit uneinterprétation géométrique
de la formali-sation et de l’estimation
des paramètres
du modèle INDSCAL : les variables définis-sant le sous espace de
RI
surlequel
onprojette
lesWj
constituent les facteurs communs ; lescoordonnées
desWj
sont lespoids
affectés par chacun desWj
à cesfacteurs.
Revue de Statistique Appliquée, 1983. vol. XXXI, n° 2
51 7. LA PONDERATION DES GROUPES DE VARIABLES
Quel
que soit lepoint
de vueadopté
lors du traitement dutype
de tableauauquel
nousintéressons,
il se pose unproblème
essentiel non abordéjusqu’ici :
la
pondération
des groupes devariables, indispensable
pouréquilibrer
le rôle des différents groupes dansl’analyse (en particulier lorsque
le nombre de variables variebeaucoup
d’un groupe àl’autre).
Nous proposons de
pondérer
les variables d’un groupe par un même coeffi- cient : l’inverse de laplus grande
valeur propre del’analyse
de ce groupe. Cettepondération
a pour effet de rendreégale
à 1 l’inertie maximum dans une directiondonnée des nuages
Kj
de variables(ou tr4 d’individus).
Avec cette
pondération,
un groupecomposé
de deux variables très corréléessera presque
équivalent
à un groupe d’une seulevariable,
alorsqu’un
groupecomposé
de deux variables non corrélées conservera une inertie
égale
à 1 dans les deux directionsorthogonales,
et donc une inertie totaleégale
à 2.Selon les
aspects
de la méthodeproposée
que l’onconsidère,
cettepondé-
ration sert
toujours
le mêmeobjectif
mais de manière différente :a)
Dans lareprésentation simultanée,
elle intervient dans la définition du nuage moyen : le rôle maximum d’un nuagee4j
dans une direction donnée estégalisé.
Bienentendu,
si un nuage aplus
de dimensionssignificatives
que les autres, il influera surplus
de dimensions du nuage moyen. Lapondération joue
aussi unrôle direct sur la
représentation des NiI.
Eneffet,
cettepondération
se traduitdans la
métrique
M deRK,
et sur les nuages par une homothétie. Elle a, sur cesnuages, un effet de normalisation
(basée
sur la direction deplus grande inertie) qui
facilite lacomparaison.
b)
Si l’on considèrel’analyse
encomposantes principales
de l’ensemble des variables en ellemême,
lapondération équilibre
le rôle des différents groupes dans la détermination des facteurs. La détermination d’un facteurs’appuyant
seulement sur l’inertie dans une direction
donnée,
il est naturel de normaliser cette dernière pouréquilibrer
le rôle des différents groupes.c)
Dansl’analyse
des liaisons(analyse multicanonique).
cettepondération
rend
égale
à 1 la liaison maximum entre une variable et un groupe(la
variablela
plus
liée au groupe est lapremière composante principale
dugroupe).
Il estclair que, de ce
point
de vue encore, lapondération équilibre
le rôle des différents groupes. En outre, la valeur de cette liaison devientinterprétable puisqu’elle
estcomprise
entre zéro et un.d)
Dans lacomparaison globale
des groupes, la contrainte que nousimposons
sur le sous-espace sur
lequel
nousprojetons
lesWj
est telle que, seule l’inertie des nuages dans une direction donnéejoue
un rôle dans la détermination du sousespace. Il est donc
normal,
pouréquilibrer
le rôle des groupes,d’égaliser
l’inertiemaximum dans une direction donnée. Dans
l’optique
du modèleINDSCAL,
les facteurs communs étantnormés,
lepoids
maximumpouvant
être effecté à un facteur par un groupe estégal
à 1.(le
facteur serait alors lapremièrè composante principale
dugroupe).
Comme pour la mesure deliaison,
la bornesupérieure
dupoids
fixéepermet d’interpréter
directement la valeur despoids.
Revue de Statistique Appliquée, 1983, vol. XXXI, n° 2
52
8. CAS DES VARIABLES
QUALITATIVES
Jusqu’ici
nous n’avonsparlé
qued’analyse
encomposantes principales
ennous limitant
implicitement
au cas de variablesnumériques.
Or les idéesprésentées peuvent
êtreappliquées
aux variablesqualitatives.
Une variable
qualitative
estéquivalente
à unepartition
de l’ensemble des individus. Elle estreprésentée
par l’ensemble des variables indicatrices des classes de cettepartition
ou par le sous espace deRI qu’elles engendrent.
Un ensemble de variablesqualitatives
est ainsi codé sous forme d’un tableaudisjonctif complet.
Ce
type
de tableau est traitéclassiquement
parl’analyse
descorrespondances, appelée
alorsanalyse
descorrespondances multiples.
Les facteurs sur les individuspourraient
être obtenus par uneanalyse
encomposantes principales,
à condition depondérer chaque
variable indicatrice de manière àégaliser
leur inertie. Cettepondération
estindispensable
pourrespecter
la structure d’une variablequalitative.
Il faut considérer deux cas distincts dans
l’application
de notre méthode auxvariables
qualitatives.
’
a)
Dans lepremier,
un groupe est formé par les variables indicatrices définis- sant une variablequalitative (àvec
lespondérations évoquées ci-dessus). Appliquée
à cette
situation,
la méthode que nous venons deprésenter
conduit exactementaux résultats de
l’analyse
descorrespondances multiples :
les groupes de variables ont tous le mêmepoids ;
les facteurs du nuage moyen sont les facteurs définisen A.F.C. sur l’ensemble des
individus ;
lesreprésentations
simultanées sont homo-thétiques
des facteurs de l’A.F.C. sur les modalités(Il
faut remarquer que deux individusayant
la même modalité pour une variable sont confondus dupoint
de vue de cette variable : les modalités suffisent pour
représenter
les individusvus à travers cette
variable). L’analyse
des liaisons se confond avecl’analyse
multi-canonique.
Il est très satisfaisantd’obtenir,
enappliquant
la méthodeproposée
àce cas
particulier,
exactement la méthodeclassique.
b)
Dans le cas oùchaque
groupe de variables est constitué deplusieurs
variables
qualitatives,
les idéesprésentées s’appliquent
enremplaçant l’analyse
en
composantes principales
du groupeKj
par uneanalyse
descorrespondances.
9. EXEMPLE COMMENTE
Rappelons
que le tableau étudié contient les moyennes des notes attribuées par desdégustateurs
à 19 vins pour 22 critères. Ces critères concernent les 3 sens enjeu
dans de tellesdégustations :
5 concernent la vision
(intensité plus
ou moins forte de lacouleur,
nuanceplus
ou moins
violette...)
9 concernent l’ofaction
(intensité plus
ou moins forte dubouquet
par voiedirecte,
et par voie dite
"rétronasale", aspect plus
ou moins fruité dubouquet...)
7 concernent la
gustation (acidité, astringence...)
1 critère est d’ordre
général :
latypicité.
Nous l’introduirons en tant que variablesupplémentaire.
Revue de Statistique Appliquée, 1983, vol XXXI, n" 2
53 Ces données sont issues d’une vaste étude dont les
objectifs
sont d’avoirune caractéristation
rigoureuse
du milieu viticole et d’étudier l’influence des diffé- rentescomposantes
sur laqualité
et latypicité
des vins. Cette étude a été réalisée par C. ASSELIN et R. MORLAT à l’INRAd’Angers [7].
En
résumé,
le tableauanalysé possède
la structure suivante :X., :
moyenne des notes attribuées par les 24 dégustateursau vin i concernant la variable k.
Allure
générale
du tableau de données9.1. La
pondération
des groupesLa
pondération
des groupes nécessitel’analyse
encomposantes principales
destrois sous-tableaux. L’inertie de la
première composante
estrespectivement :
3.65 pour la vision
(pourcentage
d’inertie72.9) ;
5.61 pour l’olfaction
(pourcentage
d’inertie62.3) ;
5.31 pour la
gustation (pourcentage
d’inertie75.8).
Les
poids
affectés aux variables des groupes olfaction etgustation
sont àpeu
près analogues (bien
que le nombre de variables de ces deux groupesdiffère).
Celui
qui
est affecté aux variables de la vision estplus
élevé.9.2.
Interprétation
des facteursNous
interprétons
d’abordl’analyse
encomposantes principales
de l’ensembledes variables ainsi
pondérées qui
sert de base à tous les autres résultats.Nous limiterons
l’interprétation
aupremier plan
factorielqui représente
75 % de
l’inertie,
lepremier
facteur à luiseul,
avec une inertie de2.71,
enrepré-
sente 63 %.
Le
premier
facteurLa
plupart
des variables sont fortement corréléespositivement
avec ce facteur.Seuls font
exception
lalimpidité, l’aspect
floral ouépicé
dubouquet,
laqualité
des arômes
appréciée
par voie directe et l’acidité. Onappelera
cepremier
facteur"puissance
duvin",
car lapuissance apparaît
comme le dénominateur commun des variablesqui
lui sont très corrélées.Le deuxième facteur
Il oppose essentiellement le vin
n°
10(celui-ci
contribue à 67 % de l’inertie del’axe)
aux autres. Les liaisons entre variablesexprimées
par ce second facteursont dues presque exclusivement à ce vin.
Revue de Statistique Appliquée, 1983, vol. XXX), n° 2
54
Comparaison globale
des groupes de variablesPour comparer les groupes de variables on
dispose
deplusieurs
indices baséssur
l’analyse précédente.
Ils’agit
essentiellement des contributions des groupes de variables. Elles sont résumées dans le tableau suivant :Contributions des 3 groupes aux 2 premiers facteurs
Ces contributions
possèdent plusieurs significations.
a)
Elles montrentl’importance
relative de chacun des 3 groupes dans la détermination desfacteurs, (de
cepoint
de vue ellesapparaissent
comme la sommedes contributions des variables du
groupe). Ici,
les trois contributions sont à peuprès
les mêmes pour lepremier
facteur. Par contre, en cequi
concerne le deuxième facteur la contribution du groupegustation
est très inférieure aux autres.b)
Ces contributionsexpriment
la liaison entre le groupe de variables et le facteur.Rappelons
que la valeur maximum de cette liaison est 1.Ici,
seul lepremier
facteur est très lié au trois groupes de variables. Le second facteur estlégè-
rement lié aux groupes "vision" et "olfaction" mais pas du tout au groupe
"gusta-
tion".
D’ailleurs,
lapremière composante principale
de chacun des 3 groupes est très corrélée avec lepremier facteur ;
par contre la seconde n’est faiblement corréléequ’avec
les seconds facteurs de la vision et de rolfaction.c)
Ces contributions(cf. paragraphe 6)
sont les coordonnées despoints représentant
les groupes dans RI sur les axes associés aux facteurs de l’ACP. Elles conduisent augraphique
suivant :Représentation
des groupes de variables dansR12
axe 2
Ces trois
points
sont bienreprésentés
sur le 1er axe et à fortiori sur leplan
comme
l’indique
le tableau ci-dessus.Qualité
dereprésentation
des groupes de variables dansRI2
Revue de Statistique Appliquée, 1983, vol. XXXI, n 2
55 Il est donc
possible
dejuger
de laproximité
de ces groupes par laproximité
de leur
projection
sur ceplan. Ainsi,
onpeut
dire queglobalement
les 3 groupes sont trèsproches
et induisent des structuresanalogues
sur les vins.Toutefois,
w du
point
de vue dupremier
axe le groupe "vision" est intermédiaire entre les deux autres ;2022 du
point
de vue du deuxième axe les groupes "vision" et "olfaction" sont trèsproches.
d)
Legraphique précédent peut
êtreinterprété
en terme de modèleINDSCAL,
de lafaçon
suivante :- les axes
correspondent
aux facteurs communs ;- les coordonnées sont les
poids. Appliqués
à cesdonnées,
cespoids correspondent
à l’influence des facteurs dans
l’appréciation
des vins par les trois sens.Ici,
lepoids
dupremier
facteur estimportant
et sensiblement du même ordre pour les trois sens.Remarquons
toutefois que c’est pour lagustation
que cepoids
est le
plus grand.
En outre laqualité
dereprésentation
du groupe"gustation"
parce facteur est très bonne
(0,913) :
ce facteur résume bien à lui seul l’ensemble des variables de ce groupe. Cephénomène
est certainement à relier avec le caractère fruste de la"gustation" comparée
aux deux autres sens. Par contre cettequalité
de
représentation
est moins bonne pour les deux autres groupes : des différencesentre les
vins, indépendantes
de sapuissance
sont ressenties par l’oeil et par le nez.Une faible
partie
de ces différences estexprimée
par le deuxièmefacteur,
maisnous verrons ci-dessous que les
représentations
simultanées des vins à travers la vision et l’olfaction sont si différentes pour cefacteur, qu’il
est difficile de l’inter-préter
comme un facteur commun.9.3.
Représentation
simultanée des vins vus par les trois sensRappelons
que dans cettereprésentation, chaque
vinfigure quatre
fois :trois fois en tant que vin perçu au moyen de l’un des sens et une fois en tant que vin perçu
globalement.
Pourchaque
vin ce dernierpoint figure
au centre degravité
des trois
premier.
Premier facteur
Les
quatre points représentant
le même vin sontgénéralement proches
entre eux. Ce
fait, qui peut
être aisémentapprécié
parsimple
consultation visuelle duplan factoriel, peut
aussis’exprimer
au travers d’un indice. Eneffet,
en appe- lant :inertie
totale,
l’inertie des 3 x 19points représentant
les vinsappréciés
à l’aided’un seul sens ;
inertie
inter,
l’inertie de leur 19 centres degravité (vins appréciés
à l’aide des troissens).
Le
rapport (inertie inter)/(inertie totale) exprime globalement
laproximité
des
points représentant
le même vin. Pour lepremier facteur,
ce coefficient vaut0,914.
Ainsi,
les échelles depuissance
induites sur les vins par les trois sens sontanalogues.
Ce sont souvent lesexceptions
à larègle générale qui
sont intéressantes :a)
le vin 10 a paru trèspuissant
à l’oeil et moins que moyen au nez.b)
les numéros 7 et 17représentaient
le même vin témoinproposé
en débutet en fin de
dégustation. Globalement,
ce vinparait
moinspuissant lorsqu’il
estRevue de Statistique Appliquée, 1983, vol. XXXI. n° 2