R EVUE DE STATISTIQUE APPLIQUÉE
M. B ENNANI D OSSE
Positionnement multidimensionnel d’un tableau à 3 voies
Revue de statistique appliquée, tome 43, n
o4 (1995), p. 63-75
<http://www.numdam.org/item?id=RSA_1995__43_4_63_0>
© Société française de statistique, 1995, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
POSITIONNEMENT MULTIDIMENSIONNEL D’UN TABLEAU À 3 VOIES
M. Bennani Dosse Laboratoire
d’Analyse
des Données Université RENNES 2 Haute Bretagne6 avenue Gaston
Berger
35043 RENNES CEDEX E-mail:Mohamed.Bennani@uhbfr
RÉSUMÉ
Nous proposons une méthode nouvelle de
positionnement
multidimensionnel permettant dereprésenter graphiquement
un tableau à 3 voies où les troisvoies jouent
des rôlessymétriques
et où la donnée est
exprimée
en termes de différence ou de ressemblance. Nousprésentons
unexemple
de données réelles illustrant la méthodeproposée.
Mots-clés : dissimilarité, similarité,
dépliage métrique
à 3 voies.ABSTRACT
We propose a new Multidimensional
scaling
method which represents3-way
tableswhere all of the three ways are of
equal
consideration from thepoint
ofexploratory
dataanalysis
and whose elements areinterpreted
as measures ofproximity.
The treatment of realdata is
performed
to illustrate theproposed
method.Keywords : dissimilarity, similarity, 3-way
metricunfolding.
1. Introduction
Dans cet
article,
nous nous intéressons à des données mettant en relation trois ensemblesd’objets,
que nous noteronsI,
J etK,
où àchaque triplet (i,j, k)
deI x J x K est associé un nombre mesurant leur
«lien», proximité,
ressemblance oudifférence.
De nombreux tableaux à 3 voies
(ou
à 3entrées) XIJK peuvent
être vus comme décrivant de cettefaçon
la relation entreI,
J et K. C’est notamment le cas des tableauxd’opinions (ou
denotes),
oùchaque
individu(ensemble K) exprime,
par une note, sapréférence plus
ou moinsgrande
pour certainsobjets (ensemble J)
suivant certainescaractéristiques (ensemble I).
C’est aussi le cas des tableaux de
contingence
à 3 voies où àchaque
modalitéi de la variable
I,
àchaque modalité j
de la variable J et àchaque
modalité k de la variable K on associe le nombre nijk d’individuspossédant
simultanément ces troismodalités. Le nombre nijk mesure alors la ressemblance entre les trois modalités
i, j
et k.
Pour
analyser
de tellesdonnées,
la démarcheclassique
consiste àprésenter
letableau à 3 voies comme un tableau
rectangulaire (à
2voies),
et ce de trois manières différentes :(I
xJ)
xK,
I x( J
xK)
ou(I
xK)
x J.Or,
souvent, cette démarcheprésente
deux inconvénients. D’unepart,
toutes les entrées ne sont pas traitées surun même
pied d’égalité
cequi
entraine uneasymétrie
dansl’importance
accordéeà chacun des trois
ensembles,
et donc unepartie
de l’information contenue dans les donnéesrisque
d’êtreperdue.
D’autrepart,
on n’a pas lapossibilité
d’avoir unereprésentation
simultanée satisfaisante(c’est-à-dire gardant
toutel’information)
deces trois
ensembles,
cequi
estparfois regrettable.
Pour effectuer une
analyse
faisantjouer
le même rôle aux troisentrées,
troisapproches peuvent
êtreenvisagées :
- La
première
revient à fairel’analyse
factorielle descorrespondances (AFC)
dutableau de Burt associé à
XIJK qui, rappelons le,
s’écrit :Tableau de Burt associé à
XIJK
où :
- Les tableaux non
diagonaux XIJ, XIK
etc.correspondent
aux marges binaires.- Les tableaux
diagonaux
n’ont des masses non nulles que sur leurdiagonale,
ces masses
correpondant
aux marges d’ordre unXI, X J, XK,
surl,
J et Krepectivement.
Cette
première approche
faitjouer
un rôlesymétrique
aux trois ensembles mais ne tientcompte
que des interactions d’ordre un et deux et non de l’interaction d’ordre trois.- La deuxième
approche
est basée sur des modèlesqui généralisent
lapropriété
de la
décomposition
en valeurssingulières.
Parmi cesmodèles,
onpeut
citer TUC- KALS de Tucker[15],
PARAFAC de Harshman[8],
CANDECOMP de Carroll etChang [4]
ou encore le modèle ROCKET FORM de Denis et Dhome[7].
Outre leur
complexité,
dûe entre autres à l’utilisation de calcul tensoriel d’ordre3,
aucun de ces modèles ne
permet
unereprésentation
simultanée des trois ensembles.- La troisième
approche, qui
faitl’objet
de cepapier,
est basée sur la notion de distance à 3 voies introduite parJoly
et Le Calvé[ 12]
et étudiée dans[2].
Cette notionconstitue une extension « à 3 voies » de celle de distance. Dans le
paragraphe
suivantnous
rappelons
brièvement la notion de distances à 3 voies et dans leparagraphe
3nous donnons une
généralisation
du modèle dedépliage.
Dans le dernierparagraphe
nous donnons un
exemple d’application
où nous comparons notre méthode avec lapremière.
2. Distances à 3 voies
2.1.Définitions
On considère un ensemble E
fini,
nonvide,
de cardinal n. C’est l’ensemble des éléments que l’on désirereprésenter, classer, interpréter.
On notera ses éléments par{1,2,...,i,j,k...,n}.
On définit sur E une relation de dissemblance à 3 voies T de la
façon
suivante :à
chaque triplet (i, j, k)
deE3
on associe un nombrepositif,
notéTijk,
mesurant leur«différence». Plus la valeur de
Tijk
estgrande plus
les trois élémentsi,j
et k sontconsidérés comme
différents, éloignés
ou écartés.Remarque
1 Cette relation de dissemblance est définie sur destriplets
d’élémentsd’un même ensemble E. Le cas où les éléments
appartiennent
à trois ensembles distincts seradéveloppé
dans la suite.Définition 1
(Joly-Le
Calvé[12])
Une
application
T deE3
dansR+
est une distance à 3 voies sur E si etseulement
si,
pour touti, j, k,
1 de E elle vérifie les 5 axiomes : 1.Tijk=0 i = j = k
2.
Tij k = T03C3(i)03C3(k)
pour toutepermutation cr
sur(i,j, k}
3.
Tiij
=Tijj
4.
Tiij ~ Tijk
5.
max(Tijk, Tijl) ~ Tilk
+Tjlk
1. est l’axiome de
propreté,
2.indique
lasymétrie :
la distance entre 3 élémentsne
dépend
pas de leur ordre deprésentation.
3. annonce un lien entre certaines distances à 3 voies et à 2 voies(on
montre queTiij
est une distance à 2voies).
Dansle
quatrième
axiome onimpose
que la distance entre trois éléments soitsupérieure
ou
égale
à celle entre deux de ces trois éléments. Enfin le dernier axiome est unegénéralisation
del’inégalité triangulaire
à un tétraèdre.Comme dans le cas
classique
à 2voies,
si on relache certains axiomes(1,4
et5)
nousparlons
alors de dissimilarité à 3 voies.Définition 2
(Bennani [2])
Une
application
T deE3
dansR+
est une dissimilarité à 3 voies sur E si et seulementsi,
pour touti, j, k,
l deE,
on a :1.
Tiii
= 0 .2.
Tij k = T03C3(i)03C3(j)03C3(k)
pour toutepermutation cr
sur{i, j,k}
3. Tiij = Tijj
2.2.
Représentation
euclidienneUn des
problèmes qui
se pose dans l’étude des distances à 3 voies est celui de lareprésentation
euclidienne. Plusprécisément,
étant donnée une distance(ou plus généralement
unedissimilarité)
à 3 voies T surE,
nous cherchons àreprésenter
les éléments de
E par n points Ml, M2,..., Mn
dans un espace euclidien de faible dimension defaçon
que la distance entreMi, Mj
etMk,
notéeDijk (distance qui
sera définie dans la
suite), approche
«au mieux » laquantité Tijk.
Il est clair que suivant le sens que l’on donne d’une
part
à laproximité
entre Det T et d’autre
part
à la distance à 3 voies D on ouvre la voie à différentestechniques
de résolution.
Donner un sens à la
proximité
entre T et D revient à choisir une mesurede
proximité
entre tableaux de dissimilarité. Nous utilisons la fonctionperte (loss function) :
où wijk
désigne
lapondération
associée à laquantité Tijk.
L’introduction de wijkpermet
de traiter leproblème
dans le cas, parexemple,
où certaines dissimilarités sontmanquantes
ou on n’est pas sûr de leur mesure. On supposera que wijk =w03C3(i)03C3(j)03C3(k)
pour toutepermutation a
de{i, j, kl.
Pour mesurer la distance entre trois
points, plusieurs
choix sontpossibles [2].
Nous
présentons
ici le modèlepérimètre
euclidien : la distance entreMi, Mj
etMk
est
égale au périmètre
dutriangle Mi MjMk.
Cette distance s’écrit :où
dij désigne
la distance euclidienne entreMi
etMj.
On démontre que D vérifie tous les axiomes d’une distance à 3 voies.Nous considérons donc le
problème d’approximation (P) :
Etant donnée une dissimilarité à 3 voies T sur
E,
trouver uneconfiguration
X =
(Xil)
de npoints
dans un espace euclidien de dimension p, pfixé,
minimisantla somme :
où :
Nous supposons
(sans perte
degénéralité)
que la matrice X est centrée.Pour
approcher
une solution auproblème (P),
nous proposons une méthode itérative basée surl’approche
de«Majorization» [6].
Cette méthode est unegénéra-
lisation de SMACOF
[11].
2.3.
Algorithme
En
développant l’expression
decr(X)
on obtient :où :
avec :
Pour décrire
l’algorithme,
il estconimode
d’écrire les fonctions03B1(X), 03B2(X)
et
7(X)
sous une forme matricielle. Pour une démonstration des différents résultats cités le lecteurpeut
consulter[2].
Proposition
1 Soit V la matrice carréesymétrique
d’ordre n définie par :Alors :
Proposition
2 SoitB(X)
la matrice carréesymétrique
d’ordre n définie par :Alors :
Proposition
3Soit 03BE (X )
la matrice carréesymétrique
d’ordre n définie par :avec :
Alors :
Finalement la fonction
perte
s’écrit donc :avec :
Il est facile de voir
(cf [2])
que la matrice 4 est semi-définiepositive
de rangn - 1 et que le vecteur en, vecteur n x 1 dont toutes les
composantes
valent1,
estvecteur propre de A associé à la valeur propre zéro.
Proposition 4
L’inversegénéralisée
de Moore-Penrose deA(X)
est donnée par :Grâce à ces résultats
préliminaires, l’algorithme
s’écrit :Partant d’une
configuration
initialeXo,
nous construisons la suiteXl, X2,
... ,xk,... par :
On démontre que la suite
(03C3(Xk))
estconvergente.
Remarque
21. Pour faire démarrer
l’algorithme,
on a besoin d’uneconfiguration
initialequi peut
être soit fixée par l’utilisateur soitgénérée
d’unefaçon
aléatoire.2. Comme dans le cas de la
quasi-totalité
desalgorithmes
utilisés en «Multi-dimensional
Scaling»,
on n’est pas assuré d’obtenir un minimumglobal.
Onpeut cependant,
en tirantplusieurs configurations initiales,
retenir la solutionqui
fournit la fonctionperte
minimale.3. Modèle de
dépliage métrique
à 3 voiesDans cette
partie
nous proposons une extension à 3 voies du modèle dedépliage métrique
à 2 voies en utilisant les notionsrappelées
dans lesparagraphes précédents.
Soit Y un tableau à 3 voies défini sur I x J x K. Nous supposons que
Yijk exprime
une dissimilarité entre trois élémentsi, j
et kappartenant
à trois ensemblesdisjoints.
Si la donnée estexprimée
en terme de ressemblance ou de similarité on seramènera au cas
précédent
en considérant une transformation décroissantesimple,
par
exemple
dutype
C -Yijk,
C étant une constanteadéquate.
La méthode que nous proposons
s’inspire
del’approche
dite du«unfolding
metric
problem» (problème
de lamétrique dépliée)
pour des distances à 2 voies introduite initialement par Coombs[5]
dans le cadre euclidienunidimensionnel, généralisée
au cas multidimensionnel parHays
et Bennet[9].
Cetteapproche
a donnélieu à une littérature abondante
(voir
parexemple [2], [10], [14]).
Le
principe
de la méthode estsimple :
nous considérons le tableau Y comme unsous-tableau extrait d’un cube T défini sur
E3 où
E = I U J U K. A ce cube T nousassocions une dissimilarité à 3
voies,
notée aussiT,
danslaquelle
les relations entre les éléments d’un ensemble(I,
J ouK)
ou entre deux ensembles sont inconnues.Notons que dans ce cas la situation est
beaucoup plus complexe
que dans le cas à 2 voies où on connait les relations entre deux ensembles I et J mais où les relations entre les éléments de I ou entre les éléments de J sont inconnues.Notre
problème s’exprime
donc : trouver despoints Ni,
i EI, Pj, j
E J etQk, k
E K tels que :D ( Ni , Pj, Qk) (périmètre
dutriangle NiPjQk) approche
ausens des moindres carrés la
quantité Tijk.
Pour faire un tel
positionnement
multidimensionnel de Y nous utilisonsl’algorithme d’approximation
d’une dissimilarité à 3 voies par le modèlepérimètre
euclidien où on pose Wijk = 0 si la
quantité Tijk
est inconnue :Les dissimilarités inconnues sont choisies arbitrairement
puisque
leurpoids
est nul.4.
Application
Pour illustrer la méthode
proposée,
nous considéronsl’exemple
suivant tiré de[13].
Ils’agit
d’uneexpérience psycho-sensorielle
où unjury composé
decinq professionnels
a évalué dix variétés de foies gras selonquatre
critères :- La
présentation générale
ouaspect (notée
sur2)
- La
présentation
de la coupe(notée
sur4)
- L’odeur
(notée
sur4)
- Le
goût (noté
sur15)
L’exemple
a un caractèrepédagogique
étant donné le nombre restreint dedégustateurs.
Nous considérons
qu’une
note reflète une mesure de ressemblance ou similarité S sur letriplet
constitué par(foie
gras,critère, dégustateur).
Pour déduire une dissimilarité T d’une similarité S donnée(et réciproquement),
de nombreuses transformations sontproposées
dans la littérature. Parexemple :
où C est une constante
adéquate.
Afin de
prendre
encompte
les différences de niveau entre notes, nous avonsopté
pour la transformation :où
Ci
est la note maximale pour le critère i.Sur la
figure 1,
nous avonsreprésenté
laconfiguration
obtenue en dimensiondeux avec une fonction
perte
de0,1 (sur
des donnéesnormées).
Les critères sont notés{ Asp, Cop, Odr, Goû}
pour{Présentation générale,
Présentation de la coupe,Odeur,
Goût};
les foies gras sontdésignés
par un nombre entre 1 et10;
enfin lesdégustateurs
sont notés
{J1, J2, J3, J4, J5 }
pour{Dégu1,Dégu2,...,Dégu5}.
Sur la
figure
1 on a unereprésentatiori
simultanée(au
sens dudépliage métrique)
où il est
possible
de lire aussi bien laproximité
entre les foies gras, lesdégustateurs
et les critères que les
proximités
entre les foies gras ou entre lesdégustateurs
ou entreles
dégustateurs
et les foies gras etc.Sur le
graphique
ci-dessous on constate que les foies gras4,
6 et 8 ont étéappréciés
par l’ensemble desdégustateurs (en particulier J1). Signalons
que, dans l’article deLavialle, Qannari
et Vidal[13],
ces 3produits
ont été classé en tête par toutes les méthodes de classementexposées
dans leurpapier. A l’opposé
les foiesgras
5,
2 et 9 ont étéglobalement
malappréciés (Ces produits
ont été lesplus
malclassés dans l’article cité
précédemment.
Sur la
figure 1,
on remarque aussi que J3 sedistingue
des autresdégustateurs
(J3
aplutôt
bienapprécié
les foies gras5,
3 et 1 cequi
n’est pas le cas pour les autresdim 1
FIGURE 1 :
Plan 1-2 du modèle de
dépliage métrique
à 3 voiesdégustateurs).
Dans un travailpublié
par ADAMES(cf [1])
et utilisantl’analyse
descorrespondances
avec différentscodages,
lasingularité
dudégustateur
J3 aégalement
été mise en évidence.
Ce
type
de remarques est intéressant à relever car ilpermet
desegmenter
lapopulation
des consommateurs en fonction de leurspréférences
pour,éventuellement,
proposer différentsproduits adaptés
aux différentssegments.
Pour mesurer la
qualité
del’approximation,
onreprésente
lediagramme
deShepard (figure 2)
danslequel
on visualise la relation existant entre les dissimilarités dedépart
et les distances à 3 voies reconstituées.dissimilarites initiales
FIGURE 2 :
Diagramme
deShepard
Comparaison
avec l’AFC du tableau de BurtLa
figure
3 donne lepremier plan
factoriel(18.16
% de l’inertie dont 9.31% pour le
premier axe )
issu del’analyse
descorrespondances
du tableau de Burt construit àpartir
des similarités :On constate que cette
figure
est très voisine de lafigure 1,
cequi
sous-entend que sur cetexemple
l’interaction d’ordre 3 est relativement faible.dim 1
FIGURE 3 :
Plan 1-2 issu de l’AFC du tableau de BURT
5. Conclusion
Tous les tableaux à 3 voies
pouvant s’interpréter
en termes de dissemblanceou de ressemblance
peuvent
êtrereprésentés
par notreapproche.
Onpeut
penser aux tableauxexprimant
directement une dissimilarité entre trois ensembles.Mais on trouve
beaucoup
de tableauxexprimés
en terme de similarité tels les tableaux depréférence
où la donnéeSijk
est uneappréciation
entre un consommateuri,
unproduit j
et un critère k. D’unefaçon générale
rentrent dans cettecatégorie
tousles tableaux
d’opinions (ensembles d’objets,
ensembles decritères,
ensembles dejuges
etopinion).
Une
catégorie particulière
est formée par les tableaux decontingences
à 3 voies S où
Sijk peut
être considérée comme une mesure de similarité entre les trois modalitési, j
et k.Quand
le tableau de donnéespeut s’interpréter
en ces termes alors l’utilisation de notreapproche
fournit de nombreuxavantages :
- on obtient une
représentation (euclidienne)
simultanée des trois ensembles- on
peut
extraire lesreprésentations séparées
dechaque
ensemble- on accorde la même
importance
aux trois ensembles : on neprivilégie
pas uneentrée sur une autre
’
- la
comparaison
entre les données initiales et cellesreprésentées
est facile.Remerciements
Je remercie les
rapporteurs
de cet article et P. Cazes pour leurs nombreuses remarquesqui
ontpermis
d’améliorer ce travail.Références
[1] ADAMES
G. - Foie gras et tradition :analyse
des résultats d’un concours. Les cahiers del’Analyse
desDonnées,
vol.18, n°4,
1993.[2]
BENNANI DOSSE G. -Analyse métriques
à 3 voies. - Thèse de Doctorat - Université de Rennes 2 HauteBretagne,
1993.[3]
BROSSIER G. - Etude des matrices deproximité rectangulaire
en vue de laclassification. Revue de
Statistique Appliquée,
vol.35, n°4,
1986.[4]
CARROLL J.D. et CHANG J.J. -Analysis
of individual differences in multidi- mensionalscaling
via an n-waygeneralization of eckart-young decomposition.
Psychometrika,
1970.[5]
COOMBS C.H. - ATheory of Data. -
NewYork, Wiley,
1960.[6]
DE LEEUW J. -Convergence
of themajorization
method for multidimensionalscaling.
Journalof classification,
vol.5,
1988.[7]
DENIS J.B. et DHORNE T. -Orthogonal
tensordecomposition
of3-way
tables.Multiway
DataAnalysis,
1989.[8]
HARSHMANN R.A. - Foundations of theparafac procedure :
models andconditions for an
explanatory
multimode factoranalysis.
UCLAworking papers
on
phonetics,
1989.[9]
HAYS W.L. et BENNET J.F. - Multidimensionnalunfolding : determining configuration
fromcomplete
rank orderpreference
data.Psychometrika,
vol.26, n°2, 1961.
[10]
HEISER W. -Unfolding Analysis of Proximity
Data. - PHD thesis - LeidenUniversity,
1981.[11] HEISER
W. et DE LEEUW J. - How to use SMACOF I.Rapport technique -
Leiden
university,
1977.[12]
JOLY S. et LECALVÉ
G. -Three-way
distances.manuscrit,
1989.[13]
LAVIALLEO., QANNARI
E.M. et VIDAL C. -Agrégation
d’ordre souscontraintes : classement de
produits
àpartir
de données sensorielles. RevueStatistique Appliquée,
vol.38, n°4,
1990.[14]
SCHONEMANN P.H. - On metric multidimensionalunfolding. Psychometrika,
vol.