R EVUE DE STATISTIQUE APPLIQUÉE
Y VES E SCOUFIER
Le positionnement multidimensionnel
Revue de statistique appliquée, tome 23, n
o4 (1975), p. 5-14
<http://www.numdam.org/item?id=RSA_1975__23_4_5_0>
© Société française de statistique, 1975, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
5
LE POSITIONNEMENT MULTIDIMENSIONNEL (1)
Yves ESCOUFIER
Centre de Recherche en
Informatique
et Gestion MONTPELLIERAprès
avoirrappelé
les bases des méthodes depositionnement
multidi- mensionnelqui
conduisent au calcul des vecteurs propres d’une matrice semi-définie positive,
l’articleprésente
lesprocédés qui
sont utilisés pour se ramenerà ce cas
lorsque
la condition depositivité
n’est pasremplie.
Ilprésente
ensuitela méthode
proposée
par Kruskal.1 - INTRODUCTION
1. 1 - Soit 1 un ensemble de n
objets.
Si p caractèresquantitatifs
ont étéobservés sur chacun des
objets,
il est aisé dereprésenter
l’ensemble desobjets
par n
points
d’un espace euclidien E de dimension p : onpeut
parexemple
choisir un
repère
de p axes orthonormés de RP et identifier chacun des axesà l’un des caractères.
Pour mesurer la ressemblance des
objets, l’espace
E est muni d’une mé-trique
euclidienne M. Le choix de cettemétrique dépend
de la nature de l’ensemble 1 et de celle des caractèresqui
ont été observés : le but recherché est que lespoints représentant
lesobjets
soient d’autantplus proches
au sensde la
métrique
Mqu’ils
sontplus
ressemblants pourl’expérimentateur.
1.2 - Le
problème
que les auteurs américains abordent sous le titre de "multi- dimensionnalscaling" (que
nous traduisons"positionnement multidimensionnel") correspond
à uneproblématique rigoureusement opposée
à laprécédente :
dis-posant
d’informations’sur
les ressemblances mutuelles de nobjets,
on chercheune
configuration
de npoints (dans R2
engénéral) qui
soit telle que siles objets
iet j
se ressemblentplus
que lesobjets
Q etk,
on aitdij dkQ (où dij
est la lon-gueur du
segment qui joint
lespoints représentant
lesobjets
i etj).
Ce
problème
se rencontrelorsque
l’étude ne conduit pas à des donnéesquantitatives
individuelles mais directement à une matrice n x n dont l’élément(i , j)
mesure la ressemblance(ou
ladissemblance)
desobjets
i etj.
On
peut également
remarquer que,lorsque
p caractèresquantitatifs
ontété observés sur n
objets,
la recherche d’unereprésentation
utilisable des nobjets
dans leplan
des deuxpremières composantes principales
est sans aucun douteune
technique
depositionnement
multidimensionnel.---
( 1 ) Article remis en Mai 1974, révisé en Mars 1975.
Revue de Statistique Appliquée, 1975 vol. XXIII No 4
6
Le but de
l’exposé
est de montrer lespossibilités
et les limites des diffé- rentes méthodesqui
sontproposées
pour résoudre ceproblème
ainsi que les liensqui
existent entre elles.II - LES METHODES
QUI
CONDUISENT A CALCULER LES VECTEURS PROPRES D’UNE MATRICE SEMI-DEFINIE-POSITIVEII.1 - Pour situer le
problème,
nous reprenons les notations de[3].
SoitX la matrice pxn des p caractères
quantitatifs
observés sur chacun des nn
objets.
Despoids pi(pi>0, 03A3
pi -1)
étant affectés auxobjets,
la ma-i= i
trice X est
supposée
centrée.Xi
est l’élément situé à l’intersection de la colonne i et de laligne j.
Si
(e1 ,
...ep) désigne
la basecanonique
de E =RP,
à l’individu i est associéP
le vecteur de E :
Xi = L. Xki
ek. De la même manière si(f 1 ,
...fn )
est lai= i
base
canonique
de F =Rn,
aucaractère j
est associé le vecteurA
l’objet
i estégalement
associé levecteur f*
deF*,
dual deF,
défmi par :Il
apparaît
alors que la transformation linéaire de F* dans Equi
àf*
faitcorrespondre Xi
a pour matrice associée Xlorsqu’on rapporte
E à la base(e1 , ,...,ep)
et F* à la base(f*1,...,f*n).
De
façon analogue,
aucaractère j
est associé le vecteureu
deE*,
dualde
E,
défini par :et
X’
est la matrice associée à la transformation linéairequi
faitcorrespondre
e*
de E* àXi
deF, lorsqu’on rapporte
F à la base(fi , ... , fn )
et E* à la base Si onchoisit,
pour mesurer la ressemblance desobjets,
lamétrique
euclidienne M sur E et pour mesurer la ressemblance entre caractères la
métrique
euclidienne N surF,
on est conduit au schéma suivant dit "schéma de dualité" :Revue de Statistique Appliquée, 1975 vol. XXIII No 4
7
W =
X’
o M o X est l’écart euclidienqui s’impose
sur F*si on veut que les distances entre
objets
soient les mêmes calculées dans F*et dans E.
(V
= X o N oX’ joue
un rôleanalogue
surE*).
Si la distance entre lesobjets
iet j
est notéedis,
on a :En
particulier
où
Wij
est l’élément(i, j)
de la matrice associée à lamétrique
euclidienne Wquand
ontrapporte
F* et F à leurs basescanoniques respectives.
Remarques :
.- Onprend
engénéral
pour N lamétrique
euclidiennediagonale
Dp (Dp (i , i)
=Pi) ;
ce choix sera fait dans la suite del’exposé.
- Soit
L, (n a , P)
l’ensemble des variables aléatoires centrées de variance finie sur(03A9 , 03B1 , P).
A tout vecteur dont lescomposantes appartien-
nent à
L2 (03A9 , 03B1, P)
l’auteur a associé unopérateur
’U deL2 (S2 , set, P)
enlui-même
[5].
On doit a J.M. BRAUN[2]
d’avoirremarqué
que W oDp joue
sur
F,
le rôle quejoue
’U surL2 ([2 , (X, P).
IL 2 -
Analyse
encomposantes principales
Si p est
supérieur
à 2 et si unereprésentation
utilisable des nobjets
est
souhaitée, l’analyse
encomposantes principales
fournit le sous-espace de E de dimension s p(en général
s =2)
parrapport auquel
le moment d’inertie du nuage des n individus est minimum. Nous ne reviendrons passur cette méthode bien connue. Il est
important
toutefois de noter que, si(À1 ’
... ,Às)
sont les splus grandes
valeurs propres del’opérateur
Wo D p ,
la solution consiste à déterminer s nouveaux caractères
c’ , Dp orthonormaux,
vérifiantWoDp cj
=Xj ci.
La méthode doit son sens à lapositivité
del’opéra-
teur Wo
Dp :
les valeurs propres étantpositives, peuvent
êtreinterprétées
comme des
parts
d’inertieexpliquée
par les caractèrescj auxquels
elles sont as-sociées. La
qualité
de la solution trouvée est alors mesurée par laquantité
Revue de Statistique Appliquée, 1975 vol. XXIII N" 4
8
II.3 -
Analyse
factorielle d’une matrice de similarité semi-définiepositive
Dans certaines
applications
tout oupartie
des caractères observés sontqualitatifs ;
il estpossible
alors de calculer une matrice de similarités ou de dissimilarités entre lesobjets
en utilisant l’unequelconque
des formules de coefficients de dissimilarité ou de similaritéproposés
dans la littérature.D’autres situations
expérimentales peuvent également
se rencontrer danslesquelles
les données initiales sont une matrice de similarités ou de dissi- milarités.L’usage
courant des statisticiens est alors le suivant[6].
Si une matriceS de similarités a été
calculée,
et si cette matrice est semi-définiepositive,
elle
prend
laplace
de la matrice W du schéma de dualité. Unereprésenta-
tion utilisable des individus
peut
alors être obtenue par uneanalyse
en com-posantes principales ;
saqualité
estappréciée
comme en 11.2. Il estclair, d’après
II.1,
que cetteprocédure
revient à définir la distance entre lesobjets Lorsque
les données duproblème
consistent en une matrice 6 de dis- similarités entre lesobjets,
la méthodeproposée
par TORGERSON[15 ]
est de calculer une matrice S par la formule :
avec
Si S est semi-définie
positive,
ellepeut prendre
laplace
de W dans le schéma de dualité et il est facile de voir que la distance utilisée entre lesobjets, qui d’après
cequi précède
estégale
à(Sii
+Sjj
-2 Sij) 1/2
est bien6ij.
Pour l’utilisation de ces
procédés,
il est intéressant de noter les deux résultats suivants :a) lorsque
la matrice S est semi-définiepositive,
on peut affirmer que lesÔij
réalisent les axiomes des distances mais il ne suffit pas que lesbi,
réalisent les axiomes des distances pour que S soit semi-définiepositive.
La
première partie
du résultat est évidentepuisque
S semi-définieposi-
tive est une
métrique
euclidienne sur F* et quePour démontrer la seconde
partie,
il suffitd’expliciter
un ensemblede valeurs réalisant les axiomes des distances mais non réalisable dans un espace réel. Prenons par
exemple quatre points
dont les distances mutuelles sont données par la matrice suivante :Revue de Statistique Appliquée, 1975 vol. XXIII N° 4
9
Ayant placé A,
B et C dans unplan,
il est facile de voir que lessphères
centrées en
A, B,
et C de rayonsrespectifs 1,
2 et 1 n’ont pas depoints
communs.
b)
Si lessix
réalisent les axiomes des distancesultramétriques
alors Sest semi-définie
positive.
La démonstrationqui
suit est due à[7].
On trouveune démonstration très voisine de ce résultat en
[8].
Soit 1 un ensemble
d’objets
surlequel
est donnée une matrice de dis- tancesultramétriques 03B4ij.
Mis àpart
le cas trivial où tous les03B4ij
sontégaux
entre eux, on
peut
trouver unepartition
de 1 en deux sous ensemblesIl
1 et12
tels que
03B4k1
1 = a = max03B4ij
pour toutcouple (k , 1 ) E I1
x12
Ixx 1
Supposons
alorsque Il puisse
êtrereprésenté
par uneconfiguration
de
points placés
sur unehypersphère
deRp 1
de diamètre2r1 VI
max03B4ij.
* Siiixii
l’origine
des axes estplacée
au centre de lasphère,
les coordonnées des pointsde Il
1 sont données par une matriceX 1 , (p,
1x 1111).
Unehypothèse analogue
est faite pour
12
*Pour
représenter
1 choisissons laconfiguration
de coordonnéesoù
Yi
est un vecteur dont les picomposantes
sontégales
àYi.
Pour toutcouple (k , 1) e Il X 12 , on a :
et on
peut
choisirY
1 etY2
de telle sorte queMontrons que les
points
de l’ensemble 1peuvent
êtreplacés
sur unehypersphère
de R Pl + P2 + 1 de diamètre 2 rVIT
max5 - -
=vis
a .1 x 1 ij
/2-
a .Pour que
l’origine
soit àl’origine
des axes, il faut que :D’où :
Soit
En élevant au carré on a :
Revue de Statistique Appliquée, 1975 vol. XXI 11 ? 4
10 soit
et
Par
hypothèse
ri03B1/2 donc
le numérateur est bienpositif.
Le dénomi-nateur l’est
également puisqu’égal
à(Y 1 - Y2 )2 .
Mais on a au ssi :
D’où : Soit :
et
Il en découle
III - LES METHODES
QUI
RAMENENT A L’ANALYSE FACTORIELLE D’UNE MATRICE DE SIMILARITES SEMI-DEFINIE POSITIVE Dans de nombreusesapplications
la matrice S des similarités n’est pas semi-définiepositive.
La méthodeprécédente qui
repose sur lapositivité
des valeurs propres de S n’est donc pas
applicable.
111.1. - Pour tourner la difficulté sans
changer
deméthode,
les utilisateurs font souvent uneanalyse
encomposantes principales
de S en ne retenantque les vecteurs propres associés aux valeurs propres
positives.
Il leur serait bon dans ce cas d’être conscients que cettetechnique
revient àremplacer
S parS*,
semi-définiepositive, approximation
au sens des moindres carrés de S et queTr (S - S*)2 qui
mesure l’écart entre S et S* estégale
à la sommedes carrés des valeurs propres
négatives
de S[ 13 ].
Enparticulier,
les distances réellementprises
encompte
entre les individus sont ici(SD
+Sj) -
2S 1/2
Le résultat b du
paragraphe précédent permet d’envisager
de substituerà une matrice de
dissimilarités,
une matrice de distancesultramétriques.
N’importe quelle
méthode de classificationhiérarchique peut
être utiliséedans ce but. On calcule alors S par la méthode de
Torgerson
àpartir
de la matrice des distancesultramétriques. Quelques expérimentations simples
nousont montré les
imperfections
de ceprocédé.
111.2 - Une idée introduite par
Shepard [14]
est de substituer auxbii
desquantités
6* telles quec2)
la matrice 6* conduit à une matrice S semi-définiepositive.
Revue de Statistique Appliquée, 1975 vol. XXIII No 4
11
Prenant comme
représentation
initiale des nobjets
lespoints
dusimplexe
deRn -1, l’algorithme
deShepard
construit la solution par des déformations successives de cesimplexe.
Deplus,
il tend à diminuer la dimension del’espace
dans
lequel
laconfiguration
se trouve en utilisant leprincipe
intuitif selonlequel
la dimension del’espace
diminuera si la variance des distancesaugmente.
A ce stade de son traitement
Shepard dispose
donc d’unereprésentation
desobjets
dans un espace de dimension p. Uneanalyse
encomposantes principales
lui
permet
d’obtenir unereprésentation approchée
utilisable.Reprenant
cestravaux,
Benzécri[ 1 ]
a établi ce queShepard
avait con-jecturé
à savoirqu’il
étaittoujours possible
de trouver des distances03B4*ij qui
conduisent à une matrice S semi-définie
positive
etqui
soientrangées
dans lemême ordre que les
03B4ij. L’argument
utilisé est unargument
de continuité : si tous les03B4*ij
sontégaux
àl’unité,
S est semi-définiepositive ;
par continuité Ssera semi-définie
positive
si les5M
sont suffisamment voisins del’unité,
condi -tion
compatible
avec le fait que les03B4*ij
doivent êtrerangées
dans le mêmeordre que les
03B4ij.
111.3 - Cette idée de continuité
peut
être rattachée à celle antérieure de"constante additive" introduite par
Torgerson
dans le cas unidimensionnelpuis généralisée
au cas multidimensionnel par Messick et Abelson[voir Torgerson (15)
p. 271 etsqs].
Ils’agit
de trouver une constante c telle que les03B4*ij
=5
+ cconduisent à une matrice S semi-définie
positive.
Onpeut toujours
choisir cassez
grand
pour que les(Ôij
+c)/c
soient aussi voisins de l’unitéqu’on
le veutet donc conduisent à une matrice S semi-définie
positive
parl’argument
deBenzécri. Il est aisé de voir que le résultat reste valable pour les
03B4*ij
=six
+ c.Afin de ne pas dénaturer les
distances,
on cherchera bien sûr une valeur de caussi
petite
quepossible. L’algorithme proposé
par L.G.Cooper [4]
semblemoins
sujet
à caution que celui de Messick et Abelson. Il faut toutefois sou-ligner
ledanger
de cette méthode : si la valeur de c obtenue estgrande
parrapport
auxdistances,
laconfiguration
despoints
est très peureprésentative
des
objets.
Deplus,
dans ce cas,les Si)
sont sensiblementégales,
si bien quel’analyse
encomposantes principales qui
sera faite pour obtenir unerepré-
sentation utilisable ne
peut
que donner une mauvaiseapproximation
dans leplan
de deuxpremiers
vecteurs propres.IV - LA METHODE DE J.B. KRUSKAL
[9,10]
Plutôt que de chercher une matrice S semi-définie
positive puis
unereprésentation
utilisable desobjets
dans un espace de dimensions réduites par uneanalyse
factorielle deS,
J.B. Kruskal cherche directement une con-figuration
dans un espace de dimensions limitéesqui remplisse
la conditioncl
Laprocédure
est la suivante.IV.1 - Considérons une
configuration
de npoints
dans un espace de dimen- sionsk (k
= 2 engénéral)
etsoit {dij/i
=1 ,
...n ; j
=1 ,
...n}
les distances mutuelles despoints.
S’il existe une fonction f monotone croissante sur[0,
+ 00]
telle que
f(6; ) = dij
alors laconfiguration
est une bonnereprésentation
des
objets.
Si F est l’ensemble des fonctions monotones croissantes sur[0,
+00]
et Z l’ensemble descouples d’objets différents,
on est conduit àRevue de Statistique Appliquée, 1975 vol. XXIII No 4
12 chercher
g E
F telle que :En
fait,
laprocédure
consiste à chercher des valeursnumériques 03B4*ij
soit minimum sous les contraintes
L’existence d’une solution pour ce
problème
a été clairement discutée par Kruskal[11] :
: les contraintes définissent unpolyèdre
convexe ferméet la minimisation de la fonction revient à chercher la
projection
du vecteurdes
dij
sur cepolyèdre.
On sait que la solution existe et estunique.
Deplus
de nombreux
algorithmes
sontproposés
dans la littérature traitant de pro-grammation quadratique
convexe pour résoudre ceproblème.
En fait Kruskala
proposé
unalgorithme spécifique [10] qui
al’avantage
d’êtreparticulièrement
efficace.
Il faut noter que cette
approximation
au sens des moindres carrés dequantités dij
par desquantités 8¡j rangées
dans le même ordre que desbij
données est un
problème
derégression
maintenant connu sous le terme derégression
monotone : au lieu de chercherl’approximation
desdij
par unedroite de la forme a
six
+b,
on cherchel’approximation
desdij
par unefonction
f(03B4ij)
monotone croissante.IV.2 - Connaissant les
03B4*ij,
la secondeétape
consiste à mouvoir lespoints
de laconfiguration,
c’est-à-dire à modifier lesdij
defaçon
à minimiser laquantité 03A3 (03B4*ij - dis)2.
Cettequantité
est une fonction des n x k coor-données des
points
de laconfiguration.
Kruskal propose d’en rechercher le minimum parapplication
de la méthode dugradient.
D’autres méthodespeuvent
être retenues.Quoiqu’il
ensoit,
nous ne sommes pas enprésence
d’une fonction des coordonnées
qui
soit convexe si bienqu’on peut
craindre de ne pas trouver le véritableminimum,
mais seulement un minimum local :on ne
peut échapper
à ce genre de difficulté.La solution finale sera obtenue en utilisant en alternance les deux
algo-
rithmes
précédents.
On s’arrêtera soitlorsqu’il
ne seraplus possible
d’améliorer lasolution,
soitlorsque
laquantité
appelée
"le stress" par Kruskal sera suffisammentpetite.
Revue de Statistique Appliquée, 1975 vol. XXI II N° 4
13 V - CONCLUSION
Sur
quatre objets,
munis despoids 1/4,
deux caractèresquantitatifs
ont été observés. La matrice des données est la suivante :
Si on munit E de la
métrique identité,
lapremière composante principale
est Xl. C’est
pourtant X2,
deuxièmecomposante principale qui
donne uneconfiguration
despoints respectant
l’ordre des distances initiales ! Faut-il pour autant renoncer àl’emploi
des méthodes factorielles ? Certainement pascar le contexte
mathématique
danslequel
elles se situentpermet
d’obtenir des informations que ne fournit pasl’analyse proposée
par Kruskal.Alors,
que faire ? Peut-être faut-ilsimplement
rester conscient du faitqu’analyser
desdonnées ne se réduit pas à les traiter par un programme standard mais
plutôt
à les
explorer
par des méthodescomplémentaires.
On ne dirajamais
assezqu’une méthode, quelle qu’elle soit,
ne donnequ’un point
de vueparticulier
sur des données. Pour
approcher
la réalité d’un ensemble dedonnées,
le cher- cheur doitcomprendre,
l’intérêtqu’il
trouve à chercherplusieurs points
devue.
REMERCIEMENTS
Je tiens à remercier très chaleureusement M. J.P.
Pagès
pour les remarques trèspertinentes qu’il
m’a faites au nom du comité de lecture de la revue. Les lecteursqui apprécieraient
cet article devront penserqu’une
bonnepart
deses
qualités provient
dessuggestions qui
m’ont été faites.REFERENCES
[1] BENZECRI
J.P.(1964) - Sur l’analyse
factorielle desproximités pub.
Inst. Stat. Univ.
Paris,
vol.XIII,
p. 235-282.[2]
BRAUN J.M.(1973) -
Sérieschronologiques multiples :
recherche d’in-dicateurs R.S. A, vol.
XX1, n° 1,
p.81,
106.[3] C.E.E.E.
-Analyse
des données multidimensionnelles.[4]
COOPER L.G.(1972) -
A new solution to the additive constantproblem
in metric multidimensional
scaling. Psychometrika,
vol.37, n° 3,
p. 311-322[5] ESCOUFIER
Y.(1970) - Echantillonnage
dans unepopulation
devariables aléatoires réelles. Pub. Inst. Stat. Univ.
Paris,
vol.19,
p. 1 à 47.[6]
GOWER J.C.(1966) -
Some distancesproperties
of latent root and vectormethods used in multivariate
analysis.
Biometrika. vol.53,
p. 325-338.[7] GOWER
J.C.(1974) -
Communicationprivée
Revue de Statistique Appliquée, 1975 vol. XXIII No 4
14
[8]
HOLMAN E.W.(1972) -
The relation between hierarchical and euclidean models forpsychological
distances.Psychometrika,
vol.37, n° 4,
p. 417-423.[9]
KRUSKAL J.B.(1964) -
Multidimensionalscaling by optimizing goodness
of fit to a nonmetrichypothesis. Psychometrika,
vol.29,
p. 1-27.[10]
KRUSKAL J.B.( 1964) 2014
Nonmetric multidimensionalscaling :
a nume-rical method
Psychometrika,
vol.29,
p. 115-129.[11] KRUSKAL
J.B.(1971) -
Monotoneregression : Continuity
and differen-tiability properties. Psychometrika,
vol.36,
p. 57-62.[12]
RAO C.R.(1965) -
The use andinterpretation
ofprincipal component analysis
inapplied
researchSankhya A,
vol.26,
p. 329-58.[13]
SCHWERTMAN N.C. and ALLEN D.M.(1973) -
Thesmoothing
ofan indefinite matrix with
applications
togrowth
curveanalysis
withmissing
observations TechnicalReport n°
56 -Département
of Statistics -University
ofKentucky
[14]
SHEPARD R.N.(1962) -
Theanalysis of proximities :
multidimensionalscaling
with an unknown distance functionI,
vol.27,
p. 125-140II,
vol.
27,
p. 219-246.[15] TORGERSON
W.S.(1958) - Theory
and Methods ofScaling
JohnWiley
and Sons.Revue de Statistique Appliquée, 1975 vol. XXIII N’ 4