R EVUE DE STATISTIQUE APPLIQUÉE
B. F ALISSARD
Déploiement d’une matrice de corrélation sur la sphère unité de R 3
Revue de statistique appliquée, tome 43, n
o2 (1995), p. 35-48
<http://www.numdam.org/item?id=RSA_1995__43_2_35_0>
© Société française de statistique, 1995, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
DÉPLOIEMENT D’UNE MATRICE DE CORRÉLATION
SUR LA SPHÈRE UNITÉ DE R3
B. Falissard Unité CNRS EP 53
Pavillon Clérambault
Hôpital
de laSalpétrière
47 Boulevard de
l’Hôpital
75651 Paris cedex 13 FranceRÉSUMÉ
Une
analyse
en composantesprincipales
(ACP) estfréquemment
utilisée pour réduire le nombre de dimensions d’unproblème.
Souvent,l’analyse
se fait àpartir
de la matrice de corrélation des variables et l’ACP autorise unereprésentation graphique
de ces dernièresen deux, trois dimensions, voire
davantage.
Le fait departir
d’une matrice de corrélation permet aux variables, normalisées, d’être situées sur unehypersphère
de rayon un. Leprésent
article tire
profit
de cettepropriété
pourreprésenter
les variables sur unesphère
unité dedimension trois
plutôt
que sur un sous espace. Il sera montré que l’information contenue dansune telle
représentation
estcomparable
a celle d’une ACP retenant trois dimensions, alors que la lisibilité s’en trouve très améliorée. Les détailsmathématiques
suivis d’unexemple pratique
sont
proposés.
Mots-clés :
Analyse
en composantesprincipales, Analyse
multivariée non linéaire,représenta-
tion en 3 dimensions.
SUMMARY
Principal
componentAnalysis (PCA)
isfrequently
used to reduce the number of dimensions of aproblem.
Most often, theanalysis
is carried on the correlation matrix of the variables and PCAprovides
agraphical representation
of them in two, three, or even moredimensions. The use of a correlation matrix leads to a
particular position
of the variables :being
normalised,they
are on a unithypersphere. Taking advantage
of thisposition,
the present paper suggests to represent them on a unit 3-dimensionalsphere
instead of asubspace.
It is shown that the information contained in such arepresentation
iscomparable
to the informationprovided by
a 3-dimensional PCA, while thereadability
ishighly improved.
Mathematical details aregiven
like a realexample.
Keywords : Principal
componentanalysis, Principal
curves, Non-linear multivariateanalysis,
3-dimensional
representation.
1. Introduction
Dans de nombreuses situations
expérimentales,
p variables(xi)1ip
sontmesurées sur n individus et une
question
centrale est de révéler les relations entre les xi. Dans un tel cas, où les xipeuvent
être considérés comme p éléments deRn,
une
analyse
encomposantes principales (ACP)
est intéressantepuisque
cette méthodeautorise la
représentation
des variables dans un espace de dimension réduiteF,
touten
préservant
autant quepossible
leur variabilitéglobale. Souvent, quand
les variables sontexprimées
dans des unitéshétérogènes
ou ont des variances trèsdifférentes,
lesxi sont normalisés et l’ ACP est faite sur leur matrice de corrélation. Cela
correspond
à une
propriété géométrique particulière :
les xi sont situés surl’ hypersphère
unitécentrée sur
l’origine
de Rn(Lebart,
Morineau etFènelon, 1982, p.281).
Si l’on
prend
encompte
une tellepropriété,
il seraitplus naturel,
pourreprésenter
fidèlement les p variables xi, de les
projeter
sur unesphère
unité 0plutôt
quesur un sous espace vectoriel F. Le but de cet article est de trouver la
sphère
unité 0 de dimension
3,
centrée surl’origine,
pourlaquelle
lesprojections des xi
sont aussi
proches
quepossible des Xi (au
sens des moindrescarrés).
Les calculs etalgorithmes
nécessaires à l’obtention de 0 sontprésentés,
suivis d’unexemple
fondé sur une
épreuve psychométrique (échelle
d’hétéroévaluation enpsychiatrie).
Des simulations
permettront
ensuite de comparer laprécision
d’unereprésentation sphérique
à celle d’une ACP retenant deux ou trois dimensions. Enconclusion,
unediscussion
présentera
les autres méthodes non linéairespermettant
dereprésenter
desdonnées multivariées.
2. Une
représentation sphérique
d’une matrice de corrélation2.1. Généralités
Considérons un ensemble de p variables
(xi)1ip
mesurées sur n individus :xi =
(xi1,..., xin)’. Les x2
sontnormalisés,
c’est-à-dire :où
hiq
est laième réponse
mesurée sur leqème individu,
mi et si sont les moyennes etécart-types
observés obtenus àpartir
de l’échantillon. Nous avons ainsi :ce
qui implique
que~xi~2
= 1 : les xi sont surl’hypersphère
unité de Rn. Si 0 estune
sphère
unité de dimension3,
laprojection de xi
sur 0 est notée parproj (xi, 0)
et est définie par :
où ~ ~ désigne
la norme euclidienne de R’. En d’autres termes,proj(xi, 0)
estl’élément de 0 le
plus proche
de xi. Le but de cettepartie
est de trouver lasphère
unité 0°
qui correspond
àl’ajustement
des moindres carrés des xi. Plusprécisément,
0° est l’élément de Q vérifiant :
où Q
désigne
l’ensemble dessphères
unités de dimension 3 centrées surl’origine
deRn; proj (xi, 0)
sera maintenant noté oi.Il est
possible
de formuler ceproblème
de sorte que les difficultésnumériques
soient considérablement réduites. La
sphère
0°peut
être obtenue àpartir
d’un sousespace de dimension
3, T°,
vérifiant :où 6 est
l’ensemble, des
sous espaces de dimension 3 deRn; proj (xi, T’)
seramaintenant noté
ti.
Il estremarquable qu’une propriété
presque similaire définit le sous espace de dimension3, T*, correspondant
aux 3premières composantes principales
deR:
Ici,
une somme de carrés de normesremplace
une somme de normes.La relation
reliant t2
a oi estprésentée
au2.2.,
alorsque t2
est calculé au 2.3.Les considérations
numériques
sontprésentées
au 2.4.Soit 0 un élément de SZ et T le sous espace de dimension 3
qui
le contient.Montrons dans un
premier temps
que :Pour
plus
desimplicité, adoptons
pourquelques lignes
les notations :Nous avons,
et de
même,
pour o E0,
Or, puisque
prouve
(1).
Finalement,
Ce
qui
prouve que minimiser :revient a maximiser :
ainsi,
via(1) :
2.3. Comment obtenir
ti
Chaque
sous espace Tpeut
être défini par une base orthonormée de 3 vecteurs(v1,
v2,v3) qui peut
êtrecomplétée
par v4,...,vn pour obtenir une base orthonormée V de RI. Laquestion
est ici de trouver letriplet (Vl, V2, V3) qui
maximise :Cela
peut
se faire au moyen dulagrangien
où les
Ài
sont lesmultiplicateurs
deLagrange
et les gk les contraintes :Si les coordonnées initiales des Vk sont notées
(vk1,...,1 Vk,,),
nous avons :Les 3n + 6
équations correspondant
à(2)
et(3) peuvent
être réduites à unsystème
de
3p équations :
où rmi est le
(m, i)ème
élément de la matrice de corrélation R ettmk
=x’mvk(m
=1,...,p; k
=1, 2, 3).
Onpeut
endéduire ti
=(ti1,ti2,ti3,0,..,0)’ en
utilisant des méthodes de calculnumérique
habituelles.2.4. Considérations
numériques
Les dérivées de
hi,k
étant facilementcalculables,
il estsuggéré
de résoudre(4)
au moyen de la méthode deNewton-Raphson.
Les valeurs initialestik(0)
sontobtenues via les 3
premières composantes principales :
si u1 =(u11,
...,up1)’,
u2 =(u12,
...,up2)’,
u3 =(u13,..., up3)’
sont les vecteurs propres normés correspon- dant aux 3 valeurs propres de R lesplus
élevées(l1,l2,l3)
alors :Comme mentionné
au § 2.1, puisque
TO et T* ont despropriétés voisines,
les valeurs initialesdes t2
devraient être trèsproches
de leur valeur véritable. Cepoint
est montréau § 4,
nous verrons d’ailleurs que lestik (0)
à eux seuls sont d’uneprécision suffisante,
tout au moins pour une
représentation graphique
des oi.Finalement,
si oi =(Oi1,
oi2, oi3,0,
... ,0)’,
les Oik sont obtenus àpartir
de :Comme nous le voyons
figure 1,
lareprésentation graphique
des oi estimmédiate. Deux faces
opposées
de lasphère
0° sontprojetées
sur deuxplans :
- si Oi 1 >
0, (Oi2, Oi3)
estreprésenté
sur lepremier plan,
arbitrairementappelé
vuede
face;
- si Oi1
0, (Oi2, Oi3)
estreprésenté
sur l’autreplan,
la vue de dos.L’impression
de relief est rendue par le dessin de méridiens et deparallèles.
L’orientation des
plans
deprojection
estarbitraire;
aubesoin,
il estpossible
au moyen de rotations autour des 3 vecteurs v1, v2, v3, de les choisir de telle sorte que lareprésentation apparaisse
leplus
clairement.FIGURE 1
Représentation sphérique
de la matrice de corrélation de l’échelle d’humeurdépressive
3. Un
exemple :
l’étude d’une échelled’hétéroévaluation
de l’humeurdépressive
Afin
d’objectiver
certainsregroupements
desymptômes
dans lasémiologie
del’humeur
dépressive,
une Echelle d’HumeurDépressive (EHD)
a étédéveloppée
récemment par Jouvent et al.
(1988).
Elle seprésente
sous la forme d’une liste de 20 itemsauxquels
un cotateur entraîné doit affecter un entier allant de 1 a5 en fonction de la sévérité du
symptôme.
Ces 20 itemspeuvent
être résumés par : 1- Tristesse douloureuseobservée,
2-Hyperexpressivité émotionnelle,
3- Instabilitéémotionnelle,
4- Monotonieobservée,
5-Manque d’expressivité spontanée,
6-
Manque
de réactivitéaffective,
7- Incontinenceémotionnelle,
8-Hyperesthésie affective,
9- Humeurexplosive observée,
10-Mimique inquiète,
11- Anhédonieobservée,
12- Tristesseressentie,
13- Anhédonie desituation,
14- Indifférence affectiveressentie,
15-Hypersensibilité
aux événementsdéplaisants,
16- Anhédoniesensorielle,
17- Monotonie affectiveressentie,
18-Hyperémotivité ressentie,
19- Irritabilitéressentie,
20- Humeurexplosive
ressentie.Les données
présentées
iciproviennent
d’une étude effectuée sur 216patients déprimés (DSM
IIIR,
AmericanPsychiatric Association, 1987)
cotés à leur entrée àl’hôpital (service
depsychiatrie
adulte de laSalpêtrière).
Une
représentation sphérique
de la matrice de corrélation des 20 items estprésentée figure
1. Lesregroupements sémiologiques
relevés par les cliniciens ont été :2,3,7,8,9
pour un groupe que l’onpeut
dénommer«hyperexpressivité», 4,5,6
pour un groupe«hypoexpressivité», 1,10,12
pour«tristesse», 11,13,14,16,17
pour «anhédonie» et15,18,19,20
pour«hypersensibilité».
Ils sont assez clairementindividualisés et
correspondent
à une réalitéclinique tangible.
Une
représentation
àpartir
d’une ACP estreprésentée figure
2. Lareprésentation
en 2 dimensions n’ est pas suffisamment informative alors que la
représentation
en 3 di-mensions retrouve les 5
regroupements
mentionnés ci-dessus. Il estcependant
notableque ces groupes
apparaissent
moins clairementqu’avec
lareprésentation sphérique.
La
figure
3 réunit unereprésentation
tridimensionnelle de l’ACP avecl’approximation
de la
représentation sphérique
obtenue àpartir
d’une ACP(extrapolation
sur lasphère
unité des
points variables, cf § 2.2);
on retrouve la similitude entre lareprésentation sphérique
et sonapproximation
ainsi que la faible lisibilité de l’ACP.4.
Comparaison
entre unereprésentation sphérique
et une ACP à
partir
de données simulées.Dans 8
configurations différentes,
50 matrices de corrélation sontgénérées
aléatoirement à
partir
de données simulées. Pour chacune des 8 x 50réplications
sontcalculés :
-
z2i,
laprojection de xi
sur lepremier plan principal;
-
z3i,
laprojection
de xi sur lepremier
sous espaceprincipal
de dimension3;
- yz =
z3i/~z3i~, l’approximation
de oi, ainsiqu’oi
luimême, projection de xi
sur lasphère optimale 0°.
FIGURE 2
ACP de la matrice de corrélation de l’échelle d’humeur
dépressive
FIGURE 3
Représentation
tridimentionnelle de l’ACP de la matrice de corrélation de l’échelle d’humeurdépressive (gros points
à l’intérieur dela sphère),
laprojection
de cespoints
sur lasphère (croix)
donne uneapproximation
de lareprésentation sphérique
de la même matrice de corrélation.
Deux
paramètres
reflétant la similitude entre laconfiguration engendrée
par les variablesoriginales
xi et celleengendrée
par leursprojections
sont calculés :le coefficient de corrélation de Pearson entre
~xi - xm~2 et ~oi - om~2(1
i p,1
mp)
est estimé et noté ps, ilpermet
d’évaluersi, quand Xi
estplus proche
dexm que de Xk, il en va de même pour oi, om et ok. De la même
manière 03C1’s
est estiméentre ~xi - xm~2 et ~yi - ym~2, 03C12 entre Il Xi - xml12 et ~z2i - z2m~2 et p3
entre~xi - xm~2 et ~z3i - z3m~2.
- La somme
Ss = 03A3(~xi - xm~ - ~oi - oml1)2 (1 i
p,1
mp)
est aussi
calculée,
elle reflète laqualité
de la conservation des distances entre 2points
et entre leursprojections. S’s, S2, S3,
sont définis defaçon
similaire àpartir
de
(xi, yi), (xi, z2i)
et(xi, z3i),...
L’intérêt
qu’il
fautporter
à la conservationde ~xi - xm~
vient du fait que rim = 1 -(1/2)~xi - xm~2 :
deux variables sont d’autantplus
corrélées que lespoints qui
leurscorrespondent
sontproches (Lebart et al., 1982,
p.287).
Les 8
configurations
de matrices de corrélationRp,k,,
sont telles que :avec : p =
10,30; k = 2,5
et r = 1 si(r1,r2)
=(0.9,0.3),
et r = 2 si(rl, r2) = (0.5, 0).
Les notations(r1)
et(r2)
dans la matriceRp,k,r
ci-dessus sontutilisées pour
exprimer
que les termes nondiagonaux (pour rl )
et les blocs nondiagonaux (pour r2)
sont touségaux
a ri ou r2.Pour
chaque p, k, r , 50
matricesRp,k,r(l) (1
l50)
sontgénérées,
chacuneà
partir
de 90 x p données simulées :où :
- nq et niq sont des réalisations
indépendantes
d’une variable aléatoire normaled’espérance
0 et de varianceunité;
- >
signifie «partie
entièrede»,
avec ql =
[r1/(1 - r1)]1/2
et q2 =[r2/(1 - r2)]1/2 .
Celagarantit
que E{Rp,k,r(I)}
=Rp,k,r.
Les résultats sont
présentés
tableau1,
ils montrent que , . 0 estsupérieur
à P2 et mêmelégèrement supérieur
à p3. Demême, Ss
est inférieur àS2
et àS3.
Unereprésentation sphérique
conserve donc une informationcomparable
à celle que l’on trouve dans une ACP retenant 3 dimensions. On remarquera que cepoint
est d’autantplus
vrai que lepourcentage
d’inertie contenu dans les troispremières composantes principales
estélevé;
ceci est naturelpuisque
dans une telle situation lespoints
variables
représentés
par une ACP sontproches
de lasphère
unité.Finalement,
pas est trèsproche
de03C1’s (et S,
deSs ).
Celasignifie
que T* est siproche
de T°qu’en pratique, l’approximation
oi = yi estacceptable
etqu’un simple logiciel qui
calculeune ACP sera suffisant pour obtenir une
représentation sphérique.
TABLEAU 1
A
partir
de simulations et de deux indices de similitude(p, S), comparaison
d’unereprésentation sphérique (p,, Ss)
avec sonapproximation
àpartir
d’une ACP( ps , S’s),
une ACP retenant 2 dimensions(P2, S2)
et une ACP retenant 3 dimensions(p3, S3). (Voir §
4 pour unedéfinition
de 03C1i,Si,
p, k etr). ll, l2
etl3
sont les 3 valeurs propres lesplus élevées
deRp,k,r.
5. Conclusion
Il est
temps
maintenant de comparer l’utilité de lareprésentation sphérique
aux autres méthodes
graphiques permettant
dereprésenter
des données multivariées.Nous
envisagerons
successivementl’ACP,
lestechniques
de «Non linearmapping»
et enfin la méthode des surfaces
principales.
Il est
théoriquement possible
dereprésenter
des données àpartir
d’une ACP enretenant
2, 3
oudavantage
de dimensions. Avec 2dimensions,
unsimple diagramme
plan
esttechniquement
suffisant et l’information est facilement accessible. Pour 3 dimensions ouplus,
il est nécessaire de combinerplusieurs plans
et il est souventdifficile de
réarranger
mentalement les différentsdiagrammes (quelques logiciels
essaient de donner l’illusion d’une troisième
dimension,
mais ils ne sont pas trèsconvaincants).
Comme nous l’avons vuau § 4, (même
si les indices utilisés pour lacomparaison peuvent paraître arbitraires)
unereprésentation sphérique
semble aussi informativequ’une
ACP retenant 3composantes,
mais ellepermet
une meilleure visualisation des variables.Puisqu’une représentation sphérique apparaît
comme une méthodepermettant
dereprésenter
des similitudes entre des variables àpartir
d’un ensemble depoints
dans un ensemble de dimension
3,
il est nécessaire de la comparer auxtechniques
de non linear
mapping.
Si les buts du non linearmapping
et d’unereprésentation sphérique
sontproches,
ils ne sont pasidentiques. L’objectif spécifique
destechniques
de non linear
mapping
est deprésenter graphiquement
des similitudes entre variables.L’objectif
d’unereprésentation sphérique
estplutôt
dereprésenter graphiquement
unematrice de corrélation. Ainsi les variables
peuvent
elles êtreregroupées,
mais aussiopposées (si
elles sont diamétralementopposées)
ou même vues non corrélées(si
leurs rayons sont
perpendiculaires).
Deplus,
laplupart
des méthodes de non linearmapping
fournissent unereprésentation graphique
dans un sous espace, cequi
n’estpas le cas de la
représentation sphérique.
Cette remarque nous amène tout naturellement à comparer la
représentation sphérique
aux autres méthodesqui
essaientd’ approximer
un ensemble depoints
par des nappes non linéaires. Lasphère optimale
0°peut
être considérée comme une«Principal
Surface» comme les définissent Hastie et Stuetzle(1989). Cependant,
ce dernier article considère de
façon
trèsgénérale
des surfaces nonparamétrées interpolant
un ensemble depoints.
Comme nous le mentionnions dansl’introduction,
la
paramétrisation
utilisée dans unereprésentation sphérique
est,elle, justifiée
par laposition
despoints
variables xi surl’hypersphère
unité de Rn.On
peut
aussi mentionner les méthodes derégression
nonlinéaires,
pourlesquelles
une des variables doitcependant
avoir un rôleprivilégié...
Voire mêmeles méthodes
d’analyse
factorielle non linéaires(McDonald 1962),
mais ici l’idée d’un modèle avec variables latentes estprépondérante.
Un des
avantages
substantiels de lareprésentation sphérique
parrapport
aces différentes méthodes est certainement sa
simplicité numérique.
Comme nousl’avons vu au
§4,
unlogiciel
estimant descomposantes principales
suffit à calculer desprojections sphériques.
Une limite à cette méthode mérite
cependant,
pourterminer,
d’être mentionnée.La
précision
d’unereprésentation graphique
par une ACPpeut
être estimée parl’importance
des valeurs propres associées auxcomposantes
retenues pourl’analyse.
Ce n’est pas le cas pour une
représentation sphérique :
iln’y
a pas de moyenrigoureux
d’évaluer
jusqu’à quel point
lareprésentation graphique correspond
à la situation réelle surl’ hypersphère.
Onpeut
seulementconjecturer
quepuisqu’une représentation sphérique
semble aussi informativequ’une
ACP avec 3dimensions,
il estpossible
deconsidérer la somme des 3 valeurs propres les
plus
élevées de R comme un indiced’adéquation.
,Remerciements
L’auteur tient à remercier R. Jouvent pour l’utilisation de ses données dans
l’exemple
ainsi que M.Berthier,
M.Chavance,
L.Lebart,
J. Fermanian et unrapporteur
pour leurs commentaires.Bibliographie
AMERICAN PSYCHIATRIC ASSOCIATION
(1987). Diagnostic
and Statistical Manualof
MentalDisorders,
thirdedition,
revised(DSM-III-R).
AmericanPsychiatric Association, Washington,
DC.HASTIE
T.,
& STUETZEL W.(1989). Principal
Curves. Journalof
the AmericanStatistical
Association, 84,
p. 502-516.JOUVENT
R.,
VINDREAUC.,
MONTREUILM.,
BUNGENERC.,
& WIDLO- CHER D.(1988).
Laclinique polydimensionnelle
de l’humeurdépressive.
Nou-velle version de l’échelle EHD.
Psychiatrie
etPsychobiologie, 3,
p. 245-253.LEBART
L.,
MORINEAUA.,
&FÉNELON
J. P.(1982).
Traitement des donnéesstatistiques.
Paris : Dunod.MCDONALD R. P.
(1962).
Ageneral approach
to non linear factoranalysis.
Psychometrika, 27,
p. 397-415.SAMMON,
J. W.(1969).
A non-linearmapping
for data structureanalysis.
IEEETrans.
Comput., C-18,
p. 401-9.Appendice :
démonstration del’équation (4)
Il
s’agit
de maximisersous la contrainte que les vecteurs
(VI
V2,V3)
sont orthonormés :Le maximum de
f
est obtenu pour T =T°,
oùx’ivk
vautmultiplicateurs
deLagrange,
leséquations :
conduisent à : d’où
Or de
(1’)
on obtient :où
Ainsi à
partir
de(3’)
nous obtenons :De
même,
àpartir
de(4’) :
où r mi est le
(m, i)ème
élément de la matrice de corrélation R.Alors que
(2’ ) :
Et