R EVUE DE STATISTIQUE APPLIQUÉE
Y VES E SCOUFIER
La dépendance de deux aléas vectoriels critères et visualisation
Revue de statistique appliquée, tome 21, n
o2 (1973), p. 5-16
<http://www.numdam.org/item?id=RSA_1973__21_2_5_0>
© Société française de statistique, 1973, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme
5
LA DÉPENDANCE DE DEUX ALÉAS VECTORIELS
CRITÈRES ET VISUALISATION
Yves
ESCOUFIER
Département d’informatique,
Université de MontréalRESUME
Trois approches, dont deux classiques, de l’étude de la dépendance de deux vecteurs
sont présentées. Chacune de ces méthodes conduit à un critère de dépendance. Les trois critères sont comparés. Une représentation graphique susceptible d’aider à la
compréhen-
sion de la dépendance est suggérée. Les techniques décrites sont appliquées à un exemple.
I - INTRODUCTION
Supposons
que n observations d’un vecteur aléatoire à p + qcomposantes
aient étéfaites ;
les données sontregroupées
en une matrice X à p + qlignes
etn
colonnes ;
lacolonne j
contient les p + q observations faites surl’individu j ;
la
ligne i,
les n observations duiième
caractère. La matrice(p
xn)
des ppremiè-
res
lignes
de X sera notéeX1.
De mêmeX2
sera la matrice(q
xn)
des q derniè-res
lignes
de X.X¡j
sera l’élément de laligne i, colonne j
de XLes
exemples
suivants montrent que de nombreusesapplications
conduisent à des matrices de donnéespossédant
cette structure.Exemple n°
1 : Des relevés ont été effectués sur nplacettes
forestières :Xl
estla matrice des observations
floristiques ; X2
celle des observationsécologiques.
Exemple n°
2 : Pour un moisdonné,
et pour nannées,
on connaît lespluies
tombées en différents
points
d’un bassin versant ainsi que les débits des rivières issues de ce bassin.Xl
etX2
serontrespectivement
les matrices despluies
etdes débits.
Exemple n°
3 : Un casparticulier
intéressant est celui oùX2
se réduit à unematrice
( 1
xn)
définissant l’instantauquel
les ppremières
mesures ont étéfaites ;
la j ième
colonne de la matrice X estcomposée
des p observations faites àl’instant j
etde j
en tant que(p
+1 )ième
élément[8].
Revue de Statistique Appliquée. 1973 - vol. XXI N° 2
Le
problème
à résoudre est celui de ladescription
del’hétérogénéité
deXl
en une
partie expliquée
parX2
et unepartie
résiduelle. Il est bien sûr très voi- sin de ceux que résolvent lestechniques
derégression
multilinéaire et des corré- lationscanoniques
mais s’en différencie par laglobalité
des solutionsqu’il
recherche. Une
première approche
consiste àreprésenter
les variables dansl’espace
des individus[paragraphe 2] ;
; elle conduit àprendre
le coefficient de corrélation deHotelling
comme critère dequantification
de "l’informa- tion"apportée
parX2
surX1.
Lareprésentation
des individus dansl’espace
des variables
[paragraphe 3] J
conduit à un autrecritère,
très voisin dupré-
cédent. Ces deux méthodes
suggèrent
une mêmereprésentation graphique [paragraphe 4] susceptible
d’aider dansl’interprétation
del’hétérogénéité expliquée
ou résiduelle. Une troisièmeapproche [4]
fournit un nouveau cri- tère dont on verra les liaisons avec lesprécédents [paragraphe 5].
II - REPRESENTATION DES VARIABLES DANS L’ESPACE DES INDIVIDUS Ila -
Après
avoir identifié chacun des n individus à l’un des vecteurs d’une baseorthogonale (el,
... ,en )
de R" choisie de telle sorte queI I ej I =mj
où
mj
est une masse attachée à l’individuj,
onpeut représenter
la variable définissant laligne
i de X par un vecteurUi ayant
pourorigine l’origine
desaxes et pour extrêmité les
point
de coordonnéesoù
Le
produit
scalaire entre deux vecteursUi
etU1
est alorségal
à :-., On
peut simplifier
ces notations en substituant à la matrice X la matriceX
telle que :-
Alors
Soient
(U :)i= 1,... ,
p les vecteurs associés auxlignes
deXl.
Ilsengendrent
un sous-espace de
R°
que nous noteronsEl.
Demême,
les vecteurs(U¡ )1=1,..., q
associés aux
lignes
deX2 engendrent
un espaceE2.
7
Il est courant
([ 1],
p.166)
enstatistique
de mesurerglobalement
l’hété-rogénéité
deXl
par le volume V(U1 , ,...,U1p)
duparallélotope
construitsur les
U
volume que l’on sait êtreégal à 1 Xl tX1 1 = 1 SI 1 1
où l’élément dela
ligne
i et de lacolonne j
de la matriceSi
I estUn, U1j
>. Cettequantité
est la variance
généralisée
estimée des variables définissant leslignes
deXI.
Soit P
(Uil)
laprojection orthogonale
deUl i
dansE2
et considérons le volume V(P (U11),...,
P(U1p))
duparallélotope
bâti sur les P(U1i).
SiE2
>El,
levolume initial et le volume des
projections
sont les mêmespuisque
pour tout iUi
= P(Uf).
SiE
etEl
sontorthogonaux,
le volume desprojections
est nulpuisque
pour tout i P(Uf)
= 0. Dans tous les cas,donne une indication sur la
part
de la variation deX1 qui peut
êtreexpliquée
par
X2.
Nous allons calculer cettequantité
de manièreprécise.
Hb-
Pour obtenir la valeur de ce
rapport
devolumes,
écrivons que pour tout élémentut,
le vecteurU1i -
P(ut)
estorthogonal
à tout élémentUf,
soit :P
(Ui )
est un élément deE2,
que l’onpeut
écrireégalités
Si on
appelle S 12
la matriced’éléments (Sl2)ij
=Ut , uni > ; S 22
lamatrice d’éléments
(S22)i,j = ul, ut
> et M la matrice dont laiième ligne
est formée des
Mik,
les p x qégalités précédentes
se résument enl’égalité
matri-cielle
S12 - MS22
= 0Il en découle et
Par
conséquent :
Le
rapport
des volumes est doncégal à 1 s 12 S 22 -1 S21 1 qui
est le carré du1 Slll I
coefficient de corrélation vectorielle introduit par
Hotelling [ 5 ].
Revue de Statistique Appliquée. 1973 - vol. XXI Nù 2
lIe -
Il est aisé de voir que le coefficient de corrélation vectorielle est invariant dans des transformations non
singulières
affectant l’une ou l’autre des matricesXl
etX2
* Il est doncpossible
de le calculer àpartir
des variablescanoniques
ce
qui
établit aussitôtqu’il
estégal
auproduit
des carrés des coefficients de cor-rélation
canonique.
Pour p = 2Hotelling
a donné la distributiond’échantillon-
nage du coefficient de corrélation vectorielle pour des échantillons issus d’une
population
multi-normale danslaquelle
le coefficient de corrélation vectorielle est nul. Il a montré comment étendre ce résultat pour 2p
q à la condition que tous les coefficients de corrélationcanonique
sauf un s’annulent. Ces résul- tats sont difficilement utilisables enpratique
et lesapports plus
récents sur la distributionconjointe
des coefficients de corrélationcanonique ( [ 1 ],
p.3 23-3 24)
ne le sont pas
plus.
Remarque :
Notons au contraire que la distributiond’échantillonnage
deils -
-1 C t11 is il 121 21
"coefficientd’aliénation"
estimé est connue([ 1 ],
p. .237)
1 Sll I
pour un
plus grand
nombre de valeurs de p et de q.III - REPRESENTATION DES INDIVIDUS DANS L’ESPACE DES VARIABLES Illa -
En identifiant chacune des variables à un des vecteurs d’une base ortho- normale de
Rp+q,
il estpossible
dereprésenter
chacun des n individus par unpoint
deRp+q ; l’individu j
sera associé aupoint Mj
de coordonnées(Xij)i=1,
..., p+q.Dans ce contexte
([2],
ou[3]
p.126),
les constructions habituelles conLsistent à considérer le centre de
gravité
du nuage desMj
affectés des masses1 n
UL,
soit G de coordonnéesG. 1 m
mXij (i = 1 ,
p +q) puis
à mesu-j=l
rer
l’hétérogénéité
de la matriceXl
par le moment d’inertie du nuage par rap-port
au sous-espace défini par(Xi = Gi)i=1,...,p.
Pour lefaire,
onremarque
quela distance d’un
point Mj
z à ce sous-espaceest( (Xij - Gi)2)1 2
si ’ bien quel’inertie
IT
cherchéeest,
avec les notations duparagraphe précédent :
Appelons X1j
le vecteur(p x 1)
decomposantes Xij (i
=1 , ... , p)
etX2j
le vecteur(q
x1)
decomposantes Xij (i
= p +1 ,
... , p+q).
Lepoint Mj
a donc pour vecteur de coordonnées
t(X1j 1 X?)
Pour toute matrice A(p
xq)
ettout vecteur B
(p 1),
nous pouvons considérer le sous-espace deRP"4
défini parYij
=Ai X2j
+Bi (i
=1 ,
... ,p)
oùAi
etBi
sontrespectivement
lesiièmes
9
lignes
de A et B. La distance deMj
à ce sous-espace estégale
et on
peut
considérer l’inertieNous allons établir que les valeurs A* et B*
qui
rendentIR (A, B)
mini-mum
permettent
dedécomposer
TrS 11
en la somme des traces de deux ma-trices.
IIIb -
Pour trouver le
minimum,
nous devonségaler
à zéro les dérivées deIR (A,B).
Appelons G1
le vecteur(p 1)
dont lescomposantes
sont lesGi (i
=1 , ... , p)
et
G2
le vecteur(Q x 1 )
dont lescomposantes
sont lesGi (i
= p+ 1,...,
p +q).
Alors on tire de
soit
En introduisant ce résultat dans
IR (A , B)
et en écrivantCes p x q
inégalités
se résument avec les notations duparagraphe précé-
dent en
l’égalité
matricielle :d’où
et la valeur minimale de
IR (A , B) (que
nous écrivonsIR )
est :Posons
Revue de Statistique Appliquée. 1973 - vol. XXI N° 2
et donc
IT = IR + IE
Si pour i =
1 , ... ,
p, ilexiste j
tel queXij = Ai X2j
+Bi,
lepoint Mj
apporte
une contribution nulle dans l’inertieIR
Cecipermet
de voir queIE
re-présente
lapart d’hétérogénéité
deXl expliquée
parX2
tandis queIR
est lapart
résiduelle. Cetteapproche
conduit donc àprendre Q1
: Tr(S12 S-122 S21)
Tr
(Si 1)
Tr
(S11
- SS-122 S )
ou le
conjugué Il 12 22 21
comme critère pourquantifier
lapart
Tr(SI 1)
d’hétérogénéité
deXi
1expliquée
parX2
Illc -
On
peut
noter tout de suite que ce critère est invariant dans des transfor- mations nonsingulières
affectantX2
mais nepossède
lapropriété
d’invariance que pour des transformationsorthogonales
deXi
Dans le cas
particulier
où p =1,
le carré du coefficient de corrélation vectorielle et le critèreQI
se ramènent au carré du coefficient de corrélationmultiple
estimé. Ces deux critèrespeuvent
donc être considérés comme deuxgénéralisations
différentes de cette mêmequantité.
En dehors de ce cas
particulier,
la distributiond’échantillon
deQI
n’est pas connue. Les travaux de James
[6]
sur la distribution des valeurs propres d’une matrice de covariancepourraient
servir depoint
dedépart
à unerecherche ardue sur ce
point.
IV - REPRESENTATION
GRAPHIQUE
Nous conserverons dans ce
paragraphe
laterminologie
duparagraphe pré-
cédent. L’inertie
IE peut
êtreinterprétée
comme l’inertie totale d’un nuage den
points Nj
oùNj
aurait pour coordonnéesYu (S12 S-122)i (X2j - G2)
pouri =
1 ,
... , p et serait associé à la massemj.
De la même
manière, IR peut
être considérée comme l’inertie d’un nuage de npoints Pj
de coordonnéesZij
=(Xij - Gi) - (Sl2 S-122)i (X2j - G2)
pour i =
1 ,
... , p affectés des massesmj.
On
peut
alors effectuer uneanalyse
encomposantes principales
de cesdeux nuages, c’est-à-dire chercher d’une
part
une baseorthonormale 111
,...,np
de
RP
telle que pour p, 1 p donné soit maximum laquantité
11
où
I[~i]
est l’inertie du nuage desNj
parrapport
au sous-espaceorthogonal
à ~i et d’autrepart
une base v1,....,vp
telle quep2
p donné soit maximum laquantité
On sait que la solution de ces
problèmes
est donnée par les vecteurspropres d’une
part
deS S22 S21,
d’autrepart
deSII - 812 S22 S21
et que sil’on note
Xi (i
=1 ,
... ,p)
les valeurs propres de lapremière
matricesupposées rangées
dans l’ordre décroissant etPi (i
=1 ,
... ,p)
les valeurs propres de laseconde,
on a :Si les données sont telles
qu’existent
p, 1 et p2petits (1,
2 ou3)
tels
que 03A3 03BB1 IE
et03A303BCi IR
soient voisins del’unité,
onpeut
alors obtenir une re-présentation
du nuage desNj
et unereprésentation
du nuage desPj
dansdes espaces à pl et p2 dimensions
qui
conservent au mieux l’inertie et ainsi vi- sualiserindépendamment
lapartie expliquée
et lapartie
résiduelle del’hétérogé-
néité de
X1.
On
peut
remarquer que le nuage desNj
n’aura pasplus
depoints
diffé-rents
qu’il n’y
a de colonnes différentes dansX2.
L’étude despoints impor-
tants dans la détermination de l’inertie pourra
permettre
de détecter les variables dont les variations sontimportantes
dans laconfiguration
du nuage et doncimportantes
pourexpliquer l’hétérogénéité
deXi
V - TROISIEME APPROCHE
Il a été montré dans un travail
précédent [4]
comment onpeut repré-
senter un vecteur aléatoire par un élément d’un espace euclidien
qui
le carac-térise en ce sens que l’élément
représentatif permet
de retrouver les vecteurspropres et les valeurs propres de la matrice des variances et covariances du vec- teur aléatoire. Dans ce
contexte,
laquantité
Tr(03A312 03A321) joue
entre les vec-teurs aléatoires un rôle
analogue
à celui quejoue
la covariance entre deux variables aléatoiresréelles,
cequi
conduit à estimer ladépendance
deXl
etX2
par le "coefficient de corrélation"L’analogie
entre la covariance et laquantité
Tr(E 12 03A321)
est encorerenforcée par la remarque suivante : De même que
Revue de Statistique Appliquée. 1973 - vol. XXI N° 2
on a : ,
Il est aisé de voir que le critère
Q2
n’est pas invariant dans des transforma- tions nonsingulières
affectantXl
ouX2 ;
il n’est invariant que pour destransformations
orthogonales.
Notonségalement
que dans le cas où l’on utilise l’invariance deQI
dans les transformations nonsingulières
affectantX2
pourfaire en sorte que
S22 = I,
les critèresQI
etQ2
ont le même numérateur. Dansce cas
particulier,
leproblème
de la visualisation deIE évoquée
auparagraphe
IVtrouve une solution intéressante.
En effet :
~ Soit C une matrice q x q telle que C
S22 t C =
I. PosonsZ2 =
CX2.
SiS 12
est la matriceanalogue
àSl2
pourZ21
on a :Appelons
alorsCi
laiième ligne
deC,
on a :La matrice C étant
donnée,
il est doncpossible
pour ql qdonné,
dechoisir ql 1 variables telles
que Y (Ci S21 S12 tCi)
soit maximum : elles seront définies par les ql 1lignes
de Cqui
maximisent(Ci S21
1S12 tCi)
et il est à noterque le choix de l’une d’entre elles ne
dépend
pas des choixprécédents.
Il estalors tentant de se demander si pour ql q
donné,
il existe une matrice Cqui
rende l(Ci S21 S12 tCi)
maximum sous la condition CS22 tC =
I. Laréponse
à cettequestion
est connue([7],
p.505)
et est donnée par les solu- tions de(S21 S12 - XS22)V =
0.VI - UN EXEMPLE
Les données discutées ici sont extraites d’une étude faite par Messieurs
Berger
et Rouziès du CentreRégional
de Productivité et des Sciences écono-miques
de la faculté de droit deMontpellier.
Elles concernent 21 communesdu Sud de la France. Pour
chaque
commune sont données lapopulation
totalepour 1962 et 1968 ainsi que le nombre de personnes actives travaillant dans les secteurs
primaire,
secondaire ou tertiaire pour 1968. La table 1 fournit les donnéesoriginales.
Dans letraitement,
les données ont étécentrées,
cequi
n’aaucune
importance,
mais aussi réduites de manière à ce que les variables"popu-
lation totale" n’écrasent pas les autres variables dont la variance est
plus
faible.13 Table 1
Le but de l’étude est de déterminer dans
quelle
mesure la variabilité des observations de 1968 estexplicable
par l’information"population
totale de1962".
Table 2 Matrice des corrélations
Revue de Statistique Appliquée. 1973 - vol. XXI N° 2
La table 2 fournit la matrice S
= ,
ici matrice des corré-lations,
pourlaquelle Sl2
est un vecteurcolonne ; S21 le
vecteurligne
trans-posé ; S22 = 1.
La
variabilité
des observations de1968,
mesurée par la trace deS11
estégale
à 4. Elle sedécompose
en unepartie expliquée IE -
tr(S12 S21) =
Tr(S21 S12)
=3,3769
et unepartie résiduelle, Ir = Tr (S11 - S12 S21) = 0,6231.
La lecture de ces valeurs
numériques -
ou le calcul desquantités Q1 = 0,8442
etQ2 - 0,9660 - indique
que lapopulation
totale de 1962 donne une bonneexplication
de la variabilité des observations de 1968.L’observation de la
figure
1permet d’apprécier
lasignification
desrésidus.
Figure 1
La
figure
1 est obtenue enreprésentant
unvillage j
par unpoint
dontles coordonnées sont pour l’abscisse la coordonnée sur le
premier
vecteurpropre de
S12 S21
1(unique
icipuisque
rang(S12 S21)
= rang(S21 S12)
=1)
deNj
et pour ordonnée la coordonnée sur lepremier
vecteur propre deSu - S12 S21
dePj.
Le
premier
vecteur propre deS12 S21
a pourcomposantes (0,5428 ; 0,3741 ; 0,5329 ; 0,5310)
On voit donc que les
points représentatifs
vont être d’autantplus
sur ladroite de la
figure
que lapopulation
de la commune estgrande.
15
Le
premier
vecteur deS 11 - S 12 S21,
associé à la valeur propre0,5449
=0,871 R
a pourcomposantes
(- 0,0356 ; 0,9836 ; - 0,1446 ; - 0,1016).
Il en découle que le résidu est essentiellement dû à la
population
dusecteur
primaire
pour 1968. Si cettepopulation
a été sous-estiméeZ2j
estpositif
et le résidu estpositif.
Si aucontraire,
cettepopulation
a étésurestimée,
le résidu est
négatif.
Lafigure
montrequ’il
y a eu sous-estimation pour Calvisson(commune n° 6)
cequi
n’est pas étonnantpuisque
Calvisson a une très fortepopulation agricole,
laplus
forte de toutes les communes etqui représente
unpourcentage
élevé de sapopulation
totale.La
figure
montreégalement
que le résidu estnégatif
pour Sommières(com-
mune
n° 19).
Cecis’explique
encore enremarquant
que lapopulation agricole
de Sommières
représente
unpourcentage
de lapopulation
totale bien infé- rieur aupourcentage
moyen pour les autres communes.CONCLUSION
Il est
regrettable
que les distributions des critères que nous avonsrappelés
ne soient pas
plus simples
et mieux connues car il serait alorspossible,
aumoins sous certaines
hypothèse
de faire des tests sur laqualité
desreprésenta-
tions obtenues. Il n’en reste pas moins que l’utilisation à des fins
purement descriptives
des critères et desreprésentations graphiques peut
aider à "lire"de
grands
ensembles de données.REFERENCES
[1]
ANDERSON T.W. : "An introduction to multiavariate statisticalanalysis", John Wiley -
1958.[2]
BENZECRI J.P. :"Représentation
euclidienne d’un ensemble muni demasses et de
distances",
Lab. de Stat. Math. Faculté des Sciences deParis,
mai 1970.[3]
DEMPSTER A.P. : "Elements of continuous multivariateanalysis", Addison-Wesley, Publishing Company
1969.[4]
ESCOUFIER Y. : "Les liaisons entre groupesd’aléas", R.S.A.,
1971Vol. XIX
n°
2 pp. 5-17.[5]
HOTELLING H. : "Relations between two sets ofvariates",
BiometrikaVol.
XXVIII,
1936 pp. 321-377.[6]
JAMES Alan T. : "Distributions of Matrix Variates and Latent Roots derived from Normalsamples",
the annals of mathematicalstatistics,
1964,
vol.35, n° 4,
pp. 475-501.Revue de Statistique Appliquée. 1973 - vol. XXI N° 2
[7]
RAO C.R. : "Linear Statistical Inference and itsApplications", John Wiley,
1965.