É RIC T ÉROUANNE
Une représentation graphique de la liaison statistique entre deux variables ordonnées
Mathématiques et sciences humaines, tome 130 (1995), p. 33-42
<http://www.numdam.org/item?id=MSH_1995__130__33_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1995, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UNE
REPRÉSENTATION GRAPHIQUE
DE LA LIAISONSTATISTIQUE
ENTRE DEUX VARIABLES
ORDONNÉES Éric TÉROUANNE1
RÉSUMÉ - Le stéréogramme de liaison est une représentation graphique simultanée de la distribution
conjointe de deux variables ordonnées, de leurs distributions marginales, et de la densité de la
première
par rapport auproduit
des deux autres. On y lit une forme de liaison statistique qui est introduite sous le nom de liaison blackienne et dont on discute les rapports avec la liaison stochastique.SUMMARY - A graphical representation of the statistical dependence between two ordered variables
Dependence stereogram is a simultaneous graphical representation of the joint distribution of two ordered variables, of their marginal distributions, and of the density of the former with respect to the
product
of thelatter two. It is
possible
to read on it a form of statisticaldependence
which is introduced under the name ofblackian dependence and whose connection with stochastic
ordering
is discussed.1. INTRODUCTION
L’étude de la liaison
statistique
entre deux variables ordonnées mesurées simultanément sur unepopulation
se ramène à celle d’un tableau decontingence
dont leslignes
et les colonnessont totalement ordonnées a
priori.
Pour illustrer cetarticle,
nous utiliserons les données de Tocher concernant la couleur des cheveux et la couleur des yeux de 5387 enfants(tableau 1),
étudiées par Fisher
(1940)
et tiré de Rouanet & al.(1993, p.209).
Dans chacun des ensembles demodalités,
les couleurs sont ordonnées duplus
clair auplus
foncé.Si l’on
désigne par i
une modalité de lapremière
variable(ici
une couleurd’yeux)
etpar j
une modalité de la seconde
(une
couleur decheveux),
nous utiliserons les notationsclassiques : ny ,
ni.,n.~ ,
n.. pourdésigner
les nombres d’individus(par exemple n~la~r,~hâta;n
=584 ;
n.noir =
118 ;
n.. =5387).
Demême, fij, fi., f. j désigneront
lesfréquences
relativescorrespondantes (fxy
=n-,, / n.. ) ;
lafréquence
conditionnellenij / n.~
de la modalité iparmi
lesindividus
présentant
lamodalité j
sera notéefi , .
1 Département de Mathématiques et Informatique
Appliquées,
Université Montpellier ni.Tableau 1 - Distributions des effectifs
conjoints
etmarginaux
pour deux variables ordonnées.
La liaison éventuelle entre les deux variables se traduit en
particulier
dans les valeurs queprend
la densité d de la distributionconjointe
parrapport
auproduit
de sesmarginales.
Celle-ci(tableau 2)
estdéfinie,
pour toutcouple (~/)
demodalités,
par :Tableau 2 - Densité de la distribution
conjointe
par
rapport
auproduit
de sesmarginales.
Divers indices sont reliés à cette
densité,
comme le taux de liaison entre une modalité de lapremière
variable et une modalité de la seconde(cf par exemple
Rouanet &al., 1987, chapitre 7)
défini pour toutcouple (ij)
par :ou la contribution du
couple (i, j)
au~2 :
Pour obtenir un indice de liaison
global
entre lesvariables,
onpeut
alors calculerle ~ 2
@somme des
pij2 ,
ou lex2
= n..~2 .
Mais cesindices, adaptés
au cas de variablesnominales,
ne sont pas satisfaisants dans le cas
qui
nous intéressepuisqu’ils
neprennent
pas encompte
lesstructures d’ordre sur chacun des ensembles de modalités : le
~2
et lex2
sont insensibles auxpermutations
delignes
ou de colonnes dans le tableau decontingence.
2 -
STÉRÉOGRAMME
DE LIAISONPour
analyser
la liaison entre deux variables en tenantcompte
des ordres apriori,
il existe unoutil
graphique
que nousappellerons
lestéréogramme
de liaison.Le terme de
stéréogramme
est utilisé par Calot(op.cit. p.214)
pourdésigner
unhistogramme
"tridimensionnel"représentant
la distributionconjointe
de deux variablesnumériques.
Ces deuxvariables,
lesâges respectifs
del’époux
et del’épouse
lors dumariage
dans
l’exemple
deCalot,
sontdécoupées
en classes(ou modalités) d’amplitude
variable.Chaque couple (ij)
de classes est alorsreprésenté
par unparallélépipède
dont le volume estproportionnel
à lafréquence conjointe hj.
Lalongueur
et lalargeur
de base duparallélépipède
sont
respectivement proportionnelles
auxamplitudes ai et a, (en
années dansl’exemple
deCalot)
des classes iet j.
La hauteur duparallélépipède
estainsi proportionnelle à fij / a,-aj .
Le
stéréogramme
de liaison(figure 1) représente également chaque paire
de modalités(i, j)
par unparallélépipède
dont le volume estproportionnel
àfij
mais dont labase,
contrairement au cas du
stéréogramme classique,
a unelongueur
et unelargeur proportionnelles
àfi.
etf: respectivement.
La hauteur duparallélépipède
est alorsproportionnelle
à la densitédij.
Cette
représentation graphique possède
donccinq
échelles différentes :- Deux échelles linéaires pour les distributions
marginales.
Lafréquence fi.
d’une couleurd’yeux (resp. f.j d’une
couleur decheveux)
estreprésentée
par uneportion
dusegment
delongueur
1figurant
les abscisses(resp.
lesordonnées).
- Une échelle de
superficie
pourreprésenter
leproduit
des distributionsmarginales.
Unefréquence,
estreprésentée
par la facesupérieure
duparallélépipède correspondant,
c’est-à-dire une
portion rectangulaire
d’un carré desuperficie
totaleégale
à 1.- Une échelle de volume pour
représenter
la distributionconjointe
des deux variables. Unefréquencefii
estreprésentée
par le volume duparallélépipède correspondant.
La somme de cesvolumes est
égale
à 1.- Une échelle de hauteur pour
représenter
la densité de la distributionconjointe
parrapport
auproduit
de sesmarginales.
Laposition
sur cette échelle des facessupérieures
desparallélépipèdes
estreprésentée
par desgrisés (figure 1),
et le taux deliaison tij
se lit comme ladifférence entre la hauteur du
parallélépipède correspondant
et l’altitude 1(en pointillé gras).
A
chaque
couleur decheveux j (resp.
àchaque
couleurd’yeux i)
est associée une "tranche"transversale du
stéréogramme,
constituée dequatre parallélépipèdes
de mêmelongueur qui correspondent
auxquatre
couleursd’yeux (resp. cinq parallélépipèdes
de mêmelargeur correspondant
auxcinq
couleurs decheveux).
3. LIAISON BLACKIENNE ENTRE VARIABLES ORDINALES
Rappelons
la définition d’un ordre blackien(ou unimodal)
parrapport
à un autre(Black 1958,
Barbut et al.
1971,
Petit et al.1988) :
Soit zou un ordre total sur un ensembleX, pris
commeordre de référence. Soient 0)’ ut autre ordre total sur X et x l’élément de X
qui
est maximalpour ce’. Alors 0)’ es dit blackien par
rapport
à zou s’il coïncide avec co sur l’ensemble des éléments inférieurs ouégaux
à x pour cl et avec le dual ~* de zou sur l’ensemble des élémentsFigure
1. Unereprésentation graphique
de la liaisonstatistique
entre deux variable ordinales
supérieurs
ouégaux
à x pour ~. Autrementdit,
00’ est obtenu en"pliant"
l’ensemble X ordonné selon ro en unpoint x quelconque,
et enréarrangeant
les éléments des deux "brins"ainsi obtenus. S’il y a un seul
brin,
c’est-à-dire si x est le maximum(resp.
leminimum)
selonm, le seul ordre 0)’ ainsi obtenu est co
(resp. 0)*).
La liaison entre deux variables ordinales
peut
alors être caractérisée par uneconfiguration particulière
de leur distributionconjointe :
Notons X l’ensemble des modalités de l’une(par exemple
les couleursd’yeux)
et Y l’ensemble des modalités de l’autre(les
couleurs decheveux).
Notons l’ordre apriori (dans
notreexemple,
duplus
clair auplus foncé)
sur Xcomme sur Y. Pour
chaque
modalité i deX,
soient mi l’ordre obtenu sur Y en classant ses modalités selon la valeur des densitésdij, et j~ la
modalité maximale pour coi. Dans notreexemple (tableau 3) les ji
sont successivementBlond, Blond, Châtain,
et Noir.Tableau 3. Ordres des densités sur les couleurs de
cheveux,
à couleurd’yeux
fixée.DÉFIfNITION.
On diraqu’il
y a liaison blackienne de la variableY par
rapport à la variable X si tous les ordres mi sur Y sont blackiens par rapport à co et que la suitedes ji
est monotone. La liaison sera dite croissante(resp. décroissante)
si la suite desji
est croissante(resp.
décroissante)
vis-à-vis de 0. Enfin on diraqu’il
y a liaison blackienneréciproque
entre lesdeux variables s’il y a liaison de chacune par rapport à l’autre.
.
TI découle immédiatement du lemme ci-dessous que s’il y a liaison blackienne
réciproque,
les deux liaisons vont dans le même sens, croissant ou décroissant. Notons
zou
.. ,xi:9 ...
:9 x.
les modalités de X etyo _
... :9yj , , ,
Yn celles de Y.LEMME. S’il y a liaison blackienne croissante
(resp. décroissante)
de Y parrapport à X,
alors :
Supposons
que la liaison soit croissante et que lapremière inégalité
ne soit passatisfaite,
c’est-à-dire que
doo dol.
On endéduit jo
> 0 et, la suitedes ji
étantcroissante,
on a :La suite des
dit
à i fixé étantblackienne,
on en déduit :soit,
enmultipliant parsi. :
ce
qui
estimpossible puisqu’on
obtient 1 de part et d’autre del’inégalité
en sommant sur i.associé à la
plus petite
modalité de X est son dual..
Dans notre
exemple
la suitedes ji
est croissante : il y a donc liaison blackienne croissante de la couleur des cheveux parrapport
à la couleur des yeux. Par contre iln’y
a pas une stricte liaison blackienne de la couleur des yeux parrapport
à la couleur des cheveux : ~a1Ton et %oirne sont pas blackiens par
rapport
à ro(tableau 4).
Tableau 4. Ordres des densités sur les couleurs
d’yeux,
à couleur de cheveux fixée.Cependant
cesexceptions
tiennent à de faibles différences entre les densités. Il suffirait de déclasser moins de0,4%
desindividus,
en en faisant passer 20 de(Pâles, Marrons)
à(Clairs, Marrons)
et un de(Pâles, Noirs)
à(Clairs, Noirs),
pour que ces interversionsdisparaissent.
Onpourrait
donc direqu’il
y a"presque"
liaison blackienne croissanteréciproque
entre les deux variables.4.GRAPHISME
Graphiquement,
la liaison blackienneréciproque
entre deux variables se traduit sur lestéréogramme
de liaison par le fait que les facessupérieures
desparallélépipèdes (figure 1)
forment un
"col",
autour d’un"point-selle",
lecouple (Châtain, Moyens)
dans notreexemple.
Dans la mesure où la
précision
de l’échelle degrisés suffit,
cette liaison se lit aussi biensur une version
simplifiée
de lafigure 1,
ungraphique
bidimensionnelqui
montre lestéréogramme
de liaison "vu de dessus"(figure 2).
On y retrouve la base carrée dustéréogramme, découpée
enrectangles
dont leslongueurs
et leslargeurs
sontproportionnelles
aux
fréquences marginales
et lessuperficies proportionnelles
auxfréquences produit.
Laprésence
d’un "col"s’y
lit comme sur une cartehypsométrique.
Figure
2. Vue àplat
de la liaisonblackienne2.
Nous n’avons pas trouvé dans les outils
graphiques proposés
par leslogiciels statistiques classiques
le moyen de dessiner unstéréogramme (que
ce soit celui de Calot ou lestéréogramme
deliaison).
Lesgraphiques
"3D"qu’ils
proposent utilisent en effet unquadrillage régulier
enlargeur
comme enlongueur.
Il seracependant possible
d’utiliser cesoutils pour dessiner un
stéréogramme
de liaisonchaque
fois que l’on pourra choisir desregroupements
de modalités defaçon
à rendre les distributionsmarginales
uniformes. Parexemple
dans le cas de variablesnumériques découpées
par leursquartiles,
déciles ou autresquantiles.
En effet lesfréquences fij
de la distribution croisée seront alors directementproportionnelles
aux densitésdij
et lestéréogramme
de liaison se confondra avec lareprésentation
"3D" de la distribution croisée.5. LIAISON ENTRE VARIABLES NOMINALES
Le
stéréogramme
de liaison peutégalement
servir à étudier la liaison entre des variablesdépourvues
d’ordre apriori.
Onpeut
parexemple
chercher s’il existe un ordre sur X et unordre sur Y
qui
donnent à la densité d une structure blackienne. Ou encore chercher despartitions
de X et Y en deux ouplusieurs
classes faisantapparaître
despics
de densité aucroisement d’une classe de X et d’une classe de
Y,
et des creux ailleurs. Celapeut
se faireempiriquement
en seguidant
sur les valeurs inscrites dans le tableau des densités pour intervertir deslignes
ou descolonnes,
à la manière des "matrices ordonnables" de Bertin(op.
cit.).
6. LIAISON BLACKIENNE ET
DÉPENDANCE STOCHASTIQUE
L’ordre
stochastique,
ou ordre ducumul, permet
de comparer deux distributions d’une variable ordonnée. On dit que la distributionf est
"àgauche"
de la distributionf’ ,
et on notef f’,
si2 L’auteur remercie un rapporteur pour avoir suggéré l’ajout de la figure 2.
Figure
3. Ordrestochastique,
ou ordre ducumul,
entre deux distributions.On associe à cet ordre sur les distributions une notion de
dépendance statistique
entredeux variables ordonnées X et Y : on dit que Y
dépend stochastiquement
de X defaçon
croissante si la famille des distributions de Y conditionnées par X est totalement ordonnée pour l’ordre du cumul :
Cette notion est décrite dans le cas de variables réelles sous le nom de
"regression dependence"
parTukey (1958)
et Lehmann(1959).
La relation entre
dépendance stochastique
et liaison blackienne est la suivante :THÉORÈME.
S’il y a liaison blackienneréciproque
entre deux variables ordonnées X etY,
il ya
également dépendance stochastique réciproque.
Notons
F)/i = fOli + ft/i +
...+ fYi
lafréquence
cumuléede j
conditionnéepar i (i
EX, j e Y). Considérons
lareprésentation graphique
de ces fonctions derépartition
conditionnelles(figure 4)
danslaquelle
les modalités de Y sontreprésentées
en abscisse par dessegments
delargeurs proportionnelles
auxfréquences marginales f~ .
Lespentes
dessegments
successifs de la courbe desFjli
sont les densitésdy.
La liaison blackienne de Y parrapport
à X se traduit donc sur cegraphique
par le fait que chacune de ces courbespossède
auplus
un"segment d’inflexion",
son segment depente
maximum(figuré
en trait gras sur lafigure 4), qui correspond
au"pli"
de l’ordreblackien,
et par le fait que l’abscisse de ces segments sedéplace
de
gauche
à droitequand
i croît de 0 à m.Figure
4. Fonctions derépartition
conditionnelles de Y dans le cas d’une liaison blackienne croissante de Y par rapport à X.On voit sur notre
exemple (figure 4)
que la liaison Blackienne de Y parrapport
à X n’entraîne pas nécessairement la liaisonstochastique :
ici deux des courbes se croisent.On suppose maintenant la liaison blackienne croissante
réciproque.
On doit démontrer :Le lemme prouve que c’est vrai
pour j
=0.Supposons
le résultat vraipour j
k et fauxpour k (pour
un certain 0 kn).
Il existe une modalité h de x(figure 4)
telle que :Il s’ensuit que la
pente
de la courbeF~
au dessus de la modalité k estplus
faible que cellede
F/h+ 1 ?
, ,..Comme les courbes finissent par se
rejoindre,
la courbeFlh,l présente
au moins unsegment,
associé à unemodalité q
> k deY,
dont lapente
est strictement inférieure à lapente
dusegment correspondant
de la courbeF~h+1 (q
= n dans le cas de lafigure 4).
On a donc :Pour
tout j
fixédans Y,
la suite desdij
est blackienne et atteint son maximum pour unemodalité
dans X. Lesinégalités
ci-dessus entraînent :Ceci est en contradiction avec la croissance de la suite des
ij, puisque k
q.CALOT
G.,
Cours destatistique descriptive, Paris, Dunod,1965,
2° éd.1973.FISHER
R.A.,
"Theprecision
of discriminantfunctions",
Ann.Eugen., 10, p.422-429,
1940.
LEHMANN
E.L., Testing
statisticalhypotheses,
NewYork, Wiley,1959.
PETIT J.L. et
TÉROUANNE E., Résumons-nous, Paris, Ellipses,
1988.ROUANET
H.,
LE ROUX B. et BERTM.C., Statistique
en Sciences Humaines : Procéduresnaturelles, Paris, Dunod,1987.
ROUANET H. et LE ROUX
B., Analyse
des donnéesmultidimensionnelles, Paris, Dunod,
1993.TUKEY
J.W.,
"Aproblem
ofBerkson,
and minimum varianceorderly estimators",
Ann.Math.