É RIC T ÉROUANNE
Corrélation entre variables nominales, ordinales, métriques ou numériques
Mathématiques et sciences humaines, tome 142 (1998), p. 5-16
<http://www.numdam.org/item?id=MSH_1998__142__5_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1998, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
CORRÉLATION
ENTREVARIABLES
NOMINALES, ORDINALES, MÉTRIQUES
OUNUMÉRIQUES
Éric TÉROUANNE’
RÉSUMÉ 2014
Un coefficient de corrélation est défini pour la distribution empirique conjointe de deuxvariables statistiques, que la structure a priori de chacune d’elles soit nominale, ordinale, métrique ou numérique.
L’obtention d’un formalisme commun à toutes ces structures permet
d’affiner
l’analyse de la liaison entre les variables, en termes d’homogénéité (variables ordonnées), d’ordres sous-jacents (variables non-ordonnées) oud’ordre induit (cas mixte).
SUMMARY 2014 Correlation between nominal, ordinal, metrical or numerical variables.
A correlation coefficient is defined for the
empirical joint
distribution of two statistical variables, whatever be thea priori structure, nominal, ordinal, metrical or numerical of each other. Obtaining a common formalism for all
these structures allows us to refine the analysis of correlation in terms of homogeneity (ordered variables), underlying orders (non-ordered variables) or induced order (mixed case).
1. INTRODUCTION
Cet article est la troisième
partie
d’un travailentrepris
afin decompléter
et deprésenter
defaçon
cohérente un ensemble d’outils
statistiques
traitant de lacomparaison
de deux distributions entermes de tendance centrale ou en termes de
dispersion,
oul’analyse
de la liaison entre deuxvariables. Il se situe donc volontairement dans le
champ
de lastatistique descriptive
élémentaire.S’il lui arrive de
rejoindre
des travaux deportée beaucoup plus générale
enanalyse
combinatoire des données(voir [1]
pour une revuerécente),
il a pour ambition essentielle de combler les lacunes constatées par l’auteur dans lapanoplie
dontdispose
habituellement lepraticien
ensciences humaines confronté à la
simple description,
nonprobabiliste,
de situationsstatistiques
uni- et bi-variées.
Avec
l’outillage
élémentaire leplus
commun, on sait parexemple analyser
la différenceentre deux distributions d’une variable
numérique,
par lacomparaison
de leurs moyennes ou de leursécarts-types,
mais on nedispose
pas d’outils similaires dans le cas de variables ordinalesou
nominales ;
on sait mesurer la liaison entre deux variablesnumériques
ou ordinales par divers coefficients decorrélation,
mais on nedispose
pas d’instrumentséquivalents
dans le cas’ Département de mathématiques et informatique appliquées, Université Paul Valéry, 34199 Montpellier Cedex 5.
Couriel : EricTerouanneC~bred.univ-montp3.fr
nominal ;
enfinl’outillage
commun laisse totalement de côté lalarge
classe des variables dont la structure apriori
estpurement métrique.
Ce dernierpoint
nous amènera(§2)
à proposer unetypologie
des «structuressimples»,
réunissant les casnominal, ordinal, métrique
etnumérique, qui
sontpris
encompte
dans ce travail.Dans une
première étape ([9]),
on a introduit la notion de «distorsion» comme mesure de la différence de tendance centrale entre deux distributions d’une variable nominale. On a ensuite montré([10])
comment un formalisme commun, celui des«transferts», permet
d’étendre cettemesure de la différence entre deux distributions aux
quatre types
de structuressimples,
enretrouvant les mesures
classiques
de la différence de tendance centrale dans le cas de deuxstructures
particulières :
le casnumérique,
où le transfert coïncide avec la différence entre les moyennes des deuxdistributions,
et le casdichotomique,
où il coïncide avec la différence absolue entre lesfréquences
de l’une ou l’autre des deux modalités.Dans cette troisième
étape,
on suivra la même démarche pourparler
de liaison entrevariables et, au passage, de
dispersion.
On commencera par utiliser la notion de distorsion pour définir la «covariation» entre deux variables nominales(§3).
On en tire un coefficient de corrélation nominalqui s’ajoute
à une listedéjà longue
depropositions
concurrentes(cf [7]
pourune revue
récente),
mais dont lajustification
serad’apparaître
comme casparticulier
d’un indicecommun à toutes les structures
simples.
Pour
parvenir
à une mesure de la covariation commune à cesquatre types
de structure(§4),
on sera amené à formaliser la notion de«position»
d’une modalité parrapport
à une autre,puis
celle de«co-position»
d’uncouple
de modalités parrapport
à un autre. On mettra ainsi en évidence une différence essentielle entre variables ordonnées(ordinales
ounumériques)
etvariables non ordonnées
(nominales
oumétriques) :
dans lepremier
cas laposition
ou la co-position
ont unsigne
déterminé par la structure apriori,
alors que dans le second on faitappel
àun
«signe
pardéfaut»,
déterminé aposteriori
par les distributions defréquences
que l’on veut comparer. On vérifiera que le coefficient de corrélation associécoïncide,
dans chacune des structuresparticulières concernées,
avec le coefficient de corrélationlinéaire,
le T de Kendallou le p de
Spearman,
et onsoulignera
lasingularité
du casnumérique.
Pour finir on montrera comment
l’avantage
deposséder
un formalisme commun auxvariables ordonnées et non-ordonnées
permet
d’affiner l’étude de la liaison entre deuxvariables,
avec la notion
d’homogénéité
dans le cas ordonné(§5),
la notion duale d’ordressous-jacents
dans le cas non-ordonné
(§6)
ou encore celle d’ordre induit dans le cas mixte d’une variable ordonnée et une variable non-ordonnée(§7).
2. STRUCTURES SIMPLES
Devant toute variable
statistique,
le statisticien doit choisir la structure apriori qu’il
désireprendre
encompte
sur l’ensemble E de ses modalités. La nomenclature des structurespossibles
d’une variable
statistique
se réduitcommunément,
dans les cours et ouvrages destatistique descriptive,
à deux classes :qualitatives, quantitatives (cf.
parexemple [2]),
voire trois :nominales, ordinales, numériques (cf.
parexemple [3]).
De rares auteurs([8])
mentionnent unequatrième
structure :métrique,
mais c’est pour la rattacher au casnumérique
en serestreignant
aux
métriques
euclidiennes de ladroite,
duplan
ouplus généralement
de Rn. Il faut aborder destravaux
plus spécialisés,
et encore hors deportée
dugrand public ([5], [1]),
pour voirprise
encompte
la structuremétrique
d’unefaçon
non triviale.Or une
part importante
des variables rencontrées dans diversesdisciplines d’observation,
en
particulier
en sciences humaines ou enbiologie,
sont très naturellement munies par lespécialiste
de structuresmétriques
variées :ultramétrique
associée à un arbre de classification(catégories socio-professionnelles),
distance duplus
court chemin sur ungraphe (noeuds
d’unréseau de
communication),
avec pour casparticulier
les variablescycliques (temporelles
ouspatiales),
nombre de différences entre deux mots(génôme),
etc. La structure nominale elle- mêmeapparaît
comme le casparticulier
d’une structuremétrique
uniforme.Aussi la structure
métrique prend-elle
naturellement saplace
dans un tableau dequatre
structures
simples qui
seproposent
au choix dupraticien (tab.1 ) .
Ce choix de la structure apriori
sedécompose
alors en deux : celui de doter ou non E d’un ordre total et celui de le doterou non d’une distance
(non uniforme).
On dit que la variable est nominale si l’on ne choisit ni ordre nidistance, métrique
si l’on ne choisitqu’une distance,
ordinale si l’on ne choisitqu’un
ordre.
Tableau 1 - Schéma des
quatre
structuressimples,
avec deux casparticuliers.
La structure
qui
combine ordre etmétrique
admet comme casparticulier
celui d’une variablenumérique,
pourlaquelle
on a choisi une distance et un ordrecompatibles (tels
enparticulier
que lesinégalités triangulaires
entre troispoints
ordonnés soient toutes deségalités).
A
l’opposé
de ce casparticulier,
que l’onpeut qualifier
de laplus
«riche» des structuressimples,
onpeut distinguer
le cas leplus
«pauvre», celui où le nombre des modalités est si faible que laquestion
de la structure ne se pose même pas : le cas d’une variabledichotomique.
Ce schéma laisse de côté nombre de structures
plus complexes,
comme les ordrespartiels
ou lesstructures
produit, qui
sortent du cadre de cette étude.3. UN COEFFICIENT DE
CORRÉLATION
ENTRE VARIABLES NOMINALESPour mesurer la différence de tendance centrale entre deux distributions p
et q
d’une variablenominale,
on aproposé ([9])
la notion de distorsionentre p et q
définie par :Cette
grandeur
varie de0, quand
les deux distributions sontégales,
à 1quand
elles sontétrangères (de supports disjoints).
Il
paraît
natureld’élargir
l’utilisation de cet indice à l’étude de la liaison entre deux variables. Soit en effet P la distribution defréquences conjointe
de deux variables nominales X et Y observées simultanément sur une mêmepopulation
et à valeurs dans E et Frespectivement.
On notera
P(x, y)
lafréquence conjointes
de(x, y), P(x)
etP(y)
lesfréquences marginales
de x etde y, et
Px (resp. P,) désignera
la distribution de Y(resp.
deX)
conditionnelle à une modalité x de X(resp.
y deF).
Une influence éventuelle de Y sur Xapparaîtra
d’autantplus
forte que les distributions conditionnellesP,
serontplus
différentes les unes des autres. Onpeut
doncmesurer cette influence par
la
moyenne des distorsions5({Py Py. } )
entre distributions conditionnelles deX,
moyenne étendue à toutes lescouples (y,y’) de modalités
dans F:Cette
grandeur
est nulle si et seulement si toutes les distorsions8( {Py ,Py’})
sontnulles,
c’est à dire si les distributions conditionnelles de X sont toutes
égales,
cequi
revient à dire que X et Y sontindépendantes.
Al’opposé,
à distributionmarginale
de Yfixée, 6(X, Y)
estmaximale si toutes les distorsions
8({Pv’Pv’})
sontégales
à1,
c’est à dire si lessupports
desdistributions conditionnelles
P,, sont
tousdisjoints,
cequi signifie
que Ydépend
fonctionnellement de X.
On
peut
de même évaluer l’influence éventuelle de X sur Y en calculant la distorsion moyenne entre les distributions conditionnellesPx
de Y. On vérifie facilement que ces deux calculs donnent le mêmerésultat, qu’on appellera
covariation de X et Y etqui s’écrit,
d’unefaçon plus symétrique :
Appliqué
à la distributionconjointe
de la variable X avecelle-même,
cet indice mesure ladispersion
de la distributionmarginale
de X. En effetchaque
distribution conditionnellePx
seconfond alors avec la distribution de Dirac en x, aussi la distorsion
8( {Px,Px’})
vaut-elle 0 si x =x’ et 1
sinon,
et l’on obtient :Cet indice est nul si et seulement si la distribution de X est concentrée sur une seule modalité de E. Il est maximal
(et égal
à1-1/Card(E»
si et seulement si cette distribution est uniforme.On mesurera naturellement la corrélation entre X et Y par :
On vérifie aisément que ce coefficient de corrélation p est
toujours compris
entre 0 et1, qu’il
est nul si et seulement si X et Y sontindépendantes
etqu’il
estégal
à 1 si et seulement si les deux variables sont endépendance
fonctionnellebijective.
Dans le cas de deux variablesdichotomiques,
il coïncide(au signe près)
avec le coefficientpoint-tétrachorique (voir
parexemple [8]).
4.
CORRÉLATION
ENTRE DEUX VARIABLES DE STRUCTUREQUELCONQUE
4.1. Position
Le calcul du transfert entre une distribution p et une
distribution q
sur un même ensemble E repose sur la notionsous-jacente
deposition
d’une modalité par rapport à une autre. Cetteposition 7r(x,x’)
est une fonctionantisymétrique
sur ExE(z(xx’)=-z (x’,x)),
dont la valeurabsolue
d(x,x’) dépend
de la distancechoisie,
et dont lesigne s(x,x’) dépend
de l’ordrechoisi,
de la
façon
suivante :. La distance d est la distance a
priori
sur E si l’on en a choisi une, la distance uniformémentégale
à 1 en dehors de ladiagonale
sinon.. Le
signe s(x,x’) dépend
de l’ordre apriori
sur E si l’on en a choisi un et desdistributions p
et q sinon. Si l’on a choisi l’ordre a
priori 6)
surE, s(x, x’ )
vaut +1 si(x, x’ ) appartient
à 0)(au
sens de l’ordrestrict)
et -1 si c’est(x’, x) qui appartient
à ~ . Si l’on n’a pas choisi d’ordre apriori
surE,
on lui substitue l’ordre de distorsion(qlp) (cf [ 10] ) : s(x, x’)
vaut + 1 sile déterminant
p(x)q(x’)-p(x’)q(x)
estpositif
et -1 s’il estnégatif.
Dans tous les cas,s(x,x)=0.
On
appelle
alorsposition
de x par rapport à x’ laquantité n(x,x’ )=s( x,x’ )d( x,x’).
Dans lecas d’une variable
numérique,
on retrouve bien sûr :z(x,x’)
= x’-x. Avec cesnotations,
le transfertt(p, q)
pour passer de la distribution p à ladistribution q,
telqu’on
l’a défini en[10],
est, dans tous les cas de structure
simple,
laposition
moyenne pour leproduit
des distributionsp et q :
On note que la
position
de x parrapport
à x’ nedépend
que de la structure apriori quand
celle-ci
comporte
unordre,
maisdépend également
des deux distributionsquand
elle n’encomporte
pas. C’est en celaqu’elle
sedistingue,
dans le cassymétrique (sans ordre),
de lanotion utilisée par Lerman
([5]).
Nous allons retrouver cette différence dans l’étude de la liaisonentre deux variables.
4.2.
Co-position
Soient donc X et Y deux variables définies sur une même
population
et à valeursrespectivement
dans les ensembles E et F munis chacun d’une structure
simple quelconque,
et soit P leur distributionconjointe.
Laco-position n((x,y),(x’,y’»
d’uncouple
de modalités(x,y)
de ExFpar
rapport
à un autrecouple (x’,y’)
est leproduit
d’une valeur absolued((x,y),(x’,y’))
et d’unsigne s((x, y), (x’, y’)) :
. La valeur absolue
d((x, y), (x’, y’))
est leproduit d(x,x’)d(y, y’)
des distances entre x et x’d’une
part,
y ety’
d’autrepart,
avec la convention que si l’on n’a pas choisi de distance surl’un ou l’autre ensemble celle-ci est
réputée
uniforme.. Le
signe s((x,y),(x’,y’))
vaut +1 ou -1. Ildépend
des ordres choisis sur E et F s’ils existenttous
deux,
et de la distribution P sinon. Dans lepremier
cas,s((x,y), (x’,y’))
est leproduit s(x,x’) s(y,y’), qui
vaut +1 si lescouples (x,y)
et(x’,y’)
sontcomparables
pour l’ordreproduit («xx’
etyy’»
ou «x’x ety’y»), -1
sinon(«xx’
ety>y’»
ou «x>x’ etyy’»).
Dans le second cas,
s((x, y), (x’, y’))
vaut + 1 ou -1 selon que le déterminantP(x, y)P(x’, y’) - P(x,y’)P(x’,y)
estpositif
ounégatif.
Le
signe
de zdépend
donc de la distribution P si E et F ne sont pas tous deux ordonnés.L’antisymétrie
de laco-position s’exprime
par :4.3.
Covariation, dispersion
et corrélationLa covariation entre X et Y est la
co-position
moyenne de tous lescouples
demodalités,
pour le carré de la distribution P :Dans le calcul de la covariation entre une variable X et
elle-même,
les sommes ci-dessuss’étendent à
ExE,
surlequel
la distribution P a poursupport
ladiagonale : P(x, y)
=P(x)
si x=y, 0 sinon. Sur cettediagonale, s((x,x), (x’,x’))
vauttoujours
1 si jc~~’ : c’est en effet le carré des(x,x’)
si l’on a choisi un ordre apriori
et lesigne
du déterminantP(x)P(x’)
sinon. Lacovariation entre X et elle-même s’écrit donc dans tous les cas :
et sa racine carrée est la moyenne
quadratique
des distances entre modalités. On a vu au§3
laforme
qu’elle prend
dans le cas nominal. Elleprend
la même dans le cas ordinal. C’est dans tous les cas un indice dedispersion
de la distributionmarginale
deX,
et lecoefficient
decorrélation entre X et Y est
classiquement
défini par :Ce coefficient
s’applique
donc au cas de deux variables de structuresdifférentes,
auprix
de l’abandon de la structure d’ordre de l’une des variables si l’autre n’en a pas
également
reçuune. Il coïncide avec le coefficient défini au
§3
dans le cas de deux variables nominales.4.4. Corrélation entre deux variables non-ordonnées
La covariation entre deux variables
métriques
XetY peut
s’écrire :ou encore comme la moyenne du
produit
de la distance entre deux modalités de l’une des variables par le transfert entre les distributions conditionnellescorrrespondantes
de l’autre :4.5. Corrélation entre deux variables ordonnées
Dans le cas de deux variables ordonnées
(et
enparticulier numériques),
laco-position n((x,y),(x’,y’»
est leproduit
des«positions marginales» z(x,x’)
etz(y,y’) : a(X,Y)
est doncle
produit
scalaire de ces deux fonctionsréelles,
définies sur(ExF)2 ,
dans la structureeuclidienne associée à la distribution carrée
P2.
Dans le cas de deux variables
numériques
on retrouve la covariance ~’XYhabituelle,
à undoublement
près :
Il s’ensuit que :
et donc que
p(X, Y)
est le coefficient de corrélation linéaire entre X et Y.Dans le cas de deux variables ordinales
(avec
lamétrique uniforme),
on a :où l1r
désigne
la taille de lapopulation (ou
del’échantillon) étudiée, n(accords)
le nombre depaires
d’individus pourlesquels
l’ordre selon X et l’ordre selon Y coïncident etn(désaccords)
lenombre de
paires
pourlesquels
ils sontopposés.
Ainsi la valeur normaliséecorrespondante, p(X,Y),
est bien l’une desgénéralisations possibles
du coefficient de corrélation de Kendall.Dans le cas de deux variables ordonnées munies de la
métrique
des rangs, on retrouve bien sûr le coefficient de corrélation de rangs deSpearman.
La covariation
peut s’exprimer,
dans tous les cas de variablesordonnées,
comme lamoyenne, pour la distribution
marginale
de l’une desvariables,
duproduit
despositions
relatives de deux de ses modalités par le transfert entre les distributions conditionnelles
correspondantes
de l’autre variable :Dans le cas de deux variables
numériques,
et si l’on noteYx
la moyenne de la variable Y pour la distribution conditionnelleP~,
on retrouve :4.6.
Singularité
du casnumérique
Dans la
présentation
habituelle du coefficient de corrélation linéaire comme uncosinus,
lacovariance est définie comme un
produit
scalaire entre deux fonctions définies sur l’ensemble fi des individus. La structure euclidienne utilisée surl’espace
de ces fonctions est leproduit
scalaire associé à une mesure a
priori (par exemple uniforme)
choisie sur lapopulation
~. Cettedéfinition admet comme cas
particulier
le p deSpearman,
cosinus entre les fonctions de rangs centrés. Par contre elle ne s’étend pas au T de Kendall. Ce dernierpossède
bien une définitioneuclidienne,
mais dansl’espace
des fonctions définies sur lescouples d’individus,
et à valeurdans
{ -1,o,1 } (voir
parexemple [6], p.103-106).
C’est bien dans ce dernier
cadre, l’espace
des fonctions définies sur lescouples
d’individus,
que s’écrit la définition de la covariation dans sa formulationgénérale.
Dans le casparticulier
de deux variablesnumériques,
ceci nous fournit uneinterprétation
alternative du coefficient de corrélation linéaire :plutôt
que lecosinus,
dansRn,
entre le vecteur des valeurs selon une variable et celui des valeurs selonl’autre,
on le considère ici comme lecosinus,
dans7?~~,
entre le vecteur des différences de valeur selon une variable et celui des différences de valeur selon l’autre.Cette formulation commune au cas ordinal et au cas
numérique
faitapparaître
ce derniercomme
l’exception plutôt
que la norme. La raison de cetteexception
est dans lasimplification qui s’opère
dans le casnumérique,
du fait que Epossède
lui-même une structure vectorielle : il existe alors une «moyenne» desmodalités,
et laposition
moyenne d’une modalité parrapport
àtoutes les autres se confond avec sa propre
position
parrapport
à cette moyenne. Dans les autres structures, faute d’une tellesimplification,
les calculs demeurent en termes depositions
relativesentre les modalités.
Cette
nécessité,
pour obtenir unlangage
commun à toutes les structuressimples,
deraisonner sur le carré cartésien de l’ensemble des modalités muni d’une distribution
produit,
etcette
singularité
du casnumérique, apparaissent
dès lacomparaison
en termes de tendancecentrale. En effet le transfert entre deux distributions p et q se définit comme une moyenne étendue à l’ensemble des
couples
d’individus(ou
demodalités).
Il admet la différence entre les moyennes d’une variablenumérique
comme casparticulier,
et cen’y
a que ce dernier cas danslequel
son calcul sesimplifie
en se ramenant à l’ensemble des modalités( [ 10], p.70).
5.
HOMOGÉNÉITE
DE LA LIAISON ENTRE DEUX VARIABLESORDONNÉES
On a introduit
( [ 10])
la notiond’homogénéité
du transfert entre deux distributions p et q d’une variable ordonnée : c’est le cas danslequel
l’ordre de distorsion(qlp)
coïncide avec l’ordre apriori m (transfert homogène croissant)
ou avec son dual W(transfert homogène décroissant).
Evaluer
l’homogénéité
du transfert revient à comparer le transfert mesuré dans la structure apriori,
avec sa distance d et son ordre 6D, au transfert mesuré dans la structureprivée
de cetordre. Ces deux
grandeurs peuvent
s’écrire :dans le cas ordonné
dans le cas non-ordonné
Le transfert ordonné est
toujours,
en valeurabsolue,
inférieur au transfertnon-ordonné,
etne lui est
égal
que si le transfert esthomogène.
Lerapport
entre la valeur absolue dupremier
etla valeur du second fournit ainsi un indice
d’homogénéité, compris
entre 0 et 1. Onpeut
direque si la valeur absolue du transfert mesure la force de la
différence,
l’indiced’homogénéité
enmesure la
qualité.
On vérifie donc
l’homogénéité
du transfert en s’assurant que pour toutcouple (x,x’) appartenant
à l’ordre 69 le déterminantp(x)q(x’) - p(x’)q(x)
estpositif.
On montre facilementqu’il
suffit en fait de le vérifier pour lescouples
où x et x’ sont voisins dans l’ordre 6). La démonstration se fait deproche
enproche,
àpartir
de l’étude de deuxinégalités voisines,
comme
p(x)q(x’)
>p(x’)q(x) et p(x’)q(x ")
>p(x ")q(x’).
La même notion s’étend à l’étude de la liaison entre deux variables ordonnées : on dira que la liaison est
homogène
croissante(respectivement décroissante)
si pour toutcouple ((x, y), (x’, y’))
lesigne s((x, y), (x’, y’))
coïncide avec celui du déterminantP(x, y)P(x’, y’) - P(x, y’)P(x’, y) (resp.
avec lesigne opposé).
Evaluerl’homogénéité
de la liaison revient donc à comparer la covariation mesuré dans la structure apriori,
avec ses ordres 0) sur E et ~’ surF,
au transfert mesuré avec les structures
privées
de leurs ordres. Ces deuxgrandeurs peuvent
s’écrire :
dans le cas ordonné
dans le cas non-ordonné
La covariation ordonnée est
toujours,
en valeurabsolue,
inférieure à la covariation non-ordonnée. Le
rapport
de la valeur absolue de lapremière
à la seconde fournit donc un indiced’homogénéité
de laliaison, compris
entre 0 et 1. La liaison esthomogène
si et seulement si cecoefficient vaut 1. Ce
type
dedépendance
a été introduit par Lehman([4])
dans le cadre inférentiel de l’étude de variables aléatoiresréelles,
sous le nom de «likelihood ratiodependence».
Cet auteur leprésente
comme leplus
fort d’une série deconcepts
dedépendance
étudiés dans ce même cadre.
On vérifie donc
l’homogénéité
de la liaison en s’assurant que pour toutepaire
decouples (x, y) et(x’,y’) comparables
pour l’ordreproduit,
le déterminantP(x, y)P(x’, y’) - P(x, y’)P(x’, y)
est
positif.
Comme dans le cas del’homogénéité
dutransfert,
et enappliquant
le mêmetype d’argument
auproduit
des ordres 6) et~’,
on montrequ’il
n’est pas nécessaire pour établirl’homogénéité
de la liaison entre deux variables ordinales de vérifier lapositivité
de tous lesdéterminants : il suffit de la vérifier pour les déterminants concernant des
couples
dont lesmodalités x et
x’,
comme les modalités y ety’,
sont voisines dans l’ordre apriori.
Une autre condition
équivalente
àl’homogénéité
croissante(resp. décroissante)
est que pour toutcouple
xx’ de modalités de l’une desvariables,
le transfert entre les distributions conditionnellesP~
etPx’
de l’autre variable soithomogène
croissant(resp. décroissant).
L’intérêt de la notion
d’homogénéité,
comme des autresconcepts
introduits parLehmann,
est de proposer un
diagnostic
fin de laqualité
de laliaison, indépendamment
de sa forcequi, elle,
est mesurée par la valeur absolue du coefficient de corrélation.6. ORDRES SOUS-JACENTS A UNE LIAISON ENTRE VARIABLES NON
ORDONNÉES
De
façon symétrique, l’homogénéité peut
se «reconnaître» dans la distributionconjointe
de deuxvariables non ordonnées
(métriques
ounominales).
C’est cequi
se passe s’il existe deux ordresm sur E et ~’ sur F tels que le
signe
du déterminantP(x, y)P(x’, y’) - P(x, y’)P(x’, y)
coïncideavec le
produit
dessignes s(x,x’)
associé à (o ets(y,y’)
associé à w’.L’analyse
de P pour lesstructures de X et Y enrichies par ces ordres montre en ce cas une liaison
homogène.
On diraalors que la liaison entre X et Y fait
apparaître
les ordressous-jacents 0)
et 6~.Une condition
équivalente
à l’existence d’ordressous-jacents
à la liaison entre X et Y estl’existence d’un ordre 6) sur l’ensemble de modalités de l’une des
variables,
disonsE,
tel que pour toutcouple (y, y’ )
de modalités de l’autrevariable,
l’ordre de distorsion(Py,IPy)
entre lesdistributions conditionnelles de la
première
variable coïncide soit avec 6) soit avec son dual. Un ordre 6)’ s’en déduit alors sur l’ensemble F des modalités de cette seconde variable : c’est l’ensemble descouples (y,y’)
tels que(P,, IPY)
coïncide avec 0)(on
vérifie facilement que cette relation esttransitive).
’
Quand
la liaison entre deux variables ne révèle pas deux ordressous-jacents,
onpeut
utilement rechercher les ordres m sur E et 6)’ sur Fqui
sont lesplus proches
de réaliser cettecondition,
parexemple
ceuxqui
maximisent l’indiced’homogénéité.
7. ANALYSE DE LA
CORRÉLATION
ENTRE UNE VARIABLEORDONNÉE
ET UNE VARIABLE NONORDONNÉE
Si l’une des
variables,
disonsX,
est ordonnée et pasl’autre,
onpeut
rechercher s’il existe unordre m’ sur F
qui
rende la liaison entre les deux variables ordonnéeshomogène.
S’il existe untel
ordres’,
on dira que c’est l’ordre induit sur F par ~.Sinon,
on pourra chercher l’ordre leplus proche
de réaliser cettecondition, toujours
en maximisant l’indiced’homogénéité
résultant.La recherche de l’ordre induit se fait en calculant les ordres de distorsion
(Px, lPx )
pour(x, x’)
dans co: en effet tous ces ordres doivent coïncider avec lui s’il existe. Là encore, il suffit en fait de considérer ces ordres de distorsion pour les
couples
de modalités x et x’ voisines.L’existence d’un ordre sur F induit par un ordre a
priori 6)
sur Eimplique
que la liaisonentre les deux variables
dépourvues
d’ordre fasseapparaître
des ordressous-jacents,
et que l’ordresous-jacent
sur E soit ~.Il arrive
également
quel’analyse
non-ordonnée de variables ordonnées fasseapparaître
des ordres
sous-jacents
différents des ordres apriori.
Parexemple,
l’ordre apriori a)
sur Epeut
induire sur F un ordre m" différent de l’ordre a
priori
6)’. Lesrapports
entre 6)’ et ~"peuvent
alors être révélateurs d’une liaison non monotone. On rencontre en
particulier
des situations où 6~’ est Blackien parrapport
à 6)’. C’esttypiquement
le cas en sciences sociales ou enbiologie,
dans des
phénomènes
de sénescence ou de néoténie : X est parexemple
une échelled’opinion
ou une mesure
biométrique,
et Y estl’âge
des individus. Si l’onanalyse
la liaison sans tenircompte
de la structure d’ordre naturelle 6)’ surY,
il arrive que la structure d’ordre de la variable X induise sur Y un ordre 6/’qui
coïncide avec 6)’ pour les classes lesplus jeunes, puis
avecson dual pour les
plus âgées, présentant
unrebroussement,
une sorte de retour en enfance.8. CONCLUSION ET APPEL A EXEMPLES
L’étude de la
corrélation,
même limitée àl’analyse bi-variée, apparaît
donc comme une notiontrès
riche,
enparticulier
si l’on se donne unegrande
liberté dans le choix des structures apriori.
L’auteur serait très reconnaissant envers les lecteurs
qui,
intéressés par lestechniques exposées ici,
luicommuniqueraient
desexemples
de situations réelles danslesquelles
l’une d’elles leur sembleraitpertinente.
Il se propose, avec leuraccord,
d’assurer la diffusion de cesexemples
etde leur traitement
auprès
de tous ceuxqui
auront manifesté leur intérêt pour cesapplications.
BIBLIOGRAPHIE
[1]
ARABIE P. et HUBERTL.J.,
«An overview of combinatorial dataanalysis»,
inClustering
andclassification, P.ARABIE,
L.J. HUBERT et G. DE SOETEeds,
RiverEdge,
World Scientific
Publ., 1996
[2]
CALOTG.,
Cours destatistique descriptive, Paris, Dunod, 1965 [3]
DROESBEKEJ.J.,
Eléments destatistique, Paris, Ellipses, 1988
[4]
LEHMANNE.L.,
«Someconcepts
ofdependence»,
Annalsof
MathematicalStatistics, 37 (1966),
1137-1153.[5]
LERMANI.C., «Conception
etanalyse
de la forme limite d’une famille de coefficientsstatistiques
d’association entre variables relationnelles»I, Mathématiques, Informatique
etSciences
humaines,
118(1992), 33-52.
[6]
PETIT J.L. etTÉROUANNE É., Résumons-nous,
ModèlesMathématiques
en SciencesSociales, Paris, Ellipses,
1988.[7]
POTTIERP.,
«Mesure de la liaison entre deux variablesqualitiatives :
relations entre uncoefficient de corrélation
généralisé
et leChi-deux»,
Revue deStatistique Appliquée,
42(1994),
41-61.