I. C. L ERMAN
Interprétation non-linéaire d’un coefficient d’association entre modalités d’une juxtaposition de tables de contingence
Mathématiques et sciences humaines, tome 83 (1983), p. 5-30
<http://www.numdam.org/item?id=MSH_1983__83__5_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1983, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
INTERPRETATION NON-LINEAIRE D’UN COEFFICIENT D’ASSOCIATION ENTRE MODALITES D’UNE JUXTAPOSITION DE TABLES DE CONTINGENCE
I.C. LERMAN *
I. INTRODUCTION
La donnée à
laquelle
nous nous intéresseronsplus particulièrement
ici estdéfinie par une
juxtaposition
"horizontale" de tables decontingence ,
in-dexée par
un ensemble
dela forme
où
I(resp. J(l),1~l~L)
se trouve défini par l’ensemble des modalités d’unevariable-partition ;
en d’autres termes, I etchaque J(l)
est unsystème
exhaustif de modalités exclusives.
On considère le
problème
de lacomparaison,
relativementà I,
des élé-ments deux à deux de l’ensemble suivant J des modalités :
Alors que deux
modalités j
etj’
d’un mêmeJ(~
sontexclusives,
iln’en est
généralement
pas de même de deux modalitésj~
etj£,
appartenantrespectivement
à deux ensembles distinctsJ
etJ (lfl’).
Un aspect denotre
préoccupation qui
a conduit à cet article consisteprécisément
àjusti-
fier
l’usage
d’un même coefficient d’association aussi bien pour comparerjz
et
j’
L. que pourcomparer j
4-’et j,
L et ce, à travers I.Il est inutile d’insister sur
l’importance pratique
de la structure desdonnées
qui
nous concerne ici etqu’on
rencontrefréquemment ;
donnonsquel-
ques
exemples :
IRISA (L.A. 227) -
Université de Rennes I -Campus
de Beaulieu -35042 Rennes Cédex.
- En
Géographie
Sociale où relativement auproblème
del’appréhension
de la
politique
de construction delogements pendant
une certainepériode
dans un
département donné,
il y a lieu de construire unetypologie
avec ousans contrainte de
contiguïté spatiale A. PROD’HOMME(1980)]
de l’ensembledes communes du
département
à travers différentes variablesqualitatives
etdont certaines peuvent dès le
départ
être croisées.Signalons quelques-unes
de ces variables :
"caractère individuel ou collectif du
logement", "HLM, logement
aidéou non-aidé par les
pouvoirs communaux",
"résidenceprincipale
ousecondaire",
"catégorie socio-professionnelle
del’habitant",
"nature du sol(bâti,
boiset
landes, autre)"
etc..On remarquera que l’unité de base permettant de
charger
une même case n’est pas nécessairement la même d’une table decontingence
à une autre ; eneffet,
il peuts’agir
d’un nombre delogements
ayant une certaine caractéris-tique
dans l’un des cas, d’un nombre d’individus appartenant à une certainecatégorie socio-professionnelle
dans un deuxième cas, d’une surface de sol réservée à une certaine fonction dans un troisièmecas~etc..
- En Economie Rurale où on doit déterminer l’évolution
globale
de lastructure de la
production agricole
de l’ensemble desdépartements Français
ces dix dernières années. On
distingue
14 types deproductions qui
sont mesu-rées par rapport à une unité de monnaie "normalisée" par rapport au temps.
Chaque
année définira un tableau assimilable à une table decontingence répar-
tissant la masse monétaire
produite
entre d’une part les différentsdéparte-
ments
(en ligne)
et les 14 types deproduction (en colonne).
- En
Linguistique :
l’ensemble deslignes
est indexé par un ensemble V de verbes duFrançais
et l’ensemble des colonnes par un ensemble T de trans-formations
grammaticales,
une même table decontingence correspond
à un texteet le contenu d’une des cases
(v,t)
du tableau est le nombre de fois où -dansle texte- le verbe v admet la transformation
grammaticale
t.D’autre part,
lorsque
lapartition
indexant leslignes
se réduit à lapartition discrète,
Ireprésente
l’ensemble des individus ouobjets
et le ta-bleau des données est dans ce cas communément
appelé
"tableaudisjonctif
com-plet" ;
on le rencontre comme résultat d’unquestionnaire.
En commençant par considérer une seule table de
contingence
IxJ,I.C. Lerman et B. Tallur
fITALLUR(1978),LERMAN
etTALLUR(1980)]
ont défini unindice d’association entre éléments de J ayant une forme corrélative.
Cette définition
prenait
d’une part en compte lareprésentation
eucli-dienne de I à travers J telle
qu’elle
est fournie dansl’analyse
des corres-pondances
et d’autre part, le fait quel’application
de notre démarche deconstruction d’un indice d’association entre
variables,
conduitlorsque
ces dernières sontquantitatives,
à un facteurmultiplicatif
constantprès,
aucoefficient de corrélation entre les deux variables.
Dans cette démarche que nous
rappellerons
de façonplus précise
ci-dessous,
onadopte
unereprésentation
ensembliste des variables et on intro- duit unehypothèse
d’absence de lien par rapport àlaquelle
on se réfère.L’objet principal
de ce travail est de montrer que cette seule démarche de construction permet, sans aucune référence à unereprésentation euclidienne,
de retrouver le même type d’indice et de le
généraliser
très naturellement au cas où J est de la forme(2)
ci-dessus. Cettegénéralisation
nous permettra de"comprendre",
pour cequi
concerne lacomparaison
entre deux modalités non-exclusives,
la différence entre un coefficient d’association totale et d’as- sociation relative à l’ensemble I des modalités d’une variablequalitative
nominale.
II. LES DEUX REPRESENTATIONS DE LA CORRELATION
Pour la
comparaison
de deux variables d’un même type, nous allons considérer les deux cas lesplus simples ;
lepremier
est celui où les deux variablessont
quantitatives numériques
et le second est celui où ils’agit
d’attributs dedescription.
1. Cas où les deux variables sont
numériques
Désignons
par(v,w)
les deux variables et par{xi/1in} (resp.{yi/1in})
i 1 lasuite des valeurs de la variable v
(resp.w)
sur la suite des individus. Le coefficient de corrélation entre les deux variablesoù
moy.(resp.var.) désigne
la moyenne(resp.
variance) sur l’ensemble que nous noterons I cesindividus,
estinterprété
selon lepoint
de vu->géométrique
enanalyse
desdonnées,
comme le cosinus del’angle
de deux vecteurs.De façon
précise
siX(resp.Y) désigne
le vecteur deRn
dont la suite des composantes est(x./1n)(resp.(y./1in))
i 1 et si 1désigne
le vecteurRn
dont toutes les composantes sontégales à 1, P(v,w)
est le cosinus del’angle
des deux vecteurs suivants :où
X,1> désigne
leproduit
scalaireordinaire,
résultant desprojections
o~-thogonales
des vecteurs X et Y surl’hyperplan perpendiculaire
au vecteur donttoutes les composantes sont
égales
à 1.Une des
origines
de notre démarche dans l’évaluation desproximités
entre variables discrètes et,
plus généralement,
entre structures statisti- ques de même type, est que l’indice de corrélationp(v,w)
peut, au coeffi- cient1 /~n-1 près,
être obtenu de la manière suivante.On commence par introduire un indice "brut" d’association entre les deux variables v et w :
On considère ensuite une
"hypothèse
d’absence deliaison, (h.a.l.)
oùon introduit une
permutation
aléatoire a dans l’ensembleG ,
n muni d’une pro-babilité uniformément
répartie,
des n!permutations
sur(1,2,...,i,...,n).
L’h.a.l. peut dans ce cas avoir une forme unilatérale en fixant
v(resp.w)
et en associant àw(resp.v)
une variable aléatoire(v.a.) w’(resp.
v’)
pourlaquelle
A
s(v,w)
se trouvent associées les deux v.a. duales et de même loiasymptotiquement
normaleWALD
&WOLFOWITZ(1944), NCE UTHER(1949), HAJEK(1961~
1suivantes :
et
La moyenne et la variance communes sont
respectivement égales
àde sorte que
où S est l’une des deux v.a.
(4).
2. Cas où les deux variables sont des attributs
Désignons
par(a,b)
lecouple
d’attributsdescriptifs
à comparer, par(I(a),I(b))
lecouple
departies
de I, oùI(a)(resp.I(b))
est l’ensemble des individusqui possèdent
l’attributa(resp. b)
et par(E(a),E(b»
lecouple
devecteurs
logiques indiquant respectivement I(a)
etI(b) :
égal
à 0 ou 1 selon que l’attributa(resp.b)
est absent ouprésent
chez l’in-dividu
i,
i6I.Le
point
de vuegéométrique
conduit àreprésenter
l’attributa(resp.b)
par le
point
deRn
dont la suite des composantes est définie para.(resp.S.),
i 11in ;
et àopérer
comme dans le cas où les variables sontnumériques.
Relativement à notre
point
de vue dereprésentation
ensembliste desvariables,
les attributs a et b sontfigurés
par deuxpoints
de l’ensemblef(I)
desparties
de I. La situation peut être naïvement schématisée comme suitAprès
avoir introduit l’indice bruts=card[I(a)n,(b)3,
on considèreune h.a.l. N
qui
associe autriplet {I ;
un tri-plet
d’ensemblesaléatoires fJ ; X,Y/XC’J, YCEJI.
L’h.a.l. doit d’une "certaine
façon"
respecter lescaractéristiques
cardinales de
I(a),I(b)
et I et à cetégard,
nous avons pudégager
trois for-mes fondamentales de l’h.a.l. N :
N1,NZ
etN3 LERMAN ( 1981 a) Chap.2].
Pour
N1,
J=I etX(resp.Y)
est un élément aléatoire dans l’ensembler (I) (1»,
muni muni d’uneprobabilité uniformément répartie,, probabilité
uniformémentrepartie,
desdesn a
n(b)
’ ’parties
de I de même cardinaln(a)=cardl(a))(resp.n(b)=card(I(b))).
D’autrepart, X et Y sont
indépendants.
Dans cesconditions,
la v.a. esthypergéométrique
de moyennen(a)n(b)/n
et de variancen(a)n(a)n(b)n(b)/n2(n-1).
L’indice centré réduit est, au coefficient
n près,
l’indice d’association de K. Pearson.Pour
N2,~=I.
Le choix deX(resp.Y)
se fait selon un modèle aléatoireà deux pas :
- le
premier
consiste dans le choix d’un niveauk(resp.h) de * (I)
avecune
probabilité
binomiale- le deuxième pas consiste dans le choix uniformément au hasard d’un élément
qui
est un k-sous ensemble(resp.
h-sousensemble)
de I, à ce niveau.De
plus
X et Y sontindépendants.
Dans cesconditions,
on démontre queS=card (x nY)
est une v.a. binomiale deparamètre
La moyenne est donc la même que dans le cas de l’h.a.l.N1,
mais sa variance estégale
àmr(1-fr).
Pour
N3"
le choix deX(resp.Y)
se fait selon un modèle aléatoire à trois pas :- le
premier
consiste à associer à I un ensemblealéatoires
mais oùl’aléa ne concerne que la cardinalité deiJ. On suppose que est une
v.a. de Poisson de
paramètre n=card(I) :
-
pour c J=l0 fixé,
les deux autres pas sontanalogues
à ceux deN .
Lesparties
aléatoires X et Y étantindépendantes,
on démontre que la v.a.S=card(XfIY)
suit une loi de Poisson deparamètre n(a)n(b)/n.
On voit que la moyenne de S est la même que dans les deux casprécédents ;
mais la variancedevient ici
égale
àn(a)n(b)/n.
-Le deuxième
point
de vue dereprésentation
ensembliste des variables dedescription
segénéralise
de façon naturelle pour lacomparaison
de deuxvariables
qualitatives
de toutes sortesLERMAN(1981a) Chap.2). Nous
allonsmontrer
qu’il
suffit pour lacomparaison
delignes
ou colonnes d’unejuxta- position
"horizontale" de tableaux decontingence (cf.(1) §I).
III. CAS D’UNE JUXTAPOSITION DE TABLES DE CONTINGENCE
III.1. Cas d’un seul tableau de
contingence
1.
Représentation géométrique
Soit le tableau de
contingence
indexé par IxJ :où
k.. désigne
le nombre d’individuspossédant
les modalités i de Iet j
de J.1J
On
rappelle
les notations :Nous allons commencer par
rappeler
leprincipe
de lacomparaison
dedeux
modalités j et j’
de J,qui
repose sur lareprésentation
euclidienne de I à travers J. Cettereprésentation
est fournie dans le cadre del’analyse
descorrespondances
où on associe àchaque
i deI,
lepoint
deR
dont la sui-te des coordonnées est
{k../k. /jSJ} ;
ils’agit
du"profil"
de i à travers J.1J 1-’
Dès
lors, chaque j
de J se trouve assimilé à une variablequantitati-
ve
-puisqu’elle
estreprésentée
par une forme linéaire coordonnée- dont la valeur sur le i-ème élément estégale
à(k../k. ).
D’autre part, l’élémenti,
J 1.
pour tout i de
I,
est affecté dupoids k.
1 .../k .
Dans ces
conditions,
le coefficient de corrélationentre j et j’
de J,se met sous la forme
ou encore, en introduisant les
proportions
2.
Représentation
ensemblisteDésignons
par E l’ensemble des individus ouobjets
et par{Ei/ieIl
1(resp.
{F./jeJ})
lapartition
sur E définie par la variablequalitative
nominale dontJ
les modalités indexent les
lignes (resp. colonnes)
du tableau decontingence.
Si j
et h sont les deux modalités exclusives de J à comparer, relati-vement à I, la situation peut
être,
relativement à un mêmei,
schématiséecomme suit :
2.1. Indice brut d’association
Relativement à la classe
E.,
le lien brut entre les deuxparties disjointes
- - - -- - - - - 1-
F.
etFh
sera mesuré parDans ces
conditions,
le lien brut entre F. i etFh
hrelativement à la
partition {Ei/i6II,-se
trouve défini paroù nous notons ici
n(i)=card
card
(:
2.2.
L’hypothèse
d’absence de liaison(h.a.l.)
Pour un même i l’h.a.l.
entre j
et h sera relative à la classeE. ;
1. son rôleest de détruire le lien entre
F.
J ou(non exclusif) F
h etE.,
1: :Une façon naturelle de
procéder,
conformément à une h.a.l. de mêmenature que
N1(cf. § 11.2.),
consiste à fixer F. etFh
et à associer à la par-l j h
tition une
partition
aléatoire dans l’ensemble.. , 1
, . ,
,(n;t),
munid’une probabilité uniforme,
despartitions
en classesétiquetées
de même type
t=[n(l),n(2),...,n(i),...,,n(i)]-
Nous
désignerons
parEi,i,.
eth
les fonctions indicatrices res-1..1. J
pectives
de’ La v.a. associée à l’indice brut
(5)
peut dans ces conditions se mettresous la forme
L’indice
brut(5)
et lav.a.(6)
peuventrespectivement
être notéss(j,h/P)
etS(j,h/P),
où Pdésigne
lapartition
Nous allons calculer
l’espérance mathématique
et la variance de lav.a.
S(j,h/P).
2.3e
Moyenne
de la v.a.S(j,h/P)
On peut remarquer que la somme la
plus
interne de(6)
se réduit àl’expression
suivante
il
s’agit
en effet de laproportion
tiennent la
paire d’objets {x,y}.
de
parties Xi qui
con-Dans ces
conditions,
on aIl ne faut pas s’étonner de constater que cette moyenne est nulle si la
partition
P est"discrète" ;
eneffet,
dans ce cas, l’indice brutqui
seréduit à
n(jAh)
est lui-même nulpuisque j
et h sont deux modalités exclusi-ves.
Généralement,
pour un tableau decontingence
courant,III
est trèspetit
devant n ; de sorte que
l’expression (9)
peut êtreapprochée
parn(j)n(h)/n.
En admettant cette
approximation,
on peut se rendre compte que le numérateur du coefficient(3)
ci-dessus est, au facteur1/n près,
l’indice centréNous allons à
présent procéder
au calcul de la variance de la v.a.S(j,h/P).
·2.4. Variance de la v.a.
S(j,h/P)
Nous allons commencer par calculer le moment absolu d’ordre 2 de la
v.a.(6)
dont le carré se met sous la forme
La structure d’un
couple
decouples d’objets ((x,y),(x’,y’))
se trouvedéfinie relativement à la
répétition
de composantes dupremier couple
dans lesecond
couple,
dans la mêmeposition
ou non. Des lettres différentes indi- quant desobjets distincts,
cette structurerevêt,
dans le cas où les deux composantes d’un mêmecouple
sontdistincts,
les sept formes suivantes :Comme
d’usage LERMAN(1981a chap.2)
et(1981b)],
nousdésignerons
par
Le calcul
(11)
va 1-9 «t devoir roi sedécomposer
r91 conformément à lapartition
est l’ensemble des
couples d’objets
distincts. Nous
désignerons
parChacune des intersections de
(F.xFh)x(F.xFh)
1 h i h avecD, G’
1 etG’
2 estvide ; d’ailleurs,
on peut vérifier que la somme des cardinaux des ensemblesD, B , B et C,
est bienégale
à2.4.1. Calcul de
l’espérance mathématique
deNous allons commencer par
décomposer,
conformément à lapartition qu’on
vient de définir de(F ixFh)x(FixFh),
le calcul del’expression
en titrej j
de ce sous
paragraphe.
Cette dernièreprend
la forme suivante :Nous allons calculer
l’espérance mathématique
du terme courant de cha-cune des sommes
précédentes.
Il
s’agit
de laproportion
departies Xi
de cardinaln(i), qui
contien-nent les deux
objets
x et y. Cetteproportion
estégale
àIl
s’agit
de laproportion
departies Xi
de cardinaln(i)~ qui
contien-nent les trois
objets
x,y et t. Cetteproportion
estégale
àIl
s’agit
de la mêmeproportion
que celle(15)
ci-dessus.C’est la
proportion
departies Xi
de cardinaln(i) qui
incluent lesquatre
objets
x,y,z et t ; elle estégale
àAinsi
l’espérance mathématique
del’expression
en titre de ce sous-paragraphe
2.4.1. estégale
à2.4.2. Calcul de
l’espérance mathématique
deNous allons effectuer des calculs
parallèles
à ceux duparagraphe
2.4.1. ci-dessus. Dans ces
conditions, l’expression
ci-dessus sedécompose
comme suit :
Puisque
i est distinct dei’,
chacune des troispremières
sommes estnulle. Il nous reste à évaluer
l’espérance mathématique
de l’élément courantde la dernière somme.
représente
laproportion
de
couples
departies (X.,X.,)
i i telles queX.(resp.X.,)
i 1 renferme lesobjets
xet y
(resp.z
ett).
Elle estégale
à :Ainsi, l’espérance mathématique
del’expression
en titre duparagraphe
2.4.2. est
égale
à2.4.3.
Expression
de la variance de la v.a.S(j,h/P)
Compte
tenu desexpressions (11), (17)
et(20) ;
ainsi que celle(9),
onobtient l’écriture détaillée suivante de la variance :
Compte
tenu des formules(9)
et(21),
il résultel’expression
de l’in-dice centré et réduit.
2.5. Forme duale de
l’hypothèse
d’absence de liaisonNous allons ici fixer la
partition
1 et associer à lapartition
une
partition
aléatoire en classesétiquetées
et detype
s= (m(1),m(2),...,m(j) ,...,m()J))) 1
dansl’ensemble ~,(n;s),
muni d’uneprobabilité
uniformémentrépartie,
despartitions
de E, en classesétiquetées
de type s.
Reprenons l’expression
de l’indice brut(5)(§
2.1.ci-dessus) :
Si la v.a. considérée ci-dessus se met sous la forme
celle que nous
envisageons
ici s’écritEn
désignant
parc i(resp.Tli)
la fonction indicatrice de1 J 1 J
la dernière v.a. se met sous la forme
Nous allons nous rendre compte que cette dernière v.a. a la même dis- tribution que
S(j,h/P).
PROPRIETE. La distribution de la suite de v.a. entières
{card
est
identique
à celle de la suite lcard,En
effet,
est définie par la propor-fip
J - -tion de
parties
dans(ensemble
desparties
de E de même cardinaln(i))
pourlesquels
la suite des cardinaux des intersections avec la suite es classes F. est Elle est parconséquent égale
àJ . :
Après développement
etréorganisation,
on peut ramenerl’expression précédente
à la forme suivante :où nous avons noté
Or le dernier rapport
(26) représente
laproportion
departitions
dans (n;s)
pourlesquelles
laj-ème
classe contientn(i^j)
éléments deEi’
1Il
s’agit
donc deD’autre part, le
système
des relationsstochastiques
entre les diffé-rentes v.a. est le même que celui entre les différentes
i J
v.a. i Dans ces
conditions,
nous avons lapropriété
sui-j vante de dualité :
THEOREME. Les v.a.
S(j,h/P)
etT(j,h/P) (cf.
formules(22)
et(23))
ont lamême distribution.
Il est d’ailleurs intéressant de calculer directement la moyenne et la variance de la v.a.
T(j,h/P) (cf.
formule(24))
et de retrouver les formules(9)
et(21)
ci-dessus.Si les
n(i),n(j)
etn(h)
sont, comme c’est le cas courant de tablesde
contingence,
assezgrands,
on a la valeur trèsapprochée
suivante de lavariance :
où nous avons noté
e(j,h)=np(j)p(h).
Il
s’agit
d’uneexpression
de nature différente que celle définie par le dénominateur élevé au carré de la formule(3)
duparagraphe
1 ci-dessus.111.2. Cas d’une
juxtaposition
horizontale de tables decontingence
La structure de la donnée est définie au
paragraphe
I ci-dessus(cf.
expres- sions(1)
et(2) § I)
où ils’agit
de comparer deuxmodalités j
et h non né-cessairement
exclusives ; c’est-à-dire,
telles quehEJ(m),
où £ peutou non être distinct de m,
1. L’indice brut et
l’hypothèse
d’absence de liaisonLa situation peut être schématisée comme
suit,
relativement à une même classeEi.
1 L’indice brut deproximité
est le même que dans le casprécédent
oùF.
Jet
Fh
étaientdisjoints (cf.
formule(5)
duparagraphe
2.1. deIII.1.). Rap- pelons
ici sa forme :L’hypothèse
d’absence de lien vacorrespondre
à la formeadoptée
auparagraphe
2.5.ci-dessus,
en ayant un caractèreplus
libre.De façon
précise,
on fixe lapartition Ei/1i I
et on associe aucouple
departies (F.,Fh),
uncouple
departies
aléatoiresindépendantes
j
(Y.,Yh)
oùY.(resp.Yh)
est un élément aléatoire dansl’ensemble,
muni d’unej j
probabilité
uniformémentrépartie,
desparties
de E de même cardinalLa v.a. associée à l’indice brut
(1)
se met dans ces conditions sousla forme
Nous
désignerons
parv(ihj)(resp.v(ihh»
lav.a.card (E (1)fl Y .j
laquelle
esthypergéométrique
deparamètres
Cn,n(i),n(j)]
Deplus,
les deux v.a. etv(iAh)
sont
indépendantes,
compte tenu del’indépendance
deY.
et deYh*
2.
Moyenne
et variance de la v.a.U(j,h/P)
L’indépendance
entrev(iaj)
et permet d’écrire11, . , . , , . , / . , é, B / . , f, B
On a d’autre part,
Compte tenu des relations suivantes
que le lecteur cherchera à retrouver, on a
De sorte que
l’expression
de la variance deU(j,h,/P)
peut se mettresous la forme suivante : "
où
rappelons- le,
nous notonse(j,h)
leparamètre n(j)n(h)/n.
Considérons à
présent
la valeurapproximative
de(7)
dans le cas oùn(j),n(h)
etn(i)
sont "assez"grands
On notera la différence avec le cas
où j
et h sontexclusifs ;
pourla
, moyenne, il y a lieu de comparerl’expression (3)
ci-dessus avec celle(9)
du
paragraphe
111.1.2.2. et pour lavariance,
on compareraplus
aisément lavaleur
(8)
ci-dessus avec celle(27)
duparagraphe précédent.
Comme on a pu
déjà
le constater,l’indice
centré est exactement, au coefficient nprès,
le numérateur de l’indice de corrélationp(j,h)
définipar la formule
(3)
duparagraphe
III.1.1. ci-dessus.Nous allons à
présent
examiner ce que devient l’indice centré réduitdans le cas où la
partition {E(i)/iEI}
est laplus
fine oùchaque
classecontient exactement un
objet.
Dans cette situation
n(i)=1
pour touti=1,2,...,n
etn’est
égal
à 1 que si et seulement sil’objet
codé ipossède
les deux modali-tés-attributs j
et h ; de sorte queD’autre part, la variance de
U(j,h/P)
devient dans ce casparticulier
où nous notons
On retrouve
ainsi,
au coefficientn près,
l’indice d’association de K. Pearson entre les deuxattributs-modalités j
et h.Pour cette même situation où la
partition {E(i)/iEI}
estdiscrète,
nous allons examiner ce que devient l’indice de corrélation
p(j,h)
défini parla formule
(3)
duparagraphe
III.1.1.Cet examen peut être conçu relativement à un tableau
disjonctif
complet
croisant l’ensemble I des individus ouobjets
avec la suite des moda-lités de c variables
qualitatives
nominales. On aoù est
égal
1 ou 0 selon quel’attribut j(resp.h)
estpré-
sent ou absent chez le
sujet
i et oùp(j)(resp.p(h))
estégal
àn(j)/n (resp.
n(h)/n).
L’indice
(12)
se réduit exactement à celui de K. Pearson.THEOREME. Dans le cadre de l’h.a.l. définie ci-dessus
(§ III.2.),
l’indices(j,h/P)
centré(numérateur
de(9))
est, au coefficient nprès, égal
au numé-rateur de l’indice de corrélation
p(j,h).
Le dénominateur de l’indice centré réduit(9)
reste de forme essentiellement différente du dénominateur dep(j,h). Toutefois,
les deux indices coïncident dans le cas d’un tableau dis-jonctif complet
où lapartition
est discrète.Pour établir la table des indices d’association entre éléments de
J=J(1)U J(2)U
...UJ(I)U
... UJ(L)
dans le cas d’unejuxtaposition
horizon-tale de tableaux de
contingence,
conformément aupoint
de vuedéveloppé,
onpeut se contenter
d’adopter
la dernière forme de l’h.a.l. que les modalités à comparer soient non-exclusives ou exclusives.Mais,
rienn’empêche
d’êtreplus précis
etd’adopter
la formule(9)
ci-dessus decomparaison
si les deuxmodalités j
et h ne sont pas nécessairement exclusives etcelle,
résultant del’h.a.l. du
paragraphe III.1.,
si lesmodalités j
et h sont exclusives(i.e.
appartiennent
à un mêmeJ(~) .
IV. SUR LA CONSTRUCTION ASCENDANTE D’UN ARBRE BINAIRE DES CLASSIFICATIONS SUR J
B. Tallur
CTALLUR(1982)1
/ utilise l’indice de corrélationp(j,h)
pour formerla totalité de l’arbre binaire des classifications sur J selon
l’algorithme classique
de classification ascendantehiérarchique.
Eneffet,
la fusion desdeux
modalités j
et h lesplus
voisines conduit à la création d’une nouvelle modalitéjvh(j
ouh)
et on se retrouve àchaque étape
del’algorithme
àrechercher dans l’ensemble des nouvelles modalités les deux les
plus proches.
Certes, il peut se faire
qu’à
un même niveau de laconstruction,
ontrouve
plusieurs paires
de modalitéségalement
lesplus voisines ;
dans cecas, on
procède
-dans unordre quelconque-
à la suite desagrégations
despaires
lesplus proches
et les classes résultantes sontplacées
à un mêmeniveau de l’arbre.
Pour que l’arbre soit sans
inversions ; c’est-à-dire,
pour que la suite des valeurs de l’indice deproximité
entre les deux classes lesplus proches
à un niveau donné del’arbre,
B. Tallur montreCTALLUR(1982 )i qu’il
importe d’apporter
un coefficient correctif etd’adopter
comme indice d’asso- ciation entre la nouvelleagrégation jvh
ett*h) p(jvh,£).
Un tel2
coefficient
(lIF2) qu’il importe
dejustifier
de façonplus précise,
peut très intuitivement secomprendre
si on veutpréserver
le caractère entier des uni- tésstatistiques
initiales que sont les modalités de J. De toute façon de la sorte,l’algorithme
donne d’excellents résultats.L’indice
(9) auquel
nous sommes parvenusci-dessus,
ne diffère dep(j,h) qu’au
niveau dudénominateur ;
sonexpression explicite
est la suivan-te : ·
L’objet
de ce brefparagraphe
estprécisément
de montrer que le même coefficientmultiplicatif (1/12) s’impose
dans une formation ascendante et sans inversions de l’arbre desclassifications,
basée sur le seul indiceQ(j,h).
·Il
s’agit
de déterminer le coefficientpositif
a tel queLa