I SRAËL C ÉSAR L ERMAN
Maximisation de l’association entre deux variables qualitatives ordinales
Mathématiques et sciences humaines, tome 100 (1987), p. 49-56
<http://www.numdam.org/item?id=MSH_1987__100__49_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1987, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
MAXIMISATION DE
L’ASSOCIATION
ENTRE DEUX VARIABLESQUALITATIVES
ORDINALESIsraël César
LERMAN *
I. INTRODUCTION - POSITION DU PROBLEME.
La donnée est un
couple
de variablesqualitatives
ordinales définissantun
couple
depréordres
totaux(W, e)
sur un ensemble0 d’objets.
Nous dési- gnerons parJAi/ 1
i1 } (resp. 1 Bi/1 i - J) )
la suite ordonnée des clas-ses en nombre de I
(resp. J)
définie par w(resp. 6i’)
sur0.
On notera para.
i(resp. b.)
j le cardinal de la classeA.
i(resp. B.),
j1
--i
I(resp.
1:: j :9. J).
Nous noterons par-1
la table de
contingence
de"croisement"
de W etm.
Defaçon précise,
On a bien entendu :
pour tout
(i,j)
deIxJ,
où on noteD’autre
part,On suppose -sans aucunement restreindre la
généralité-
que pour tout i de I(resp. j de J) ai0
1 0(resp. bi 0).
JEn
d’autres
termes,(1)
définit ce que nousappellerons également
sans
risque d’ambiguïté
un"croisement"
entre les deux partages ordonnés del’entier
n ;lesquels
définissent les marges du tableau(1).
* I.R.I.S.A - Rennes.
~~~
L’auteur
remercie lesrapporteurs
anonymes pour leurs utiles remarques,concernant notamment
l’algorithme
du"coin Nord-Ouest".
où le
symbole 1 indique
le’non’ logique
et où la somme est ensembliste.De
même,
Beaucoup
de coefficientsd’association
entre variablesqualitatives
ordinales
intègrent
dans leur formationl’indice s(QÙ).
Ainsi en est-il des coefficients T a
et
Tb
de M.G. Kendall[1970]
ou decelui 0" de
W.H.Kruskal
[1958].
Divers modes de normalisation de
s(W,
peuvent être considérés pour aboutir à un indice réduit[Giakoumakis
etMonjardet (1987)].
Nous avonsnous-mêmes considéré une normalisation de type
statistique
où nous centronspar référence à la moyenne et où nous réduisons au moyen de
l’écart
typed’un
indice bruts(w*, ~* ) , et 5 *
sont deuxpréordres
aléatoiresindépendants
sur0, respectivement
associés à W et Lerman(1973),(1981)] .
Beaucoup d’indices d’association
entre deuxpréordres W
ete
-dontle nôtre- peuvent formellement se ramener à une fonction affine dont la définition ne
dépend
que des marges, del’indice ’brut’ s(~ 6f).
Le
problème d’une
forme de normalisation de ces indices passe par celui de la maximisation del’indice
bruts( ~ fi(j.
Certains auteurs considè-rent ce
problème indépendamment
de toute contrainte où il a une solution évidente(utilisée
par Kendall pour définirT )
a définie parn(n-1)/2.
Nouspensons quant à nous
qu’il
estplus précis
de considérer ceproblème
demaximisation sous contraintes de marges fixées :
sous les contraintes pour tout
pour tout
L’idée
de base pour la solution de ceproblème
est de même natureque celle
qui
a servi à proposer une solution pour leproblème
de la maxi-misation de
El cf./(i,j)
6 1 xJ 1,
sous les mêmes contraintes[
Lerman etJ
Peter
(1986)] .
Ils’agit
deremplacer
la notion de formulemathématique numérique
parcelle, algorithmique.
En toute
rigueur,
la solutionproposée
duproblème
mentionné reposesur une
conjecture qu’il
est difficile de ne pas admettre etqui
a été dé-montrée dans certains cas
importants.
Toutefois desproblèmes
decomplexité
calcul peuvent se
présenter.
C’est
donc unalgorithme
récursifqui
nous conduira à la solutiondu problème posé.
Maisici,
la solution sera moins difficile et ne nécessi- tera pas -pour les cas courants-l’écri.ture d’un
programmeinformatique.
Comme nous
l’avons mentionné,
nous avons rencontré cesproblèmes
demaximisation dans le cadre de la normalisation de coefficients
d’association
entre variables
qualitatives.
Ils peuvent en faits’exprimer
comme des pro- blèmesparticuliers
de rechercheopérationnelle
de maximisation de transportquadratique.
En réalité cet
algorithme
se rattache à celui dit du’coin
nordouest’
qui
estgénéralement
introduit dans lesproblèmes
de transport linéaire pour fournir une solution dedépart qui n’est
pasoptimale [Simmonard (1962)] .
Par contre, dans notre cas, au
paragraphe III,
un théorèmegénéral
établiraque
l’algorithme
fournit bien la solutionoptimale
exacte à notreproblème.
II. ALGORITHME.
Nous emprunterons le même
langage
que dans[
Lerman et Peter(1986)] .
Onpart du tableau de
contingence
vide àl’intérieur,
mais ayant ses margesremplies qu’il s’agit
derépartir
defaçon compatible
etoptimale.
On seraconduit -à
chaque
pas- à installer le contenud’une
margeligne oi i
dansune
colonne j (auquel
casa. P. :
contenu de la margecolonne j),
ou bieni j le contenu de la marge
colonne P.
dans uneligne
i(auquel
casa.
>P.).
J i J
Au
départ oci -
iai
i pour 1i
1 jbj
j pour1 j J).
On diraqu’on
"vide" ("déverse"
ou"décharge") a i
i dans la colonnej,
oubien P.
J dans laligne
i. Dansl’un
oul’autre
des deux cas(oc . i. _ P .
oua.
>P.)
on pourrai. j i j
dire
qu’on procède
à la"résolution"
ducouple (ai,s.).
i JSi on
désigne
par Kl’entier (I+J), après chaque " résolution",
ladimension K du
problème
diminued’une
unité ;puisque c’est
soit une margeligne,
soit une marge colonnequi
se vide.A
partir
delà, l’expression
del’algorithme qui
-encore une fois- est celui du"coin
nordouest"
est trèssimple :
A
chaque
pas résoudre lecouple origine
leplus
àgauche
et en haut(i et j minimums)·
Considérons pour chacune des marges
(al,a2,...,ai,...,aI)
et(bl,
9b2, .... bj9...tbi),
la suite des sommes des sectionscommençantes :
J j n
et
La solution de
l’algorithme
et donc duproblème (4)
ci-dessusdépend uniquement
dupréordre
total intercalant les sommes de lapremière
suitepar rapport aux sommes de la deuxième suite.
Ainsi,
considérons la situation suivante où 1 = 3 et J = 4 :La
première
résolution concerne(al,bl)
etdécharge bl
au niveau dela
première ligne.
Commeal (bl+b2), (al-bl) b2
etci1 = (al-bl)
est dé-versé au niveau de la deuxième colonne. Considérons alors
b2 - (al-bl) - (b +b ) - a
1 2 1qu’il
y a lieu de comparer aveca .
2 On a[cf. (2)] [ (b +b )
1 2-
a a2’ a
2 =[(bl +b2) - al]
estdéchargé
au niveau de la deuxièmeligne
dont la nouvelle marge est
a - (a +a ) - (bl+b2) qui
est[cf. (2)]
inférieur2 1 2 1 2
à
b3. a2
est donc vidé dans la troisième colonne dont la nouvelle margeest 83
=(b 1 +b 2 +b ) - 3 (a 1 +a 2 ), laquelle, plus petite
quea3,
estdéchargée
au niveau de la troisième
ligne.
La dernière margea 3 = (al+a2+a3) - (bl+b2+
b3)
estégale
àb4
et se trouve nécessairement vidée dans laquatrième
co- lonne.Dans ces
conditions,
on peut très bienimaginer
un programme donnant àpartir
dupréordre
total ci-dessus mentionné[e.g. (2)] ,
la structureoptimale
du tableau de croisement ainsi quel’expression
formelle -utilisant lessymboles a,
etb., (i,j)
6 I x J - de la valeur maximale des(W,
1 J
associée.
Considérons à
présent l’exemple numérique :
III. THEOREME.
Nous allons maintenant établir le théorème
qui
permet dejustifier
quel’al- gorithme présenté
auparagraphe
II ci-dessus conduit bien à la solutionoptimale
duproblème (4)
duparagraphe
I ci-dessus.III.1. Préliminaires
Figure 1 : Représentation d’une opération
élémentaire affectant la case(1,1).
Notons
il
s’agit
-strictement au-delà de(i,j)-
de lacharge
finissante(droite- bas)
de la table decontingence
de croisement des deuxpréordres
totaux.Avec la notation
(1),
on a :Nous avons
déjà
introduit[Lerman
et Peter(1986)],
la notiond’opéra-
tion élémentaire. Elle affectera ici la
première
case(1,1)
du tableau(cf.
Figure 1)
etcorrespondra
à la transformation suivante :où est
l’image
par T de(w,
Précisons que
l’ensemble
des cases muniesd’une
croix se définit commesuit :
En notant
la
charge
-strictement endeçà
de(i,j)-
commençante(gauche-haut)
de latable de
contingence,
on obtient :Comme on montre aisément que
on a le
LEMME. L’accroissement A
résultant del’opération
élémentaire estpositif
strictement.111.2. Théorème
THEOREME.
L’algorithme
duparagraphe
II conduit à la solutionoptimale
du pro- blème(4)
de maximisation duparagraphe
I.La démonstration devient à
présent simple
et se fait par récurrencesur K = I + J.
Il est facile de vérifier la
propriété
pour K = 4 etd’ailleurs
defaçon analogue
àl’établissement
du lemme.Supposons
lapropriété
vraie pour toutK«I+J)
et démontrons la pourRelativement au tableau de type
le lemme
précédent
nous montre quel’on
a nécessairementsi.non,
il existerait nécessairement une transformation élémentaire-on
l’a
vu- améliore strictement le critèreL
s(W,6C ;t)
attaché au type(9)
ci-dessus. En supposant comme ci-dessus(cf.
§
II)
et sans restreindre lagénéralité b ,
9 lapremière
colonne est-pour la
configuration optimale-
vide en dehors de sapremière ligne qui
contient
bl.
Dans cesconditions,
la valeur maximale du critère se met sousla forme
où nous avons noté
s [ ]
la valeur maximale pouvant être atteinte parm
s(tù ,63")
pour uncouple (~, ~ )
depréordres
totaux detype [ . ] .
Mais alorsce dernier type
correspond
à K =(I
+ J -1), C.Q.F.D.
[2]
M.G. Kendall(1970) ; "Rank
CorrélationMethods",
4ème édition(lère
édition en