R EVUE DE STATISTIQUE APPLIQUÉE
J. M. C ALLOUD
Deux algorithmes de classification sur des tableaux de contingence ou de correspondance
Revue de statistique appliquée, tome 18, n
o4 (1970), p. 41-45
<
http://www.numdam.org/item?id=RSA_1970__18_4_41_0>
© Société française de statistique, 1970, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
41
DEUX ALGORITHMES DE CLASSIFICATION SUR DES TABLEAUX DE CONTINGENCE
OU DE CORRESPONDANCE
J. M. CALLOUD
Centre de
Calcul -
CHU PitiéSalpétrière -
ParisNous allons essayer de
présenter
au cours de ce brefexposé
deuxrécents
algorithmes
de classificationhiérarchique,
propres au traitement des tableaux decontingence
ou des tableaux decorrespondance.
Mais "rendons à César ce
qui
est àCésar",
cette communication doitbeaucoup
du cours de 3èmeCycle,
sur la classificationautomatique, profes-
sé par Monsieur BENZECRI
(1)
en 1968-69 à la Faculté des Sciences deParis,
cours
auquel
l’on pourra sereporter
avecbeaucoup
deprofit
pourplus
de dé-tails et de
rigueur.
Nous commencerons par un bref
rappel
de la théorie del’information, puis
nous définirons ce que nous entendons par information mutuelle entre variables a vant d’aborder lesalgorithmes proprement
dits.I - RAPPEL DE LA THEORIE DE L’INFORMATION
L’information
apportée
par l’assertion : "il s’estproduit
tel événementa" que l’on notera
H (a)
vérifie les axiomes suivants :1/
H(a)
est une fonction réellepositive
et décroissante de la seule pro- babilitép (a)
2/
si deux événements sontindépendants,
l’informationapportée
par la connaissance des deux événements estégale
à la somme des informationsapportées
par chacun d’eux.3/ (axiome d’échelle)
un événementqui
a une chance sur deux d’être réaliséapporte
une information unité. De ces trois axiomes on déduit que :VPE[0,1] ] f(P) =- log 2 (P)
D’autre
part,
soitiEI,
i aléatoire de la loiPI (ou PI P 1 1 iEl le système
des
probabilités
de chacun des éléments de l’ensembleI).
Il est naturel d’associer à l’assertion "la loi de 1 est
PI "
unequantité
d’information H
qui
seral’espérance mathématique
de l’informationapportée
par l’assertion élémentaire "la
probabilité
d’avoir i estPi If.
---
(1) Laboratoire de Statistique Mathématique Tour 45 - 2ème Etage - Faculté des Sciences de Paris - Publications : Inf. Tab. "Théorie de l’Information et Classification".
Revue de Statistique Appliquée. 1970 - vol. XVIII N~ 4
42
II - INFORMATION MUTUELLE ENTRE VARIABLES
Soit
(i , j)
unepaire,
élément aléatoire de l’ensembleproduit
I xJ,
soient
PI J, PI, P J
les lois de lapaire (i , j)
et de chacun de ses membres.Où
alors
H (P IJ) ~ H (P 1) + H (P J )
Soient 1 les arrondissements de Paris et J les
catégories
socio-professionnelles :
alors connaître l’arrondissement où habite une personne donne uneprésomption
sur laprofession
decelle-ci ;
par suite l’information H(PIJ) apportée
par la connaissance de l’arrondissement et de laprofession
est inférieure ou
égale
à la somme des informationsapportées
par la con- naissance de l’arrondissement seulH (PI )
et de laprofession
seule H(PJ ).
H
(Pu) = H (PI ) +H(Pj) lorsque
les deux ensembles sontindépendants.
C’est-à-dire
ViE I, ViEJ pi~=pi* p~.
Onpeut
alors poser H(p~) -
H(pI) =H(J/I)
information conditionnelle
apportée par j quand
i est connu.De même H
(Pj) -
H(J/I)
= H(PI)
+ H(pj) -
H(pu)
information sur J ap-portée
par 1 que l’on noteraH (pIJ ; PI
*P J).
L’information
apportée
par 1 sur J a uneexpression symétrique
en 1 etJ,
aussipeut-on l’appeler
information mutuelle entre 1 et J et la considérercomme une mesure de la
dépendance (de l’interaction)
entre 1 etJ).
III - INFORMATION MUTUELLE ET DISTANCE DU X 2
L’information mutuelle est une
quantité qui
s’annulequand p I J est
uneloi
produit p,* pj,
on calcule demême,
sous le nom deX2,
unequantité
cri-tère
qui
sert à comparer pu etPi * Pi -
·On a pour
expression
du carré de la distance entre ces deux lois dans lamétrique
duX 2
de centrePI. P J
Or nous avons d’autre
part
Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4
43
Ces deux
expressions (X 2et
informationmutuelle)
ne diffèrentqu’en
ce que x 2 - 1 a étéremplacé
par xlog 2
x. Ces deuxfonctions,
comme l’a montré MonsieurBENZECRI,
sont osculatrices àtangente
horizontale aupoint
x =1 ,
on ne doit donc pas s’étonner que les
algorithmes qui
en dérivent conduisentpratiquement
aux mêmes résultats. Remarquons quel’algorithme
basé surla formule de
X2
ne nécessitant pas le calcul d’unlogarithme
est nettementplus rapide.
IV - LES ALGORITHMES DE CLASSIFICATION
Soit un tableau de
contingence rectangulaire
1 xJ, k (i , j)
sera le nom-bre de personnes dans l’arrondissement i
exerçant
laprofession j.
De cetableau on passe à une loi de
probabilité
sur 1 x J par le calcul des fré- quences 1La
dépendance
entre iet j
est la seule information dont ondispose
pour
organiser
les ensembles 1 et J soit H(PIJ ;
PIP3) ou 1 ~ P¡J - PI. PJ 112
Par
suite,
la ressemblance entre i et i’ se mesurera par la ressem- blance entre leurprofils respectifs
sur J. C’est-à-dire entrePJ
etP~
Soit
Q
unepartition
deI,
cettepartition
sera d’autantplus
conforme auprincipe
deproximité qu’à
l’intérieur d’une classe les éléments se ressem-bleront le
plus,
c’est-à-dire quePu
variera peu.Or connaitre la classe à
laquelle appartient
un individuapporte
moins d’information que la connaissance de l’individului-même,
un certain nombre d’attributs propres à l’individun’ayant
pas étépris
encompte
pourpermet-
tre cette
partition,
par suiteL’égalité n’ayant
lieu que si à l’intérieur dechaque
classe les individus sontidentiques.
Les
algorithmes
de construction ascendante que nous proposons, se traduisant par la recherche pas à pas departitions
de 1 de moins en moinsfines,
notre critère sera de rendre minimalel’écart,
àchaque
pas de la cons-truction,
parrapport
à la situation idéale que nous venonsd’envisager.
Notons
après
Monsieur BENZECRILa
quantité
critère que nous aurons à minimiser sera donc àchaque
pas
Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4
44
Supposons
construite une hiérarchieAh- 1 -notons
SomAh-l 1 l’ensemble
dessommets de cette hiérarchie
(c’est-à-dire
l’ensemble des classes q de lapartition
de 1 associée à lahiérarchie).
Le passage de
A h- 1 à Ah
se fera par la réunion de deux sommets deA h-1.
s et s’ tels que laquantité critère A correspondante
soit minimales par- mi toutes lesquantités
associées à toutes les réunionspossibles.
On montre que
lorsque
l’on utilise la distance dite duX 2(Lien 2),
ladistance entre les sommets
prend
alors la forme suivante :(ps
=poids
de la classes)
L’effet du coefficient de masse est
qu’à
distanceégale 1 s - s’ 112,
deuxclasses sont
agrégées
d’autantplus
bas dans la hierarchiequ’elles
sontplus légères.
Nous venons de
présenter brièvement, trop peut-être,
deuxalgorithmes
que l’on
doit,
si l’on suit MonsieurTOMASSONNE,
ranger dans lacatégorie
des
algorithmes
basés sur unconcept
de masse.RESUME
Ce bref
exposé présente
deuxalgorithmes
de classifications hiérarchi- ques propres au traitement des tableaux decontingence
ou decorrespondance (tableaux
I * J avec I : ensemble des individus et J : ensemble des mesures ef- fectuées sur cesindividus).
A la base de ces deux
algorithmes
se trouve une mesure de ladépen-
dance
(ou
dulien)
entre les ensembles I et J. Cette mesure dérive dans un cas de la théorie de l’information et dans l’autre de celle du X 2.Ces
algorithmes,
étant donné le rôleimportant joué
par la notion demasse
(masse
des individus et masse desclasses), séparent
au mieux leszones à forte concentration en
poids.
Ilssont,
croyons-nous, àrapprocher
fructueusement des méthodes
d’analyse
factorielle(en particulier
de l’ana-lyse
descorrespondances
de MonsieurBENZECRI).
DISCUSSION
Question
de Monsieur LELLOUCHLes deux distances définies par l’orateur définissent-elles des ultra-
métriques ?
Revue de Statistique Appliqué~. 1970 - vol. XVIII N° 4
45
Réponse :
lesalgorithmes présentés
conduisant à une hiérarchie totale indi- cée(ou
arbre oudendrogramme)
définissent sur l’ensemble des éléments à classer une structureultramétrique.
En effet onpeut
montrer(cf
Benzécri(1» qu’il
y aéquivalence
entre hiérarchie totale indicée departies
et struc-ture
ultramétrique.
Question
de Monsieur VALLERONLes p
(j) qui
interviennent dans la formule de la distance du X 2 que vous avez donnée ne sont pas, enpratique,
desprobabilités.
Ce sont en réalité lesfréquences (choisies
parl’expérimentateur)
desobjets
à classer. On sait bien que ce choix influence le résultat final de la classification. Mais il mesemble que dans le cas de la distance du
X2
cephénomène
est encore am-plifié. Qu’en pensez-vous ?
Réponse :
nous avonsprécisé
que cesalgorithmes
étaient propres au traite- ment des tableaux decontingence
et des tableaux decorrespondance.
Lesp (i , j), p (i), p (j)
ne sont pas, et vous avez raison de lesignaler,
en pra-tique,
desprobabilités
mais desfréquences.
Cesfréquences
ne sont pas choisies parl’expérimentateur,
mais dérivent directement du tableau initial.Le passage aux
fréquences
nouspermet
de calculer les distances entre lesprofils
des individus àclasser,
nousdisposons
alors d’une matrice de dis- tances. Nous avons le choix entre deuxpossibilités :
soit affecterchaque
in-dividu d’un
poids égal
à safréquence p (i)
soit l’affecter d’unpoids
unité.Le
poids
d’une classe étant la somme despoids
des élémentsqui
la com-posent.
Lapremière possibilité
fait en effetjouer
un rôleimportant
aux fré-quences p
(i) (cf
d(s , s’) = ... ) ;
en revanche la deuxième établit unecomplète égalité
entre lesindividus,
lepoids
des classes devenantégal
au nombred’individus
qui
lacomposent.
On doit choisir l’une ou l’autrepossibilité
sui-vant le
type
deproblème
à traiter.Question
de MonsieurLOCQUIN
Avec la formule
d (s , s’) =... 1 i 112
vous avez trouvé unphénomène
fondamental celui de l’influence de la
néguentropie
sur la circulation de l’in- formation. Celle-ci "courbe" celle là comme lagravité
"courbe" la lumièreen relativité.
Réponse :
Je ne peux que vous laisser l’entièreresponsabilité
de votre af- firmation.Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4