R EVUE DE STATISTIQUE APPLIQUÉE
J. P. B ENZÉCRI
Sur les algorithmes de classification
Revue de statistique appliquée, tome 19, n
o1 (1971), p. 17-26
<
http://www.numdam.org/item?id=RSA_1971__19_1_17_0>
© Société française de statistique, 1971, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
17
SUR LES ALGORITHMES DE CLASSIFICATION
J. P. BENZÉCRI
Professeur
deStatistique
à laFaculté des
Sciences de ParisLes nominalistes
contemporains
vont bienvite, quand
ilsparlent
de for-mation de
concepts
à propos de subdivisions où l’arbitraire tient autant deplace
que dans laplupart
de nos classifications.Aussi, préfèrant
par pru- dence le continu audiscontinu,
lesgradations
auxoppositions,
accordons-nous un intérêt
particulier
aux méthodesqui,
commel’analyse
factorielle et sesvariantes,
cherchent à rendre accessibles à l’intuition des masses dedonnées,
en lesreprésentant
dans un espace de faible dimension. Mais cettereprésentation
mêmepeut
révéler que lesobjets
étudiés serépartissent
enclasses
distinctes,
visibles sur lediagramme spatial
comme des îlots sé-parés
les uns desautres,
ou du moins reliés par des zones de faible den- sité. D’ailleurs si l’on ne savait reconnaître le discontinu dans lecontinu,
il
n’y
aurait niparole
ni écriture. Tant donc lasynthèse cognitive
des sura-bondantes données des
sciences,
quel’analyse
et la reconnaissance des formes desobjets individuels,
ne bénéficierontpleinement
des nouveaux moyens de calculs que par laconception d’algorithmes qui permettent
à une machine d’élaborer sans l’homme une classification.Si les seules classifications utiles étaient celles
qui
sont inscrites avecune absolue netteté dans la nature des
choses,
onpourrait
sans doute re- courir à desalgorithmes
bienplus simples
que ceux que l’on essaye au-jourd’hui
de programmer. Mais ne faut-il pas souvent déchiffrer une écri- ture brouillée ? Ne faut-il pas notamment dans les sciences del’homme,
ramener autant que
possible
la richecomplexité
du réel aux médiocres pro-portions
de ce que nous pouvons concevoir ? D’où le choix difficile de cri- tèresqui
selon les finspoursuivies
structurent au mieux un domaine confus.1 - ORDONNANCE ET PARTITION
Rappelons
que l’on ditqu’on
s’est donné une ordonnance s ur un ensem-ble 1 si on a totalement ordonné l’ensemble des
paires
d’éléments de I : i. e.pour
quatre
élémentsi, i’, i", i’"EI,
estposée
l’une ou l’autre des deuxinégalités :
{i ir~ ~ ~i~~ ~ ,i’"}, ou i’’’} fit i’} ;
inégalité qui
intuitivementcorrespond
à ceci : la distance entre i et i’ est inférieure(ou supérieure)
à celle entre i" et il".Seulement,
en donnant uneordonnance,
on nespécifie
pas dedistance,
se bornant à desinégalités,
etRevue de Statistique Appliquée. 1971 - vol. XIX N° 1
18
. c’est
justement
leproblème
del’analyse
desproximités
que dechercher, parmi
les distancescompatibles
avec telleordonnance,
cellesqui sont,
enun certain sens, les
plus simples (e. g. ;
distances surI,
réalisé comme unepartie
d’un espace euclidien de dimension aussi faible quepossible ;
cf.Shepard (1962)
et Benzécri(1964).
Nous
présentons
ici un autreproblème, d’après
de belles recherchesde S. REGNER : étant donné sur I une ordonnance c~,
quelles
sont les par- titions de 1 que wsuggère,
en classes d’éléments deux à deuxproches ?
Ilfaut remarquer que ce
problème
estcomplémentaire
duprécédent :
c’estjus-
tement
quand
une nette division de 1 en deux(ou
unpetit
nombrede) classes , s’impose
que la réalisation euclidienne de 1 est laplus
indéterminée(cf Shepard (1962) I,
p.240)
Cherchons à
exprimer
l’accord entre unepartition
de 1
(en
sous ensembles distinctsI)
et une ordonnance w. Deux critères seprésentent.
Oubien, (A),
on voudra que les classes soient bienramassées ;
ou bien
(B),
on tiendra surtout à reconnaftre lescomposantes
connexes de1
(i.e.
lesIj
devront être d’un seultenant,
et deplus
si unl’j
contient i il devra contenir les éléments i’qui
en sont assezproches). Ici, (B), l’Europe
et l’Asie ne formeront
qu’un
tout dont onséparera
la Corse et leJapon ;
là(A)
ondistinguera
enEurope
lespéninsules ibérique, italienne, balcanique,
scandinave... Entre A et B le
choix,
n’est pas si facilequ’il
le semble surnos
exemples,
nonplus
que l’élaboration d’uncompromis,
cequi
invite àune étude
mathématique. Auparavant,
notons laparenté
entre notreproblème
de la
partition
de 1(en
sous-ensemblesdisjoints 1~...,
9Ip),
et celui du re-couvrement de 1 pour des sous-ensembles
I ~
non-nécessairement deux à deux d’intersection vide. D’un recouvrement il estpossible
de demander simultané-ment, (A’),
que lesl’j
soient des classes bien ramasséeset, (B’),
que deux élémentsi,
i’ de 1 suffisamment voisinsappartiennent
à une même classe.Pour construire un recouvrement satisfaisant à
(A’)
et(B’),
on pourra cons- truire unepartition
satisfaisant à(A) puis élargir
les 1 enadjoignant
à cha-cun d’eux les éléments de 1
qui
sontproches
de l’un de ses éléments.Mathématiquement
A et B se formulent ainsi : ~sépare
lescouples
d’éléments de 1 en deux classes
C’ , C+ :
d’unepart, C.,
lescouples
d’élé-ments situés dans une même
partie Ij ;
d’autrepart, C +,
lescouples
d’élé-ments situés dans deux
parties
distinctes. Dupoint
de vueB, ~
sera com-patible
avec w si aussi peu quepossible
descouples
deC +
ne se rencontrent dans les derniers rangs. Dupoint
de vue deA,
on visera à ce que toutcouple
de C’ soit inférieur à toutcouple
deC +.
Mais cherchons à être
précis :
on pourra demander(B)
que moins de tant%
descouples
de C ne se rencontre dans les derniers 10%
de l’ensem- ble de tous lescouples ;
ou,(A),
que desinégalités qui expriment
que toutcouple
de C’ est inférieur à toutcouple
deC+,
leplus grand
nombre pos- sible soient vraies dans w ; ou, encore, cequi
n’est pas la mêmechose,
que le
plus grand pourcentage possible
de cesinégalités
soient vraies dansw. Ce que l’on
peut
craindre entreautre,
c’estqu’un
critèremathématique
mal choisi tende
toujours
à émietter 1 en presque autant departies qu’il
ad’éléments ;
ou au contraire interdise de le diviser. Deplus
lapartition
doitêtre d’un bon rendement informationnel : si l’on a fait p
classes,
l’infor-Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
19
mation fournie par la donnée de la classe d’un élément doit être aussi voi- sine que
possible
du maximumLog2
p, c’est-à-dire que les classes doivent être à peuprès égales.
Pourjuger
de la valeur des divers critèrespossi- bles,
il nousparait
-utiled’expérimenter
en lesappliquant
à desexemples géométriques simples :
c’estl’objet
duprésent
travail de traiterquelques
cas. On se
placera
dupoint
de vueA,
et dénombreraparmi
lesinégalités
du
type
C’C + ,
cellesqui
sont dans w.2 - OPPOSITION ET GRADATION
Soit 1 une suite de
points étagés
enprogression arithmétique
sur lesegment (0 ,1 )
de la droitenumé rique :
la distance us uelle munit I d’une or-donnance w. Nous étudierons les
partitions
en deux classes(ou oppositions ,
comme bon-mauvais ou
sauvage-domestique... )
le mieuxcompatibles
avecl’ordonnance w définie par la
gradation
continue despoints
sur lesegment.
Ces
partitions
seprésentent
naturellement. Tout nombreqE(0,l)
définit unepartition
de 1 en deuxclasses {Iq , 1~},
les éléments àgauche
de q, et ceux à sa droite : cettepartition (on l’appellera : partition q)
estcertainement, (avec
lapartition 1-q),
la meilleure de toutes celles dont les deux classes sont dans lerapport q/1-q.
Dans lescalculs, (afin
de faire desintégrales plutôt
que dessommes), I,
uniformément dense(0,1),
seraremplacé
parce
segment même,
que nous noterons aussi(0,1).
Au lieu deparler
du nom-bre des
inégalités
vérifiées - onparlera
du volume du domaine desinégalités
vérifiées...
L’ensemble des
quadruples (ii, i2, i3 , i4 )
est unhypercube z
de vo-lume
1 ;
l’ordonnance w divise 14 en deuxparties
de même volume :et :
A
chaque inégalité
de l’ordonnance w{il, i2}{i3, 14} ,
correspondent quatre points
de 1() :
car on nechange
pasd’inégalité
en per- mutant entreeux il
eti2
oui3
eti4.
En sortequ’on peut
dire que l’ensem- ble desinégalités spécifiées
par w a pour volume ou mesure1/8. (Si
l’ontraite 1 comme un ensemble de N
points
et non comme uncontinuum,
il ya
N 4 quadruples,
N(N-1)
kcouples,
etinégalités
dans l’ordonnance w, on retrouve cerapport 1/8).
Les
inégalités qu’implique
lapartition
q sont les suivantes :Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
20
L’ensemble des
points de 1 «)
concerné par cesinégalités
a pour volume(en
tenantcompte
de cequ’à
une mêmeinégalité correspondent plusieurs points) :
2[q~(l - q) + (i - q)’q] =2q (1 - q) [q2 + (1 - q)2] ]
Le volume des
inégalités correspondantes
estquatre
foismoindre,
soit :quantité
dont le maximum est atteint pour q =1/2,
et vaut1/16.
D’où un
premier
résultat : ce sont lesoppositions
de rendement maximumqui impliquent
leplus d’inégalités,
la mesure en est1/16
soit la moitié de la mesure,1/8,
de toutes celles quespécifie
uneordonnance).
La mesure de l’ensemble des
inégalités impliquées
par lapartition
q, etcompatibles
avec w est donnée par la demi-somme des volumes des deux domaines V et W deR4,
ci-dessous définis :Ces volumes
peuvent
se calculer par desintégrales multiples ;
cetteméthode-là étant bien connue, nous
préférons
donner ici une méthodegéo- métrique :
V et W sont desparallélépipèdes,
d’où on a enlevé certainesrégions
de forme assezsimple
pour que la seule formule suivante en donne le volume. SoitDans la suite de
l’étude,
ilapparaîtra
clairement que :Vol(Vi.q)
= Vol(W q)
c’est
pourquoi
nous bornerons nos considérationsgéométriques
à V. V estun
parallélépipède
de volume113 (1- q),
d’où on a ôté deuxparties polyédrales
v 1, V 2,
d’intersectionvide,
etégales
entre elles en volume.Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
21 En
posant :
x’=q-x ; y’ = y ~Z’=q-Z ~t’=t-q
Le
=
q - y’ x ; =
y ; zl
= q - z ; t’ = t - q Le domaine
VI
s’écrit :Ici deux cas se
présentent (voir figures
1 et2,
où l’on a dû omettre l’une desquatre
dimensiong’) :
Figure 1 : q 0, 5
Figure
2 : q 0, 5Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
22
VQ
est lapyramide Dq
définieci-dessus ;
la
pyramide De¡
déborde duparallélipipède (0 , q)3
x(0 ,1-q) ,
donc deV~
d’unepyramide égale
àD2e¡-1 et
translatée de celle-ciparallèlement
au 4° axe.D’où les formules :
L’on en déduit immédiatement le volume de
VQ
etWq
d’où la mesurede l’ensemble des
inégalités spécifiées
par lapartition
q etcompatibles
avec w :
ainsi que le taux ou
rapport
du nombre desinégalités
vérifiées au total desinégalités spécifiées :
Les courbes de
G(q)
et’1;(q)
sontjointes (fig. 3,4) :
ces deux fonctionssont maxima pour q =
1/2,
mais le maximum deG (q)
estbeaucoup plus
net.On
pourrait envisager
comment laprésence
de "trous"déplace
le maxi-mum de ~ et de e. De
façon précise,
il faudrait ôter dusegment (0,1)
un(ou plusieurs)
sous-intervalle J etreprendre
le calcul deV,
W etc. en in-terdisant à
x, y, z, t
deprendre
des valeurs dans J.3 -
QUE LQUES
PARTITIONS EN PLUS DE DEUX CLASSESLe but de ce § est de calculer e et ~ pour
quelques partitions qui
nesont pas nécessairement des
oppositions
en deux classes.3.1. Un
segment
en troissegments
consécutifségaux
La situation est la même
qu’en
2 : I est assimilé ausegment (0,1),
etle volume total de l’ensemble des
inégalités
de l’ordonnance w est1/8.
Maison considère une
partition
en troissegments égaux,
commefiguré
ci-dessous:Des
calculs, analogues
à ceux de2,
donnent :Revue de Statistique’ Appliquée. 1971 - vol. XIX N° 1
23
Figure
3Figure
4Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
24
Comparons
ces résultats à ceux pour unepartition
en deuxsegments égaux :
on voit que la
multiplication
des classes a amélioré %(qui
serapproche
de1,
enpassant
de11/12
à17/18) ;
mais e a décru. En divisant 1 en n seg- ments consécutifségaux,
on aurait encore accroissementde ’l9
et décrois-sance de 0.
3.2. Trois groupes de deux îlots
On suppose maintenant que
I,
d’effectifélevé,
estréparti
dans leplan
en six
îlots, groupés
parpaires
aux sommets d’untriangle équilatéral,
commel’indique
lafigure suivante,
où sont aussi notées troispartitions envisagées :
la
partition qui paraît s’imposer
est9!1 ;
mais il est intéressant de vérifierau nom de
quels
critèresnumériques
on lapeut préférer
à9!2
9Cil.3,
et aussià la
partition ~4
en six îlots. Dans les calculs on suppose commeprécédem-
ment
qu’il s’agit
d’une distribution continue de masse(ainsi
l’ensemble desinégalités
de w a pour mesure1/8).
Lafigure particulière
a été choisie pour que le calcul de eet ‘~
soitsimple :
on remarque que la distribution des distances deux à deux despoints
de 1 estpentamodale,
serépartissant
au
voisinage
decinq
valeursprincipales qui
sont : le rayon d’unîlot,
la dis-tance
1- 1,
la distance1 - 2,
la distance1 - 3,
la distance 1- 3.Les résultats sont
présentés
sur le tableau suivant :La
partition *1 ,
laplus naturelle,
sedistingue
à la fois par les meilleures valeursde ~
et de e. Mais lapartition ~4’ qui
sembletrop
finea aussi ~
égal
à 1.Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
25 3.3. Autres
exemples typiques
Il semblerait utile de
poursuivre l’expérimentation
sur des cas ana-logues
à ceuxdéjà
traités. Outre unsegment,
considérer uneboule,
un cube...Après
les trois sommets d’untriangle équilatéral,
passer auxquatre
som-mets d’un tétraèdre
régulier.
Mais faisons ici une remarque sur le cas(e. g. )
d’untriangle
isocèle :Du
point
de vue del’ordonnance,
cettefigure
estéquivalente
à :(où
les taches rondes ont étérapprochées jusqu’à
une distanceégale
à leurdiamètre) ;
cequi suggère
unepartition
en deuxclasses,
au lieu de troisauxquelles
onsongeait
d’abord. Le calcul donne : pour 3 classespour 2 classes
ce
qui
conduit àpréférer
lapartition
en deux classes.4 - CONCLUSIONS
4. 1. Le choix d’un critère
En l’état de notre
expérience,
ilapparait
queplus
lapartition
estfine , (Plus
les classes sontpetites) plus
il estgénéralement
facile d’obtenir un~ voisin du maximum : maximiser
~,
est donc un critèredangereux qui risque
de conduire à émietter l’ensemble I. En revanche maximiser (3(le
nombre des
inégalités spécifiées
par lapartition
etcompatibles
avec l’or-donnance)
semble conduire à des résultats naturels.4.2.
Complexité
desalgorithmes.
S.
Regnier
utilise unalgorithme
basé sur le critère suivant. L’ensem- ble 1 à n éléments étant muni d’une distance(ou
d’un indice deproximité) d(i , i’ )
variant entre 0 et1,
on lui associe lepoint
dee(11-1)/2dont
les coor-données sont les
d(i , i’).
Unepartition
de 1 définit aussi une telle distance(d(i , i’)
= 0 si i et i’ sont de la mêmeclasse,
1autrement)
donc aussi unpoint
deR~~’~/2.
Lapartition
la mieuxcompatible
avec la distance donnéesera celle
qui
commepoint
deRN(N-l)/2,
est laplus proche. L’algorithme d’optimisation
est une suite d’essai : àchaque
essai ondéplace
un seul élé-ment i d’une classe à une autre de la
partition (éventuellement
on crée pour lui une classenouvelle)
et on calcule si cette modification a amélioré l’ac-Revue de Statistique Appliquée. 1971 - vol. XIX N° 1
26
cord entre
métrique
etpartition :
commedéplacer
i affecte auplus (N-1)
des coordonnées du
point qui
dansR"(N-l)/2 représente
lapartition,
l’ordrede
complexité
d’un essaipeut
être mesuré par N.L’expérience
a montréque cette
complexité
n’est pas excessive si Nest,
parexemple
de l’ordre de 200.Pour
optimiser 3,
il est naturel deprocéder
de même par essais successifsportant
chacun sur un seul élément i de I. Mais àdéplacer
i onaffecte un nombre
d’inégalités qui
est de l’ordre deN3,
et une telle com-plexité paraît prohibitive.
Il faut donc se contenter d’un calculapproché
dee.
Divisons l’ensemble C des
N(N-1) /2 couples
d’éléments de 1 en 10 classesCj d’égal
effectif de telle sorte quesi j j’,
toutcouple Cj
soit in-férieur à tout
couple
de Cj pour l’ordonnance w,(les
classesCj
sont dessegments
consécutifségaux
de C pourl’ordre tjo).
Pour toutepartition 9!
ondéfinit :
(où
si E est ensemble onnote E
le nombre de ceséléments) :
Et cette formule nous
paraît
à la fois assezsimple
et assezprécise
pour être satisfaisante.Notons enfin
qu’il
seraitpossible
pour N trèsgrand,
desimplifier
lescalculs par une
première
classificationpréalable
identifiant lespoints séparés
par des distances dont leur rang dans l’ordonnance
indique qu’elles
sont très faibles.BIB LIOGRA PHIE
J. P. BENZECRI - Sur
l’analyse
factorielle desproximités.
Publications de l’Institut deStatistique
de l’Université deParis,
1964-1965.R. N. SHEPARD - The
analysis
ofproximities : scaling
with an unknown dis- tance function. I andII ; Psychometrika
1962.Revue de Statistique Appliquée. 1971 - vol. XIX N° 1