S. R ÉGNIER
Sur quelques aspects mathématiques des problèmes de classification automatique
Mathématiques et sciences humaines, tome 82 (1983), p. 13-29
<http://www.numdam.org/item?id=MSH_1983__82__13_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1983, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
SUR QUELQUES ASPECTS MATHEMATIQUES
DES PROBLEMES DE CLASSIFICATION
AUTOMATIQUE*
S. REGNIER
Maison des Sciences de l’Homme, Centre de Calcul 1. ASPECT
ALGEBRIQUE
La classification
automatique
a pour but de définir sur un ensembled’objets
deux à deuxcomparables,
unepartition (en
groupesdisjoints
et
complémentaires) qui respecte
au mieux les ressemblances entreobjets.
Il convient que la ressemblance de deux
objets
soitgrande lorsqu’ils figurent
dans le même groupe etpetite
dans le cas contraire.l.l. Mesure de la Ressemblance: Distances et similarités
Le choix d’une mesure de ressemblance
dépend
essentiellement de lanature des
objets
étudiés.En
général,
chacun est décrit par un certain nombre decritères ah correspondant
àdivers " points
de vue" et l’ensembledes ah peut
se résumer par uneapplication :
ensemble
d’objets
où
Distance
Lorsque
les ensemblesFh possèdent
unemétrique
naturelle(par exemple lorsque
les valeursde ah
sereprésentent
naturellement par des nombresréels),
onpeut
poser -d~
= Distance entreaà(1)
etah( j)
dansFh
et définir une distance
globale dij
entre lesobjets ! i et j
comme la moy-enne
des p
distancesd~,
associées aux divers critères. On peut d’ailleurspondérer
les critères selon leurimportance
et poserautrement
dit, dj
= moyenne desd 1 pondérés
par lesph.
On notera quecette distance est nulle
si,
et seulement sic’est à dire si les deux
objects
sontidentiques
à touspoints
de vues; cequi
ne
signifie
pasqu’ils
soient totalementidentiques.
Similarité
Lorsque
les ensemblesFh
n’ont aucunemétrique naturelle,
mais sontfinis, chaque critère ah
définit par lui même unepartition
de l’ensembled’objets E,
ouchaque
groupe est formé desobjets identiques
selon lecritère ah:
Cette relation
d’équivalence
entre iet j
peut êtrereprésentée
par une variablelogique :
Dans ce cas la moyenne:
représente
laproportion
de critères ahqui
prennent la même valeur sur sur lesobjets
iet j.
Ici encore on peutpondérer
les critères et définir la similarité moyenne entre iet j.
, . ....
L’intérêt de cette définition
apparaîtra
au~2.2.
Lien entre similarité et distance
On
peut
définir dansFh
une distance :à
partir
delà,
les deux définitions ci-dessus sont étroitement liées par les relationsCe
qui suggère
deuxgénéralisations : Définitions générales
de la similarité de deuxobjets
1 )
Si l’ensemble de critèresdéfinit une
distancc 4y
entre lesobjets
iet j
on posera2) plus généralement
une similarité est une fonctionqui
vérifie les axiomes- S3 : la similarité
est d’autantplus
forte que lesobjets
sontplus ressemblants,
et vaut 1 seulement si lesobjets
sont "à touspoints
de vueidentiques",
etSij =
1 entraîne pour tout k Sil- = Sjk.1.2. Structure de l’ensemble des
partitions
de ESoit n le cardinal de
E,
le nombred’objets
à classer.Notre but est de définir
une "partition"
de E : un ensemble departies disjointes
etcomplémentaires.
La relation "i
et j
sont dans la mêmepartie"
va être une relationd’équivalence,
etchaque partie
une classed’équivalence.
Considérons n x n variables
logiques :
La fonction
i, j -~ g;~
est alors la fonctioncaractéristique
oufonction indicatrice du
graphe
dans E xE,
de la relationconsidérée;
g est une
application
de E xE,
sur l’ensemble à 2 éléments(0, 1 ),
dansl’ensemble R des nombres réels. C’est donc un élément de l’ensemble
RExE, qui
estisomorphe
àR" x",
espace vectoriel de dimension n x n sur le corps R.P = ensemble des
partitions,
est unepartie
deC = ensemble des relations sur E x E
représenté
dans R" x n par le cube(0, 1 )" ~ ~
despoints g
tel queLa
métrique
de Rn).. n défini t une distance D telle queSi g et g’
sont deuxrelations,
gij =1 1 ou0; D2 représente
le cardinal de la différencesymétrique
desparties correspondantes
dansE x E ;
et dansle cas de
partitions :
D2 = nombre de
couplesi, j qui
sont classés ensemble par une seule des deuxpartitions.
L’intérêt de
plonger
P dans Ir’ XII tient auxpropriétés
desbarycentres.
Le
barycentre
despoints t pondérés
par lespoids ph
est par définitionet vérifie dX E R" X"
ou
l’on adésigné,
siA, B, E
¡rax" par ,48 l’element B - A c Rn x nOn voit que g réalise le minimum de
F(X)
et que pour minimi sEarF (X)
sous une condition X E
C,il
suffit de résoudre:1.3. Partition Centrale
Reprenons
donc les similaritéss& = 1 - d£
définies auparagraphe
1.1.La
matrice Sdes st
pourchaque
h est un élément de R" X ". La matrice s des similarités moyennes(sij)
est lebarycentre
de ces vecteurspondérés
par lespoids ph.
Nous
appellerons partition
centrale tout vecteur X E P c R"""qui
réalise(Xs)2 minimum;
car elle réalise le minimumde ~ ph (Xjl) 2 (les vecteurs SA
sont d’ailleurs eux-même5des
partitions lorsque s£ indique ah(i) =ah (j».
X est en
quelque
sorte uneprojection
de s sur l’ensemble despartitions
dans
R" x n
et seprésente
comme une solution naturelle duproblème posé.
La fonction
(Xs) 2 se simplifie
si l’on remarque que:X est à distance fixe du
point
H decoordonnées i
En termes
géométriques
le cube C est inscrit dans lasphère
de centre Het de rayon
n2/4
parconséquent
Le
point X
cherché réalise le maximum duproduit
scalairesoit encore de la forme linéaire
où
En introduisant une
application
a de E dans un ensemble F telle quepar
exemple
une numérotation arbitraire des classesd’équivalence
formant la
partition X,
on obtient uneexpression plus
condenséereprésente
une sorte decompacité
de la classed’équivalence
denuméro f,
et
L(X)
est la somme descompacités
des différentes classes.Notons
qu’en
maximisantOn rend
également
maximaLes valeurs
de lij
pour lesobjets
classés différemment sont doncimplici-
tement
prise
encompte
Cettequantité tij=sij-! peut-être appeL ée
"attraction des
objets
iet j ".
On remarquera que le
problème
est encore invariant si les attractionstij
sont toutesmultipliées
par une même constantepositive.
Dans Rn"’le
point X qui
réalise HX x Hsmaximum,
nedépend
que de la direction du vecteur Hs.1.4. Aféthodes de Calcul des Partitions Centrales X 1.4.1.
Programmation
LinéaireNous cherchons dans Rn xn un vecteur X
représentatif
d’unepartition
et
qui
réalise le maximum d’une forme linéaireL(X)
12 tijxij maximum
t (xij)
=partition
de E = élément de Pet cette dernière
condition,
en vertu des conventionsdéja faites,
sedécompose
en(relation) (transitive) (reflexive) (symétrique)
toutes ces conditions
expriment
que~=
définit entre lesobjets
iet j
une relation
d’équivalence.
Les deux dernières
permettent
den’envisa g er
q ue les-2-
in-connues :
et les contraintes suivantes suffisent à définir P
B U J ""jJa -:? ""ij ""jh 1
P est naturellement un ensemble fini. Sa fermeture convexe est un
polyèdre C(P),
dont leprofil (ou
ensemble dessommets)
est P luimême,
car il résulte de
(a) qu’aucune
relation n’est combinaison linéaireconvexe d’autres relations. Le
problème
peut donc enprincipe
êtretraité par un
algorithme
deprogrammation
linéaireclassique,
ou deprogrammation
en nombres entiers. Mais il faudrait tout d’abord écrirel’équation
deC(P)
sous formed’inéquations linéaires
Il est à craindrequ’elles
soient excessivementnombreusq puisque (b)
définitdéjà:
inéquations
non linéaires.Plutôt que
d’appliquer
unalgorithme universel,
il semble naturel de tenircompte
de la nature trèsparticulière
dupolyèdre C(P).
On reti-endra
cependant
que la solution X cherchée estgénéral unique;
etqu’
exceptionnellement, L(X)
peutprendre
sa valeur maxima sur toute uneface du
polyèdre cr (P), (HS
est alorsorthogonal
à cetteface).
Lessommets de cette face constituent alors autant de
partitions X optimales.
1.4.2.
Algorithme
desT’ransferts
A
partir
d’unepartition
X on peut construire unepartition
X’particulièrement
voisine en effectuant le transfert d’unobjet
d’une classedans une autre. En
représentant X
par une numérotation abitraire des classes:objet
i - N° de la classequi
contienti,
on définit le transfert del’objet
K
(de
la classeL)
dans la classeM,
àpartir
de a:En
répétant l’opération
onpeut parcourir
tout l’ensemblePq
despartitions
en q classes auplus (pour n objets Pn=P).
Il
apparaît
une nouvellemétrique
T différente de lamétrique
Euclidienne:
T(X,X’)
=nombre minimum de transfertsnécessaires pour passer de X à X’.L’algorithme
consiste à cheminer surP~
partransfert,
en choisissant
chaque
fois le transferttrIa qui
augmente leplus
la formelinéaire
Dans la
représentation :
le transfert ne modifie que la
ligne
et la colonne del’objet
k transferé:La variation de L est donc :
On
peut
poser:tgg = 0
Vk"attraction de
l’objet i
par laclasser
Alors
DL=2(C/¡;M_Cf)
donne legain
de transfert del’objet k
dans laclasse
M;
et le choix du transfert leplus avantageux
repose seulementsur la connaissance de la matrice des
Cif (n lignes
x qcolonnes).
Au cours du transfert
tk /a,
cette matrice se modifie selon desrégles simples
Règle
d’arrêtOn
peut
arrêter le cheminementlorsqu’aucun
transfertavantageux
n’estpossible :
On obtient alors un maximum local de la fonction
L(~C)
au sens de lamétrique
T ci-dessus:La
partition X
obtenue est meilleure que cellesqu’on peut
atteindreen effectuant un seul transfert à
partir
de X.Il
peut
existerplusieurs
maxima locaux.L’algorithme
considéré n’a donc pas lesqualités
habituelles d’unalgorithme
deprogrammation
linéaire.Il serait intéressant
d’emprunter
auxprincipes
de la méthode dusimplexe
uneprocédure permettant
de reconnaître si un maximum local est maximumgénéral.
d.5. Objets Equivalents (identiques
a touspoints
devue)
Comme on le
signalait
en( 1.1 )
ilpeut
exister descouples d’objets
iet j
"identiques
à touspoints
de vue" ils ont mêmereprésentation a(i)
dansl’ensemble F=Fl x F2 ... x Fp
On dira
qu’ils
sontéquivalents.
Leur distance éventuelle est nulle
(la
distance sur F définit un " écart "sur
E).
Leur similarité moyenneest sij =
1quels
que soient lespoids ph
utilisés. De
plus SiII; =Sjk quel
que soitl’objet
k. Il serait extrémementchoquant
que deux telsobjets
ne soient pas classés ensemble dans lespartitions
centrales X.L’algorithme
des transfertspermet
d’établir uneproposition
un peuplus
forte :Proposition
1.5Toute
partition X qui
est un maximum local est moins fine que lapartition can,~onique
en classed’objets équivalents (l’intersection logique
despartitions initiales).
En effet si deux
objets j
et kéquivalents
sont classés par X dans des classesdifférentes,
on peut voir que l’un des deux transfertsqui
lesréunit est strictement a v~~,~tageux.
Les
compacités la et tij
sontégales
sauf pour i =kou j, puisque
par convention d’écritureta = fii = 0,
tandis que~==1/2.
les 2 transferts
envisagés
offrent desgains
doubles desquantités
L’un des deux
gains
est donc strictementpositif.
1.6. Réduction des données:
problème
auximages
Puisque
deuxobjets équivalents
sont destinés à être dans la même classe de toutepartition
centrale il semble naturel de les grouper dès le début et de les traiter comme un seulobjet.
Le
problème initial, portant
sur nobjets
i e E est ainsiremplacé
par leproblème
auximages portant
sur les mimages
f = a(i) E a(E) c F(n > m).
La similarité s’ entre
images
se définira comme pour lesobjets
etsi f
et g sont les
images
de 2objets i et j quelconques
onaura s,, = s fg
= propor-tion de coordonnées
égales
de(Ou plus généralement
Si X est une
partition
centrale duproblème
auxobjets
elle définit unepartition
X desimages puisque
deuxobjets
ayant la mêmeimage
sontdans la même X classe et l’on
a x¡j=xÍ,.
Par
suite,
si n fet ng
sont les nombresd’objets représentés par f
et gdans F on
peut
les regrouper dansl’expression L(X~
somme étendue à toutes les
images f et g
Ea(E) (oû
même à tout Fx F).
Les deux
expressions
en x et x’ on les mêmesminima,
il en résulte :Proposition
1.6Le
problème
aux mimages
conduit aux mêmespartitions
centrales que leproblème
auxobjets,
à condition d’utiliser sur Rmxm lamétrique
associéeà la forme
quadratique Q (X’) = 1 n¡ng(XÍg)2 (n¡= nombre d’objets d’image f ).
1.7.
Métrique
duproblème
auxImages
La nouvelle
métrique
utiâsée sur Rm x mprésente
les mêmesqualités algébriques
que celles duproblème
initial.a) Propriété
dubarycentre
s de masses(ph, s) (E ph= 1)
b)
Le cube des relations(0, 1)’n ’ m
est encore inscrit dans lasphère
decentre H:
et
d’équation
c)
Par contre lamétrique Q
n’a pas la même restriction sur le cube des relations(0,
Le carré de la distance entre deux relations x et y,
~ (xij-Yij)2,
étaitle cardinal de la différence
symétrique
de leursgraphes
dans E x E.Dons le cas
présent
si x et y sont 2 relations surF,
deuxparties
de F xF, Q (x -r~) représente
la somme desproduits
étendue auxcouples f, g qui
vérifient une relation et pas l’autre. C’est donc une mesure(à
valeursentières)
de la différencesymétrique
desgraphes
dans F x F.Cette mesure est d’ailleurs le
produit
par elle-mème(on pourrait
dire"carré
cartésien")
de la mesure d’ensemble définie sur F par les entiersn f.
Dans
beaucoup
de casparticuliers,
il pourra êtreplus
naturel declasser les
images indépendamment
du nombred’objets qu’elles représentent,
et d’utiliser lamétrique
ordinaire de R’"""’,[Cela
revient àadmettre
Remarque
La
métrique
associée àQ(x)
est définie par la distanceOn
peut
noter queQ(x-y) =D2
estégalement
une distance sur le cube(0, 1)111 X "’. L’inégalité
dutriangle:
exprime
que lestriangles
inscrits dans ce cube n’ontjamais d’angle
obtus. Prenons la
métrique
ordinaire de et leproduit
scalaire:x, y et z étant des relations
(x~, y~,
z, = 0 ou1 ) chaque
terme estpositif,
car les facteurs sont
toujours
Le cosinus
angulaire
est doncpositif
etl’angle
yxzaigu. L’angle
estdroit si pour tout
couple
csoit Inf
(y,, z,1 5 x, 5 Sup (y,, z,).
En terme de relations :
et en terme de
graphes
Dans
l’inégalité
dutriangle
écrite ci-dessusl’égalité
se réalise si etseulement et seulement si la relation x est
comprise
entre laconjonction
et la
disjonction de y
et z.1.8. Bonnes
Métriques
de R"’On peut se demander
quelles
sont lesmétriques
depossèdent
les
propriétés (a) (b) (c)
de lamétrique
ordinaire.a)
Lapropriété
dubarycentre
sera vraie pour toutemétrique
associée à une forme
quadratique
B(x,y)
étant une forme bilinéaire. Plusieurs formes B définissent la même formeQ,
mais une seule estsymétrique
b)
Par contre seules des formesquadratiques
nondégénérées
assezparticulières
rendent toutes les relationsX E C= (o,1~"’‘" équidistantes
d’un même
point
G(Ce qui permet
de réduire leproblème quadratique
à unproblème linéaire).
Car
( 1 )
G est nécessairement confondu avec lepoint
Hde coordonnées1 /2.
Car H est
toujours équidistant
d’une relation X= et de sanégation
X’=
(1 - xj).
Alors si les 2"""hyperplans
médiateurs descouples X,
X’avaient un autre
point
d’intersectionG,
la droiteG’tl serait " Q-ortho- gonale"
à tous les vecteursX-X’, qui
forment unsystème générateur,
et par suite à tout
l’espace
La formeQ
seraitdégénérée.
le
développement
pour tous les
couples c
et d E E x E nepeut
comporter que des termesrectangles
changerait
de valeur enremplaçant x~
par -x,.Q(X)
est donc de laforme E
Si X et Y sont deux
relationslQ(X - Y)
est ici encore la mesure ducardinal de la différence
symétrique
de leurgraphes,
pour lamesure q,,
positive
sur l’ensemble E x E.c)
Enfin il existebeaucoup
demétriques
de dont la restriction à l’ensemble C des relations soit unemétrique donnée mais
une auplus
qui
dérive d’une formequadratique Q (X)
=Car les relations b :
forment une base de la somme de deux telles relations est encore une relation. Pour deux vecteurs de
base~on
a :ce
qui
définit entièrement la forme bilinéairesymétrique
B.Remarque
Les formes
quadratiques
associées à lapropriété (b) possèdent
lapropriété
desangles aigus déjà
vue: vérifiel’inégalité
dutriangle
aussi bien queOn démontre aisément que ce sont les seules. Et toutes ces
propriétés
sont
également
vraies dans un espaceRH
pour H fini.1.9.
Influence
de laMétrique
sur le RésultatLes
métriques Q
associées à lapropriété b permettent
de rendre leproblème
linéaire:Q(X-S)
minimum «B[HX, HS]
maximumCette forII1Ùinéaire en X
peut
s’écrire(à
une constanteprès)
On voit que la
pondération q,j( > 0)
détermine l’orientation du vecteurT’ dans le cône convexe défini par les contraintes :
Quelles
que soient les le maximum de T’. R sur l’ensemble de toutes les relations R est réaliséquand R
vérifie :quelconque
pours;J
=1/2)
Cela définit un ensemble de relations centrales
qui
sontindépendantes
de la
pondération Q
sur E x E.Si l’une d’elles est une relation
d’équivalence,
elle définit unepartition
centrale
indépendante
deQ.
Inversement,
toutepartition
centrale Xindépendante
deQ
doit êtreune relation centrale :
En effet soit A une numérotation des classes de X. Aucun transfert ne
doit être
avantageux,
àpartir
deA, quel
que soitQ.
C’est à dire que le transfert d’unobjet i,
de sa classeL,
dans une autre classeM,
ne doitjamais
êtreavantageux.
Soit,
dans les notations del’algorithme:
cette
inégalité implique,
X est bien une relation centrale.
Après celà,
il est clairqu’en général,
lespartitions
centrales ne sontpas des relations
centrales,
etdépendent
de lapondération Q.
’1.10. Généralisations à d’autres
Types
de ProblèmesLa notion de relation centrale
peut
segénéraliser
sanschangement
dans toutes les
catégories
de relationsenvisageables (ordres,
parexemple)
Etant
données p
relations R d’untype
T sur un ensemble E fini éventuel- lementpondérées,
on définira le carré de la distance de 2 telles relationscomme une mesure
positive
de la différencesymétrique
de leurgraphe
dans E x E.
Une relation X du
type
T sera dite centrale si la moyenne(éventuel-
lement
pondérée)
des carrés de ses distancesaux p
relations R est mini-mum.
En identifiant T avec une
partie
du cubela
métrique
étendue à C n’admetqu’une
seule extensionqui
dérive d’une formequadratique Q,
sur V.Pour cette
métrique X
sera uneprojection
sur T dubarycentre
desp
relationsR,
et comme l’ensemble Test inscrit dans unehyper-sphère,
le calcul de X se ramène à la recherche du maximum d’une forme linéaire
L(X ).
Il reste à choisir un
algorithme adapté
à la nature de l’ensemble T.ANNEXE Mise en oeuvre de
l’algorithme
destransferts
L’algorithme
des transferts(1.4.2.
p.181)
a étéprogrammé
enFORTRAN sur 704 et 1107.
Les
paramètres : n
= nombred’objets.
p =
bornesupérieure
du nombre declasses
sont soumis aux contraintes suivantes :
Ces contraintes
permettent
de maintenir la matrice des attractions(C; =attraction
del’objet
i vers laclasser)
en mémoire centrale.Les données
proprement
dites sont:La matrice de similarité : S
(n
xn)
Un classement initial arbitraire:
A(n)
La sortie
correspondante
est un classementA’,
avec la valeur de la fonctionéconomique L(A’).
A’ est un maximum local:
L(A’)
nepeut augmenter
dans aucun transfert.Le programme 1107 teste en
plus
siL (A’) peut augmenter
par réunion de deuxclasses,
ou inversement par transfert d’unobjet
dans une classevide,
en augmentant la bornesupérieure p.
Onpeut imprimer
lesmaxima locaux
correspondants
à des valeursde p
enprogression arithmétique: (po, Dp),
et obtenir enparticulier (pour Dp =1 )
l’un desmaximum locaux
qui comporte
leplus petit
nombre de classes.Quant
àgarantir
un maximum commeabsolu,
laquestion théorique
reste ouverte. Nous ne savons même pas borner
supérieurement
lenombre 1=1 de maxima locaux ni
prévoir
si l =1.(!).
Uneprécaution
élémentaire consiste à faire 2 calculs en
prenant
comme classement initial:(n
classes d’ 1objet chacune)
1 seule classe.
Dans de nombreux cas, nous avons obtenu deux fois le même maximum local A’. On
peut
alorsprésumer
que A’ est un maximumgénéral.
Lestemps
de calcul étaient de l’ordre de :12 minutes sur 704 3 minutes sur 1107 pour un seul calcul
REMERCIEMENTS L’auteur tient à remercier
spécialement :
M.
Hans,
de l’Institut Blaise Pascal du C.N.R.S.qui
a bien voulus’associer à ce travail et programmer et tester
l’algorithme
des transfertssur IBM 704.
Mme.
Renaud,
de la Sectiond’Automatique
Documentaire du C.N.R.S.qui
a effectué l’extension de ce programme sur l’UNIVAC1107 de la Faculté des Sciences