R EVUE DE STATISTIQUE APPLIQUÉE
M AURICE R OUX
Deux algorithmes récents en classification automatique
Revue de statistique appliquée, tome 18, n
o4 (1970), p. 35-40
<
http://www.numdam.org/item?id=RSA_1970__18_4_35_0>
© Société française de statistique, 1970, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme
DEUX ALGORITHMES RÉCENTS
EN CLASSIFICATION AUTOMATIQUE
Maurice ROUX
Laboratoire
deStatistique Mathématique de lI.S.U.P.
Faculté des
Sciences - ParisTout d’abord
je
tiens à dire ici combienje
suis d’accord avec le sché-ma que vient de nous donner Monsieur TOMASSONE sur l’ensemble des mé- thodes utilisées pour
l’analyse
des données.Nous conformant à ce schéma nous admettrons donc que nous
disposons
des distances entre les
objets
à classer. Toutefois les deuxprocédures
que nous allons décrire maintenants’éloignent quelque
peu des méthodes clas-siques
de classificationautomatique.
1 -
ULTRAMETRIQUE
INFERIEURE MAXIMALe but de toute classification est d’obte- nir une "hiérarchie
indicée",
sipossible,
c’est-à-dire une arborescence où les niveaux
d’agré- gation
des groupesd’objets
sont chiffrés parun indice d’autant
plus
élevé que les groupesagglomérés
se ressemblent peu. Ainsi sur lafigure, ci-jointe (Fig. 1),
lesobjets
a et bont une forte ressemblance et un indice fai-
ble, 0,2,
tandis que les groupes[a, b, c ]
et[d, e]
ont une faible ressemblance donc un fortindice,
soit 0. 9.Une telle hiérarchie indicée définit une
distance
d,
au sensmathématique
dumot, qui
a pour valeur la "hauteur" du noeud le
plus
élevé de l’arbre
qui
soit encore sur le che-min
reliant les deuxobjets
considérés. Sur notrefigure
la distance entrea et c sera de 0. 4. Cette distance a en outre la
propriété
suivante : sii, j,
k sont trois desobjets
classés par la hiérarchie alorsd (i , k)
max[d (i , j), d (j , k)],
cequi
fait que tous lestriangles
que l’onpeut
construireavec des
objets
pour sommets sont isocèles avec la baseplus petite
que les côtéségaux.
Une telle distance est diteultramétrique.
Réciproquement
on montrequ’à
toute distanceultramétrique
corres-pond
une hiérarchie indicée et une seule. Onpeut
donc considérer l’élabora- tion d’une classification comme la recherche d’unsystème
de distances surl’ensemble J des
objets
à classerqui
vérifientl’inégalité
ci-dessus. Natu-rellement,
engénéral,
la distance donnée ne satisfait cetteinégalité
pour aucun destriplets d’objets :
lestriangles
isocèles sont rares dans lanature 1.
Cependant
le système de distancesultramétriques
que l’on cons- truira devras’éloigner
aussi peu quepossible
dusystème
des distances données.Posons maintenant une définition : la distance ô sur l’ensemble J sera
dite inférieure à la distance d sur le même ensemble
si,
pour toutepaire d’objets
iet j
de J on a :Soit d la distance donnée sur J. On considère alors l’ensemble
D (d)
de toutes les distances
ultramétriques
6 inférieures ouégales
à d. Cet en-semble n’est pas vide car il contient au moins la distance
60
triviale sur Joù toutes les distances sont
égales entre
elles etégales
à laplus petite
desvaleurs
prises
par d. Soit alors6. l’enveloppe supérieure
de la famille des distances de D :Il est facile de montrer que
8 *
est encoreultramétrique
et inférieure à la distance donnée d. Parmi lesultramétriques
inférieures à d elle est donc laplus proche
ded,
au sens de la relation d’ordre entremétriques
définieci-dessus.
Voici un
algorithme simple (mais
ce n’est pas leseul)
pour construire cette distanceparticulière 6 ,
diteultramétrique
inférieuremaxima,
en rai-son des
propriétés
que l’on vient de voir.Soit T l’ensemble des
triplets
depoints
de J. Pourchaque triplet
tde
T,
rendre letriangle correspondant
isocèle en réduisant laplus grande
des trois distances de ce
triangle
à êtreégale
à cellequi
lui est immédia-tement inférieure.
Lorsque
ceci a étéfait,
réexaminer l’ensemble Tdepuis
le début de réitérer la modification ci-dessus à
chaque
fois que celà sera nécessaire. Effectuer ce réexamen de Tjusqu’à
cequ’on
ne fasseplus
au-cune modification de la distance
qui
sera alorségale
àl’ultramétrique
infé-rieure maxima.
II - A LGORITHMES D’ECHANGE ET PROGRAMME M. S. H.
Nous examinerons en détail
l’application
de ce deuxièmetype d’algo-
rithmes à la construction d’une
simple partition
de l’ensemble J àétudier,
pour ne donner que des indications sur le cas où l’on désire une hiérarchi- sation
complète.
Dans les
algorithmes d’échange
on se fixe tout d’abord un nombre maxi-mum K de classes
possibles
à lapartition
que l’on se propose deconstruire ,
et l’on commence par
répartir
lesobjets
arbitrairement dans ces Kclasses ,
soit totalement au
hasard,
soit en suivant une idée que l’on a àpriori
sur lamanière dont
s’organise
le domaine étudié. Puis on cherche àchanger
laclasse d’affectation de chacun des
objets
defaçon
à maximiser une certaine fonction f que nouspréciserons plus
tard. Iciplusieurs stratégies
sont pos-sibles :
a)
la meilleure consiste à essayer pour tous lesobjets
toutes les affec-tations
possibles,
et à ne retenirqu’une
seule modification d’affectation:celle
qui
provoque laplus grande augmentation
de la fonction f.b)
uneprocédure beaucoup plus simple
et aussiplus rapide
consiste àadopter
unchangement
d’affectation dès que celui-ci provoque une augmen- tation de f.c)
onpeut
aussi choisir une méthode intermédiaire entre les deuxpré-
cédentes
qui
consiste à examiner unobjet
et à modifier sonappartenance
defaçon
à ce que faugmente
leplus possible, puis
à passer àl’objet
suivantet ainsi de suite.
Dans les trois cas on s’arrête
lorsqu’il
n’estplus possible
de modi-fier
l’appartenance
desobjets
sans faire décroitre f. Il va sans dire que laplupart
dutemps
on n’obtient ainsiqu’un
maximum relatif de f et non unmaximum absolu. Cela tient surtout à ce
qu’il
faudraitenvisager
non l’affec-tation d’un
objet
à la fois mais deplusieurs
pour obtenir ce maximum ab- solu. Laqualité
du résultatdépend
de lapartition
initialementchoisie ,
mais en
général
de lastratégie a)
est meilleure quec)
elle-même meilleure queb).
Précisons maintenant
quelle
est cette fonction f. Ils’agit
d’une mesurede l’accord entre le résultat et la donnée. Cette donnée étant un
système
dedistances on
peut
en déduire cequ’on appelle
"l’ordonnance"qui
est la re-lation d’ordre entre les
paires d’objets.
Unepaire
est diteplus petite qu’une
autre si la distance entre les
objets qui
constituent cettepaire
estplus
courteque la distance entre les
objets
de l’autrepaire.
De même la
partition
construitepeut
se traduire eninégalités :
unepaire d’objets
estplus petite qu’une
autre s’il existe une classe de la par- titionqui
contient ces deuxobjets
et s’il n’existe pas de classequi
contienne à la fois lesobjets
de l’autrepaire.
Une telle relation d’ordre induite parune
partition
n’est pas un ordre total c’est-à-dire que deuxpaires d’objets peuvent
ne pas êtrecomparables.
Soit alors g le nombred’inégalités
con-tradictoires entre cette dernière relation d’ordre et l’ordonnance
donnée,
onprend
f = - g. En d’autres termes g est une mesure de la dissemblance entre le résultat et ladonnée,
dissemblancequ’il
fautminimiser,
ou bien maximi-ser son
opposé.
Bien entendu onpeut
inventer d’autres critères que celui-ci mais celui-ci estdéjà
le fruit deplusieurs
essais et semble satisfaisant.Un mot maintenant du cas où l’on veut une véritable classification au
lieu d’une
simple partition.
Messieurs REGNER et DE LA VEGA de la Mai- son des Sciences de l’Homme(M.
S.H)
utilisent à cette fin laprocédure
dé-crite en
a)
mais au lieu de ne retenirqu’une
seuleagglomération
ils effec-tuent la meilleure moitié d’entre
elles,
cequi
constitue un niveau de la hié- rarchie. Comme dans lesprocédures classiques
il y a une formule pour re- calculer la distance entre les nouveaux groupes formés et les anciens et l’on réitérel’opération
ci-dessusjusqu’à
ce que l’on nepuisse plus augmenter
la fonction f. Il sepeut
que cetteprocédure
d’arrêt laisse certains groupesou
objets
non réunis entre eux cequi signifie
que l’arbre obtenu sera non connexe, c’est-à-dire enplusieurs
morceaux, ousous-arbres,
non reliésentre eux.
III - EN GUISE DE CONCLUSION
De ces deux méthodes la
première
a surtoutl’avantage d’éclaircir, partiellement,
la situation de la classificationautomatique
dupoint
de vuethéorique. Pratiquement
elle donne le même résultat que celle dite "du saut minimum"("single linkage
clusteranalysis"
dans les ouvrages delangue anglaise)
dont on connaît ledésagrément majeur :
l’effet de chaînequi
met dans un même groupe deuxobjets éloignés
pourvuqu’existe
entre eux unesuite de
points
peuéloignés
les uns des autres.Le deuxième
algorithme
moinsrigoureux théoriquement
a, en revancheun intérêt
pratique
certain.RESUME
Une
première
méthode de classification dite de"l’ultramétrique
infé-rieure maxima" est
exposée, qui
donne les mêmes résultats quel’égrégation
par le saut minimum
("single linkage
clusteranalysis")
mais àl’avantage
de donner un
support théorique
à ces résultats. Le seconde méthodedécrite , peut,
sur leplan pratique,
utilementsuppléer
aux déficiences de lapremière.
Ces deux
algorithmes
s’écartent notoirement desprocédures
habituelles.DISCUSSION
QUESTION (P. DUCIMETIERE) Quelle
relation y a-t-il entrel’algorithme
"single linkage"
et votrepremier algorithme ?
Réponse :
outre l’éclaircissementthéorique déjà signalé
nous pensons que cetalgorithme risque
d’êtreplus rapide
que lesingle linkage qui
nécessite de nombreuxtris, opérations
"lentes" enordinateur,
mais cela demande a être vérifié sur desexemples
réels.QUESTION (P. DUCIMETIERE) : "L’emploi
desstratégies paramétrées
deLance et Williams semble assez
rapide...
Commentaire de R. Tomassone à la seconde
question
de P. Ducimetière - les coefficientsai , Oj , P , y ,
sont lesquatre paramètres
dontdépendent
linéai-rement les
strategies
de classificationconventionnelles,
sid i j est
la dis-tance entre deux groupes i et
j,
et si ces deux groupes fusionnent pour for-mer un groupe k. La distance entre un troisième groupe h et k
peut
se cal- culer par :où les
paramètres
ai,(Xj , ?
et y définissent lastratégie.
Réponse
à P. Ducimetièreaprès
l’éclaircissementapporté
par R. Tomassone"Le
paramétrage
desstratégies d’agglomaration
desobjets
nesimplifie
pas laprocédure.
Les tris dont nousparlions précédemment
arrivent dans la sé- lection des groupes à fusionner".QUESTION (R. TOMASSONE) - quand
onremplace
la nature des distancespar la nature des rangs relatifs aux
distances,
et que l’on forme les groupesen utilisant ces rangs comme mesure de
distance,
obtient-on les mêmes ré- sultatsqu’avec l’algorithme ultramétrique ?
Réponse :
la forme de l’arbre reste lamême,
seules les hauteurs des noeuds sont différentes.QUESTION (M. TENENHAUS) -
on utilise engénéral
des distances différentesen classification
automatique
et enanalyse
descorrespondances.
Commentcomparer ces deux méthodes et utiliser leurs
complémentarités ?
Réponse :
si on veut vraiment comparer ces deuxtypes
de méthodes il faut évidemment utiliser la mêmedistance ;
mais il nous semble que ces méthodes sontplutôt complémentaires
etqu’il
vaut mieux utiliser la classification au-tomatique précisément
dans le cas où les mesures de distances usuelles sont endéfaut,
et utiliser alors des indices de dissemblance.QUESTION (M.. MILUEZ) -
la classificationultramétrique
est difficilementinterprétable
à cause des effets de chaine. Si onconçoit uniquement
la clas- sification comme une aide àl’interprétation, quelle
est l’utilité d’une telle méthode ? La classificationultramétrique peut-elle
servir à caractériser la"distribution" des
points
dedépart (aspect multinormal) ?
Réponse :
aucune méthode de classification ne nous semblepouvoir
caracté-riser une
distribution,
même au sensgéométrique
du terme. La classification parl’ultramétrique
inférieure maximapermet
toutefois dejuger
dudegré
decohésion des groupes formés à cause du
chaînage qui
relie immédiatement deux groupes non fortement individualisés.QUESTION (M. DIDAY) - grands
tableaux de données ?Réponse :
Nous n’avons pas encore résolu leproblème
de grossesdonnées ,
bien que ce soit un
point
crucial de la classificationautomatique
mais nous pensonspouvoir
y arriver sous peu, par l’intermédiaire du "minimumspanning tree",
ou"graphe
delongueur minimum",
étudié par les chercheursanglais
de Rothamstead.
RÈFÈRENCES
BENZECRI J. P.
1/ description mathématique
des classifications2/
construction ascendante d’une classificationhiérarchique 3/ l’algorithme d’échange
en classificationautomatique.
Cours de 3ème
Cycle polycopiés,
Laboratoire deStatistique
Mathéma-tiques,
Paris 1969.DE LA GENIERE J. & DE LA VEGA W.F. - A propos de la
classification,
rapport
interne du centre de calcul de la Maison des Sciences de l’Homme - PARIS 1969.DE LA VEGA
W.F. -Techniques
de classificationautomatique
utilisant un indice de ressemblance. RevueFrançais
deSociologie -
PARIS 1967.GOWER J.C. & ROSS G. J. S. - Minimum
spanning
trees andsingle linkage
cluster
analysis - Applied Statistics,
1969.LANCE G. N. & WILLIAMS W.T. -A
general theory
ofclassificatory sorting strategies
1 - Hierarchicalsystems. Computer Journal,
Vol.9,
1967.ROUX M. - un
algorithme
pour construire une hiérarchieparticulière.
Thèsede 3ème
cycle - Paris,
1968.SOKAL R.R.
& SNEATH P.H.A. - Principles of numerical taxonomy. Freeman
and Co. San Francisco and London - 1963.