R EVUE DE STATISTIQUE APPLIQUÉE
P. D UCIMETIÈRE
Les méthodes de la classification numérique
Revue de statistique appliquée, tome 18, n
o4 (1970), p. 5-25
<http://www.numdam.org/item?id=RSA_1970__18_4_5_0>
© Société française de statistique, 1970, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
5
LES MÉTHODES DE LA CLASSIFICATION NUMÉRIQUE
P. DUCIMETIÈRE
Unité
de Recherches Statistiques
del’INSERM
INTRODUCTION
Dans le cadre de
l’application
des méthodes multivariées àl’analyse
de données
nombreuses,
la distinction entre les méthodes de classification et de classement estaujourd’hui
bienprécisée (DAGNELIE, 1966).
Le classement
d’objets
dans descatégories
définies apriori
doit êtreenvisagé
comme unproblème
de décisionstatistique
et les méthodes de dis- crimination sont d’ores etdéjà
utilementappliquées.
Le
problème
de la classificationd’objets,
c’est à dire de leur re--groupement
en classes estgénéralement
abordé par la recherche derepré-
sentations
simplifiées
de l’ensemble des données(analyses
encomposantes principales, analyses factorielles...).
L’observation desreprésentations géo- métriques
obtenuespeut
alors mettre en évidence une classification éventuelle des données. De tellesméthodes, descriptives
et par là universelles ne s’at- tachent pas à résoudre directement leproblème
duregroupement d’objets
en classes.La
"systématique",
étudescientifique
des différentstypes d’organis-
mes et de leurs relations
(SIMPSON, 1961),
sepréoccupe depuis
fortlong- temps
de la classification des êtres vivants. Les tentatives de formulationthéorique
desproblèmes
de classification et les diversestechniques proposées
pour les résoudre
(ou "taxonomie")
se sontdéveloppées
dans ce domaine(SOKAL
&SNEATH, 1963). Depuis quelques
années l’intérêt des chercheurs pour les méthodestaxonomiques
se manifeste dans d’autresdisciplines
commel’écologie (WILLIAMS
&LAMBERT, 1959),
lagéologie (GOWER, 1970),
lalinguistique (NEEDHAM, 1964),
la recherche médicale(FRASER
&BARON, 1968)... Quelques exemples empruntés
à ces divers domaines montrent que la notion de classification est trèsimprécise.
Exemple
1 :Sur un ensemble de
sujets
atteints d’une mêmemaladie,
une série desymptômes
sont relevés. Le chercheur faitl’hypothèse
que cettepopula-
tion est
peut-être "hétérogène"
et queplusieurs "types
de maladies" sontreprésentés.
Comment classer lessujets
de manière à mettre en évidenceces différentes formes ?
Exemple
2 :Un botaniste recueille un ensemble de
plantes appartenant
à la même famille. Il souhaite regrouper cesespèces
en genres, sous-genres et autres niveaux.Revue de Statistique Appliquée. 1970 - vol. XVIII ? 4
6
Exemple
3 :Dans le but d’établir un
système bibliographique,
on étudie l’ensemble des mots utilisés dans une mêmediscipline.
Comment établir unsystème
de
mots-clefs,
chacunregroupant
un certain nombre de mots ? Des remarques de troistypes peuvent
être faites.a)
La nature desobjets
à classerDans
l’exemple 1,
l’ensemble dessujets peut
être considéré comme des échantillons tirés d’un certain nombre depopulations
à définir. Le pro- blème est de regrouper lessujets
de la manière laplus
"vraisemblable"pour obtenir une
représentation
des univers dedépart.
Dans lesexemples
2et 3 les
objets
forment un ensemble exhaustif(même
dansl’exemple
2 carla variabilité
intra-espèce
estnégligée).
Alorsqu’une
classification des es-pèces
ou des mots est recherchée de toutefaçon,
une classification des ma-lades n’a de sens que si
l’hypothèse
de l’existence deplusieurs types
de ma-ladies est vraie. Cette
hypothèse
mériterait d’êtretestée,
mais nous ne con-naissons pas à l’heure actuelle de test
permettant
de résoudre ceproblème
sous sa forme
générale.
b)
Le nombre deregroupements
à effectuerDans
l’exemple 1,
sil’hypothèse
de l’existence deplusieurs
groupes estvraie,
la seule classification intéressante à effectuer est cellequi
isole le mieux sur l’échantillon les différentstypes.
De même dansl’exemple 3,
leregroupement
en mots-clefs à utiliser est celuiqui
rend maximum unecertaine fonction
d’intérêt,
fonction du nombre de mots-clefsconstruits,
du"bruit" moyen introduit lors d’une recherche
bibliographique...
Par contre dans
l’exemple
2, lesespèces
serontregroupées
de ma-nière assez lâche en genres,
puis
à l’intérieur d’un genre en sous-genres.Ainsi
chaque espèce n’appartient
pas à un seul groupe mais à une hiérarchie de groupes.c)
Lesconséquences
de la classificationAlors que dans
l’exemple
3 l’intérêt de la classification ne relève que del’action,
il seplace
sur leplan
de la connaissance dans lesexemples
1et 2. Dans ces
conditions,
la difficulté réside dans le faitqu’une
classifica- tion n’estjamais unique,
elledépend
de ladescription
desobjets
mais ausside la méthode
pratique
de classification utilisée. Seule une certaine stabilité de la classification parrapport
à diversesdescriptions
desobj ets
et diversalgorithmes permet
unejustification
aposteriori.
Aucune théorie de la classification ne
parait
être établie actuellementen tenant
compte
des diversproblèmes évoqués
sur cesexemples.
Une in-troduction élémentaire aux
principales
méthodes existantes de classificationnumérique
etquelques
résultatsoriginaux
sontproposés
dans ce travail. Ainsi que le souhaite P.DAGNELIE,
unecomparaison
des résultats fournis parces méthodes sur des
exemples
nombreux devraitpermettre
dejuger plus
clairement leur utilité.
Revue de Statistique Appliquée. 1970 - vol. XVIII ? 4
7
La notion de
ressemblance,
la construction des classifications hiérar-chiques puis
nonhiérarchiques
et les méthodes desegmentation
seront suc-cessivement étudiées.
1. - LA MESURE DE LA RESSEMBLANCE 1.1 - La ressemblance des
objets
Soit E un ensemble de n
objets
sur chacundesquels
un ensemble de p observations sont effectuées. Nous chercherons dans ceparagraphe
à dé-finir une ressemblance des
objets pris
deux à deux àpartir
de leurdescrip-
tion.
1. 1. 1 - Définitions et notations
- Soit x un
objet
de E surlequel
une observation esteffectuée,
parexemple
la mesure d’unparamètre,
laprésence
d’unattribut, l’appréciation qualitative
d’unphénomène.
Soit A l’ensemble des modalités quepeut prendre
l’observation.Nous supposerons défini l’écart entre deux observations ai et aj du même
phénomène.
Ils’agit
d’une fonctionnumérique
nonnégative définie
surA x A vérifiant les conditions suivantes :
- e
(ai, aj) -
e(aj, ai)
- e
(ai, ai) =
0En
principe
il n’est pas nécessaire de supposer que e soit une distance surA. Le
plus souvent, cependant,
les observations sontrepérées
sur une mêmeéchelle et alors e
(ai, aj)
serapris égal à lai - aj 1
avec des notations évi- dentes.- Soit deux
objets
x et y de E et xi .... xp ; YI .... YP les observa- tions de p variables effectuées sur chacun d’eux. L’ensemble E desobjets
munis de cette
description peut
alors être considéré comme un sous- ensembleE p
deAi
xA2
x ... xAp
oùAi
est l’ensemble de modalités de la ième va-riable.
L’écart entre les deux
objets
x et y est une fonctionnumérique,
nonnéga-
tive définie sur
Ep
xEp
vérifiant les conditions suivantes :- D
(x, y) =
D(y, x)
- Quel
que soiti,
les deux fonctions e(xi, yi)
et la restriction de D(x, y)
à l’ensemble A x A sont simultanément croissantes ou décrois- santes au senslarge.
La ressemblance S
(x, y)
desobjets
est définie de la mêmemanière,
les fonctions e(xi, yi )
et la restriction de S(x, y)
àAi
xAi
variant en sens inversequel
que soit i.Par convention nous n’utiliserons l’écart D
(x, y)
entreobjets
que si D(x, y)
définit une distance sur E, dans tous les autres cas nouspréfére-
rons
parler
en termes de ressemblance.Revue de Statistique Appliquée. 1970 - vol. XVIII N° d
8
De nombreux coefficients ou distances ont été
proposés :
1.1.2 - Les variables
correspondent
à laprésence
ou l’absence d’un attribut :Ce cas est
particulièrement
étudié dans les ouvrages de taxonomie(SOKAL
&SNEATH, 1963), (LERMAN, 1970),
car les donnéespeuvent
tou-jours
être mises sous cette forme auprix
de certainsregroupements.
Si la même
importance
est donnée àchaque
attribut dans la définition d’une ressemblance entre deuxobjets,
S(x, y)
n’est fonction que du nombrea d’attributs
possédés
en commun par x et y, du nombre b d’attributs pos- sédés par x et non par y et du nombre c d’attributs nonpossédés
par x etpossédés
par y parexemple.
Cettehypothèse signifie
que la ressemblance entre x et y est résumé par le tableau suivant :LERMAN a montré que tout coefficient de ressemblance issu de ce tableau est une fonction décroissante
symétrique
’parrapport
à b et c et croissantepar
rapport
à a. Sichaque objet
x estreprésenté
par unpoint
dansl’espace [0, 11 P,
il f aut remarquer que laplupart
des coefficients décrits par SOKAL& SNEATH sont fonctionnellement reliés à deux
caractéristiques géométriques
de cet espace :
- le carré de la distance euclidienne entre les
points
x et y- le
produit
scalaire des vecteurs x et y :auxquelles
nous pouvonsajouter
le cosinus del’angle
des vecteurs x et y(coefficient d’OCHIAI)
a
Si,
deplus,
une normalisation est effectuée sur lesobjets (et
non sur lesvariables)
de manière que la somme des coordonnées dupoint
x soit nulleet que la
longueur
du vecteur x soitunitaire,
le carré de la distance eucli- dienne entre deuxpoints
x et y s’écrit :est le coefficient
Revue de Statistique Appliquée. 1970 - vol. XVIII ? 4
9 de ressemblance
proposé
par PEARSON.- Une
pondération "objective"
des différents attributs dans le coeffi- cient de ressemblancepeut
êtresouhaitable,
ce dernier n’estplus
fonction seu-lement des
quantités
a,b,
c, d. Il estpossible
parexemple
de donner unpoids
à laprésence
d’un attributplus important
s’il est rare dans l’ensem- ble E que s’il estfréquent (coefficient
de SMIRNOF décrit dansl’ouvrage
de SOKAL &
SNEATH).
1. 1. 3 - Les variables sont
quantitatives :
Il est naturel dans ce cas de choisir une distance entre
objets plutôt qu’un
coefficient de ressemblance et son choixpeut
êtreguidé
si nousimpo-
sons la
propriété
que cette distance soit invariante par certainschangements
de variables.
La
propriété
laplus générale
d’invariance pour une distance cp(x, y) peut
s’écrire :cp
(x, y) = cp [f (x),
f(y) ~ 1
où f(x) représente (fi (x 1... xp)
(fp (xi... xp)
Suivant la nature des variables x 1 ... xp, il est
parfois possible
d’effectuer leschangements
de variablesqui
assurent les invariances souhaitées. Parexemple,
le choix d’une distance fonction seulement deslxi - yil
assurel’invariance par
translation,
lanormalisatfon
desécarts 1 x i - Yil
Si où s i estl’écart
type
sur E de la ième variablepermet
leschangements
d’unité. Ladistance
généralisée (MAHALANOBIS),
définie sur E est invariante par toute transformation linéaire nonsingulière
des variables et le choix de cette dis- tances’impose particulièrement lorsque
les mesures faites sonthomogènes (un
ensemble delongueurs
parexemple).
Peu de travaux utilisent cette dis-tance bien
qu’elle
soit très souvent recommandée(RUBIN, 1967).
1.2 - La ressemblance des variables
Le
problème
de la classification de nobjets
àpartir
d’unedescrip-
tion formée de p variables est
historiquement
relié auproblème
de la clas- sification de n variables observées sur un ensemble de pobjets (Méthodes Q
et Méthodes R dans laterminologie
de SOKAL &SNEATH).
Les deux
problèmes
ne sontqu’apparemment symétriques
enparticu-
lier dans le cadre de
l’exemple
1 de l’introduction. Alors que l’ensemble desobjets
estaléatoire,
les variables mesurées sont à ladisposition
duchercheur et nous ne pouvons dire que leur ensemble forme un échantillon
représentatif
de l’ensemble des variablesqu’il
seraitpossible
de mesurer.Cette différence
profonde
de nature aplusieurs conséquences.
Les définitions du
paragraphe
1.1.1 nepeuvent
être étendues. En ef- fet il faudrait définir un écart e(xi , yi )
entre les observations de deux va-riables x et y effectuées sur le même ième
sujet.
Engénéral
cette notion n’a aucun sensprécis.
Une certaine stabilité de la ressemblance de deux va-riables est assurée si nous
changeons
l’échantillon dessujets,
stabilitéqui
ne
peut
êtresupposée
pour la ressemblance de deuxobjets lorsque
leur des-cription
est modifiée.Revue de Statistique Appliquée. 1970 - vol. XVIII ? 4
10
La
pondération
éventuelle des diverses variables entrant dans la des-cription d’objets
a regrouper a un sens trèsclair,
un coefficientde
ressem-blance entre variables ne
peut
être quesymétrique
parrapport
auxobjets.
Dans le cas de variables
qualitatives
à deuxclasses,
cette dernièreremarque entraîne
qu’un
coefficient de ressemblance entre variables n’est fonction que desquantités
a,b,
c,d,
du tableau decontingence
habituel à 4 cases où a,b,
c,d,
sont de nombresd’objets.
variable x
De nombreux coefficients d’association ont été étudiés
(KRUSKAL
&GOODMAN, 1954)
enparticulier
ceux reliés auX2
d’association entre x et y commeSep
défini
plus
haut.Il faut remarquer à ce
sujet
uneambiguité qu’il
est nécessaire de lever dans lesapplications.
La ressemblance entre x et y est clairement maximum si b = c - 0(Sp
=1)
c’est à dire si les deux attributs sont si- multanémentprésents
ou absents chez tous lessujets. Cependant,
si a = d = 0(set
=1)
nous pouvons soit considérer que les attributs x et y ont une res- semblance maximum car ils ne sontjamais
associés chez un mêmeobjet
ouau contraire
qu’elle
estmaximum,
enchangeant
la définition de l’un des at- tributs.Selon le choix fait
Sep ou 141 peut
êtrepréféré
comme coefficient de ressemblance.Lorsque
les variables sontquantitatives,
unepropriété générale
d’in-variance d’un coefficient de ressemblance
peut
s’écrire :cr
(x, y) = p (f (x),
g(y) )
où f(x)
parexemple représente [f (xi)...
f(Xp)] l
La ressemblance entre x et y étant maximum si ces variables sont reliées fonctionnellement. Le coefficient de corrélation habituel entre x et y
a cette
propriété
dans le cadre des relations fonctionnelles linéaires. Il est invariant pour des fonctions f et g linéaires simultanément croissantes ou décroissantes etsymétrique
parrapport
auxobjets.
Un
problème identique
à celuiposé plus
haut demeurequant
au choix de rou 1 ri.
Plus
généralement,
si nousrestreignons
l’ensemble des relations fonc- tionnelles entre x et y aux fonctionsmonotones,
le coefficient de corrélation des rangs(ou
sa valeurabsolue) exprime
l’intensité d’une telle relation et donc une ressemblance entre les variables.Désormais,
leproblème
de la classification concernera un ensemble E de nobjets (pouvant
être desvariables),
ensemble muni d’un coefficient de ressemblance ou d’une distance.Revue de Statistique Appliquée. 1970 - vol. XVIII N" 4
11
1.3 - L’ordonnance associée à une matrice de ressemblance
L’ensemble
(E
xE)
descouples d’objets
est ordonné(ordonnance
surE)
et nous écrirons(x, y) (z, t)
si la ressemblance(resp.
ladistance)
entre x et y est
supérieure (resp. inférieure)
à celle entre z et t. Pour sim-plifier
nous supposerons dans la suite que l’ordre défini sur E x E est to- tal. Ainsi nous faisonscorrespondre
à la matrice deressemblance,
la ma-trice formée des rangs des
couples d’objets
dans l’ordonnance sur E.Si deux coefficients sont reliés par une fonction croissante au sens
strict,
la matrice des rangs estidentique.
C’est ainsi que, dans le cas des variables
qualitatives
les coefficients de SOKAL &MICHENER, HARMAN,
ROGERS & TANIMOTO parexemple (voir
SOKAL &SNEATH, 1963)
fournissent la même matrice de rang. Deplus,
si le nombre d’attributspossédés
par tous lesobjets
est lemême,
laposition respective
despoints
x et y dansl’espace [0, 1111
nedépend
que d’un seulparamètre
et les coefficients reliés auxcaractéristiques géomé- triques
dans cet espace conduisent à la même matrice de rang.Les méthodes de classification construites à
partir
de la matrice derang sont
développées
dans(LERMAN, 1970),
certaines d’entre elles sont introduites dans ce travail sous une forme différente.2. - LA CLASSIFICATION
HIERARCHIQUE
Nous donnerons une définition élémentaire de la classification et nous montrerons à
partir d’exemples
la nécessité d’étendre cette définition.2.1 - Classer un ensemble E
d’objets équivaut
à définir sur E unepartition
telle que lesobjets qui
se ressemblent soientregroupés
et lesobjets qui
ne se ressemblent pasappartiennent
à des sous-groupes différents(Définition 1)
Nous pouvons remarquer que cette définition conduit à rechercher des
partitions
deE,
à l’exclusion des recouvrements de Equi
en un certain sens lesgénéralisent (NEEDHAM,
1961 ; JARDINE &SIBSON, 1968).
D’autrepart
si une
partition
de Epossède
cettepropriété,
elle estunique.
Considérons
l’exemple
suivant d’une matrice de ressemblance entre 3objets,
le coefficient étantsupposé
par définitioncompris
entre 0 et 1.Les
objets
x et y se ressemblent"beaucoup"
alors que z leur ressemble"très
peu".
Il semble donc que lapartition (x, y) ;
z vérifie la définition 1 . Ce raisonnement intuitif doit êtrenuancé ;
si nous sommes trèsexigeants,
xet y
peuvent
être considérés comme peu ressemblants et lapartition
x ; y ;Revue de Statistique Appliquée. 1970 - vol. XVIII ? 4
12
z est la seule en accord avec la définition. Il en est de même pour la par- tition
(x,
y,z)
si nous sommes très peuexigeants.
La solution au
problème posé
par la définition n’est pas unepartition
de E mais un ensemble departitions, correspondant
à divers choix d’unseuil
de ressemblance S a
priori
arbitraire.-
Si pour toute valeur
possible
deS,
il estpossible
de définir la par- tition de Equi
vérifie la définition 1, l’ensemble despartitions
obtenues cons-titue une hierarchie. En effet si les
objets
x et y sont tels que S(x, y) ~
S ,(nous
dirons que lesobjets
x et y se ressemblent au seuilS), d’après
la dé-finition 1, x et y
appartiennent
à un même sous-groupe de lapartition
cor-respondant
au seuil S. Au seuil S’ S x et y se ressemblentégalement,
ilsappartiennent
donc encore à un même sous-groupe dans lapartition
corres-pondant
au seuil S’. Tout sous-groupe de lapartition
S’ S est donc la réu- nion de sous-groupes de lapartition
S. L’ensemble despartitions
forme une hierarchiereprésentée classiquement
sous la forme suivante :Un raisonnement
identique pourrait
être fait àpartir
de distancesentre les
objets. Réciproquement
la donnée de cette hiérarchie estéquiva-
lente à la matrice de
ressemblance,
le niveau deregroupement
ou de fusion de deuxobj ets
estégal
à leur ressemblance.Nous dirons que la hierarchie réalise la classification de l’ensemble xyz. Il est
important
de mettre en évidence deux notionscomplémentaires
dans cette classification :
- La hierarchie de
partitions
nedépend
que de l’ordonnance sur E ;en effet la matrice de ressemblance suivante conduit à la même hiérarchie
quels
que soient a et b :avec 1 a b 0
- Il est bien clair
cependant
que la seule hierarchien’exprime
pasRevue de Statistique Appliquée. 1970 - vol. XVIII N° 4
13
toute
l’information,
le niveau dechaque
fusionpermet d’opposer
la forte res-semblance entre x et y à la ressemblance faible de z avec x et y.
Prenons un autre
exemple
de matrice de ressemblance :Essayons
de rechercher pour toute valeur deS,
lapartition
vérifiantla définition 1
La définition
1,
surlaquelle
un accordpouvait
êtreétabli,
nepeut
être
utilisée ;
celaimplique
que nous ne pouvons trouver une hierarchie strictementéquivalente
à la matrice de ressemblance.Un résultat
classique
fournit une condition nécessaire et suffisante pourqu’une
matrice de ressemblance soit exactementreprésentable
par une hié- rarchie :Quel
que soit x, y, z S(x, y) z
min(S (x, z),
S(y, z))
Si les
objets peuvent
êtrereprésentés
dans un espacemétrique,
cetteinégalité signifie
que touttriangle
est isocèle à base inférieure ouégal
auxcôtés
égaux
et que nous pouvons écrire :D
(x, y) >
max(D (x, z),
D(z, y» inégalité
del’ultramétrique
La définition 1 de la classification
impose
une condition stricte pour que deuxobjets
soientréunis,
mais aussi pourqu’ils
demeurentséparés.
Les définitions 2 et 3
qui suivent, proposent
une condition moins stricte pour l’une ou l’autre despossibilités.
2.2 -
Pour
tout seuil devraisemblance S,
pour toutcouple d’objets
x, y, s’il existe au moins un sous-ensemble x 1 .... x,d’objets
de E tel que x R xl, x 1 R x 2 ....x r R
y oùxa R xa signifie
que S(Xa, x~ Z S,
alors
x et yappartiennent
à unmême groupe.
Dans le cas contrairex et y
n’appartiennent
pas à un même groupe.(Définition 2)
Dans cette
définition,
la condition stricte entreobjets
de groupes dif- férents est conservée car leur ressemblance nepeut
êtresupérieure
àS,
Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4
14
cependant
la condition concernant lesobjets
d’un même groupe estremplacée
par une notion de ressemblance "transitive" évidemment
plus
faible.Si nous établissons la liste des
couples
x, y tels que x R y, pour un seuil Sdonné,
la construction d’unepartition
obtenue estunique.
Par
exemple
pour S = 0 . 7 :(xRy
lapartition
cherchée"
(~z
lapartition
cherchée(xRz
apar ~
Ion cerc
e(zRt est (x, y, z, t)
Il est aisé de montrer que l’ensemble des
partitions
forme une hié-rarchie,
car si x R y au seuil S, x R y est vrai pour tout seuil S’ SLa classification obtenue est la suivante :
D’après
les remarques faitesplus haut,
cette hiérarchie estéquiva-
lente à une matrice de ressemblance
ultramétrique qui
bien entendu n’est pasidentique
à la matrice dedépart.
La hiérarchie obtenue nedépend
que de l’ordonnance définie sur E et ce fait estimportant.
-
Mathématiquement,
la classification donnée par la définition 2peut-
être introduite comme étantoptimale
pour certains critères :Ainsi pour ROUX
(1967),
la distanceultramétrique équivalente
à laclassification est la borne
supérieure
des distancesultramétriques
inférieures à la distance définie dans la matriceoriginale (au
sens d’un certain ordrepartiel
sur lesdistances).
Pour LERMAN(1970)
la classification estoptimale
au sens du critère dit
lexicographique
défini seulement àpartir
de l’ordon-nance sur E.
- Sur le
plan pratique,
cette méthode de classification est connue sousle nom de méthode
"single linkage" (SNEATH, 1957).
Elle est enrègle géné-
rale non satisfaisante car elle entraîne le
regroupement d’objets
souvent fortdissemblables ;
une ressemblance nepouvant
êtresupposée
transitive. Lesconséquences
sont de deuxtypes :
a)
Les diversespartitions
de E obtenueslorsque
le seuil S de ressemblance diminue sont souvent créées par fusion successived’objets
dans le même sous-groupe
(cha1nes).
Eneffet,
par construction unobjet
a d’autantplus
de chance de s’unir à un groupe que celui-ci est degrande
Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4
15
taille. Certaines méthodes
heuristiques (WISHART, 1969)
seproposent
d’évi-ter la création de chaines au cours d’une classification
"single linkage".
b)
Les niveaux de fusionreprésentent
très mal la matrice de res-semblance
originale
et le résultatproposé
par ROUX montre que les ressem- blances entreobjets
sontsystématiquement trop
élevéeslorsqu’elles
sont es-timées sur la hiérarchie. Il serait éventuellement
possible,
àpartir
de la hiérarchie obtenue par la seule ordonnance sur E, deplacer
les niveaux desdiverses fusions de manière à rendre minimum une distance à définir entre la matrice
originale
et la matriceultramétrique.
La définition 2 de la clas- sification n’aurait évidemmentplus
de sensprécis
dans ce cas.2.3 - Pour un seuil de ressemblance S et pour tout
couple d’objets (x, y) appartenant
à un même groupe, S(x, y) 2
S et danschaque
groupe il existe au moins unobjet qui
ne ressemble pas à au moins unobjet
de tout autre groupe
(Définition 3)
Dans
l’exemple
étudiéplus haut,
pour S =0.4,
deuxpartitions
vérifientcette définition :
(x,
y,z) ;
t et x ;(y,
z,t).
La définition 3 n’assure pas
l’unicité
de la classification(JARDINE
&SIBSON, 1968).
Pour obtenir une classificationunique,
il est nécessaired’ajouter
la condition que si deuxobjets
sont réunis dans un même groupeau seuil
S,
ils le sont encore pour tout seuil S’S,
c’est-à-dire que l’en- semble despartitions
forme une hierarchie. La méthode de classification estappelée
"méthodecomplète linkage"
dansl’ouvrage
de SOKAL &SNEATH ,
elle nepossède
pas lespropriétés d’optimalité
de la méthodeprécédente.
Les différentes
partitions
obtenues en fonction de S nedépendent
là aussique de l’ordonnance définie sur E.
Pour la raison inverse de la
précédente (2. a)),
cette méthodeempêche
la création de chaînes et met en évidence les
couples d’objets
très ressem-blants
plutôt
que les sous-ensembles réellementhomogènes.
D’autrepart
lamatrice de ressemblance
équivalente
à la hierarchie est très différente de la matriceoriginale,
les niveaux de fusion sont en effetsystématiquement
inférieurs aux ressemblances. Une correction des niveaux de fusion
identique
à celle
proposée
pour la méthodeprécédente peut
êtreenvisagée.
Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4
16 2.4 - La construction des hiérarchies
Les
paragraphes précédents
ont montrél’importance
d’une hiérarchie departitions
pourreprésenter
une classificationd’objets.
Pour les définitions 1 et2,
cettereprésentation
estimposée
par la notion de seuil de ressem-blance,
pour la définition 3 ellepermet
d’obtenir une classificationunique.
Dans ce
chapitre
nous conserverons cettereprésentation, qui, rappelons-le , exige
que desobjets
réunis pour un seuil S deressemblance,
le soient encorepour une définition moins
exigeante
de la ressemblance. Unalgorithme
sim-ple permet
degénéraliser
la construction des hierarchies sur E.Supposons qu’il
soitpossible
de calculer un coefficient de ressemblance(ou
unedistance)
entre deux groupes
disjoints quelconques d’objets
de E.Soit une
partition
G 1 ....Gs
de E etGp
etGq
les deux groupes dont la ressemblanceSpq
est maximum. Au seuil de ressemblance S =Spq
lesdeux groupes
Gp
etGq
sont fusionnés en un nouveau groupeGr = Gp
UGq.
La ressemblance de tout autre groupe Gi de la
partition
avecGr
estcalculée ,
soitSir.
Si,quel
que soiti, Sir s Spq,
le même processuspeut
êtrerépété
sur la
partition G
1 .... ,G r
=GpUGq,
....Gs,
une nouvelle fusion étantacquise
à un seuil de ressemblance S’ S.
En
general, Sir
est une fonctionquelconque
des ressemblances entre lesobjets
des trois groupesGi, Gp
etGq.
LANCE & WILLIAMS(1967)
énon-cent certaines
propriétés
souhaitables d’unalgorithme
de classification hiérar-chique
enplus
de la condition suffisante d’existence définieplus
haut(Sir ~ Spq quel
que soiti)
1/
La ressemblance entre groupes doit être de même "nature" que la ressemblance entreobjets.
2/
La matriceultramétrique
reconstruite àpartir
de la hiérarchie doit être aussi "voisine" quepossible
de la matrice de ressemblance.3/
D’autrepart
siSir =
f(Sip, Siq, Spq)
une méthode trèssimple
decalcul
permet
d’obtenir les ressemblancesaprès chaque
fusion.LANCE & WILLIAMS
proposent
la classe suivante de fonctions f per- mettant de construire laplupart
des hierarchies décrites dans la littérature :(la
relation estidentique
pour lesdistances)
La
propriété (3)
estvérifiée ;
la relation linéaire assure sinon uneidentité de "nature" entre ressemblances de groupes et
d’objets,
unehomogé-
néité de dimension entre ces coefficients
(propriété (1)).
Les
principales
méthodes sontpassées
en revue :Rappelons
que pour ces deux méthodes la condition d’existence est vérifiée mais en aucunefaçon
la condition(2).
Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4
17
c) "Average linkage" (SOKAL
&MICHENER, 1958)
La ressemblance entre deux groupes est la moyenne de ressemblances entre
objets
dechaque
groupe, cequi implique :
où
kp
etkq
sontrespectivement
les effectifs des groupesGp
etGq.
Remarquons
queau
+ y = 1 et montrons que cette relation est suf- fisante pour que la condition d’existence soit vérifiée : en effetSpq Sip
etSpQ >_ Siq
carGp
etGq
sont fusionnés au seuil S =Spq
donc
quel
que soit i.Dans le cas
particulier
où deplus y = 0,
si une distance entre ob-jets
a étéchoisie,
l’écart entre groupes ainsi défini est encore une distance(propriété (1) ) .
En effet si deux autres groupes :
L’inégalité
dutriangle
est vérifiée.D’autre
part
une certaine formulation de lapropriété (2)
est vérifiée par cette méthode. Si à une certaineétape
les deux groupesGp
etGq
sontfusionnés au seuil
S,
la ressemblance ultramétrique
entre lesobjets
deGp
et de
Gq
estégale
à S. Si pour cesobjets
nous définissons "l’écart" entre les coefficientsSij
dedépart
et la ressemblance S parCette
quantité
estprécisément
minimum pourS = .20132013~
P Q, ce que réa-lise
l’algorithme.
Contrairement aux méthodesa) et b),
la hiérarchie de par- titions obtenues nedépend
pas seulement de l’ordonnance sur E. Dans l’exem-ple précédent
la classification suivante est obtenue :Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4
18
d)
Méthode centrdide(SOKAL
&MICHENER, 1958)
L’algorithme
est établi dans le cas de distanceseuclidiennes, chaque objet
étantreprésenté
par unpoint
deRp.
La distance de deux groupes est choisie comme la distance de leurscentrdides,
cequi
conduit à écrireLa condition d’existence de
l’algorithme
n’étant pastoujours remplie
mêmedans le cas
particulier
de distanceseuclidiennes,
nous ne pouvons proposer cette méthode. Il en est de même si la distance entreGi
etGr = Gp UGp
est choisie comme la distance entre le centroide deGi
et lepoint
milieu du seg-ment joignant
les centrdides deGp
etGQ, algorithme
pourlequel
a==p
=1/2,
Y = -
1/4 s = 0 (GOWER, 1967).
e)
Méthode de WARD(1963)
WARD mesure la
perte
"d’information" entrainée par la fusion de deux groupesGp
etGq
par la différence entre la somme des carrés des distances dechaque point
au centrdide du groupeGr = Gp
UGq
et la somme des car-rés de distances de
chaque point
au centroide du groupeauquel
ilappartient
avant la fusion. Cette dernière concerne alors les groupes pour
lesquels
cetteperte
d’information est minimum.WISHART
(1969)
à montré que cetalgorithme
est un casparticulier
decelui étudié ici avec :
La condition d’existence est
toujours
vérifiée car a+ (3
+ y = ] Il faut remarquer que :est le carré de la distance euclidienne entre les centrdides de
Gi
et deGr,
en
conséquence Dir
nepeut plus
être considéré comme le carré d’une dis- tance euclidienne.Exemple :
Revue de Statistique Appliquée. 1970 - vol. XVIII N° 4
19
f)
Méthode "flexible"(LANCE
&WILLIAMS, 1967)
Elledépend
d’unparamètre
La condition d’existence est vérifiée car a
+ P
+ y = 1. Les auteursproposent
pour des raisonsempiriques
de choisir une valeur de a faiblementnégative.
Montrons que l’écart entre groupes est encore unedistance,
si unedistance entre
obj ets
est choisie audépart
et si a estnégatif supérieur
à - 1 .[propriété (1)]
sont
regroupés
au seuildonc si a est
négatif :
Exemple
avec a = -0.25,
valeursuggérée
par les auteurs.2.5 - Le
problème
de lareprésentation optimale
d’une matrice de ressem-blance par une hiérarchie
(HARTIGAN, 1967)
HARTIGAN s’est
proposé
de rechercher la hiérarchie laplus proche
en un certain sens de la matrice de
ressemblance, indépendamment
de lanotion de seuil de ressemblance. Il a étudié le critère suivant :
p
(Si, Sz) = S Wi j C S1 (i, j) -
S2(i, j) ] 2
où Si 1(i, j)
est la ressem-i. j
blance donnée entre les
objets
iet j, S2 (i, j)
la ressemblanceultramétrique
définie par une hiérarchie et
Wij
un coefficient depondération.
La solutionRevue de Statistique Appliquée, 1970 - vol. XVIII N° 4
20
théorique
de ceproblème indique
quelorsque
deux groupesGp
etGq
fusionnentdans la hiérarchie le niveau de fusion est la moyenne
pondérée
des ressem-blances entre
objets
des deux groupes soit :Cependant
unalgorithme permettant
de construire les divers groupessupposerait
le calcul du critère p pour toutes les hiérarchies satisfaisant(1)
et le choix de celle
qui
offre un minimun absolu. Il faut remarquer que la méthode"average linkage"
satisfait la condition(1)
avecWij =
1 mais n’estqu’une
solutionpossible
auproblème posé.
Le choix nepouvant guère
êtreeffectué
pratiquement,
HARTIGAN cherche à mettre en évidence unalgorithme permettant
d’obtenir des minima "locaux" du critère p dont onpeut
penserqu’ils
donnent des solutions voisines de la solutionthéorique (solutions
sub-optimales).
En
conclusion,
si nous désirons utiliser une méthode de classificationhiérarchique simple,
la méthode"average linkage"
nousparait
réunir un cer-tain nombre de
propriétés intéressantes,
ainsi que leremarquent
LANCE &WILLIAMS
(1967)
elle mérite d’êtreplus
souvent étudiée. Si unereprésen-
tation euclidienne des
objets
estchoisie,
la méthode de WARDpossède
desavantages théoriques
certains.La relation de LANCE & WILLIAMS
permet cependant
de programmer facilement sur un calculateur l’ensemble des méthodes citées auchapitre
2.1 ;ces dernières
peuvent
ainsi êtrecomparées
pourchaque application (WISHART, 1968).
3. - LES METHODES NON
HIERARCHIQUES
DE CLASSIFICATIONLes méthodes
hiérarchiques
introduisent une contrainte sur la notion de classification que nous avonsrappelée
au début duchapitre
2. 1 etqui peut
ne pas être
imposée
par la nature duproblème. L’avantage
réside essentiel- lement dans le faitqu’elles
facilitentl’interprétation
d’une classification . Nous nous intéressons dans cechapitre
à la recherche d’une suite departi-
tions(mais
nonobligatoirement hiérarchique)
ou d’unepartition possédant
des
propriétés optimales interprétables
en termes de fonction de décision.Supposons
que sur l’ensemble P despartitions
de E soit définie une fonctionnumérique exprimant
la "valeur" d’unepartition.
Parexemple,
si f(Pi)
>f
(P2)
alors lapartition Pl
sera ditepréférable
à lapartition P2.
Le
problème
de trouver lapartition optimale (ou
la suite departi-
tionsoptimales
si fdépend
d’unparamètre)’est théoriquement
résolu : il suffit de rechercher lapartition
P telle que f(P)
soit maximum.Le calcul du nombre de
partitions possibles (DAGNELIE, 1966)
montreque dès que n est
supérieur
àquelques unités,
une telle recherche est im-praticable.
Le choix d’une fonction f ne suffit pas à résoudrepratiquement
leproblème
de classification ainsi défini.Revue de Statistique Appliquée. 1970 - vol. XVI II ? 4
21 3.1 - La "valeur" d’une
partition
RUBIN
(1967)
a formulé un ensemble d’axiomesqu’une
fonction f(P)
doitvérifier,
ensemble d’ailleurs insuffisant pourpermettre
l’édification d’une fonction funique.
Lacaractéristique
essentielle d’une recherche de classi- fication au sens de RUBIN estqu’une partition
de E n’a de sens que pourune certaine
exigence quant
à la ressemblance desobjets,
c’est-à-dire pour le choix d’un seuilparticulier
de ressemblance S. La classifications’exprime
alors par une suite de
partitions optimales.
Essayons
de construire "naturellement"quelques
fonctions f.- Pour une valeur donnée de S, si
Sij
> S il est souhaitable que lesobjets
iet j
soientregroupés
et ceci d’autantplus
que laquantité Sij -
Sest
grande,
de même siSij
> S il est souhaitablequ’ils
soientséparés (cf
Définition
1).
Laquantité Sij -
Speut
être considérée comme legain
deréunir des
objets
vérifiantSij
> S ou deséparer
desobjets
vérifiantSi j
S.Le
gain
total associé au choix d’unepartition
P s’écrit alors :où
gij
= 1 si iet j appartiennent
à un même groupe et- 1 dans le cas contraire.
Il est aisé de montrer que la maximisation de f revient à rendre ma- ximum
(P) (Sij - S)
où la sommation est étendue aux seulscouples
ij
d’objets regroupés.
Nous pouvons remarquer que si la recherche desparti-
tions
optimales
est effectuéeséquentiellement
pour les valeurs décroissantes de S enimposant
àchaque étape
la condition que l’ensemble despartitions déjà
obtenues forment unehiérarchie,
rendre f(P)
maximum au seuil S re-vient à fusionner les deux groupes
précédemment
construits tels que la moyenne des ressemblances desobjets pris
dans chacun d’eux soit maximum.La méthode
"average linkage"
définieprécédemment
estoptimale
pour f(P)
pour l’ensemble des hiérarchie sur E.- Il est
possible d’envisager
une fonction de décisionindépendante
dela valeur absolue des
quantités Sij - S,
c’est-à-dire d’écrire :où
gij
a le même sens queprécédemment.
Dans ce cas, la suite des
partitions
obtenues nedépend
que de l’or- donnance définie sur E par la matrice de ressemblance.Si nous
imposons
une constructionséquentielle
de la suite departi-
tionsoptimales
de manière à cequ’elle
soit une hiérarchie nous obtenonsune méthode
analogue
à la méthode"average linkage"
pourlaquelle
la res-Revue de Statistique Appliquée. 1970 - vol. XVIII ? 4