R EVUE DE STATISTIQUE APPLIQUÉE
P. B ERTRAND
E. D IDAY
Une généralisation des arbres hiérarchiques : les représentations pyramidales
Revue de statistique appliquée, tome 38, n
o3 (1990), p. 53-78
<http://www.numdam.org/item?id=RSA_1990__38_3_53_0>
© Société française de statistique, 1990, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UNE GÉNÉRALISATION DES ARBRES HIÉRARCHIQUES :
LES REPRÉSENTATIONS PYRAMIDALES*
P. BERTRAND et E. DIDAY
Université Paris-9,
place
du Maréchal de Lattre deTassigny,
75775 Paris Cédex 16 INRIA, Domaine deVoluceau-Rocquencourt,
BP 105, 78153 LeChesnay
CédexRÉSUMÉ
Les
représentations pyramidales
constituent une extension naturelle des arbres hiérar-chiques.
Comme les hiérarchies, lesreprésentations pyramidales
sont des ensembles departies (appelées
classes oupaliers)
de l’ensemble desobjets
à classer.Cependant
la clas-sification
pyramidale
permet d’obtenir des relationsplus complexes
entre les classes. Enparticulier
deux classes nondisjointes
ne sont pas nécessairement emboîtées, comme c’est le cas pour une hiérarchie. Unepropriété
intéressante desreprésentations pyramidales
estleur
capacité
àproduire
unpetit
nombre d’ordresqui
respectent les contraintes deproxi-
mité entre les
objets
à classer. Dans cet article, nous exposons unesynthèse
desprincipaux
résultats
théoriques
etpratiques,
récemment obtenus sur lesujet.
Mots-clés :
Analyse
des données,classification hiérarchique, compatibilité
entre un ordre etun indice de dissimilarité, classes
empiétantes,
sériation.SUMMARY
The
pyramidal representations
are extensions of the hierarchical trees.Similarly
to thehierarchical structure, a
pyramid
is a collection of subsets of the setof objects
to be clustered.However the
pyramidal clustering
cangive
rise tocomplex
relations between clusters. Inparticular,
contrary to the hierarchical case, two notdisjointed
clusters are notnecessarily
nested. An attractive property of the
pyramidal representation
is itsability
toproduce
a fewnumber of orders on the set of
objects,
which arecompatible
with theproximities
betweenobjects.
This paper presents the main theoretical andpractical
advancesrecently
obtainedon the
subject.
Key-words :
Dataanalysis,
hierarchicalclustering, compatibility
between an order and adissimilarity, overlapping
clusters, seriation.Introduction
Les arbres
hiérarchiques figurent parmi
lesplus
anciens modèles utilisés en Taxonomie(voir
Aristote et son arbre devie).
Plusieurs auteurs(par exemple
* Article reçu en avril 1988 et révisé en novembre 1989.
Benzecri
(1973)),
ont étudié la formalisationmathématique
de cetype
de modèle.Dans la
pratique,
la classificationhiérarchique
estfréquemment
utilisée pourcompléter
ou résumer les résultats obtenus par d’autres méthodes de ClassificationAutomatique : Analyse Factorielle,
méthode des NuéesDynamiques, ...
Eneffet,
lesarbres
hiérarchiques
constituent un modèle souventéloigné
des données rencontrées dans les traitements usuels enanalyse
de données car le modèlehiérarchique impose
aux données de vérifier la contrainteultramétrique (i.e.
tous lestriplets
depoints
doivent être destriangles isocèles). Aussi, plusieurs
extensions des arbreshiérarchiques
ont récemment étéproposées :
- les
Bk
clusters de Jardine et Sibson(1971),
- les résultats de Hubert
(1974)
en théorie desgraphes,
- les arbres dits « additifs »
qui
ont été étudiés par de nombreux auteursdepuis
Buneman
(1971);
voir le livre récent deBarthélémy
et Guénoche(1988).
- les
pseudo-hiérarchies
de Fichet(Durand
etFichet, 1988),
notionproche
de la
représentation pyramidale.
La
représentation pyramidale,
encoreappelée pyramide, proposée
parDiday (1984),
constitueégalement
unegénéralisation
du modèlehiérarchique.
Commeles
hiérarchies,
lespyramides
sont des ensembles departies, appelées
classes oupaliers,
de l’ensemble desobjets
à classer.Cependant
certainesreprésentations pyramidales
constituent des structuresplus «complètes»
des données : eneffet,
deuxpaliers
d’unepyramide peuvent
avoir une intersection nonvide,
sans être inclus l’un dans l’autre. Autrementdit,
contrairement au cashiérarchique,
le modèlepyramidal
illustre l’idée intuitive que certainsobjets
àclasser, peuvent appartenir
à deux classes
qui
ne sont pas emboîtées l’une dans l’autre(classes empiétantes).
D’autre
part,
certainesreprésentations pyramidales
sont dessériations,
c’est à dire définissent un nombre restreint d’ordres sur l’ensemble desobjets
étudiés. Parconséquent,
lesreprésentations pyramidales
forment un ensemble de classificationsplus
vaste que celui des arbreshiérarchiques,
cetélargissement
s’effectuant enproposant
des classificationsplus complexes, pouvant
dans certains cas ordonner lesobjets
entre eux. Mais lespyramides
ne constituent pas seulement une extensionmathématique
des hiérarchies : ellesprésentent
aussil’avantage,
dupoint
de vuede
l’Analyse
desDonnées,
d’introduire une nouvellereprésentation graphique synthétique
des classes et desobjets, plus précise
etplus
fidèle aux donnéesinitiales,
que la
représentation hiérarchique.
Les
pyramides
étant une extension deshiérarchies,
nousrappelons
d’abord lespropriétés
deshiérarchies, puis
nousindiquons
lagénéralisation
de cespropriétés
au cas
pyramidal. Après
avoircomparé
lesreprésentations pyramidales
auxpseudo- hiérarchies,
nous terminons en donnant deuxexemples
de traitements dejeux
testsde données.
1. Notations &
Rappels
La Classification
Automatique
étudie un ensemble finiqui
est l’ensembledes
objets
à classer(cet
ensemble sera noté iciH).
La finalité d’une méthode de ClassificationAutomatique
est dedéterminer,
par desalgorithmes,
un ensemble departies
de H caractérisant aussi fidèlement quepossible
l’informationdisponible
sur n. Les méthodes
évoquées ici,
utilisent toutes le mêmetype
de données : unindice de dissimilarité.
1.1 Indices de dissimilarité
Nous
rappelons
dans ceparagraphe,
lesprincipales
notions relatives auxindices de dissimilarité.
Définition
d’un indice de dissimilaritéOn
rappelle qu’un
indice de dissimilarité d défini surH,
est uneapplication
de
Q2
dansR+
telle que :(i)
pour tout x élément deH, d(x, x)
= 0(ii)
pour tout x, y élément deÇ2, d(x, y)
=d (y, x)
Un indice de dissimilarité
peut
être donné apriori
ou calculé àpartir
desdonnées,
parexemple
si les données sont des coordonnées depoints
d’un espace euclidien.Ultramétrique
Une
ultramétrique
u, est un indice de dissimilarité défini surH, qui
vérifiel’inégalité suivante, appelée inégalité ultramétrique :
pour tout x, y, z élément de
0, u(x, z) max{u(x, y), u(y, z)
Indice
d’agrégation
Au cours d’une classification
hiérarchique
oupyramidale,
on utilise souventun indice
d’agrégation
afin de mesurer laproximité
entre les classesdéja
formées.On
appelle
indiced’agrégation
entre groupesd’objets,
uneapplication
m deP(Q)
xP(03A9) (où P(H)
l’ensemble desparties
deQ)
dansR+
telle que : pour toutA,
B élément deP(H), 03BC(A, B) = 03BC(B, A) (symétrie)
Dans le cas de la classification
hiérarchique,
lesparties
A et B sont par constructiondisjointes.
La définition ci-dessus est donc une extension de lanotion
d’indice
d’agrégation
au cas departies
nondisjointes. Désignant
par d un indice de dissimilaritéquelconque
surH,
et par A et B deuxparties quelconques
deH,
donnons la définition dequelques
extensions au cadrepyramidal
d’indicesclassiques
en classificationhiérarchique :
03BC(A, B)
=min{d(x, y)|x
E A - B et y E B -AI (extension
du sautminimum)
03BC(A, B) = max{d(x,y)|x
E A et y EB} (extension
du sautmaximum)
03BC(A,B) = 03A3{d2(x,y)|x
E A et y EB} (extension
de l’indiced’inertie)
Matrice d’un indice de dissimilarité
On suppose S2 ordonné par une relation d’ordre notée A. Les éléments de H
peuvent
être identifiés à leurs rangs selon l’ordre A. Ainsi on notera S2 sous la forme :Ç2
= {1,2,..., n}
où n est le cardinal de QSoit mij =
d(i, j )
la valeurprise
par un indice de dissimilarité d pour les deux éléments iet j
de Q. La matrice de termegénéral
mis obtenue en ordonnant les valeurs des indices iet j (c’est
à dire seslignes
et sescolonnes)
selon l’ordreA,
sera notée par la suite
M(d,A).
Parconstruction,
cette matrice estsymétrique,
àtermes
positifs
et tous les termes de sadiagonale
sont nuls.1.2
Rappels
sur les hierarchies.
1.2.1.
Definitions
Par la
suite,
lesymbole
Cdésignera
l’inclusion stricte.Hiérarchie
Une hiérarchie totale H sur H est un ensemble de
parties
de 03A9 vérifiant :(i)
L’ensemble Q et lessingletons
de Happartiennent
àH,
(ii)
L’intersection de deux élémentshl
eth2
de H est soit l’ensemblevide,
soit l’un des deux élémentshl
ouh2.
Les éléments de H sont
appelés «paliers».
Par abus denotation,
on écrira«hiérarchie» pour «hiérarchie totale».
Prédécesseur,
successeurEtant donné une hiérarchie
H,
on ditqu’un palier
s est successeur dupalier p si :
(i)
s C p(au
sensstrict)
(ii)
il n’existe pas depalier h
différent de p et de s tel que l’on ait :sChCp
On dit aussi que p est
prédécesseur
dupalier
s.Dans la
pratique,
on indice leshiérarchies,
c’est à direqu’à chaque palier
dela hiérarchie on associe un réel
positif qui
mesure ledegré d’agrégation
desobjets
de ce
palier.
On dit alors que la hiérarchie est indicée. Plusprécisément :
Hiérarchie indicée
Une hiérarchie indicée sur 0 est un
couple (H, f )
où H est une hiérarchiesur 9 et
f
uneapplication
définie de H dansR+
telle que :(i)
pour tout x élément deH, f({x})
= 0(ii)
pour touthl
eth2
élément deH,
on a :hl
Ch2 ~ f(h1) f(h2)
Par
exemple,
à toutpalier
d’une hiérarchie onpeut associer,
pour mesurer ledegré d’agrégation
de sesobjets,
laplus grande
des dissimilaritésséparant
deuxobjets
de cepalier.
Indice de dissimilarité induit
Soit
(H, f)
une hiérarchie indicée sur Q. Onappelle
indice de dissimilaritéinduit par
H,
et on notedH, l’application
de03A92
dansR+
définie par :Autrement dit
dH (X, y)
est la hauteur duplus
« bas »palier
contenant lesobjets x
et y. On vérifie facilement que
dH
est uneultramétrique
sur H.Représentation
visuelle(« dendrogrammes »)
Remarquons
d’abordqu’à
toutehiérarchie,
onpeut
associer legraphe
dontles sommets sont les
paliers
et dont les arcs(p, q) présents indiquent
quep est
successeur de q. En fait ce
graphe
est un arbre et pourreprésenter
une hiérarchieindicée,
on tientcompte
de la fonctiond’indiçage f
ensymbolisant chaque palier (sommet
dugraphe)
par un trait horizontal dont la hauteur estproportionnelle
à laquantité positive f (h).
Donnons un
exemple :
avec :
(H, f )
est visualisée par l’arbrehiérarchique
ci dessous où nous remarquons, parexemple,
que les successeurs deh2
sonthi
et{3}.
FIGURE 1
Il existe d’autres arbres
hiérarchiques
visualisant correctement(H, f) :
pourles
obtenir,
il suffit d’afficher lespaliers
de H enchangeant
l’ordred’affichage
desobjets
de 0(noeuds
terminaux del’arbre). Cependant
la modification de l’ordre doit être telle que toutpalier
de H reste un intervalle vis à vis de l’ordremodifié,
ceci afin degarder
une bonne lisibilité de l’arbre. Nous reviendronsplus
loin surcette contrainte.
Théorème de Johnson - Benzécri
(Johnson (1967),
Benzécri(1973))
Il existe une
bijection
entre l’ensemble des hiérarchies indicées et celui desultramétriques.
La démonstration de ce résultat tient au fait que
l’application qui
àchaque
hiérarchie indicée
(H, f )
associe l’indice de dissimilarité induitdH,
estbijective (voir
parexemple Diday
et al.1982).
Algorithme
de laclassification
ascendantehiérarchique (CAH)
Il existe de nombreux
algorithmes permettant
de construire une hiérarchie indicéereprésentant
l’indice de dissimilarité initial d défini apriori
sur H. Leplus
utilisé est celui de la classification ascendante
hiérarchique (dit algorithme
de laC. A.
H.).
Notons IL un indiced’agrégation
entreparties
deQ,
indice choisi aupréalable. L’algorihme
de la C.A.H. s’énonce alors de lafaçon
suivante :Etape
1(initialisation) :
les seulspaliers
définis sont lessingletons
de Ç2.Etape
2(agrégation) :
on réunit les deuxpaliers qui, parmi
lespaliers n’ayant
pasdéjà
étéréunis,
sont lesplus proches
au sens de l’indiced’agrégation
IL. Onprend
pour hauteur du
palier créé,
la valeur de IL pour lecouple
depaliers
réunis.Etape 3 (test d’arrêt) : l’algorithme
se terminelorsque
le dernierpalier
créé est Q.Sinon, l’algorithme reprend
àl’étape d’agrégation.
Cet
algorithme possède
lapropriété suivante, propriété
concernant lesdonnées,
c’est à dire l’indice de dissimilarité initial(pour
une démonstration voir parexemple
DIDAY et al.(1982)).
Proposition
1L’indice
d’agrégation
du saut minimumayant
étéchoisi, l’algorithme
dela CAH construit une hiérarchie indicée
(H, f)
pourlaquelle dH
est la sous-dominante,
c’est à direl’enveloppe supérieure
desultramétriques
inférieures à l’indice de dissimilarité défini apriori
sur H.2. Des hiérarchies aux
pyramides...
Examinons les
caractéristiques
des ordresqui permettent
d’afficher correcte- ment une hiérarchiedonnée,
c’est à dire les ordres pourlesquels
toutpalier
de lahiérarchie est un intervalle. Cette
propriété
seraégalement exigée
dans le cas d’unepyramide.
2.1. Ordres sans
croisement,
ordrescompatibles
Croisement :
On dit
qu’un
ordre défini sur f2 donne lieu à un croisement pour une hiérarchieH,
s’il existe untriplet d’objets (x, y, z)
et unpalier h
contenant x etz, et tels que :
x y z et y n’est pas élément de h.
Une
configuration typique
de croisement est donnée ci-dessous :FIGURE 2
Pour éviter ce
type
deconfiguration, qui
nuit à la lisibilité de l’arbrehiérarchique,
onimpose
à l’ordred’affichage
desobjets
de 03A9 d’être sans croisement pour H.Remarquons qu’un
ordre est sans croisement pour unehiérarchie,
si etseulement
si,
toutpalier
de la hiérarchie est un intervalle vis à vis de l’ordre considéré.Il existe
plusieurs
autrespropriétés équivalentes
à l’absence de croisement.Pour les
énoncer,
nous introduisons la notion d’ordrecompatible
et la notion de matrice de Robinson.Ordre
compatible
On dit
qu’un
ordre A défini surQ,
estcompatible
avec un indice dedissimilarité d si pour tout
triplet (x, y, z)
d’éléments de Q vérifiantx0y0z,
ona :
Matrice de Robinson
On dit
qu’une
matrice réellesymétrique,
notée(mi,j)1~i,1~j,
est une matricede Robinson si les termes de ses
lignes
et de ses colonnes sont croissants àpartir
de
chaque
terme de sadiagonale,
soit formellement :Exemple :
FIGURE 3
Caractérisation des ordres sans croisement
Reprenant
les notations introduites aux§1.1.
et1.2.1.,
laproposition
ci-dessous est démontrée en annexe.
Proposition
2Soit A un ordre défini sur H et
(H, f )
une hiérarchie indicée surQ,
lesconditions suivantes sont
équivalentes :
(1)
l’ordre A est sans croisement pour la hiérarchie indicée(H, f) (2) dH
et A sontcompatibles
(3) M(dH, 0394),
c’est-à-dire la matrice de termegénéral d(i,j)
où leslignes
et les colonnes sont ordonnées suivant
A,
est une matrice de Robinson.2.2. Introduction aux
pyramides
Dans ce
paragraphe,
nousénonçons
une conditiongénérale,
notée(1), qui
sera vérifiée par les extensions de l’ensemble des hiérarchies indicées que nous considèrerons par la suite : à savoir l’ensemble des
pyramides
indicées au senslarge
et l’ensemble despseudo-hiérarchies
indicées.2.2.1. Condition d’extension des hiérarchies
Par souci de
simplicité,
nousdésignerons
par«représentation
de 9 » toutcouple (P, f)
où P est un ensemble departies
non vides deQ,
contenant 0 lui-même,
etf
uneapplication
de P dansR+.
Nousemploierons également
la notiond’indice de dissimilarité induit par une
représentation (P, f ),
notédp,
dont ladéfinition est
analogue
à celle de l’indice de dissimilarité induit par unehiérarchie,
c’est à dire :pour tout x, y de
H, dP(x,y)
=min{f(h)|h E P, x E h, y
Eh}
Nous savons que l’ensemble des hiérarchies indicées est en
bijection
avecl’ensemble des
ultramétriques (théorème
deJohnson-Benzécri).
Plusprécisément,
l’application qui
àchaque
hiérarchie indicée associe l’indice de dissimilarité induit par cettehiérarchie,
estbijective.
La condition
d’extension,
notée(1),
que nous allons considérer est l’extension de cettebijection
à des ensemblesplus
vastes que celui desultramétriques.
Ontrouve aussi l’idée de la condition
(1)
dans les travaux de Batbedat(1988).
Condition
(1)
Soient S un ensemble d’indices de dissimilarité sur 0 contenant les ultramétri- ques, et E un ensemble de
représentation
de Ç2. Considéronsl’application 03A8 qui
àtoute
représentation
de Ç2 associe l’indice de dissimilarité induit par cettereprésen-
tation. On dira que E vérifie la condition
(1)
sil’application 03A8 est bijective
de Esur S.
Par la suite
(§2.2.2.
et§5 ),
nous introduirons deux choixpossibles
pour E et S.2.2.2.
Définition
despyramides
Dans le cas
pyramidal,
le choix de S a étéguidé
par le souci d’obtenir desreprésentations
de 9 pourlesquelles
il existetoujours
au moins un ordresans croisement.
D’après
laproposition 2,
il semble raisonnable de choisir pour S l’ensemble des indices de dissimilarité pourlesquels
il existe au moins un ordrecompatible.
Ces indices sontappelés « pyramidaux », plus précisément :
Indice
pyramidal
Un indice
pyramidal
s est un indice de dissimilarité tel que :(i) s(x,y) = 0 ~ x = y
(ii)
il existe au moins un ordrecompatible
avec s, c’est à dire un ordre A tel que :x0394y0394z ~ s(x, z) > max{s(x, y), s(y, z)
Nous allons définir l’ensemble des
pyramides
indicées au senslarge,
de sorteque la condition
(1)
soit vérifiéelorsqu’on prend
pour S l’ensemble des indicespyramidaux
et pour E l’ensemble despyramides
indicées au senslarge.
Pyramide
Soit P un ensemble de
parties
non vides de Ç2. On dit que P est unepyramide
sur
H,
si :(i)
0 et lessingletons
deH, appartiennent
àP,
(ii)
pour touthl, h2
élément deP, hl
nh2
est soit0,
soit un élément deP, (iii)
il existe un ordre surQ,
tel que toutpalier
de P soit un intervalle decet ordre.
Remarques
1 - La condition
(iii) exprime
l’absence de croisement.2 - Les éléments d’une
pyramide
sontappelés paliers (comme
dans le cashiérarchique)
3 - Les notions de
prédécesseur
et de successeur se définissent de la mêmefaçon
que dans le cashiérarchique.
Pyramide
indicée au senslarge
On
appelle pyramide
indicée au senslarge,
toutcouple (P, f)
où P est unepyramide
surH,
etf
uneapplication
de P dansR+,
telle que :(1) f(h)
= 0 ~ h est unsingleton
(2)
pour touthl, h2
élément deP,
on a :hl
Ch2
zf(h1) ~ f(h2) (3) (hl
Ch2
etf (hl)
=f(h2)) ~
il existe deuxpaliers
distincts h eth’,
différents de
hl,
tels que : h n h’ =hl Remarque
On aurait pu
exprimer
la condition(3)
de la manière suivante :(hl
Ch2
etf (hl)
=f(h2)) ~
il existe 2prédécesseurs
distincts dehl
En
effet,
nous verronsplus
loin(propostion 7) qu’un palier quelconque
d’unepyramide
admet auplus
deuxprédécesseurs
distincts.Visualisation d’une
pyramide
indicée au senslarge
Comme dans le cas d’une
hiérarchie,
onpeut
associer à toutepyramide
ungraphe
dont les sommets sont lespaliers
de lapyramide
et dont les arcsreprésentent
la relation de succession entre deux
paliers.
Dans le cas d’unepyramide
cegraphe, qui
estplanaire,
n’est pas un arbre car ilpeut comporter
descycles.
Pourreprésenter
une
pyramide
indicée au senslarge (P, f ), chaque palier
p non réduit à unsingleton
est
représenté
par un trait horizontal dont la hauteur estproportionnelle
à la valeurf (p).
Contrairement au cashiérarchique,
il estpossible
que deux branches relientun
palier
à ses deuxprédécesseurs.
Exemple
FIGURE 4
3.
Propriétés
despyramides
Les
propriétés
despyramides
sont, pour laplupart,
desgénéralisations
despropriétés
despyramides.
Lespropositions 3, 4,
5 et 6 montrent que l’ensemble despyramides
indicées au senslarge
vérifie la condition1,
condition d’extension de l’ensemble des hiérarchies définie au§ 2.2.1.
Proposition
3L’indice de dissimilarité induit par une
pyramide
indicée au senslarge
est unindice
pyramidal.
Démonstration
Soit
(P, f )
unepyramide
indicée au senslarge,
etd p
l’indice de dissimilarité induit par cettepyramide
indicée. Soit A un ordrecompatible
avec P et(x,
y,z)
un
triplet
de Q ordonné selonA,
c’est à dire :Notons
hxz (respectivement hxy)
leplus
baspalier
contenant x et z(respectivement
x et
y). D’après
la définition d’unepyramide, hxz
est un intervalle pour l’ordreA,
donc
hx z
contient y. Parconséquent hxy
est inclus danshxz,
et donc :d’où
dp (x, z) ~ dp(x, y).
On montre de même quedp(x, z) ~ dp(y, z).
Donc :Ce
qui
montre qued p
est bien est un indicepyramidal.
Proposition
4L’ensemble des hiérarchies indicées est inclus dans l’ensemble des
pyramides
indicées au sens
large.
Démonstration
Soit
(H, f )
une hiérarchie indicée. Montrons que H est unepyramide.
Lesconditions
(i)
et(ii)
de la définition d’unepyramide
sont trivialement vérifiées.On sait aussi que pour toute hiérarchieindicée,
il existe un ordre sans croisement(il
s’agit
d’un ordrequi
créé une chaine deplus
courtelongueur :
voirDiday 1983).
Ce
qui
prouve que la condition(iii)
est vraie. Donc H est unepyramide,
etd’après
la définition de
f,
H est unepyramide
indicée au senslarge.
Proposition
5L’ensemble des
ultramétriques
est inclus dans l’ensemble des indices pyra- midaux.Démonstration
Soit u une
ultramétrique.
On sait que u est l’indice de dissimilarité induit d’au moins une hiérarchie indicée(voir
le théorème deJohnson-Benzécri).
Maisd’après
laproposition précédente,
cette hiérarchie indicée est aussi unepyramide
indicée au sens
large,
dont l’indice de dissimilarité induit estégal
à u, donc est unindice
pyramidal d’après
laproposition
3.On trouvera une démonstration de la
proposition
suivante dansDiday (1984).
Proposition
6(extension
du théorème deJohnson-Benzécri)
Notons
F l’application qui
à toutepyramide
indicée au senslarge,
associel’indice de dissimilarité
qu’elle
induit. Cetteapplication
F est unebijection
del’ensemble des
pyramides
indicées au senslarge
sur l’ensemble des indicespyramidaux.
Les
propositions 4, 5,
et 6 peuvent être résumées par lediagramme suivant,
où ireprésente l’injection
naturelle définie à l’aide de l’inclusion.La
proposition
suivante montre que lesgraphes représentant
lespyramides
sont
planaires.
Proposition
7Tout
palier
d’unepyramide
admet auplus
deuxprédécesseurs.
Démonstration
Raisonnons par l’absurde.
Supposons qu’un palier
p de P admette au moins troisprédécesseurs distincts,
notés pi, p2 et P3.Comme ces
paliers
pi sontprédécesseurs
du mêmepalier
p, nous avons :Choisissons un ordre noté
, qui
soitcompatible
avec P. Lespaliers
de P sontdes intervalles relativement à l’ordre
~.
Donc lespaliers
pipeuvent
se mettre sousla forme :
où i
prend
les valeurs1,
2 et3,
etoù ai
etbi
sont des éléments de H. Sansperte
degénéralité,
nous pouvons supposer que les éléments ai sontrangés
de la manière suivante :La deuxième
égalité
de(1) peut
alors s’écrire sous la forme :Par
conséquent
a2 = a3, donc il existe une relation d’inclusion entre p2 et P3, cequi
est contradictoire. Donc lepalier
p admet auplus
deuxprédécesseurs.
4.
Algorithme
de constructionIl existe
plusieurs algorithmes
de construction depyramides
indicées ausens
large.
Nousprésentons
celuiqui
est leplus proche,
dans sonprincipe,
del’algorithme
de CAH décritau §1.2.
Ils’agit
del’algorithme
de la classification ascendantepyramidale,
noté CAP. Avant del’énoncer,
nous donnons les notations et conventions suivantes :Relations d’ordre sur l’ensemble des
parties
de 03A9Soient A et B deux
parties
deH,
et notons une relation d’ordre sur H.Notons
également min(A)
leplus petit
élément deA,
etmax(A)
leplus grand
élément de A selon l’ordre . Ces deux éléments
min(A)
etmax(A)
sont aussi-appelés
bornes de lapartie
A. Nous dirons que B est avantA,
si :(min(B) min(A)
etmax(B) max(A))
ou A = BNous dirons
que B
est à l’intérieur deA,
si :min(A) min(B) max(B) max(A)
Composante
A toute
étape
intermédiaire del’algorithme
deCAP,
nous pouvons considérer legraphe
G dont les noeuds sont lespaliers déjà
créés parl’algorithme,
et les arêtesjoignent
lescouples
depaliers prédécesseur-successeur.
Onappellera composante
d’unpalier
p, et noteraC(p),
l’union despaliers appartenant
à lacomposante
connexe du noeud associé au
palier
p dans legraphe
G.Exemple
FIGURE 5
Pour cette
pyramide
« enconstruction »,
il y a deuxcomposantes : {1,2,3}
et
{4, 5, 6}.
Algorithme
de laClassification
AscendantePyramidale
Nous choisissons au
préalable
un indiced’agrégation
entreparties
de03A9,
noté 03BC.
ETAPE 1
(initialisation)
Les seuls
paliers
existants sont lessingletons
de 9. Un ordre arbitraire est choisi entre les éléments de 9(il
est nécessairementcompatible
avec lessingletons deQ).
ETAPE 2
(agrégation)
On réunit deux
paliers p*
etq*,
tels queii(p*, q*)
réalise le minimumde J.L
relativement à l’ensemble des
couples
depaliers (p, q)
vérifiant :(i)
p est avant q,(ii)
il n’existe pas depalier
tel que p ou q soient à l’intérieur de cepalier, (iii)
si p et qappartiennent
à la mêmecomposante
connexe, alors toutpalier
x de cette
composante
vérifie :(iv)
si p et qn’appartiennent
pas à la mêmecomposante
connexe, alors lepalier
p contient une borne deC(p)
et lepalier
q contient une borne deC(q).
ETAPE 3
(mise à jour de
l’ordrecompatible)
Si avant
l’étape 2, p*
etq* n’appartiennent
pas à la même composanteconnexe, alors les éléments de
C(q*)
sontplacés
consécutivement à ceux deC(p*).
De
plus,
l’ordre des éléments d’une ou deux de cescomposantes
est, le caséchéant,
inversé de manière à ce quemin(q*)
soit consécutif àmax(p*).
ETAPE 4
(test d’arrêt)
Si le dernier
palier
créé estH, l’algorithme s’arrête,
sinonl’algorithme
sepoursuit
àl’étape d’agrégation.
Remarque
1Dans
l’exemple
de lafigure 5,
lescouples
depaliers
vérifiant lesquatre
conditions del’étape d’agrégation,
sont :a)
pour descomposantes
connexesidentiques :
b)
pour descomposantes
connexes différentes :Remarque
2La
complexité
de cetalgorithme
estpolynomiale
d’ordrecompris
entre 3et 4. Il existe un autre
algorithme
de construction ascendantepyramidale,
dont lacomplexité
estpolynomiale
d’ordre 2. Mais cetalgorithme
n’est utilisablequ’avec
certains indices
d’agrégation (pour plus
de détails voir Bertrand1986).
Remarque 3
On montre que
l’algorithme
de CAPconstruit,
dans tous les cas defigure,
une
pyramide
sur H(pour plus
de détails voir Bertrand1986).
Notons P cettepyramide et f
la fonction définie par :où
p*
etq*
sont les deuxpaliers
réunis àl’étape
2 et dont l’union estégale
à h.On montre facilement que
(P, If
est une hiérarchie indicée au senslarge si 03BC
estmonotone
croissant,
c’est à dire si : A ~ B ~03BC(A,C) ~ 03BC(B,C).
Dans le cascontraire,
ilpeut
seproduire
desinversions,
c’est à dire l’existence de deuxpaliers
p et q tels que :
5.
Comparaison
avec lespseudo-hiérarchies
B. Fichet propose une autre extension de l’ensemble des hiérarchies : les
pseudo-hiérarchies
indicées(voir
Durand et Fichet(1986, 1988)).
Afin desimplifier
la
comparaison
avec le caspyramidal,
nous supposerons ici que lespseudo-
hiérarchies sur H sont
totales,
c’est à dire contiennent lessingletons
de H. Cettehypothèse
étantadmise, « pseudo-hiérarchie »
devient synonyme de«pyramides.
Par contre, la notion de
« pseudo-hiérarchie
indicée » devient un typeparticulier
de«pyramide
indicée au senslarge ».
Pseudo-hiérarchie
(totale)
indicéeOn
appelle pseudo-hiérarchie indicée,
toutcouple (H, f )
où H est unepseudo-hiérarchie (i.e. pyramide)
surH, et f
uneapplication
de H dansR+,
telleque :
(1) h
est unsingleton
~f (h)
= 0(2)
si deuxpaliers
distincts h eth’
sont tels que h Ch’,
alorsf (h) f (h’) Renlarque
L’implication
de(1)
est en fait uneéquivalence, l’implication
inverse étantentrainée par
(2)
et le faitque H
soit totale.D’après
cettedéfinition,
il est clair que lespseudo-hiérarchies
indicées sontdes
pyramides
indicées au senslarge.
Si l’onreprend
les notations du§2.2.1.,
lesrésultats de C. Durand et B. Fichet
(1988), peuvent s’exprimer
comme étant unautre choix d’extension de l’ensemble des hiérarchies
indicées,
choixqui
vérifie lacondition
(1).
Si l’onreprend
les notations du§2.2.1.,
pour l’ensemble E(extension
des hiérarchies
indicées),
les auteurs choisissent l’ensemble despseudo-hiérarchies indicées,
et pour l’ensemble S(extension
desultramétriques),
l’ensemble des indices de dissimilarité fortement de Robinson.Indice de
dissimilarité fortement de
RobinsonOn dit
qu’un
indice de dissimilarité s est fortement deRobinson,
si :(i)
il existe un ordre Acompatible
avec s(ii)
pour tout(x, y, z) triplet
de n ordonné selonA,
c’est à direx0y0z,
on a :
En d’autres termes, un indice de dissimilarité s sur 0 est fortement de Robinson s’il existe un ordre A sur Q tel que la matrice
M(s,A)
soit une matricede Robinson et vérifie les deux conditions
supplémentaires a)
etb).
Il est clair que l’ensemble des
ultramétriques
est inclus dans l’ensemble des indices fortement deRobinson, qui
est lui-même inclus dans celui des indicespyramidaux.
En
résumé,
lespseudo-hiérarchies
indicées constituent une extension des hiérarchies indicéesqui
vérifie la même condition d’extension que lespyramides
indicées au sens
large,
mais cette extension est incluse dans l’extensionpyramidale.
L’avantage
despseudo-hiérarchies
indicées est d’éviter le cas defigure
où unpalier
p est inclus strictement dans unpalier q
avecf (p)
=f (q).
Eneffet,
ce casde
figure prête
à confusion lors de la visualisation d’unepyramide.
Donnons unexemple
depyramide
indicée au senslarge
pourlequel
il existe deuxpaliers
dansce cas de
figure.
Exemple
Soit 03A9
= la, b,
c,d, el.
Considérons l’indice de dissimilarité initial d(données) précisé
par la matrice relative à l’ordre a,b,
c,d,
e :En utilisant l’indice
d’agrégation
du sautmaximum, l’algorithme
de CAPconstruit une
pyramide
indicée au senslarge,
notée(P, f),
dont l’indice de dissimilarité induit est ici l’indice de dissimilarité initial d.Sa visualisation pour l’ordre
compatible (a, b,
c,d, e)
est donnée ci-dessous :FIGURE 6
Les
paliers
p ={b,c,d}
et q ={a, b, c, d}
réalisent le cas defigure f (p)
=f (q)
avec p inclus strictement dans q. Parconséquent (P, f )
n’est pas unepseudo-hiérarchie
indicée.Cependant,
on remarquera que l’indice de dissimilarité induit par(P, f )
peut être arbitrairementapproché (au
sens des moindrescarrés,
parexemple)
par les indices de dissimilarité induits par lespseudo-hiérarchies
indicéesde la famille
(P, ge)e,
où ge est définie par :si x est différent de q où e est un réel
positif
arbitrairement voisin de zéro
On remarquera que les visualisations de ces
pseudo-hiérarchies
admettentpour cas limite la visualisation de la
pyramide (P,f) lorsque
e tend vers 0.D’ailleurs,
dans lapratique lorsque
le nombre e est suffisammentpetit,
lesvisualisations de
(P,ge)
et de( P, f )
sont confondues.6.
Exemples
de traitementNous
présentons
maintenant deux aspectscaractéristiques
de la classificationpyramidale,
en décrivant deux traitements utilisantl’algorithme
de CAP sur desjeux
de données tests. Cetalgorithme
a étéprogrammé
en FORTRAN 77 par Bertrand(1986),
etfigure
dans uneversion,
actuellement en cours devalidation,
dulogiciel
SICLA(Système
Interactif de ClassificationAutomatique) développé
àl’I.N.R.I.A.
6.1 Sériation par
l’approche pyramidale
Dans cet
exemple,
9 est un ensemble de douzepoints
duplan euclidien,
dont les
positions
sontindiquées
sur lafigure
7. L’indice de dissimilarité dqui
constitue avec Q les données de cet
exemple,
est la distance euclidienne restreinte à l’ensemble H.Les données se
présentent
sous la forme du tableau des dissimilarités associées àd,
les éléments de Q étantrangés
selon l’ordre naturel des entiers. Parconséquent,
ces données ne contiennent aucune informationexplicite
sur l’ordreentre les
points
de0,
que l’on identifie enregardant
lafigure
7.Cet
ordre,
à savoir l’ordre9, 12, 4, 7, 8, 3, 11, 10, 1, 6, 2,
5apparaît
naturellement comme étant la suite suivant
laquelle
lespoints
s’ordonnent lelong
d’une courbe
ayant approximativement
la formesuivante :
Nous avons effectué une classification ascendante
pyramidale
en utilisantl’algorithme
de CAP(voir figure 8).
Cetexemple
montre que l’onpeut
retrouverun ordre
implicite
entre lesobjets
classés sous la forme d’un ordrecompatible
avecla
pyramide
construite parl’algorithme
deCAP,
c’est à dire iciquasiment
l’ordred’affichage
des éléments de [2(la
seule différence concerne lecouple
d’éléments(1,6) qui apparaît
selon cet ordre sur la courbe de lafigure
7 et selon l’ordre inversesur la visualisation de la
pyramide
de lafigure 8).
Q
FIGURE 7
Remarquons
que l’ordreimplicite
des données n’aurait pas été retrouvé si la courbe avaitcomporté
une ouplusieurs configurations
destypes
suivants :6.2.
Classification
parl’approche pyramidale
Nous
présentons
un deuxièmeexemple
de classification ascendantepyrami-
dale sur le
jeu
testclassique
des données deRuspini.
Ici l’ensemble 0 est constitué de 75points
duplan
euclidienrépartis
enquatre
classes distinctes. Lafigure
9représente
les éléments de S-2 par des numéros(1
à75)
les identifiant. L’indice de dissimilarité dqui
constitue avec 0 les données de cetexemple,
est commeprécédemment,
la distance euclidienne restreint à l’ensemble 03A9.Ayant
choisi l’indiced’agrégation d’inertie,
nous avons construit à l’aide del’algorithme
de CAP unepyramide
indicée au senslarge représentée
sur lafigure
10. L’ordre
d’affichage
des éléments de Q telqu’il apparaît
lors de la visualisation de cettepyramide
est aussiindiqué
sur lafigure 9,
par uneligne joignant
chacundes