E DWIN D IDAY
Croisements, ordres et ultramétriques
Mathématiques et sciences humaines, tome 83 (1983), p. 31-54
<http://www.numdam.org/item?id=MSH_1983__83__31_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1983, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
CROISEMENTS,
ORDRES ETULTRAMETRIQUES *
Edwin
DIDAY **
Résumé
La
représentation
visuelle d’unehiérarchie
induit un ordre sur lessingletons.
Sil’on
désire représenter
la mêmehiérarchie
en tenantcompte
de contraintesextérieures (ordre
dessingletons
induit par une autrehiérarchie,
unepartition,
un indice de
dissimilarité,
parexemple)
des croisementspeuvent apparaître.
Ily a un croisement dans la
représentation
visuelle d’unehiérarchie quand
unebranche horizontale
(associée à
unpalier)
estcoupée
par une branche verticaleassociée à
unsingleton.
Ils’agit d’étudier
les liens entrecroisements, ordres,
indices de
dissimilarité
etultramétriques.
On utilise la notion de
compatibilité
entre un ordre et un indice dedissimilarité ;
on introduit les notions desemi-compatibilité
etcompatibilité
faible. On
étudie
les aspects matricielsqui débouchent
sur unegénéralisation
des matrices de Robinson. On fait le lien entre toutes ces notions et les chaînes de
longueur
minimales au sens de l’indice dedissimilarité
choisi. En introduisant la notiond’élément "compatible à gauche"
ou"à
droite" d’unechaîne,
on donne de nouvellespropriétés
concernant les chaînes incluses dansun arbre de
longueur
minimum. Dans le casoù
cet indice est uneultramétrique,
on obtient despropriétés intéressantes
liant l’ordre dessingletons correspondant à la
visualisation d’unehiérarchie indicée
etl’ ultramétrique
induite par cettehiérarchie.
* INRIA, Domaine de
Voluceau,
BP105,
Rocquencourt 78153 LeChesnay
Cedex .* Je tiens à remercier B. Leclerc pour ses
judicieuses
remarques lors de la rédaction définitive de ce texte.1 - INTRODUCTION
Parmi les
problèmes qui
seposent
dans lapratique
de la classificationautomatique,
l’un desplus fréquents
et difficiles est celui de lacomparaison
de
différentes
structures inter-classes(hiérarchies, partitions,
recouvrements, etc.).
Ceproblème
se posequand
ondésire
comparer une mêmepopulation
d’individus
caractérisés
par des tableaux dedonnées différents :
tableauxévoluant
dans letemps,
tableauxcorrespondants à différents paquets
devariables,
parexemple.
Il se pose aussiquand
ondésire
comparer l’effet d’unchangement
decodage,
le choix dedifférentes
mesures deressemblance,
larobustesse de la structure inter-classe choisie pour les
données traitées,
etc ...Les
retombées pratiques
de tous cesproblèmes
ontattiré
l’attention de nombreuxchercheurs ;
citons Adams(1972) qui s’intéresse principalement à
lacomparaison
d’arbres et dehiérarchies
par recherche de "consensus"(chercher,
par
exemple,
lahiérarchie qui
"ressemble" leplus à plusieurs hiérarchies),
Farris
(1973)
et Mikevich(1978) qui s’intéressent à
ladéfinition
de mesures de ressemblance entrehiérarchies,
Hubert et Baker(1977)
pour lesaspects
"robustesse";
citons surtout Rohlf(1981) qui
fait lasynthèse
desapproches
lesplus récentes.
La notion de "croisement" donne un
éclairage
nouveauà
toute cetteproblématique ;
introduites d’abord en classificationhiérarchique,
lespropriétés
qui
lacaractérisent
sont ensuiteétendues
au cas d’indicesdes dissimilarité
autres que des
ultramétriques ;
la classificationhiérarchique
fournit unestructure inter-classe
qui
esttrès utilisée
card’interprétation
visuelle facilequand
la taille de lapopulation n’est
pastrop grande ;
par contre, lacomparaison
visuelle deplusieurs hiérarchies
n’est pastrès aisée
surtout si l’ordre dessingletons qui
se trouventà
la base dechaque hiérarchie
n’ est pas le même. Si l’on tente dereprésenter plusieurs hiérarchies
avec le même ordre sur lessingletons,
des "croisements" peuventapparaître ;
on ditqu’ il
ya un "croisement" dans la
représentation
visuelle d’unehiérarchie quand
ilapparaît
une coupure entre une branche horizontale et une branche verticaleassociée à
unsingleton.
L’étude théorique
de la notion de croisementdébouche rapidement
sur larecherche de liens entre un indice de
dissimilarité
et un ordre. On introduit la notion de"compatibilité
faible" entre un ordre 0 et un indice dedissimilarité
d et on montre que cette notion est
équivalente,
si d est uneultramétrique, à
l’inexistence de croisements pour la
hiérarchie
induite par dquand
0 estl’ordre des
singletons ;
on montre aussiqu’elle
estéquivalente
au fait que lachaîne induite par 0 et
valuée
par d soit deplus
courtelongueur ; quand
dn’est pas une
ultramétrique,
il faut introduire une nouvelle conditionappelée
"semi-compatibilité" qui
estplus
restrictive que celle de"compatibilité
faible"mais moins restrictive que cette de
"compatibilité" qui
aété
clairementrappelée
par Brossier(1981).
Les aspects matriciels de ces notions
permettent
de les relier entre elles etde
généraliser
les matrices de Robinsonutilisées,
notamment, par Kendall(1969)
et Hubert(1974) à
des familles de matrices dites SDR et SDDqui
lescontiennent. La
semi-compatibilité
donne unpoint
de vue nouveauà
la notion de chaîne T-minimax introduite par Leclerc(1977, 1981)
et permet donc de faireapparaître
une nouvellecaractérisation
des chaînes "incluses" dans un arbre delongueur
minimum. La notion de"X-compatibilité" permet
de regrouper les troistypes
decompatibilité
que nousétudions
entre un ordre et unedistance ;
on l’utilise pourdéfinir
les matrices"quasi-Robinson, SDR,
SDD"dans le cas
où
seule unepartie
S~ estordonnée.
On introduit pourcela,
la notion
d’élément à gauche
ouà
droite d’une chaîne. On montre entre autres que si d et 0’ sontsemi-compatibles
alors la chaîne induite estcontenue dans un arbre de
longueur minimum ; réciproquement
si une chaîneest sans branches dans un arbre de
longueur
minimum la distance et l’ordreassociés à
cette chaîne sontsemi-compatibles ;
il enrésulte
que lasemi-compatibilité caractérise
les chaînesqui
sont arbres delongueur
minimum.Dans le cas
où
d est uneultramétrique
on montre enfinl’équivalence
entre lanotion de croisement et les
différents types
decompatibilité.
Nous supposons connu un certain nombre de notions
classiques
en classificationautomatique :
indiced’agrégation, ultramétriques,
existence d’unebijection
entre les
hiérarchies indicées
et lesultramétriques,
etc...)
que le lecteur pourra trouver dans lechapitre
2 du livre"Eléments d’analyse
desdonnées",
Dunod
(1982) ; signalons
enfin que la notion de croisementcorrespond à
une"inversion horizontale" dans une
hiérarchie,
le lecteurintéressé
par lesproblèmes
"d’inversion verticale" pourra se reporterà
[ 6 1.2 - DEFINITION D’UNE HIERARCHIE ET D’UN CROISEMENT
Définition
d’unehiérarchie
Soit r2
un ensemblefini,
H un ensemble departies (appelées paliers) de r2,
Hest une
hiérarchie
sur r2 si et seulement si :Soit une
hiérarchie
Hdéfinie
sur un ensemble d’individus S¿ et un ordre 0quelconque
sur S¿ que nous notons poursimplifier w I ,..., wn
(autrernentduit,
Définition
On dit que l’
ordre 0
donne lieu à un croisement pour lahiérarchie H,
si etseulement si il existe h E H contenant deux
éléments
dei
et w
L tels
qu’il
existew. J 1
h avec ij
A.Exemples
L’ensemble des individus est
dans la
hiérarchie
Hqui
estreprésentée figures
1 et 2.Dans la
figure 1,
l’ordre donne lieu à uncroisement ;
par contre, dans lafigure 2,
l’ordre donne pas lieu à un croisement pour la mêmehiérarchie
H.Figure
13 - ORDRES SANS CROISEMENTS
3.1. Construction d’ un ordre sans croisement
On
peut dé f inir
un ordre sans croisementà partir
dunehié rarchie
H enassociant, à chaque palier,
un ordre sur lesplus grands paliers
dont il est laréunion ;
enprocédant
ainsià partir
dupalier identique à r2 jusqu’aux paliers qui
ne contiennent que dessingletons,
on obtient un ordre sur les individusqui
ne
peut comporter
decroisement ,
par construction même.Remarquons
que si H est unehiérarchie
binaire(autrement dit, chaque palier
estformé
duregroupement
de 2éléments
deH,
il y a donc n-1paliers)
alors le nombre d’ ordres sans croisement est2n-l puisque chaque palier peut
ordonner de deuxfaçons
les deuxpaliers
dont il est laréunion ;
c’estbeaucoup,mais
c’est peu parrapport
au nombre dehiérarchies
binaires sur ~qui
vautn!(n-I )!21 n (voir
par
exemple
F rank et Svensson( 1981 )).
Exemple
Si l’on
reprend
lahiérarchie représentée
dans lafigure 1, l’algorithme indiqué
ci-dessus donne la succession (f ordres suivants :
d’où
finalement l’ordrew1 W 3 w 2 w 4*
3.2. Une condition
nécessaire
et suffisante pour avoir un ordre sans croisement:la compatibilité
faibleNous
considérons
l’ordre 8 sur ~défini
parw 1 w 2
...wn
et un indice dedissimilarité
d.Définition
Nous dirons que d et 8 sont faiblement
compatibles
si et seulementsi,
pourtout
triplet
w. 1 w.i
Wk
et deux individus sontconsécutifs (au
sens de
8),
la distance(au
sens ded)
des deux sommetsconsécutifs
estinférieurek
x Dans tout le texte les notions "d’
inférieur"
ou de"supérieur"
doivent êtrecomprises
au senslarge.
Autrement dit si
j =
i + 1 parexemple,
on doit avoirRappelons qu’ une hiérarchie indicée
est uncouple (H,f) où
H est unehiérarchie
et f uneapplication
de H dansR+
telle que :On sait
qu’ il
existe unebijection
entre l’ensemble deshiérarchies indicées
etl’ensemble des
ultramétriques (voir,
parexemple,
E. DIDAY et al(19$2)) ;
soitH l’ultramétrique associée à
unehiérarchie indicée notée
H par cettebijection ( 6H(Wiywi)
i j est la hauteur duplus
bas despaliers
de H contenantw.
1et
w.).
On a alors laproposition
suivante :J
Proposition
1Une ’c.n.s. pour que l’ordre 0 ne donne pas lieu
à
un croisement pour lahiérarchie indicée
H est queô y
et 8 soient faiblementcompatibles.
Démonstration
Montrons d’ abord que s’il
n’ y
a pas de croisement alors 6H et 0 sont
nécessairement
faiblementcompatibles ;
eneffet,
si 6 H et 0 ne sont pas faiblementcompatibles,
alors il existe untriplet w. 1 w.
jwk
tel quesupposons
que j =
i+ 1(la dé monstration
se f ait defaçon analogue
si i =j+ 1 ).
Soit
h (resp. h3)
leplus
baspalier
de Hqui
contiennewi
etWj (resp. wk) ;
si
wi appartenait à h~,
on auraith2 c h3
ouh2 = h..
et doncpuisque
H estindicée (i.e.
pas d’inversions),
cequi
estcontraire
à l’hypothèse ;
doncWj n’appartient
pasà h3
bien que ij k,
ily a donc un croisement.
Réciproquement,
si l’ ordre p estsujet à
un croisement pour lahiérarchie H,
ilexiste
h 1
eth 2
dans H tels queh 1
contiennewi,wk
eth 2
contienneh 1
avec i
j k ;
si un tel croisementexiste,
onpeut
construire untriplet Wg w~ ·
,comportant
donc deuxéléments consécutifs
dont la distance(au
sens deOH)
est strictementsupérieure à
sont pas f aiblement
compatibles) ;
eneffet,
soit 9, lepremier
indicesupérieur (resp. inférieur) à
i(resp. k)
tel queh (resp. w~_. 1. h 1 ),
voir la
figure
2.On a
nécessairement A ~
A’puisque w. ~ h 1
eti j
k.Soit
h’ 1
leplus
bas despaliers
contenantwi
et ; on a donch’1
puisque h
nh’
cause dew )
etw appartient à h’
et nonà hl;
il en
résulte que 6 H(w Z , °H(w £,’ W £,+ 1) puisque H
est unehiérarchie
indicée ;
c’est bien la conditioncherchée.
Il enrésulte qu’une
conditionsuf f isante pour que p ne donne pas lieu
à
un croisement estque 6
H et psoient f aiblement
compatibles. D
Figure
23.3. Chaînes de
plus
courtelongueur
etcompatibilité
faibleUn
ordre 8 étant donné,
onpeut
lui associer la chaîne hamiltoniennedéfinie
sur Q et dont les arêtes sont
formées
de deux sommetsconsécutifs
de l’ordre.Un indice de
dissimilarité
détant donné,
on associeà chaque
arêtewi wi+
1 lepoids d(w., i w. i+ 1 ).
Une chaîne ainsivaluée
seranotée C(d,o).
Une chaîneC(d,0)
est de
plus
courtelongueur
si la somme despoids
des arêtes est minimum.Le fait que d et 0 soient faiblement
compatibles
n’est ninécessaire,
nisuffisant pour que la chaîne
C(d,e)
soit deplus
courtelongueur.
Ceci estprouvé
par les deuxexemples
suivants. Lepremier exemple
montre que la condition n’ est pasnécessaire
et le secondqu’ elle
n’ est pas suffisante.Exemple
1Considérons
la matrice dedissimilarité indiquée figure 3 ;
la chaîneC(d,0 )
induite par l’ordre 0 : ·
w1 w2 w3 w~
est deplus
courtelongueur
bien que det 0 ne soient pas faiblement
compatibles puisque : d(wl,w2) d(w,w).
Figure
3Exemple
2~Considérons
la matrice dedissimilarité indiquée figure 4 ;
la chaîneC(d,8)
définie
par l’ordre 0 :w 1 w 2 w 3 w 4 (de longueur égale à 7)
estplus longue
que la chaîne
C(d, 0’ ) définie
par 0’ : tw 2 w 1 w 4 w 3 (de longueur égale à 6)
bien que d et 0 soient faiblement
compatibles :
m ce contre
exemple
m’aété signalé
par B.Monjardet
queje
tiens àremercier ici.
Figure
44 - AUTRES TYPES DE COMPATIBILITE ENTRE UN ORDRE ET UN INDICE DE DISSIMILARITE
4.1.
Définition
de lasemi-compatibilité
La
semi-compatibilité
entre un ordre G et une distance d est une conditionplus
restrictive que lacompatibilité
faible car elle assure(comme
nous leverrons en
7) à
la chaîne d’être deplus
courtelongueur.
Définition
Nous dirons que d et 0 sont
semi-compatibles
si et seulement si toutIl
résulte
de cettedéfinition
que si d et 0 sontsemi-compatibles
alors d et 0sont faiblement
compatibles,
l’inversen’étant
pasnécessairement
vrai.4.2.
Compatibilité
entre un ordre et un indice dedissimilarité
Soit d un indice de
dissimilarité
et 0 :w 1 ... W n
un ordre total sur~ ;
on posed(wj,wj)
=d~.
Définition
d et 0 sont dits
compatibles
si et seulement si :Il
ré sulte
facilement de cettedéfinition
que si une distance et un ordre sontcompatibles,
ils sont faiblementcompatibles ;
eneffet,
la condition(1)
est a fortiori satisf aite
si j =
i+ 1 ou k =j+ 1.
Par contre, si d et 0 sont faiblementcompatibles,
ils ne sont pasnécessairement compatibles
car lacondition
(1) peut
ne pas être satisfaite pour lestriplets
necomportant
pas de sommetsconsécutifs.
Nous verrons que lasemi-compatibilité
est une notionintermédiaire
entre lacompatibilité
et lacompatibilité
faible. Nous verronségalement
que si d est uneultramétrique,
alors les notions decompatibilité, semi-compatibilité
etcompatibilité
faible sontéquivalentes.
4.3.
Aspects
matriciels : matrices de Robinson et matrices SDR et SDD4.3.1. Matrices de Robinson
Soit D la matrice de
dissimilarité associée à d,
autrement dit :La matrice D
étant symétrique,
onpeut définir
la matrice de Robinson et les matrices SDR et SDD en neconsidérant
que lapartie triangulaire supérieure
de D.
Définition d
une matrice de Robinson(voir,
parexemple,
Kendall(1969),
Hubert(1974)).
Une matrice est dite de Robinson si et seulement si les termes des
lignes
etdes colonnes sont croissants
à partir
dechaque
terme de ladiagonale (voir
figure 5).
Figure
54.3.2. Matrices
à sur-diagonales "rectangle"
Considérons
la matricetriangulaire supérieure déduite
deD ;
ladiagonale
deD
étant exclue,
lasur-diagonale
est laplus grande diagonale
de cette matrice.Par
exemple,
dans la matrice deRobinson, indiquée figure 5,
lasur-diagonale
est : 2 4 1.
A
chaque
terme de lasur-diagonale,
onpeut
associer unrectangle
dont lescôtés
sontformés
de laligne
et de la colonne contenues dans la matricetriangulaire supérieure
et issues de ce terme.Par
exemple,
dans la matrice deRobinson, indiquée figure 5,
lerectangle (qui
est dans ce cas un
carré) )
issu du terme 4 de lasur-diagonale
gest 4
4 5*6.
Définition
d’une matrice SDRUne matrice est dite SDR
(sur-diagonale "rectangle")
sichaque
terme de lasur-diagonale
estinférieur
aux termes durectangle qui
lui estassocié (voir
un
exemple figure 5).
4.3.3.
à sur-diagonale dominée
Définition
d une matrice SDDUne matrice est dite SDD
(sur-diagonale dominée)
si dans la matricetriangulaire supérieure associée
à D les termes deslignes
et des colonnes sontplus grands
que le terme de lasur-diagonale qu’elles
contiennent(voir figure
5).
4.3.3. [,,.,Iatrices à
sur-diagonale dominée
Définition
d’une matrice SDDUne matrice est dite SDD
(sur-diagonale dominée)
si dans la matricetriangulaire supérieure associée à
D les termes deslignes
et des colonnessont
plus grands
que le terme de lasur-diagonale qu’ elles
contiennent(voir figure 5).
On
peut résumer
ces troisdéfinitions
par le tableau 1(où
les intervalles de variation dei, j
et ~, entre 1 et n sedéduisent immédiatement
desdifférentes formules ;
ainsi parexemple,
pour la condition Robinsonlignes,
Tableau 1
Il
résulte
facilement de ces troisdéfinitions
que 1’ensemble des matrices de Robinson est inclus dans l’ensemble des matrices SDRqui
est lui mêmeinclus dans l’ensemble des matrices SDD. On a de
plus
les troispropriétés
suivantes :
5 - COMPATIBILITE ENTRE UN INDICE DE DISSIMILARITE ET UN ORDRE DEFINI SUR UNE
Dans tout ce
qui
suit on note 0’ : :w 1 ... w £ 9 9,
n un ordre totaldéfini
sur unepartie
~2’de
5.1.
Définition
de la notioncpélément compatible à gauche
ou à droiteOn dit
qu’ un élément
w de Sl estcompatible "à gauche"
de la chaîneC(d,0’ )
si et seulement sipour j
=l,
..., k on a :L’élément
w est ditcompatible
"à droite" si et seulement sipour j = 1,
..., Lon a :
Un
élément
w est ditsemi-compatible à gauche (resp.
àdroite)
deC(d,e’ )
si on
peut remplacer
lesinégalités (1) (resp. (2))
par lesinégalités (3)
(resp. (4))
suivantes :De même en
remplaçant l’inégalité (1) (resp. (2))
parl’inégalité (5) (resp.
(6))
on obtient les conditions de lacompatibilité
faible àgauche (resp.
àdroite)
de la chaîneC(d,0’ ),
pour unélément
w de H.5.2.
Définition
de laX-compatibilité
entre un indice dedissimilarité
et unordre
défini
sur unepartie
de~~ .
Afin de
simplifier l’énoncé
de ladéfinition générale qui suit,
le terme"X-compatibilité"
estutilisé
pourdésigner
soit la"compatibilité"
soit la"semi-compatibilité",
soit la"compatibilité
faible".Définition
Un indice de
dissimilarité
d et un ordre 0’ sur unepartie ~2’
de Q sontX-compati blessure
si et seulement si :a) d et 0’ sont
X-compatibles
b)
tous leséléments n’appartenant
pasà ~’
sontX-compatibles,
soit àgauche,
soità
droite de la chaîneC(d,0’ )
c)
la distance entre unélément à gauche
et unélément à
droite de cettechaîne
n’appartenant
pasà D’est supérieure à
la distance entre deuxéléments consécutifs quelconques
selon l’ordre 0’.5.3.
Aspect
matricielNotons une ou 0 est un ordre sur [2,
identique
à0’ sur D’.
Figure 6
A
partir
de la matrice onpeut définir quatre
matricesA, B, C,
D comme
indiquées figure
6. Une matricefvB(d,8,O’)
est ditequasi-Robinson
si et seulement si :
°
a)
la matrice C est Robinsonb)
tous les termes de B sontsupérieurs
aux termes de lasur-diagonale
deC
c)
tous les termes de A(resp. D)
sontsupérieurs
au terme de lapremière ligne (resp. dernière colonne)
de Cqui
leurscorrespond
sur la mêmecolonne
(resp. ligne).
Une matrice est dite
quasi-SDR
si et seulement si :a)
C est SDRb)
B satisfaità
la mêmepropriété
queprécédemment
c)
tous les termes de A(resp. D)
sontsupérieurs à
tous les termes de lasur-diagonale
de Cqui précèdent (resp. suivent)
selon l’ordre la colonne(resp. ligne) correspondante.
Une matrice
M(d
est ditequasi-SDD
si et seulement si :a)
C est SDDb)
B satisfaità
la mêmepropriété
queprécédemment
c)
tous les termes de A(resp. D)
sontsupérieurs
au terme de lasur-diagonale
de Cqui
leurcorrespond
sur la même colonne(resp. ligne).
Il
résulte
facilement de ces troisdéfinitions
que :a)
l’ensemble des matricesquasi-Robinson
est inclus dans l’ensemble des matricesquasi-SDR qui
est lui même inclus dans l’ensemble des matrices SDDb)
lacompatibilité,
lasemi-compatibilité
et lacompatibilité faible
de d et8’ sur D
équivaut à
dire queM(d,e,e’)
estrespectivement quasi-Robinson, quasi-SDR
etquasi-SDD.
6 - PROPRIETES DE LA X-COMPATIBILITE
6.1. Arbre de
longueur
minimum etsemi-compatibilité
de d et ’Proposition
2Si d et 0 ’ 1 sont
semi-compatibles
sur Q alors la chaîneC(d,8’ )
estincluse dans un arbre de
longueur
minimum.Démonstration
Rappelons
que l’ordre0’
estnoté
w 1 ***
w 91 ;en raisonnant par
récurrence,
il suffit de montrer que si leséléments
w 1 ""* wje j
J. sontconsécutifs
dans F arbre alorsWj+i Se
connectenécessairement à
wj ;
eneffet
’ si d ete ’
1 sontsemi-compatibles wj+ 1ne peut
se connecterobligatoirement
avec unélément
w 9à gauche,
ni avec unélément w d à
droite de
C( d, 8’) puisque :
cf’ autre
part
comme d et0
1 sontsemi-compatibles
sur çi , ils le sont sur~2’
et doncparmi
leséléments qui
suivent w.i
dans l’ordre
()’, le plus proche
estw. J+ 1.
IlUne chaîne
C(d,O’)
incluse dans un arbre est dite "sans branche" si leséléments
w 2
y ...,w £-1
sontconnectés à
l’arbreuniquement
parl’élément
qui précède
etl’élément qui
suit dans la chaîne(voir figure 7)
Figure
7Proposition
3Si
C(d,0’)
est une chaîne sans branche incluse dans un arbre delongueur
minimum alors d et 0’ sont
semi-compatibles
sur D . .Démonstration
Si
C( d, e’)
est une chaîne sans branche incluse dans un arbre delongueur
minimum on a les trois
propriétés
suivantes :a)
d et 0 ’ 1 sontsemi-compatibles
sur Sl’. Eneffet,
la distance entre deuxéléments quelconques
w et w’ estsupérieure à
la distance de deuxéléments consécutifs
w., w.+ compris
entre w et w’ selon l’ordre0’,
sinonJ J+
l’arbre ne serait pas de
longueur
minimum,.(l’arbre
obtenu encoupant
w iwj+
j j+l et
reliant w et w’ seraitplus court)
b)
L’ensemble deséléments notés A
1(resp. A )
2qui
sont sommets de lapartie
connexe de l’arbre contenantwl
1(resp. w) obtenu
en coupant l’arêtesont
à gauche (resp.
àdroite)
deCd,0’> ;
eneffet,
soit w
9
l’un des
éléments
deA ,
on ad(w ,w.) d(w 1-11wi) v 1 e 1 2,...,j }
g 1 J i-1 1
car sinon on
pourrait remplacer
l’arêtewi
1wi
par l’arêtew w.
i et l’arbrene serait pas de
longueur
minimum;donc
ûr9
est un
élément à gauche
dela chaîne
C(d,0’ ).
Par un raisonnementanalogue,
on montre de même que toutélément w d.
deR 2
està
droite deC(d,0’ ) ;
il enrésulte
que tous leséléments
de Qn’appartenant
pasà
S¿’ sontsemi-compatibles
soità gauche,
soit
à
droite.c) On voit enfin
que
la distance entre unélément
wg
E A
1 et un
élément
w d
e estsupérieure à
la distance de deuxéléments consécutifs
deC(d, e’)
car si elleétait
strictementinférieure
l’arbre ne serait pas delongueur
minimum. D6.2. Croisement et
semi-compatibilité
de d ete’
Définition
On dit
qu’ un
ordre 0 ’ sur ~2’ donne lieu à un croisement pour unehiérarchie
Hquand
il existe h E H et troiséléments w iwk
de S~’ avec9,
j
k tels queW /
h alors que sont dans h.Proposition
4Si la chaîne
C(d,0’ )
est contenue dans un arbre delongueur minimum,
9 alors 11 ordre C,’ sur ~2 c Sl ne donne pas lieuà
un croisement pour unehiérarchie du saut minimum.
Démonstration
Etant
donné
un arbre delongueur
minimumA,
on sait(voir 4)
que lahiérarchie
du saut minimumHA
est tellequ’à chaque palier h E HA
onpuisse
associer unepartie
connexe de l’arbre A.Considérons
une chaîneoù
0’ :w 1 ... W £
avec 9, n contenuedans
A ;
si~’
donnait lieuà
un croisement pour lahiérarchie H ,
ilexisterait un
palier
h EHA
tel quew
eh, w
E h et h avecp q
j,
lapartie
de l’arbre delongueur
minimum Aqui
contient leséléments
de h ne serait pas connexe, cequi
est contraire au choix deH A
* DIl
résulte
de cetteproposition
que si d et 0 ’ sontsemi-compatibles,
alors0 ’ est sans croisement pour une
hiérarchie
du saut minimum.On
peut résumer
l’ensemble desrésutats
concernant un ordrepartiel
0 ’par le tableau 2.
Tableau 2
7 - LES PRINCIPALES PROPRIETES DANS LE CAS OU 0 EST UN ORDRE SUR ~.
Dans tout ce
qui
suit 0 est un ordre total Ilrésulte
facilementdes
propositions
2 et3,
lerésultat suivant, qui complète l’étude
de Hubert(1974)
sur le lien entre arbre delongueur
minimum etcompatibilité .
Proposition
5Une condition
nécessaire
et suffisante pourqu’une
chaîneC(d,8)
soit unarbre de
longueur
minimum est que d et 0 soientsemi-compatibles.
Demême on
déduit
de laproposition 4,
laproposition
suivante :Proposition
6Si la chaîne
C(d, 8)
est un arbre delongueur minimum,
alors 0 est sanscroisement pour la
hiérarchie
du saut minimum.8 - LIEN AVEC LA NOTION DE CHAINE t-MINIMAX
Rappelons
d’abord ladéfinition
de cette notionqui
aété
introduite par B.Leclerc
(1977).
Définition
Soit,
w,w’ E ~ ;
; unec aIne, 8
où0’ :
w =W l’
...,w -
w’ estun ordre total sur
[2’
est une chaîne minimax si et seulement si pourtout ordre
quelconque dans ~ ,
y on aMax
est t-minimax si toute chaîne
C(d,G’)
où ’8": :w....
iw.
1 j est unesuite
d’éléments consécutifs
de 0’ 1 est une chaîne minimax.B. Leclerc a
démontré (1977) qu’une caractérisation
des chaînesqui
sontdans un arbre de
longueur
minimum estqu’elles
soient t-minimax. Ilrésulte
de ce
résultat
et de laproposition
5qu’ il
y aéquivalence
entre le faitque
C(d,0)
soit t-minimax et que d et 6 soientsemi-compatibles.
9 - CAS OU L’INDICE DE DISSIMILARITE EST UNE
ULTRAMETRIQUE
Dans le cas
où
d est uneultramétrique
que nousnoterons 6 ,
les diverstypes
decompatibilité
sontéquivalents.
On a eneffet,
les deuxpropositions
suivantes :
Proposition
7Si 6 est une
ultramétrique
et si est SDD alorsM(o,8)
est unematrice de Robinson.
Démonstration
ultramétrique,
on a :qui
est lacondition "ligne" (voir
"
tableau 1)
àsatisf aire
par pourêtre Robinson.
De même si est
SDD,
on a en utilisant de mêmele fait que cS est une
ultramétrique,
ona
. -11 . 2013 .
d’ où la condition "colonne"
à
satisfaire parM(6 8)
pourêtre de Robinson.
Signalons
que I.C. Lerman(1981)
adonné
aussi unecaractérisation
d’ une matriceM(6, 8).
Nous dirons
qu’ une
matricervB(d,8)
est SDDL(resp. SDDC)
si dans lamatrice
triangulaire supérieure associée à 0 ) chaque
terme de lasur-diagonale
estinférieur à
tous les termes de laligne (resp. colonne) qui
le contient
(voir figure 8).
Figure
8Plus
précisément
une matrice est SDDL(resp. SDDC)
si elle satisfaità
lacondition
"ligne" (resp. "colonne") donnée
dans le tableau 1 ; autrementdit,
est SDDL si
d.. 1
11+ - 1d.. 1
J+ pour i -j, elle
est SDDC sil’aide de ces
définitions,
onpeut
énoncer lerésultat
suivant :Proposition
8Une condition
nécessaire
et suf f isante pourqu’un
ordre 0 soit sanscroisement pour une
hiérarchie
H est que la chaîne induite par 0 soit deplus
courtelongueur
au sens del’ultramétrique 0 H
induite par H.Démonstration
La condition suffisante
résulte
de laproposition
4. La conditionnécessaire
est
prouvée
par la suite desimplications
suivantes :qui
prouve queM(6,0-)
est SDDL.Ainsi
quand 6
est uneultramétrique,
une matriceM(à,e) qui
est SDDL(resp. SDDC) étant
aussi SDDC(resp. SDDL)
elle est SDD. DOn
peut résumer
l’ensemble desrésultats
obtenus dans le casoÙ 0
est unordre total sur 2 ,
à
l’aide du tableau 3. On note6d
la sous-dominante de d(i.e. ultramétrique inférieure
maximum ded)
etH d
unehiérarchie
du saut minimum.Remarquons
que dans le casoù
d est uneultramétrique
ou a ettoutes les relations du tableau 3 se
transposent
enéquivalences.
Conclusion
De nombreuses directions de recherche restent ouvertes : Etendre les
résultats
obtenus au cas despopulations différentes, à
lacomparaison d’arbres, à
descycles.
Voir cequi
se passe dans le cas de distances autresque des
ultramétriques (quasi-ordres, semi-ordres, etc...).
Il serait
intéressant
de voirplus précisément
comment sontsitués
dans leplan
ou dans un espaceà
trois dimensions lespoints à gauche
età
droitesuivant le
différent type
de chaîne et dans lesdifférents
cas decompatibilité
entre l’ordre et la distance. Lesaspects algorithmiques
desrésultats théoriques
obtenus ici sontabordés
dans [5 ].Tableau 3
BIBLIOGRAPHIE
[1]
E.N.ADAMS.,
"Consensustechniques
and thecomparison
oftaxonomic
trees", Syst. Zool, 21,
pp.390-397, (1972).
[2]
G.BROSSIER., "Représentation ordonnée
des classificationshiérarchiques", Statistique
etAnalyse
desdonnées,
Vol.2.,
pp.31-44, (1980).
[3]
J.L.CHANDON.,
J.LEMAIRE.,
J.POUGET.,
Construction del’ultramétrique
laplus proche
d’ unedissimilarité
au sens des moindrescarrés, RAIRO, 14, 2,
pp. 157-170,(1980) .
[4]
E.DIDAY.,
J.LEMAIRE.,
J.POUGET.,
F.TESTU.,
Elementsd’analyse
desdonnées, Paris, DUNOD, (1982) .
[5] E.
DIDAY., "Croisements,
ordres etultramétriques : application à
la recherche de consensus en classification
automatique", Rapport
de Recherche
INRIA,
n°144, (1982).
[6] E.
DIDAY., "Problèmes
d’inversions en classificationhiérarchique",
Revue deStatistique appliquée,
Vol.XXXI,
n°1,
pp.
45, (1982).
[7] J.G.
FARRIS.,
"Oncomparing
theshape
of taxonomictrees", Syst. Zool., 22,
pp.50-54, (1973).
[8] O.
FRANK.,
K.SVENSSON.,
"Onprobability
distributions ofsingle-linkage dendograms",
J. Stat.Comput. Simul., 12,
pp.121-131, (1981).
[9] L.
HUBERT.,
"Someapplications
ongraph theory
and relatednon-metrics
techniques
toproblems
ofapproximate seriation",
TheBritish Journal of Mathematical and Statistical