HAL Id: hal-02734011
https://hal.inrae.fr/hal-02734011
Submitted on 2 Jun 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Classification ascendante hiérarchique, contrainte d’ordre : conditions d’applicabilité, interprétabilité des
dendrogrammes
Nathanaël Randriamihamison, Pierre Neuvial, Nathalie Vialaneix
To cite this version:
Nathanaël Randriamihamison, Pierre Neuvial, Nathalie Vialaneix. Classification ascendante hiérar-
chique, contrainte d’ordre : conditions d’applicabilité, interprétabilité des dendrogrammes. 51èmes
Journées de Statistique de la SFdS, Jun 2019, Nancy, France. �hal-02734011�
Classification ascendante hi´ erarchique,
contrainte d’ordre : conditions d’applicabilit´ e, interpr´ etabilit´ e des dendrogrammes
Nathana¨ el Randriamihamison 1,2 & Pierre Neuvial 2 & Nathalie Vialaneix 1
1 INRA, UR 0875 MIAT, 31326 Castanet Tolosan cedex, France, {nathanael.randriamihamison,nathalie.vialaneix}@inra.fr
2 Institut de Math´ ematiques de Toulouse, Univ. Paul Sabatier, UMR 5219, pierre.neuvial@math.univ-toulouse.fr
R´ esum´ e. La classification ascendante hi´ erarchique (CAH) avec lien de Ward, ainsi que sa version sous contrainte d’ordre, sont couramment utilis´ ees sur des donn´ ees de diff´ erents types : distances, dissimilarit´ es, noyaux, similarit´ es. Nous pr´ ecisons dans quel cas l’utilisation de ces m´ ethodes est justifi´ ee th´ eoriquement. Nous ´ etudions les conditions garantissant la coh´ erence entre les r´ esultats de la CAH et leur repr´ esentation graphique classique sous forme de dendrogramme. Cette ´ etude r´ ev` ele une distinction importante entre cette propri´ et´ e de coh´ erence et l’absence de croisement dans le dendrogramme.
Mots-cl´ es. Classification ascendante hi´ erarchique, lien de Ward, classification ascen- dante hi´ erarchique sous contrainte, dendrogramme, croissance, in´ egalit´ e ultram´ etrique
Abstract. Ward’s Hierarchical Agglomerative Clustering (HAC) and its order- constrained version are widely used on various data types : distances, dissimilarities, kernels, or similarities. We clarify the theoretical justification of these methods in each case. We study the conditions that guarantee the consistency between the results of HAC and their graphical display as a dendrogram. This study reveals an important distinction between this consistency property and the absence of crossover within the dendrogram.
Keywords. Hierarchical agglomerative clustering, Ward’s linkage, constrained hierar- chical agglomerative clustering, dendrogram, monotonicity, ultrametric inequality
1 Classification Ascendante Hi´ erarchique
Cadre euclidien standard
Dans le cadre standard de la Classification Ascendante Hi´ erarchique (CAH), on sup- pose que l’ensemble des objets Ω = {x 1 , . . . , x n } est un sous-ensemble de R p , et que la relation de proximit´ e entre ces objets est encod´ ee par la distance D = (d ij ) 1≤i,j≤n induite par la norme euclidienne de R p avec d ij = kx i − x j k R
p.
L’algorithme de CAH part de la partition triviale en singletons P 1 , puis par fusions
successives, se termine sur une autre partition triviale, P n = Ω. L’´ etape t permettant de
passer de la partition P t ` a la partition P t+1 fusionne les deux classes de P t les plus proches
au sens d’une dissimilarit´ e entre classes appel´ ee crit` ere de lien et not´ ee δ.
Le lien de Ward [Ward, 1963] est le plus couramment utilis´ e en statistique car il a une interpr´ etation simple. Pour un ensemble quelconque G ⊂ Ω, l’inertie de G est d´ efinie par I(G) = P
x∈G kx − x ¯ G k 2 , o` u ¯ x G = |G| −1 P
x∈G x est le centre de gravit´ e de G, et
|G| le cardinal de G. On appelle inertie intra-classes d’une partition P = (G 1 , G 2 , ..., G K ) la somme des inerties des classes : I(P ) = P K
k=1 I(G k ). Le lien de Ward entre deux sous-ensembles disjoints G et G 0 est d´ efini par : δ(G, G 0 ) = I(G ∪ G 0 ) − I(G) − I(G 0 ) et correspond alors ` a la variation d’inertie intra-classes induite par cette fusion.
Extensions de la CAH
La CAH est couramment utilis´ ee sur des donn´ ees plus g´ en´ erales que celles d´ ecrites dans le cadre euclidien de la section pr´ ec´ edente. On suppose d´ esormais que les objets (x i ) i appartiennent ` a un espace arbitraire (non n´ ecessairement euclidien).
Dissimilarit´ es. Une dissimilarit´ e D = (d ij ) 1≤i,j≤n est une matrice sym´ etrique ` a co- efficients positifs et ` a diagonale nulle. Remarquons que dans le cas euclidien, l’iner- tie I(G) s’exprime directement ` a partir des ´ el´ ements de la matrice de distance D comme I (G) = (2|G|) −1 P
(x
i,x
j)∈G
2d 2 ij . On peut alors d´ efinir, par analogie au cas eu- clidien, une extension de l’inertie et du lien de Ward associ´ ee ` a D (voir par exemple [Sz´ ekely and Rizzo, 2005] ou [Chavent et al., 2018]). Cependant, dans ce cas, on perd l’in- terpr´ etabilit´ e en termes de centre de gravit´ e.
Noyaux. Dans un certain nombre de cas pratiques, les objets sont d´ ecrits par leurs ressem- blances et non leurs dissemblances. C’est le cas, en particulier, lorsque les donn´ ees sont d´ ecrites par un noyau [Sch¨ olkopf et al., 2004], c’est-` a-dire, par une matrice sym´ etrique d´ efinie positive K = (k(x i , x j )) 1≤i,j≤n . [Aronszajn, 1950] montre que le noyau peut ˆ etre interpr´ et´ e comme une matrice de produit scalaire dans un certain espace de repr´ esentation H. Ce cadre-ci est donc ´ equivalent au cadre euclidien et on peut montrer que l’expression du lien de Ward s’´ ecrit ` a partir des valeurs du noyau uniquement en utilisant l’astuce noyau [Dehman, 2015] :
δ(G, G 0 ) = K (G)
|G| + K(G 0 )
|G 0 | − K(G ∪ G 0 )
|G ∪ G 0 | , avec K(G) = X
x
i,x
j∈G
2k(x i , x j ). (1)
Similarit´ es. On peut interpr´ eter la notion de similarit´ e comme une g´ en´ eralisation de celle de noyau. Bien qu’il n’y ait pas de consensus sur la d´ efinition exacte d’une simila- rit´ e, on appellera similarit´ e une matrice S = (s ij ) 1≤i,j≤n sym´ etrique ` a diagonale positive.
[Miyamoto et al., 2015] ont montr´ e que l’approche
noyau
d´ ecrite ci-dessus pouvait ˆ etre
g´ en´ eralis´ ee ` a toute matrice de similarit´ e, par l’argument suivant : consid´ erons la matrice
S + λI n , c’est-` a-dire la matrice S dont les ´ elements diagonaux sont translat´ es de λ. D’une
part, pour λ suffisamment grand, S λ est d´ efinie positive, et peut donc s’interpr´ eter comme
un noyau. D’autre part, appliquer (formellement) l’algorithme de CAH ` a la matrice de
similarit´ e S λ en utilisant l’´ equation (1) avec K = S λ aboutit exactement ` a la mˆ eme suite
de fusions, quelle que soit la valeur de λ. En effet, l’´ equation (1) implique : δ S
λ= δ S + λ.
Dans la suite, nous distinguerons simplement deux cas : le cas euclidien (qui contient d’apr` es ce qui pr´ ec` ede les cas
noyau
et
similarit´ e quelconque
), et le cas non- euclidien, qui correspond aux dissimilarit´ es quelconques.
CAH sous contrainte d’ordre
Dans un certain nombre de contextes applicatifs, il existe une information a priori sur les relations entre les objets. C’est le cas, en particulier, en statistique spatiale o` u les objets spatiaux sont en relation de voisinage, ou bien dans le contexte g´ enomique, o` u les loci g´ enomiques sont ordonn´ es le long d’une ligne (le chromosome). La classification as- cendante hi´ erarchique sous contrainte de contigu¨ıt´ e [Ferligoj and Batagelj, 1982] restreint les fusions possibles aux objets dits contigus.
Dans la suite, on s’int´ eresse au cas particulier de la Classification Ascendante Hi´ erarchique sous Contrainte d’Ordre (CAHCO) : les objets initiaux sont reli´ es par une re- lation d’ordre total (temps, position g´ enomique), et deux classes sont dites contigu¨ es si et seulement si on peut en extraire un couple d’objets contigus. L’int´ erˆ et de cette contrainte est double : d’une part, elle permet de r´ epercuter au mieux les relations existantes entre les objets au cours de la proc´ edure, et ainsi de rendre les r´ esultats plus interpr´ etables.
D’autre part, la complexit´ e en temps de la CAH sans contrainte est cubique (O(n 3 )) et celle de la CAHCO est seulement quadratique (O(n 2 )) [Dehman, 2015].
2 Dendrogrammes
Les r´ esultats d’une CAH sont fr´ equemment repr´ esent´ es ` a l’aide d’un dendrogramme, comme sur la figure 1. Un dendrogramme est un arbre binaire dont les nœuds sont les classes de la hi´ erarchie. Dans le cas particulier de la CAHCO, les feuilles, qui correspondent aux n objets ` a classer, sont repr´ esent´ ees selon l’ordre naturel de ces objets. La hauteur du nœud correspondant ` a la t-` eme fusion est not´ ee h t (les feuilles sont ` a la hauteur h 0 = 0).
On utilise souvent comme hauteur la valeur du lien de Ward ` a l’´ etape t, not´ ee m t . Croissance
Une propri´ et´ e naturelle est que la suite de partitions induite par la CAH co¨ıncide avec celle d´ ecrite par le dendrogramme, ce qui ´ equivaut ` a la croissance de la suite (h t ) t . Ce- pendant, lorsque la hauteur est d´ efinie par le lien de Ward, la croissance n’est pas v´ erifi´ ee pour la CAHCO [Grimm, 1987]. [Grimm, 1987] d´ ecrit des choix de hauteurs alternatifs au lien de Ward, dont les propri´ et´ es selon les donn´ ees ou le type de CAH consid´ er´ es sont pr´ ecis´ ees ci-dessous :
L’inertie intra-classes : la hauteur ` a l’´ etape t est d´ efinie par : ESS t = P n−t
u=1 I(G t+1 u ).
Cette hauteur est croissante pour la CAH [Ward, 1963, Batagelj, 1981] et pour la
CAHCO dans le cas euclidien [Grimm, 1987]. Mais nous d´ emontrons qu’elle ne l’est pas
n´ ecessairement dans le cas non euclidien. Ceci est illustr´ e par la figure 1, qui donne un exemple simple o` u la CAHCO est appliqu´ ee ` a six objets, avec : h 1 < h 2 < h 4 < h 3 < h 5 .
1
2
3 4
5
0 √
1.99 √
1.99 √
1.99 0.1 1
√ 1.99 0 √
2 √
1.99 0.1 1
√ 1.99 √
2 0 √
2 0.1 1
√ 1.99 √
1.99 √
2 0 √
2 1
0.1 0.1 0.1 √
2 0 √
2
1 1 1 1 √
2 0
Figure 1 – Un croisement dˆ u ` a la non-croissance de la hauteur d´ efinie par l’inertie intra-classes pour la CAHCO avec donn´ ees non euclidiennes. ` A gauche : repr´ esentation de la dissimilarit´ e associ´ ee. Au centre : dendrogramme correspondant aux r´ esultats de la CAHCO (l’ordre des fusions est not´ e en bleu). ` A droite : dissimilarit´ e associ´ ee aux objets.
L’inertie de la fusion courante, I t = I(G t u ∪ G t v ), o` u G t u et G t v sont les deux classes fusionn´ ees ` a l’´ etape t. Nous d´ emontrons que la croissance de cette hauteur n’est jamais assur´ ee (voir figure 2).
L’inertie moyenne de la fusion courante, est ´ egale ` a I t = (|G
tI
tu
|+|G
tv|) . Pour cette hauteur, la croissance n’est jamais assur´ ee dans le cas contraint [Grimm, 1987]. Nous d´ emontrons qu’elle n’est pas non plus assur´ ee dans le cas non contraint.
Le tableau 1 pr´ esente un r´ ecapitulatif des r´ esultats de croissance dans ces diff´ erents contextes.
m
tESS
tI
tI
tCAH Euclidien 3 [Ward, 1963] 3 [Ward, 1963] 5 [Fig. 2] 5 Non euclidien 3 [Batagelj, 1981] 3 [Batagelj, 1981] 5 [Fig. 2] 5
CAHCO Euclidien 5 [Grimm, 1987] 3 [Grimm, 1987] 5 [Fig. 2] 5 [Grimm, 1987]
Non euclidien 5 [Grimm, 1987] 5 [Fig. 1] 5 [Fig. 2] 5 [Grimm, 1987]
Table 1 – Croissance des hauteurs pour la CAH (haut) et la CAHCO (bas).
Diff´ erence entre croissance et ultram´ etricit´ e
Dans l’exemple de la figure 1, la non-croissance des hauteurs se manifeste par un croisement de branches dans le dendrogramme. Formellement, un croisement se produit lorsque la hauteur d’une classe produite par la fusion de G u et G v est plus petite que la hauteur de G u ou de G v . Cependant, croissance des hauteurs et absence de croisement ne sont pas ´ equivalentes.
En effet, ` a partir du dendrogramme, on d´ efinit la distance coph´ en´ etique entre paires d’objets de {x 1 , . . . , x n } comme la hauteur du nœud du dendrogramme qui correspond ` a la premi` ere classe dans laquelle les deux objets consid´ er´ es sont simultan´ ement class´ es. Si on note (h ij ) i,j=1,...,n l’ensemble des distances coph´ en´ etiques entre paires {(x i , x j )} ij , on appelle in´ egalit´ e ultram´ etrique pour cette dissimilarit´ e la propri´ et´ e suivante : ∀i, j, k ∈ {1, ..., n}, h ij ≤ max{h ik , h kj }. Lorsque cette propri´ et´ e est v´ erifi´ ee, la repr´ esentation gra- phique est assur´ ee de ne comporter aucun croisement et r´ eciproquement. Cependant, bien que croissance implique ultram´ etricit´ e, la r´ eciproque est, en g´ en´ eral, fausse. La fi- gure 2 montre un exemple o` u l’in´ egalit´ e ultram´ etrique est respect´ ee mais pas la croissance (h 1 < h 3 < h 2 ) : on y constate une inversion de hauteur sans croisement.
1
2
3
x
1x
2x
3x
4x
5
=
1 2
√3 2
−
12√3 2