Classification ascendante hiérarchique, contrainte d'ordre : conditions d'applicabilité, interprétabilité des dendrogrammes

(1)

HAL Id: hal-02786174

https://hal.inrae.fr/hal-02786174

Submitted on 4 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Classification ascendante hiérarchique, contrainte d’ordre : conditions d’applicabilité, interprétabilité des

dendrogrammes

Nathanaël Randriamihamison, Pierre Neuvial, Nathalie Vialaneix

To cite this version:

Nathanaël Randriamihamison, Pierre Neuvial, Nathalie Vialaneix. Classification ascendante hiérar-

chique, contrainte d’ordre : conditions d’applicabilité, interprétabilité des dendrogrammes. Conférence

sur l’Apprentissage Automatique (CAp 2019), Jul 2019, Toulouse, France. 2019. �hal-02786174�

(2)

Classification ascendante hiérarchique, contrainte d’ordre : conditions d’applicabilité, interprétabilité des dendrogrammes

Nathana¨ el Randriamihamison

^1,2

, Pierre Neuvial

²

, et Nathalie Vialaneix

¹

1

MIAT, Universit´ e de Toulouse, INRA, Castanet Tolosan, France

2

Institut de Math´ ematiques de Toulouse, UMR 5219, Univ. de Toulouse, CNRS, France 9 avril 2019

R´ esum´ e

La classification ascendante hi´ erarchique (CAH) avec lien de Ward est une approche fr´ equemment utilis´ ee pour partitionner des objets d’un espace multi-dimensionnel. Nous discutons ici de la validit´ e th´ eorique des extensions de cette approches ` a diff´ erents types d’entr´ ees (distances, dissimilarit´ es, noyaux, simi- larit´ es) ainsi que de la pertinence de l’utilisation de sa version contrainte (parfois appel´ ee

CONISS

) dans ces divers cas. En particulier, nous ´ etudions les condi- tions garantissant la coh´ erence entre les r´ esultats de la CAH et leur repr´ esentation graphique classique sous forme de dendrogramme. Nous pr´ esentons ´ egalement une ´ etude de simulations montrant que la version contrainte de la m´ ethode permet, outre des gains com- putationnels, d’obtenir de meilleurs r´ esultats de clas- sification lorsque la contrainte est coh´ erente avec la structure des donn´ ees. Beaucoup de ces r´ esultats sont pr´ esents dans une litt´ erature h´ et´ eroclite : l’objet de cette communication est de proposer donc un cadre de pr´ esentation uniforme et de compl´ eter les r´ esultats existants.

Mots-clefs : Classification ascendante hi´ erarchique, lien de Ward, classification ascendante hi´ erarchique sous contrainte, dendrogramme, croissance.

1 Classification Ascendante Hi´ erarchique (CAH)

Cadre euclidien standard

Dans le cadre standard de la Classification Ascen- dante Hi´ erarchique (CAH), on suppose que l’ensemble des objets Ω = {x

1

, . . . , x

n

} est un sous-ensemble de

R

^p

, et que la relation de proximit´ e entre ces objets est encod´ ee par la distance D = (d

_ij

)

_1≤i,j≤n

induite par la norme euclidienne de R

^p

avec d

_ij

= kx

i

− x

_j

k

_R^p

.

L’algorithme de CAH part de la partition triviale en singletons P

1

, puis par fusions successives, se termine sur une autre partition triviale, P

n

= Ω. L’´ etape t, permettant de passer de la partition P

t

` a la partition P

t+1

, fusionne les deux classes de P

t

les plus proches au sens d’une dissimilarit´ e entre classes appel´ ee crit` ere de lien et not´ ee δ.

Le lien de Ward [War63] est fr´ equemment utilis´ e car il a une interpr´ etation simple. Pour un ensemble quel- conque G ⊂ Ω, l’inertie de G est d´ efinie par I(G) = P

x∈G

kx − x ¯

G

k

²

, o` u ¯ x

G

= |G|

⁻¹

P

x∈G

x est le centre de gravit´ e de G, et |G| le cardinal de G. On appelle iner- tie intra-classes d’une partition P = (G

1

, G

2

, ..., G

K

) la somme des inerties des classes : I(P ) = P

K

k=1

I(G

_k

).

Le lien de Ward entre deux sous-ensembles disjoints G et G

⁰

est d´ efini par : δ(G, G

⁰

) = I(G∪G

⁰

)−I(G)−I(G

⁰

) et correspond alors ` a la variation d’inertie intra-classes induite par cette fusion.

Extensions de la CAH

La CAH est couramment utilis´ ee sur des donn´ ees plus g´ en´ erales que celles d´ ecrites dans le cadre euclidien de la section pr´ ec´ edente. On suppose d´ esormais que les objets (x

i

)

i

appartiennent ` a un espace arbitraire (non n´ ecessairement euclidien).

Dissimilarit´ es. Consid´ erons tout d’abord le cas o` u

les objets sont d´ ecrits par une mesure de dissimila-

rit´ e entre paires, d

_ij

= d(x

_i

, x

_j

), qui n’est ici plus

n´ ecessairement la distance euclidienne. On suppose

alors que la matrice D = (d

_ij

)

_1≤i,j≤n

est une ma-

trice sym´ etrique ` a coefficients positifs et ` a diagonale

nulle. Remarquons que ce cas est une extension du

(3)

cas euclidien d´ ecrit dans la section pr´ ec´ edente, dans lequel l’inertie I(G) s’exprime directement ` a partir des ´ el´ ements de la matrice de distance D comme I(G) = (2|G|)

⁻¹

P

(x_i,x_j)∈G²

d

²_ij

. On peut alors d´ efinir, par analogie au cas euclidien, une extension de l’iner- tie et du lien de Ward associ´ ee ` a D (voir par exemple [SR05] ou [CKSLS18]). Cependant, dans ce cas, on perd l’interpr´ etabilit´ e en termes de centre de gravit´ e.

Noyaux. Dans un certain nombre de cas pratiques, les objets sont d´ ecrits par leurs ressemblances et non leurs dissemblances. C’est le cas, en particulier, lorsque les donn´ ees sont d´ ecrites par un noyau [STV04], c’est-

`

a-dire, par une matrice sym´ etrique d´ efinie positive K = (k(x

i

, x

j

))

1≤i,j≤n

. [Aro50] montre que le noyau peut ˆ etre interpr´ et´ e comme une matrice de produit sca- laire dans un certain espace de repr´ esentation H. Ce cadre-ci est donc ´ equivalent au cadre euclidien et on peut montrer que l’expression du lien de Ward s’´ ecrit

`

a partir des valeurs du noyau uniquement en utilisant l’astuce noyau [Deh15] :

δ(G, G

⁰

) = K(G)

|G| + K(G

⁰

)

|G

⁰

| − K(G ∪ G

⁰

)

|G ∪ C

⁰

| , (1) avec K(G) = P

xi,xj∈G²

k(x

_i

, x

_j

) pour un sous- ensemble, G, d’´ el´ ements de (x

_i

)

_i

.

Similarit´ es. On peut interpr´ eter la notion de simi- larit´ e comme une g´ en´ eralisation de celle de noyau.

Bien qu’il n’y ait pas de consensus sur la d´ efinition exacte d’une similarit´ e, on appellera similarit´ e une matrice S = (s

ij

)

_1≤i,j≤n

sym´ etrique ` a diago- nale positive. [MAET15] ont montr´ e que l’approche

noyau

d´ ecrite ci-dessus pouvait ˆ etre g´ en´ eralis´ ee ` a toute matrice de similarit´ e, par l’argument suivant : consid´ erons la matrice S + λI

n

, c’est-` a-dire la matrice S dont les ´ el´ ements diagonaux sont translat´ es de λ.

Alors, d’une part, pour λ suffisamment grand, S

λ

est d´ efinie positive, et peut donc s’interpr´ eter comme un noyau. D’autre part, appliquer (formellement) l’algo- rithme de CAH ` a la matrice de similarit´ e S

_λ

en utili- sant l’´ equation (1) avec K = S

_λ

aboutit exactement ` a la mˆ eme suite de fusions, quelle que soit la valeur de λ.

En effet, l’´ equation (1) implique : δ

_S_λ

= δ

_S_λ₀

+ (λ− λ

⁰

).

Dans la suite, nous distinguerons simplement deux cas : le cas euclidien (qui contient d’apr` es ce qui pr´ ec` ede les cas

noyau

et

similarit´ e quelconque

), et le cas non-euclidien, qui correspond aux dissimilarit´ es quel- conques.

CAH sous contrainte d’ordre

Dans un certain nombre de contextes applicatifs, il existe une information a priori sur les relations entre

les objets. C’est le cas, en particulier, en statistique spatiale o` u les objets spatiaux sont en relation de voi- sinage, ou bien dans le contexte g´ enomique, o` u les loci (positions) g´ enomiques sont ordonn´ es le long d’une ligne (le chromosome, voir [ADN

⁺

19] pour des appli- cations aux donn´ ees de g´ en´ etique, SNP, et aux donn´ ees de conformation spatiale de la chromatine, Hi-C). La classification ascendante hi´ erarchique sous contrainte de contigu¨ıt´ e [FB82] restreint les fusions possibles aux objets dits contigus.

Dans la suite, on s’int´ eresse au cas particulier de la Classification Ascendante Hi´ erarchique sous Contrainte d’Ordre (CAHCO) : les objets initiaux sont reli´ es par une relation d’ordre total (temps, position g´ enomique), et deux classes sont dites contigu¨ es si et seulement si on peut en extraire un couple d’ob- jets contigus. Cette version est souvent appel´ ee

CO- NISS

pour CONstrained Incremental Sum of Squares [Gri87] lorsque le lien de Ward est utilis´ e pour la fusion des classes.

L’int´ erˆ et de l’ajout d’une contrainte est double : d’une part, elle permet de r´ epercuter au mieux les relations existantes entre les objets au cours de la proc´ edure, et ainsi de rendre les r´ esultats plus in- terpr´ etables. La CAHCO peut ainsi ˆ etre vue comme une m´ ethode de segmentation de donn´ ees ordonn´ ees lin´ eairement. D’autre part, la complexit´ e en temps de la CAH sans contrainte est cubique (O(n

³

)) et celle de la CAHCO est seulement quadratique (O(n

²

)) [Deh15].

Lorsque les donn´ ees d’entr´ ees sont une similarit´ e creuse dont les ´ el´ ements non nuls sont proches de la diagonale, [ADN

⁺

19] ont propos´ e une approche permettant d’ob- tenir les r´ esultats d’une CAHCO avec une complexit´ e quasi-lin´ eaire. Dans ce cas particulier, la CAHCO peut ˆ

etre utilis´ ee comme une heuristique int´ eressante pour la segmentation.

2 Dendrogrammes

Les r´ esultats d’une CAH sont fr´ equemment repr´ esent´ es ` a l’aide d’un dendrogramme, comme sur la figure 1. Un dendrogramme est un arbre binaire dont les nœuds sont les classes de la hi´ erarchie. Dans le cas particulier de la CAHCO, les feuilles, qui correspondent aux n objets ` a classer, sont repr´ esent´ ees selon l’ordre naturel de ces objets. La hauteur du nœud correspondant ` a la t-` eme fusion est not´ ee h

t

(les feuilles sont ` a la hauteur h

0

= 0). On utilise souvent comme hauteur la valeur du lien de Ward ` a l’´ etape t, not´ ee m

t

.

Une propri´ et´ e naturelle attendue pour le dendro-

(4)

gramme d’une CAH est que la suite de partitions in- duite par la CAH co¨ıncide avec celle d´ ecrite par le dendrogramme. Cette propri´ et´ e est ´ equivalente ` a la croissance de la suite (h

_t

)

_t

. En effet, lorsqu’un den- drogramme est construit avec une suite de hauteurs non croissante (comme sur la figure 1 entre les fusions 3 et 4), il est difficilement interpr´ etable et l’obtention d’une partition par coupe du dendrogramme a une hau- teur donn´ ee n’est pas d´ efinie correctement et n’est pas coh´ erente avec la suite de partitions fournies par la CAH. En particulier, lorsque la hauteur est d´ efinie par le lien de Ward, la croissance n’est pas n´ ecessairement v´ erifi´ ee pour la CAHCO [Gri87].

[Gri87] d´ ecrit des choix de hauteurs alternatifs au lien de Ward pour pallier ce probl` eme. Parmi ceux-ci, on trouve l’inertie intra-classes, qui est fr´ equemment utilis´ ee dans le cadre de la CAHCO (c’est notamment cette hauteur qui est fournie par la version de la CAHCO impl´ ement´ ee dans le pa- ckage R rioja). Pour ce crit` ere, la hauteur ` a l’´ etape t est d´ efinie par ESS

_t

= P

n−t

u=1

I(G

^t+1_u

). Comme pour m

_t

, cette hauteur est croissante pour la CAH [War63, Bat81]. Sa croissance pour la CAHCO n’est pas non plus assur´ ee dans le cas non-euclidien, mais elle l’est dans le cas euclidien [Gri87]. La figure 1 donne un exemple simple o` u la CAHCO est ap- pliqu´ ee ` a six objets d´ ecrits par la dissimilarit´ e D =







0 √

1.99 √

1.99 0.1 1

√ 1.99 0 √

2 √

1.99 0.1 1

√

1.99 √

2 0 √

2 0.1 1

√

1.99 √

2 0 √

2 1

0.1 0.1 0.1 √

2 0 √

2 1 1 1 1 √

2 0





 , pour

lesquels on obtient des hauteurs non croissantes : h

1

<

h

2

< h

4

< h

3

< h

5

.

3 Comparaison de CAH et CAHCO

La CAH est souvent per¸ cue comme une approche gloutonne permettant de d´ eterminer une partition des donn´ ees avec une inertie intra-classes, ESS

t

, mini- male pour un nombre donn´ e, k (∈ {1, . . . , n}) de classes. Aussi, il est raisonnable d’attendre que l’iner- tie des partitions obtenues avec la CAH standard soit inf´ erieure ` a l’inertie des partitions obtenues par une CAH contrainte comme la CAHCO, dans laquelle l’en- semble des fusions possibles est restreint. Dans cette section, nous montrons que dans le cas o` u les donn´ ees sont structur´ ees de mani` ere

compatible

avec la contrainte impos´ ee ` a la CAHCO, non seulement l’al-

gorithme contraint est plus efficace que l’algorithme standard (en termes de complexit´ e en temps et es- pace), mais il permet aussi d’obtenir des partitions de plus faible inertie intra-classes, c’est-` a-dire meilleures.

Pour ce faire, nous proposons un processus al´ eatoire de perturbation de la structure originale de donn´ ees g´ enomiques et quantifions l’impact de cette perturba- tion sur la qualit´ e des r´ esultats des classifications.

Donn´ ees et m´ ethode de simulation

Pour cela, nous avons analys´ e des donn´ ees Hi-C [DSY

⁺

12], qui pr´ esentent une forte structure d’ordre.

Les donn´ ees Hi-C permettent d’´ etudier les relations de proximit´ e dans l’espace (3D) de la chromatine en mesu- rant la fr´ equence d’interactions physiques entre paires de positions g´ enomiques par du s´ equen¸ cage haut-d´ ebit.

De mani` ere formelle, les donn´ ees Hi-C peuvent ˆ etre repr´ esent´ ees sous la forme d’une matrice sym´ etrique, S = (s

_ij

)

_i,j

dans laquelle chaque valeur s

_ij

corres- pond au nombre d’interactions mesur´ ees entre les po- sitions g´ enomiques i et j. Les positions g´ enomiques i et j repr´ esentent des intervalles de longueur identique le long de la s´ equence d’ADN, et les valeurs s

ij

sont par d´ efinition des entiers positifs (ou nuls). La ma- trice pr´ esente une structure diagonale forte, qui refl` ete l’organisation lin´ eaire le long des chromosomes, comme illustr´ e dans la figure 2 qui repr´ esente la partie triangu- laire sup´ erieure d’une carte Hi-C. Comme d´ ecrit dans [ADN

⁺

19], la classification contrainte des positions g´ enomiques selon cette matrice de similarit´ e est li´ ee ` a des questions biologiques de compr´ ehension de la struc- ture de la chromatine (d´ etection de TADs [ZTOC18] ou de compartiments actifs/inactifs [LAvBW

⁺

09]).

Dans les simulations qui suivent, nous avons utilis´ e un chromosome (le chromosome 3) d’une exp´ erience sur des cellules souches publi´ ee dans [DSY

⁺

12]

¹

. Les donn´ ees ont ´ et´ e log-transform´ ees avant les classifica- tions, pour limiter l’asym´ etrie des valeurs ; la correction de la similarit´ e d´ ecrite dans la section 1 pour transfor- mer cette similarit´ e en noyau a ´ egalement ´ et´ e utilis´ ee.

Pour quantifier l’influence de la structure des donn´ ees sur la qualit´ e des partitions obtenues, nous avons utilis´ e un processus de perturbation des donn´ ees initiales qui gomme progressivement la structure dia- gonale. Ce processus consiste ` a ´ echanger, de mani` ere al´ eatoire, des paires d’entr´ ees, s

ij

et s

i⁰j⁰

, o` u (i, j) et (i

⁰

, j

⁰

) sont tir´ es de mani` ere uniforme parmi l’en- semble des paires (u, v), (u

⁰

, v

⁰

) ∈ {1, . . . , n} telles que

1. La carte Hi-C utilisée est la carte des données normalisée, disponible sur le site internet des auteurs :http://chromosome.

sdsc.edu/mouse/hi-c/download.html.

(5)

1

2 3 4

5 Figure 1 – Un croisement dˆ u ` a la non-croissance de la hauteur d´ efinie par l’inertie intra-classes, ESS

_t

, pour la CAHCO avec donn´ ees non euclidiennes. ` A gauche : repr´ esentation de la dissimilarit´ e associ´ ee (les couleurs sombres correspondent ` a de grandes valeurs donc ` a des objets distants). ` A droite : den- drogramme correspondant aux r´ esultats de la CAHCO (l’ordre des fusions est not´ e en bleu).

Figure 2 – Partie triangulaire sup´ erieure d’une carte Hi-C. L’axe horizontal donne la position sur le chromosome et les niveaux de rouge indiquent l’inten- sit´ e de la valeur s

ij

.

s

uv

> 0 (pour assurer de ne pas ´ echanger deux va- leurs nulles). La proportion des entr´ ees de la matrice perturb´ ee par rapport aux entr´ ees de la matrice ini- tiale varie de 1 ` a 30%

²

. Ce processus de simulation est r´ ep´ et´ e 50 fois pour ´ evaluer la variabilit´ e des r´ esultats.

Tous les r´ esultats ont ´ et´ e obtenus avec R [R C19]. Les r´ esultats de la CAH standard ont ´ et´ e obtenus avec la fonction hclust (du package stats) et les r´ esultats de la CAHCO ont ´ et´ e obtenus avec la fonction adjClust (du package adjclust).

R´ esultats

La figure 3 montre l’´ evolution de m

_t

(normalis´ ee par sa valeur maximale pour la simulation) et de ESS

_t

(nor- malis´ ee par l’inertie totale, ESS

_n

) pour la CAH et la CAHCO lorsque le pourcentage de perturbation de la matrice initiale croˆıt.

Pour les donn´ ees originales (non perturb´ ees), dans lesquelles l’organisation est coh´ erente avec la contrainte lin´ eaire d’ordre, les hauteurs de la CAH standard et de la CAHCO sont tr` es similaires. De mani` ere

2. À cause du grand nombre de 0 dans les entrées des ma- trices Hi-C, 30% correspond approximativement à la proportion maximale.

(6)

Figure 3 – Comparaison de la s´ equence de hauteurs pour OCHAC (bleu) et HAC standard (rouge) pour m

_t

(en haut) et ESS

_t

(en bas) pour diff´ erents niveaux de perturbation de la matrice Hi-C initiale.

Les courbes correspondent ` a la moyenne du crit` ere pour 50 simulations et les ombres grises au minimum et au maximum du crit` ere sur les 50 simulations. La ligne verticale correspond au nombre de classes choisi par l’heuristique

broken stick

.

int´ eressante, la CAHCO am´ eliore le crit` ere ESS

t

pour de faibles pourcentages de perturbations (de 5 ` a 10%), ce qui montre une meilleure robustesse de l’approche aux petites perturbations lorsque les donn´ ees originales sont bruit´ ees. Notons, en outre, que l’utilisation d’un crit` ere classique de choix du nombre de classes, comme le crit` ere

broken stick

[Ben96] induit la coupe du dendrogramme dans la zone o` u pr´ ecis´ ement ESS

_t

pour la CAHCO est inf´ erieur ` a ESS

_t

pour la CAH stan- dard. Cette propri´ et´ e est int´ eressante pour les donn´ ees rencontr´ ees en biologie par exemple, qui pr´ esentent de nombreux biais et bruits (effets exp´ erimentaux, biais de GC par exemple). La CAHCO est donc ` a privil´ egier dans les contextes o` u la contrainte d’ordre est perti- nente. Enfin, pour des pourcentages ´ elev´ es de pertur- bations (sup´ erieurs ` a 20%), la CAH standard a, de nou- veau, une valeur de ESS

t

partout inf´ erieure ` a celle ob- tenue avec la CAHCO. Ceci s’explique par le fait que la contrainte d’ordre n’est plus en accord, ` a ce niveau de perturbations, avec la structure des donn´ ees. Dans ce cas, les r´ esultats de la CAHCO ne sont plus pertinents.

Enfin, la comparaison des structures des dendro- grammes ou des classifications induites par la coupe du dendrogramme ` a une hauteur donn´ ee (non montr´ e faute de place) conduit aux mˆ emes observations. Les r´ esultats sont tr` es similaires pour CAH et CAHCO

pour des donn´ ees dont la structure est coh´ erente avec la contrainte mais deviennent rapidement diff´ erents lorsque la matrice initiale est perturb´ ee. En particulier, l’indice γ de Baker [Bak74], permettant de comparer deux dendrogrammes, d´ ecroˆıt tr` es fortement ` a partir de 10% de perturbation et devient quasiment nul au del` a de 20% de perturbation.

4 Conclusion

La CAH ainsi que sa version sous contrainte d’ordre peuvent s’appliquer de fa¸ con justifi´ ee dans un cadre plus vaste que le cadre euclidien. En revanche, certaines propri´ et´ es th´ eoriques qui garantissent la coh´ erence entre les r´ esultats de la m´ ethode et sa repr´ esentation graphique ne sont pas toujours garanties, en parti- culier, lorsque les donn´ ees ne sont pas euclidiennes.

Par ailleurs, nos simulations montrent que la CAH sous contrainte d’ordre peut donner des r´ esultats de meilleure qualit´ e que la CAH standard lorsque les donn´ ees pr´ esentent une structure coh´ erente avec la contrainte. La complexit´ e de la version contrainte est

´

egalement inf´ erieure ` a la version standard, ce qui en

fait une approche pertinente pour la classification non

supervis´ ee.

(7)

Remerciements

Les auteurs remercient Marie Chavent pour des dis- cussions stimulantes autour de ce travail. Celui-ci a ´ et´ e effectu´ e dans le cadre du projet SCALES, financ´ e par la Mission pour les Initiatives Transverses et Interdis- ciplinaires du CNRS. La th` ese de N.R. est financ´ ee par le programme INRA/Inria.

R´ ef´ erences

[ADN

⁺

19] Christophe Ambroise, Alia Dehman, Pierre Neuvial, Guillem Rigaill, and Na- thalie Vialaneix. Adjacency-constrained hierarchical clustering of a band simi- larity matrix with application to geno- mics. arXiv preprint arXiv :1902.01596, 2019.

[Aro50] Nachman Aronszajn. Theory of re- producing kernels. Transactions of the American Mathematical Society, 68(3) :337–337, 1950.

[Bak74] Frank B. Baker. Stability of two hie- rarchical grouping techniques case I : sensitivity to data errors. Journal of the American Statistical Association, 69(346) :440–445, 1974.

[Bat81] Vladimir Batagelj. Note on ultrametric hierarchical clustering algorithms. Psy- chometrika, 46(3) :351–352, 1981.

[Ben96] Keith D. Bennett. Determination of the number of zones in a biostratigraphical sequence. New Phytologist, 132(1) :155–

170, 1996.

[CKSLS18] Marie Chavent, Vanessa Kuentz- Simonet, Amaury Labenne, and J´ erˆ ome Saracco. ClustGeo2 : an R package for hierarchical clustering with spatial constraints. Computational Statistics, 33(4) :1799–1822, 2018.

[Deh15] Alia Dehman. Spatial Clustering of Lin- kage Disequilibrium Blocks for Genome- Wide Association Studies. PhD thesis, Universit´ e Paris Saclay, 2015.

[DSY

⁺

12] J.R. Dixon, S. Selvaraj, F. Yue, A. Kim, Y. Li, Y. Shen, M. Hu, J.S. Liu, and B. Ren. Topological domains in mam- malian genomes identified by analy- sis of chromatin interactions. Nature, 485 :376–380, 2012.

[FB82] Anuˇ ska Ferligoj and Vladimir Batagelj.

Clustering with relational constraint.

Psychometrika, 47(4) :413–426, 1982.

[Gri87] Eric C. Grimm. CONISS : a FOR- TRAN 77 program for stratigraphically constrained analysis by the method of incremental sum of squares. Computers

& Geosciences, 13(1) :13–35, 1987.

[LAvBW

⁺

09] E. Lieberman-Aiden, N.L. van Berkum, L. Williams, M. Imakaev, T. Ragoczy, A. Telling, I. Amit, B.R. Lajoie, P.J.

Sabo, M.O. Dorschner, R. Sandstrom, B. Bernstein, M.A. Bender, M. Grou- dine, A. Gnirke, J. Stamatoyannopou- los, L.A. Mirny, E.S. Lander, and J. Dekker. Comprehensive mapping of long-range interactions reveals fol- ding principles of the human genome.

Science, 326(5950) :289–293, 2009.

[MAET15] Sadaaki Miyamoto, Ryosuke Abe, Ya- sunori Endo, and Jun-Ichi Takeshita.

Ward method of hierarchical clustering for non-Euclidean similarity measures.

In Proceedings of the VIIth Internatio- nal Conference of Soft Computing and Pattern Recognition (SoCPaR 2015), Fukuoka, Japan, 2015. IEEE.

[R C19] R Core Team. R : A Language and En- vironment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2019.

[SR05] G´ abor J. Sz´ ekely and Maria L.

Rizzo. Hierarchical clustering via joint between-within distances : ex- tending Ward’s minimum variance method. Journal of Classification, 22(2) :151–183, 2005.