HAL Id: hal-02786174
https://hal.inrae.fr/hal-02786174
Submitted on 4 Jun 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Classification ascendante hiérarchique, contrainte d’ordre : conditions d’applicabilité, interprétabilité des
dendrogrammes
Nathanaël Randriamihamison, Pierre Neuvial, Nathalie Vialaneix
To cite this version:
Nathanaël Randriamihamison, Pierre Neuvial, Nathalie Vialaneix. Classification ascendante hiérar-
chique, contrainte d’ordre : conditions d’applicabilité, interprétabilité des dendrogrammes. Conférence
sur l’Apprentissage Automatique (CAp 2019), Jul 2019, Toulouse, France. 2019. �hal-02786174�
Classification ascendante hi´erarchique, contrainte d’ordre : conditions d’applicabilit´e, interpr´etabilit´e des dendrogrammes
Nathana¨ el Randriamihamison
1,2, Pierre Neuvial
2, et Nathalie Vialaneix
11
MIAT, Universit´ e de Toulouse, INRA, Castanet Tolosan, France
2
Institut de Math´ ematiques de Toulouse, UMR 5219, Univ. de Toulouse, CNRS, France 9 avril 2019
R´ esum´ e
La classification ascendante hi´ erarchique (CAH) avec lien de Ward est une approche fr´ equemment utilis´ ee pour partitionner des objets d’un espace multi-dimensionnel. Nous discutons ici de la validit´ e th´ eorique des extensions de cette approches ` a diff´ erents types d’entr´ ees (distances, dissimilarit´ es, noyaux, simi- larit´ es) ainsi que de la pertinence de l’utilisation de sa version contrainte (parfois appel´ ee
CONISS
) dans ces divers cas. En particulier, nous ´ etudions les condi- tions garantissant la coh´ erence entre les r´ esultats de la CAH et leur repr´ esentation graphique classique sous forme de dendrogramme. Nous pr´ esentons ´ egalement une ´ etude de simulations montrant que la version contrainte de la m´ ethode permet, outre des gains com- putationnels, d’obtenir de meilleurs r´ esultats de clas- sification lorsque la contrainte est coh´ erente avec la structure des donn´ ees. Beaucoup de ces r´ esultats sont pr´ esents dans une litt´ erature h´ et´ eroclite : l’objet de cette communication est de proposer donc un cadre de pr´ esentation uniforme et de compl´ eter les r´ esultats existants.
Mots-clefs : Classification ascendante hi´ erarchique, lien de Ward, classification ascendante hi´ erarchique sous contrainte, dendrogramme, croissance.
1 Classification Ascendante Hi´ erarchique (CAH)
Cadre euclidien standard
Dans le cadre standard de la Classification Ascen- dante Hi´ erarchique (CAH), on suppose que l’ensemble des objets Ω = {x
1, . . . , x
n} est un sous-ensemble de
R
p, et que la relation de proximit´ e entre ces objets est encod´ ee par la distance D = (d
ij)
1≤i,j≤ninduite par la norme euclidienne de R
pavec d
ij= kx
i− x
jk
Rp.
L’algorithme de CAH part de la partition triviale en singletons P
1, puis par fusions successives, se termine sur une autre partition triviale, P
n= Ω. L’´ etape t, permettant de passer de la partition P
t` a la partition P
t+1, fusionne les deux classes de P
tles plus proches au sens d’une dissimilarit´ e entre classes appel´ ee crit` ere de lien et not´ ee δ.
Le lien de Ward [War63] est fr´ equemment utilis´ e car il a une interpr´ etation simple. Pour un ensemble quel- conque G ⊂ Ω, l’inertie de G est d´ efinie par I(G) = P
x∈G
kx − x ¯
Gk
2, o` u ¯ x
G= |G|
−1P
x∈G
x est le centre de gravit´ e de G, et |G| le cardinal de G. On appelle iner- tie intra-classes d’une partition P = (G
1, G
2, ..., G
K) la somme des inerties des classes : I(P ) = P
Kk=1
I(G
k).
Le lien de Ward entre deux sous-ensembles disjoints G et G
0est d´ efini par : δ(G, G
0) = I(G∪G
0)−I(G)−I(G
0) et correspond alors ` a la variation d’inertie intra-classes induite par cette fusion.
Extensions de la CAH
La CAH est couramment utilis´ ee sur des donn´ ees plus g´ en´ erales que celles d´ ecrites dans le cadre euclidien de la section pr´ ec´ edente. On suppose d´ esormais que les objets (x
i)
iappartiennent ` a un espace arbitraire (non n´ ecessairement euclidien).
Dissimilarit´ es. Consid´ erons tout d’abord le cas o` u
les objets sont d´ ecrits par une mesure de dissimila-
rit´ e entre paires, d
ij= d(x
i, x
j), qui n’est ici plus
n´ ecessairement la distance euclidienne. On suppose
alors que la matrice D = (d
ij)
1≤i,j≤nest une ma-
trice sym´ etrique ` a coefficients positifs et ` a diagonale
nulle. Remarquons que ce cas est une extension du
cas euclidien d´ ecrit dans la section pr´ ec´ edente, dans lequel l’inertie I(G) s’exprime directement ` a partir des ´ el´ ements de la matrice de distance D comme I(G) = (2|G|)
−1P
(xi,xj)∈G2
d
2ij. On peut alors d´ efinir, par analogie au cas euclidien, une extension de l’iner- tie et du lien de Ward associ´ ee ` a D (voir par exemple [SR05] ou [CKSLS18]). Cependant, dans ce cas, on perd l’interpr´ etabilit´ e en termes de centre de gravit´ e.
Noyaux. Dans un certain nombre de cas pratiques, les objets sont d´ ecrits par leurs ressemblances et non leurs dissemblances. C’est le cas, en particulier, lorsque les donn´ ees sont d´ ecrites par un noyau [STV04], c’est-
`
a-dire, par une matrice sym´ etrique d´ efinie positive K = (k(x
i, x
j))
1≤i,j≤n. [Aro50] montre que le noyau peut ˆ etre interpr´ et´ e comme une matrice de produit sca- laire dans un certain espace de repr´ esentation H. Ce cadre-ci est donc ´ equivalent au cadre euclidien et on peut montrer que l’expression du lien de Ward s’´ ecrit
`
a partir des valeurs du noyau uniquement en utilisant l’astuce noyau [Deh15] :
δ(G, G
0) = K(G)
|G| + K(G
0)
|G
0| − K(G ∪ G
0)
|G ∪ C
0| , (1) avec K(G) = P
xi,xj∈G2
k(x
i, x
j) pour un sous- ensemble, G, d’´ el´ ements de (x
i)
i.
Similarit´ es. On peut interpr´ eter la notion de simi- larit´ e comme une g´ en´ eralisation de celle de noyau.
Bien qu’il n’y ait pas de consensus sur la d´ efinition exacte d’une similarit´ e, on appellera similarit´ e une matrice S = (s
ij)
1≤i,j≤nsym´ etrique ` a diago- nale positive. [MAET15] ont montr´ e que l’approche
noyau
d´ ecrite ci-dessus pouvait ˆ etre g´ en´ eralis´ ee ` a toute matrice de similarit´ e, par l’argument suivant : consid´ erons la matrice S + λI
n, c’est-` a-dire la matrice S dont les ´ el´ ements diagonaux sont translat´ es de λ.
Alors, d’une part, pour λ suffisamment grand, S
λest d´ efinie positive, et peut donc s’interpr´ eter comme un noyau. D’autre part, appliquer (formellement) l’algo- rithme de CAH ` a la matrice de similarit´ e S
λen utili- sant l’´ equation (1) avec K = S
λaboutit exactement ` a la mˆ eme suite de fusions, quelle que soit la valeur de λ.
En effet, l’´ equation (1) implique : δ
Sλ= δ
Sλ0+ (λ− λ
0).
Dans la suite, nous distinguerons simplement deux cas : le cas euclidien (qui contient d’apr` es ce qui pr´ ec` ede les cas
noyau
et
similarit´ e quelconque
), et le cas non-euclidien, qui correspond aux dissimilarit´ es quel- conques.
CAH sous contrainte d’ordre
Dans un certain nombre de contextes applicatifs, il existe une information a priori sur les relations entre
les objets. C’est le cas, en particulier, en statistique spatiale o` u les objets spatiaux sont en relation de voi- sinage, ou bien dans le contexte g´ enomique, o` u les loci (positions) g´ enomiques sont ordonn´ es le long d’une ligne (le chromosome, voir [ADN
+19] pour des appli- cations aux donn´ ees de g´ en´ etique, SNP, et aux donn´ ees de conformation spatiale de la chromatine, Hi-C). La classification ascendante hi´ erarchique sous contrainte de contigu¨ıt´ e [FB82] restreint les fusions possibles aux objets dits contigus.
Dans la suite, on s’int´ eresse au cas particulier de la Classification Ascendante Hi´ erarchique sous Contrainte d’Ordre (CAHCO) : les objets initiaux sont reli´ es par une relation d’ordre total (temps, position g´ enomique), et deux classes sont dites contigu¨ es si et seulement si on peut en extraire un couple d’ob- jets contigus. Cette version est souvent appel´ ee
CO- NISS
pour CONstrained Incremental Sum of Squares [Gri87] lorsque le lien de Ward est utilis´ e pour la fusion des classes.
L’int´ erˆ et de l’ajout d’une contrainte est double : d’une part, elle permet de r´ epercuter au mieux les relations existantes entre les objets au cours de la proc´ edure, et ainsi de rendre les r´ esultats plus in- terpr´ etables. La CAHCO peut ainsi ˆ etre vue comme une m´ ethode de segmentation de donn´ ees ordonn´ ees lin´ eairement. D’autre part, la complexit´ e en temps de la CAH sans contrainte est cubique (O(n
3)) et celle de la CAHCO est seulement quadratique (O(n
2)) [Deh15].
Lorsque les donn´ ees d’entr´ ees sont une similarit´ e creuse dont les ´ el´ ements non nuls sont proches de la diagonale, [ADN
+19] ont propos´ e une approche permettant d’ob- tenir les r´ esultats d’une CAHCO avec une complexit´ e quasi-lin´ eaire. Dans ce cas particulier, la CAHCO peut ˆ
etre utilis´ ee comme une heuristique int´ eressante pour la segmentation.
2 Dendrogrammes
Les r´ esultats d’une CAH sont fr´ equemment repr´ esent´ es ` a l’aide d’un dendrogramme, comme sur la figure 1. Un dendrogramme est un arbre binaire dont les nœuds sont les classes de la hi´ erarchie. Dans le cas particulier de la CAHCO, les feuilles, qui correspondent aux n objets ` a classer, sont repr´ esent´ ees selon l’ordre naturel de ces objets. La hauteur du nœud correspondant ` a la t-` eme fusion est not´ ee h
t(les feuilles sont ` a la hauteur h
0= 0). On utilise souvent comme hauteur la valeur du lien de Ward ` a l’´ etape t, not´ ee m
t.
Une propri´ et´ e naturelle attendue pour le dendro-
gramme d’une CAH est que la suite de partitions in- duite par la CAH co¨ıncide avec celle d´ ecrite par le dendrogramme. Cette propri´ et´ e est ´ equivalente ` a la croissance de la suite (h
t)
t. En effet, lorsqu’un den- drogramme est construit avec une suite de hauteurs non croissante (comme sur la figure 1 entre les fusions 3 et 4), il est difficilement interpr´ etable et l’obtention d’une partition par coupe du dendrogramme a une hau- teur donn´ ee n’est pas d´ efinie correctement et n’est pas coh´ erente avec la suite de partitions fournies par la CAH. En particulier, lorsque la hauteur est d´ efinie par le lien de Ward, la croissance n’est pas n´ ecessairement v´ erifi´ ee pour la CAHCO [Gri87].
[Gri87] d´ ecrit des choix de hauteurs alternatifs au lien de Ward pour pallier ce probl` eme. Parmi ceux-ci, on trouve l’inertie intra-classes, qui est fr´ equemment utilis´ ee dans le cadre de la CAHCO (c’est notamment cette hauteur qui est fournie par la version de la CAHCO impl´ ement´ ee dans le pa- ckage R rioja). Pour ce crit` ere, la hauteur ` a l’´ etape t est d´ efinie par ESS
t= P
n−tu=1
I(G
t+1u). Comme pour m
t, cette hauteur est croissante pour la CAH [War63, Bat81]. Sa croissance pour la CAHCO n’est pas non plus assur´ ee dans le cas non-euclidien, mais elle l’est dans le cas euclidien [Gri87]. La figure 1 donne un exemple simple o` u la CAHCO est ap- pliqu´ ee ` a six objets d´ ecrits par la dissimilarit´ e D =
0 √
1.99 √
1.99 √
1.99 0.1 1
√ 1.99 0 √
2 √
1.99 0.1 1
√
1.99 √
2 0 √
2 0.1 1
√
1.99 √
1.99 √
2 0 √
2 1
0.1 0.1 0.1 √
2 0 √
2
1 1 1 1 √
2 0
, pour
lesquels on obtient des hauteurs non croissantes : h
1<
h
2< h
4< h
3< h
5.
3 Comparaison de CAH et CAHCO
La CAH est souvent per¸ cue comme une approche gloutonne permettant de d´ eterminer une partition des donn´ ees avec une inertie intra-classes, ESS
t, mini- male pour un nombre donn´ e, k (∈ {1, . . . , n}) de classes. Aussi, il est raisonnable d’attendre que l’iner- tie des partitions obtenues avec la CAH standard soit inf´ erieure ` a l’inertie des partitions obtenues par une CAH contrainte comme la CAHCO, dans laquelle l’en- semble des fusions possibles est restreint. Dans cette section, nous montrons que dans le cas o` u les donn´ ees sont structur´ ees de mani` ere
compatible
avec la contrainte impos´ ee ` a la CAHCO, non seulement l’al-
gorithme contraint est plus efficace que l’algorithme standard (en termes de complexit´ e en temps et es- pace), mais il permet aussi d’obtenir des partitions de plus faible inertie intra-classes, c’est-` a-dire meilleures.
Pour ce faire, nous proposons un processus al´ eatoire de perturbation de la structure originale de donn´ ees g´ enomiques et quantifions l’impact de cette perturba- tion sur la qualit´ e des r´ esultats des classifications.
Donn´ ees et m´ ethode de simulation
Pour cela, nous avons analys´ e des donn´ ees Hi-C [DSY
+12], qui pr´ esentent une forte structure d’ordre.
Les donn´ ees Hi-C permettent d’´ etudier les relations de proximit´ e dans l’espace (3D) de la chromatine en mesu- rant la fr´ equence d’interactions physiques entre paires de positions g´ enomiques par du s´ equen¸ cage haut-d´ ebit.
De mani` ere formelle, les donn´ ees Hi-C peuvent ˆ etre repr´ esent´ ees sous la forme d’une matrice sym´ etrique, S = (s
ij)
i,jdans laquelle chaque valeur s
ijcorres- pond au nombre d’interactions mesur´ ees entre les po- sitions g´ enomiques i et j. Les positions g´ enomiques i et j repr´ esentent des intervalles de longueur identique le long de la s´ equence d’ADN, et les valeurs s
ijsont par d´ efinition des entiers positifs (ou nuls). La ma- trice pr´ esente une structure diagonale forte, qui refl` ete l’organisation lin´ eaire le long des chromosomes, comme illustr´ e dans la figure 2 qui repr´ esente la partie triangu- laire sup´ erieure d’une carte Hi-C. Comme d´ ecrit dans [ADN
+19], la classification contrainte des positions g´ enomiques selon cette matrice de similarit´ e est li´ ee ` a des questions biologiques de compr´ ehension de la struc- ture de la chromatine (d´ etection de TADs [ZTOC18] ou de compartiments actifs/inactifs [LAvBW
+09]).
Dans les simulations qui suivent, nous avons utilis´ e un chromosome (le chromosome 3) d’une exp´ erience sur des cellules souches publi´ ee dans [DSY
+12]
1. Les donn´ ees ont ´ et´ e log-transform´ ees avant les classifica- tions, pour limiter l’asym´ etrie des valeurs ; la correction de la similarit´ e d´ ecrite dans la section 1 pour transfor- mer cette similarit´ e en noyau a ´ egalement ´ et´ e utilis´ ee.
Pour quantifier l’influence de la structure des donn´ ees sur la qualit´ e des partitions obtenues, nous avons utilis´ e un processus de perturbation des donn´ ees initiales qui gomme progressivement la structure dia- gonale. Ce processus consiste ` a ´ echanger, de mani` ere al´ eatoire, des paires d’entr´ ees, s
ijet s
i0j0, o` u (i, j) et (i
0, j
0) sont tir´ es de mani` ere uniforme parmi l’en- semble des paires (u, v), (u
0, v
0) ∈ {1, . . . , n} telles que
1. La carte Hi-C utilis´ee est la carte des donn´ees normalis´ee, disponible sur le site internet des auteurs :http://chromosome.
sdsc.edu/mouse/hi-c/download.html.
1
2
3 4
5
Figure 1 – Un croisement dˆ u ` a la non-croissance de la hauteur d´ efinie par l’inertie intra-classes, ESS
t, pour la CAHCO avec donn´ ees non euclidiennes. ` A gauche : repr´ esentation de la dissimilarit´ e associ´ ee (les couleurs sombres correspondent ` a de grandes valeurs donc ` a des objets distants). ` A droite : den- drogramme correspondant aux r´ esultats de la CAHCO (l’ordre des fusions est not´ e en bleu).
Figure 2 – Partie triangulaire sup´ erieure d’une carte Hi-C. L’axe horizontal donne la position sur le chromosome et les niveaux de rouge indiquent l’inten- sit´ e de la valeur s
ij.
s
uv> 0 (pour assurer de ne pas ´ echanger deux va- leurs nulles). La proportion des entr´ ees de la matrice perturb´ ee par rapport aux entr´ ees de la matrice ini- tiale varie de 1 ` a 30%
2. Ce processus de simulation est r´ ep´ et´ e 50 fois pour ´ evaluer la variabilit´ e des r´ esultats.
Tous les r´ esultats ont ´ et´ e obtenus avec R [R C19]. Les r´ esultats de la CAH standard ont ´ et´ e obtenus avec la fonction hclust (du package stats) et les r´ esultats de la CAHCO ont ´ et´ e obtenus avec la fonction adjClust (du package adjclust).
R´ esultats
La figure 3 montre l’´ evolution de m
t(normalis´ ee par sa valeur maximale pour la simulation) et de ESS
t(nor- malis´ ee par l’inertie totale, ESS
n) pour la CAH et la CAHCO lorsque le pourcentage de perturbation de la matrice initiale croˆıt.
Pour les donn´ ees originales (non perturb´ ees), dans lesquelles l’organisation est coh´ erente avec la contrainte lin´ eaire d’ordre, les hauteurs de la CAH standard et de la CAHCO sont tr` es similaires. De mani` ere
2. `A cause du grand nombre de 0 dans les entr´ees des ma- trices Hi-C, 30% correspond approximativement `a la proportion maximale.