• Aucun résultat trouvé

Op´erations et distances sur les arbres

CHAPITRE 2: CONTEXTE BIOLOGIQUE ET INFORMA-

2.3 Phylog´enies, arbres de g`enes et arbres d’esp`eces

2.3.3 Op´erations et distances sur les arbres

Nous pr´esentons ici les op´erations NNI et RF, qui donnent lieu `a une dis- tance entre deux arbres. La distance NNI a d’abord ´et´e introduite en 1971 afin d’´evaluer si deux arbres sur le mˆeme ensemble de feuilles, binaires et non-enracin´es, sont significativement plus similaires que deux arbres choisis al´eatoirement [134]. Quant `a la distance RF, elle a ´et´e d´evelopp´ee en 1981 dans un effort pour g´en´eraliser la comparaison aux paires d’arbres pouvant ˆetre enracin´es ou non, binaires ou non (en fait, le nombre de noeuds internes des deux arbres n’a pas `a ˆetre ´egal), et dans lesquels les noeuds peuvent avoir

plus d’une ´etiquette (incluant les noeuds internes) [133]. Dans le cadre de cette th`ese, l’op´eration NNI est surtout utilis´ee en tant que manipulation ´el´ementaire permettant de passer d’un arbre `a un autre, par exemple dans les algorithmes d’exploration d’espace d’arbres. Quant `a la distance RF, elle est utilis´ee en tant que mesure de similarit´e entre deux arbres, par exem- ple lorsque l’on a un arbre de r´ef´erence et on veut savoir si notre arbre lui ressemble ou non.

Nearest Neighbor Interchange (NNI) [112, 134]: soit T un arbre binaire non-enracin´e et uv une arˆete dont u et v ne sont pas des feuilles. Alors u a deux voisins u1, u2 distincts de v, et v a deux voisins v1, v2 distincts de u. Il y

a deux fa¸cons d’interchanger une paire de ces quatre sommets afin d’obtenir un arbre diff´erent. Par exemple, interchanger u1 et v1 correspond `a remplacer

l’arˆete u1u par u1v et l’arˆete v1v par v1u. On peut aussi interchanger u1 et v2

- les autres interchangements donnent un arbre ´equivalent lorsqu’on ne tient compte que des ´etiquettes aux feuilles (voir la Figure 2.4 pour un exemple). Cet interchangement est ce qu’on appelle une op´eration NNI. Si T est plutˆot enracin´e, une op´eration NNI s’effectue sur une arˆete uv o`u u a deux enfants v et u1, et v a deux enfants v1 et v2. Les interchangements possibles sont

alors u1 avec v1 ou encore u1 avec v2.

La distance NNI entre deux arbre binaires T1 et T2, enracin´es ou non, est

le nombre minimum d’op´erations NNI `a effectuer sur T1 afin d’obtenir T2.

Trouver la distance NNI entre deux arbres est un probl`eme NP-complet [89]. Robinson-Foulds (RF) [133]: une op´eration RF peut ˆetre d´efinie sur un arbre non-binaire, enracin´e ou non, dont les feuilles sont ´etiquet´ees. Une op´eration peut ˆetre la contraction d’une arˆete interne (i.e. une arˆete dont aucun des bouts n’est une feuille)5, ou bien l’expansion d’une arˆete. La

contraction d’une arˆete est telle que d´efinie dans la section 2.3, i.e. contracter 5

L’article original de Robinson et Foulds permettait la contraction des arˆetes non- internes et introduisait la notion de contraction ´etiquet´ee. Mais il a ´et´e d´emontr´e plus tard que la contraction de ces arˆetes n’est jamais n´ecessaire pour minimiser la distance RF.

v u u1 u2 v1 v2 U1 U2 V1 V2 v u u1 u2 v1 v2 U1 U2 V1 V2 v u u1 u2 v1 v2 U1 U2 V1 V2 (1) (2) (3)

Figure 2.4: Illustrations des op´erations NNI sur un arbre non-enracin´e. (1) Un arbre non-enracin´e et une arˆete uv, avec u et v des noeuds internes. (2) L’arbre obtenu en interchangeant u1 et v1. (3) L’arbre obtenu en inter-

changeant u1 et v2.

une arˆete uv d’un arbre T correspond `a supprimer v de T et `a donner `a u les voisins de v. L’expansion d’une arˆete uv consiste `a subdiviser uv, cr´eant ainsi un nouveau noeud z, puis `a donner `a z soit un sous-ensemble des voisins de u, soit un sous-ensemble des voisins de v. Par exemple, sur la Figure 2.5, l’arˆete de T1 qui lie la racine et son fils gauche (en rouge) est contract´ee,

donnant lieu `a l’arbre T′. Pour passer de T′′ `a T′′′, l’arˆete de T′′ liant la

racine et son fils droit (en bleu) subit une expansion: un nouveau noeud est cr´e´e sur l’arˆete, et le fils b de la racine est “donn´e” `a ce nouveau noeud.

La distance RF entre deux arbres T1 et T2 est le minimum d’op´erations

de contraction et d’expansion n´ecessaires `a effectuer sur T1 afin d’obtenir T2.

Bien qu’amusantes, les op´erations RF sont tr`es peu utilis´ees en pratique, et c’est souvent la distance qui nous int´eresse, particuli`erement `a cause de ses propri´et´es th´eoriques int´eressantes [41]. Soit xy une arˆete d’un arbre T . Si on retire xy de T , on d´econnecte T et on obtient deux arbres A et B. L’arˆete d´efinit donc une bipartition {L(A), L(B)} que l’on appelle le split de xy. L’ensemble des splits de T est l’ensemble des |T | − 1 splits de T . Les propri´et´es des splits ont d’abord ´et´e introduites dans [19]. Il s’av`ere que la distance RF est ´egale au nombre de splits pr´esents dans T1

mais pas dans T2, plus le nombre de splits dans T2 mais pas dans T1. Si

T1 et T2 sont deux arbres binaires enracin´es, cette distance est ´egale `a 2 ·

a b c d e f T2 a b c d e f a b c d e f a b c d e f a b c d e f T1 T' T'' T'''

Figure 2.5: Illustrations op´erations RF sur un arbre enracin´e. T1 et T2 sont

deux arbres donn´es, et T′, T′′et T′′illustrent une s´equence ayant un minimum

d’op´erations pour passer de T1 `a T2: deux contractions (les arˆetes rouges

indiquent l’arˆete qui est contract´ee `a l’´etape subs´equente) et deux expansions (sur les arˆetes bleues).

T1 mais pas dans T2. Cette propri´et´e est une cons´equence du fait qu’il y a

une bijection entre les splits de T et clades(T ) \ L(T ). Sur la Figure 2.5, clades(T1) \ clades(T2) = {{a, b, }, {d, e, f }} contient deux clades, et donc la

distance RF entre les deux arbres est de 4 - ce qui correspond au nombre de contractions et d’expansions n´ecessaires pour passer de T1 `a T2. Ces

propri´et´es permettent de calculer la distance RF en temps lin´eaire. Malgr´e ses d´efauts - d´eplacer une seule feuille d’un arbre peut changer compl`etement sa distance - la distance RF est la plus utilis´ee ´etant donn´e la vitesse `a laquelle elle peut ˆetre calcul´ee.

Il existe d’autres op´erations dignes de mention auxquelles on peut rattacher une distance. Par exemple, l’op´eration Subtree prune and re- graft (SPR) consiste `a enlever un sous-arbre et `a le greffer sur une autre branche [77, 78]. Cette op´eration a ´et´e utilis´ee dans le contexte des mod`eles ´evolutifs permettant la recombinaison (le mixage de mat´eriel g´en´etique de

parents, ce qui peut donner lieu `a un enfant qui poss`ede des traits qui ne sont dans aucun des parents). L’op´eration tree bisection and reconnection (TBR), quant `a elle, supprime une arˆete cr´eant ainsi deux arbres. Ceux-ci sont rejoint en ajoutant un sommet sur une arˆete quelconque `a chacun des deux arbres, et on ajoute une arˆete joignant ces deux sommets. L’op´eration TBR est surtout utilis´ee pour ´enum´erer le voisinage d’un arbre de fa¸con ex- haustive, puisque le nombre d’op´erations TBR possibles (O(n3)) sur un arbre est plus ´elev´e que le nombre de mouvements NNI (O(n)) ou SPR (O(n2))

possibles [156].