• Aucun résultat trouvé

Restrictions sur les ensembles de clades et de bipartitions

1.4 Restrictions sur les modèles de réseaux

1.4.1 Restrictions sur les ensembles de clades et de bipartitions

Les réseaux phylogénétiques abstraits servant à classifier des données, et à visualiser des relations entre elles, plutôt qu’à décrire une histoire évolutive explicite, il existe sou- vent des manières directes, rapides d’un point de vue algorithmique, et sans ambiguïté, pour associer un réseau abstrait à ces données (clades ou bipartitions), comme nous le détaillerons ci-dessous.

Il est aussi possible d’associer une distance canonique entre les feuilles concernées par un ensemble de clades. En effet, à partir de la mesure de similaritéSC: X×X→R telle que SC(a, b) =|{C∈C | a,b∈C}|, poura, b∈X, il est possible, selon certaines restrictions sur les clades, de les retrouver depuisSC(a, b)[Bandelt et Dress, 1989; Bryant et Berry, 2001]. De plus, en appliquant la transformée de Farris (voir par exemple [Semple et Steel, 2003]

ou [Dress et al., 2007]) à cette mesure de similarité, on obtient une distanceDC, c’est-à- dire une fonction deX×XdansR+, qui est symétrique, satisfait l’inégalité triangulaire, et s’annule uniquement pour des taxons égaux.

a) Restrictions sur les ensembles de clades

Pour les clades stricts, une manière naturelle de leur associer un réseau phylogéné- tique enraciné est de considérer le diagramme de Hasse des clades pour la relation d’in- clusion [Huson et Rupp, 2008], illustré en figure 1.12(i). Ce réseau abstrait est construit de la manière suivante : son ensemble de sommets est l’ensembleCdes clades fourni en entrée, et un sommetvcorrespondant à un cladeC(v)∈Cest un parent deuassocié au cladeC(u)∈CsiC(u)⊆C(v)et ∀C∈C − {C(u),C(v)}, C(u)⊆C⇒ C6⊆C(v). Le réseau ainsi associé aux clades d’une hiérarchie est bien un arbre. Ainsi, on considérera parfois par abus de langage qu’une hiérarchie, ensemble de clades, est un arbre phylogénétique. Plus généralement, on fera de même pour désigner sous le nom de réseau de clades stricts des ensembles de clades, en faisant référence au réseau naturelNqui les contient en tant que clades stricts, i.e. tel queC(N) = C∪X, comme montré en figure 1.12(ii).

(i) (ii)

FIGURE1.12 : Le diagramme de Hasse de l’ensembleC = {{a,b}, {a,b,x}, {a,x}, {b,x}, {b,y},

{c,d}, {c,d,x,y}, {c,x}, {d,y}}(i) et le réseau phylogénétique abstrait enraciné qu’on asso- cie naturellement àC(ii).

Ces diverses classes de familles d’ensembles sont présentées par exemple dans la thèse de Brucker [2001]. Parmi les résultats sur ces objets, ceux qui nous intéressent en parti- culier en phylogénie sont les liens entre les distances feuille à feuille et les ensembles de clades stricts des réseaux correspondants. Nous verrons en section 1.5.1 l’intérêt de les mentionner dans cette thèse.

Une hiérarchie faible [Bandelt et Dress, 1989] est un ensembleCde clades tel que l’in- tersection de trois cladesC1, C2, C3∈Cest toujours égale à l’intersection de deux d’entre

eux. Les hiérarchies faibles sont également appelées médinclus [Batbedat, 1988, 1989]. Une prépyramide [Bandelt, 1992] est un ensembleCde clades deXtel qu’il existe un ordreσsurXoù tout clade deCest un intervalle deσ, c’est-à-dire un ensemble d’éléments consécutifs dansσ.

Une pyramide [Diday, 1986] (respectivement une quasi-hiérarchie [Bandelt, 1992]) est une prépyramide (resp. une hiérarchie faible) close par intersection non vide, qui contient les singletons, l’ensembleXmais pas l’ensemble vide.

Unek-hiérarchie faible [Bertrand et Janowitz, 2002] est un ensemble de clades tel que l’intersection dek + 1clades est toujours égale à l’intersection dekd’entre eux, et qui est clos par intersection non vide, contient les singletons, l’ensembleXmais pas l’ensemble vide. Notons que les 2-hiérarchies faibles sont exactement les quasi-hiérarchies.

b) Restrictions sur les ensembles de bipartitions

De même que pour les ensembles de clades, il existe une manière canonique d’associer un réseau phylogénétique abstrait, mais non enraciné, à un ensemble de bipartitions. Il s’agit du réseau médian [Guénoche, 1986; Bandelt et al., 1995], qui est un réseau de bipar- titions qui contient de plus la propriété des graphes médians, c’est-à-dire que pour tout ensemble de trois sommetsa, b, cdu graphe, il existe un unique sommet qui appartient à un plus court chemin entreaetb, entreaetc, et entrebetc.

Un réseau de bipartitionsNest un réseau biparti connexe dont il existe un coloriage de ses arêtes assurant, pour toute paire de sommetsu, vdeN, l’existence d’un ensembleC

de couleurs tel que tous les plus courts chemins entreuetvcontiennent exactement une fois chaque couleur deC. Ces réseaux, formellement définis par Dress et Huson [2004], peuvent être dessinés de telle manière que les arêtes de la même couleur sont parallèles, de même longueur, et constituent une coupe minimale du réseau, comme en figure 1.2(a), page 22, ou en figure 1.9(ii), page 30. Chaque ensemble d’arêtes de même couleur corres- pond également à une bipartition car, en tant que coupe, il sépare deux ensembles com- plémentaires de feuilles du réseau.

Un ensemble Bde bipartitions est faiblement compatible si pour tout ensemble de trois bipartitionsA1|A¯1,A2|A¯2etA3|A¯3, l’une des quatre intersections suivantes est vide :

A1∩A2∩A3,A1∩ ¯A2∩ ¯A3, ¯A1∩A2∩ ¯A3, ¯A1∩ ¯A2∩A3[Bandelt et Dress, 1992b]. On peut le définir de manière équivalente en disant que pour tous taxonsa, b, c, d∈X, il n’existe pas dansBtrois bipartitions qui séparent respectivementaetbdecetd,aetcdebetd, eta

etddebetc.

L’ensemble Best circulaire [Bandelt et Dress, 1992b] s’il existe un ordreσ surX tel que pour toute bipartitionA|A¯ deB,Aou ¯Aest un intervalle deσ. Il estk-compatible s’il ne contient pas d’ensembles de strictement plus dekbipartitions non compatibles deux à deux.

Remarque 8 Les structures qui existent pour les bipartitions et les réseaux non enracinés

peuvent également être utilisées dans un contexte enraciné. En effet, pour un réseau phylo- génétiqueN, on peut considérer son graphe non orienté sous-jacentU(N)et lui ajouter un

exogroupeoadjacent à la racine deN, pour “marquer” la position de cette racine dans le

comme le cladeAsio6∈A, ou comme le clade ¯Asinon. Ainsi, certaines restrictions sur les bipartitions se traduisent en restrictions sur les clades, comme nous le détaillerons en sec- tion 1.5.3.