• Aucun résultat trouvé

Réseaux et sous-ensembles de feuilles

1.3 Propriétés combinatoires des réseaux

1.3.2 Réseaux et sous-ensembles de feuilles

Définissons maintenant les triplets et quadruplets dans les réseaux phylogénétiques explicites binaires. Nous reprenons la définition classique apparue dans la littérature pour les triplets d’un réseau, qui généralise les définitions 1.3 et 1.4. Toutefois, nous verrons dans la section suivante que l’adaptation de ces définitions aux réseaux non binaires n’est pas immédiate et demande une discussion.

a) Triplets d’un réseau

Définition 1.7 (Triplets) [Jansson et Sung, 2006] Pour trois feuilles distinctesa, b, c∈X, un

tripleta|bcest contenu dans un réseau phylogénétique explicite binaire enracinéN(ou plus

simplementa|bcest un triplet deN) siNcontient deux sommetsuetv, et des chemins deu

àb, deuàc, devàuet devàa, ne partageant pas de sommet interne deux à deux. L’ensemble de tous les triplets d’un réseauNest notéR(N).

Remarque 2 Il n’est plus possible de définir les triplets d’un réseau phylogénétique à partir

des ancêtres communs, en particulier à cause de la perte de la propriété d’unicité du plus petit ancêtre commun dans les réseaux. En effet, on voit par exemple dans le réseauNde la figure 1.4 que les deux feuillesgethont deux plus petits ancêtres communs :s1 ets2. Les

tripletsg|hi,h|gieti|ghsont tous trois contenus dans ce réseau, mais pasb|ac.

FIGURE 1.4 : Un réseau phylogénétique explicite enracinéN, de racine ρ et d’ensemble

de taxonsX ={a,b,c,d,e,f,g,h,i}. Comme dans les illustrations suivantes de réseaux et arbres enracinés, l’orientation des arcs n’est pas montrée mais on considère qu’ils sont tous orientés du haut vers le bas. Les zones grises sont des blobs contenant les sommets hybrideshi, et tous les arcs non présents à l’intérieur d’une zone grise sont des isthmes. b) Quadruplets d’un réseau

Définition 1.8 (Quadruplets) [Gambette et al., 2010] Pour quatre feuilles distinctes

binaire non enracinéN(ou plus simplementab|cdest un quadruplet deN) siNcontient deux sommetsuetvet cinq chemins, deaàu, debàu, deuàv, devàcet devàd, ne partageant pas de sommet interne deux à deux.

Par exemple le réseau non enraciné de la figure 1.5(i) contient les quadrupletscd|ef,

ce|dfetcf|de, mais pascf|eg. L’ensemble de tous les quadruplets d’un réseauNest noté

Q(N).

On peut proposer une autre définition pour les quadruplets d’un réseau.

Définition 1.9 Un quadrupletab|cd est contenu dans un réseau phylogénétique explicite non enracinéNs’il existe deux chemins non orientés à sommets disjoints dansN, l’un dea

àbet l’autre decàd.

Proposition 1 Les définitions 1.8 et 1.9 sont équivalentes.

Démonstration. En effet, la définition 1.8 implique directement la définition 1.9, et la réciproque est vraie : commea,b,cetdsont des feuilles, il doit y avoir un chemin (d’ex- trémitésuetv) ne contenant pasa,b,c, nidpour joindre les deux chemins disjointsa−b

etc − ddans le réseauNqui est connexe.  Quant à la définition des quadruplets d’un réseau abstrait, elle dépend du type de ré- seau abstrait considéré. Toutefois nous proposerons après la définition des bipartitions d’un réseau explicite non orienté, une façon de définir les quadruplets induits par une bi- partition, et donc ceux contenus dans un réseau de bipartitions.

c) Arbres d’un réseau

Pour définir les clades et bipartitions d’un réseau phylogénétique, nous allons tout d’abord expliciter la définition d’un arbre contenu dans un réseau.

Définition 1.10 (Arbre contenu) [Kanj et al., 2008] Étant donné un réseau phylogénétique

explicite enraciné (respectivement non enraciné)Nsur un ensembleXde taxons, et unX- arbre phylogénétique enraciné (resp. non enraciné)T, on dit queT est contenu dansNs’il peut être obtenu depuisNpar une suite de suppressions d’arcs (resp. d’arêtes), et de contrac- tions d’arcs (resp. d’arêtes).

L’ensemble de tous les arbres contenus dans un réseau phylogénétique expliciteNest noté

T(N).

Remarque 3 Le concept d’arbre contenu dans un réseau explicite non enraciné se rapproche

de celui d’arbre couvrant, comme montré en figure 1.5. En effet, siT est un arbre contenu dansN, l’arbreT0obtenu après les suppressions et avant les contractions d’arêtes indiquées dans la définition 1.10 est un arbre couvrant deN.

(i) (ii) (iii)

FIGURE1.5 : Un réseau non enraciné N(i), un arbre couvrant T0de N(ii), et un arbreT

contenu dansN(iii).

Remarque 4 Si l’on étend la définition des arbres contenus auxS-arbres pourS⊆X, alors on obtient une nouvelle définition équivalente des triplets (respectivement, des quadruplets) contenus dans un réseau phylogénétique explicite enraciné (resp. non enraciné) binaireN: ce sont lesS-arbres enracinés (resp. non enracinés), où|S| = 3(resp.|S| = 4) etS⊆X, qui sont contenus dansN.

Remarque 5 On peut proposer un autre lien entre triplets et arbres contenus dans un réseau

phylogénétique : R(N) =S

T∈T(N)R(T). En effet, pour tout triplet deN, il existe un arbre

contenu dansNqui le contient, et inversement tout triplet d’un arbreT0contenu dansN

vérifie la condition sur les chemins disjoints dansT0et a fortiori dansN. d) Clades d’un réseau

Définition 1.11 (Clades souples et stricts) [Huson et Klöpper, 2007] Étant donné un réseau

phylogénétique explicite enraciné N sur un ensemble X de taxons, le clade souple C est

contenu dansN(ou plus simplementCest un clade souple deN) s’il est contenu dans un

X-arbreT contenu dansN.Cest un clade strict deNs’il est contenu dans toutX-arbreT

contenu dansN.

Par exemple, dans la figure 1.4, {g,h,i}est un clade souple et strict, et {b,c}ou{g,i} sont des clades souples, mais pas stricts, deN. L’ensemble de tous les clades stricts d’un réseauNest noté C(N), et l’ensemble de tous ses clades souples est notéS(N). Notons queC(N)⊆S(N).

On peut aussi remarquer qu’un clade strict d’un réseauNest l’ensemble des feuilles descendantes d’un sommet deN, et vice versa. Il est donc possible pour tout cladeC⊆X

de lui associer un sommetvdeNtel queCest l’ensemble des feuilles descendantes dev, notéCN(v). On dit alors quevreprésente le clade strictC. On étend cette notation aux

arcs deNen considérant qu’un arcadeNreprésente un clade strictCsi et seulement si son sommet cible représenteC. Ceci nous permettra, dans les figures, d’étiqueter les arcs par les clades qu’ils représentent.

De la même manière, en notantSN(v)l’ensemble des clades souples représentés par

vdans les arbres contenus dansN, l’union desSN(v)pour tous les sommets deNcorres-

pond aux clades souples deN. On dira alors qu’un sommetvdeNreprésente un clade soupleC⊆XsiC∈SN(v), et qu’un arc représente le clade soupleCsi son sommet cible le

fait.

Remarque 6 La fonction de représentation des clades, stricts ou souples, par les sommets

ou par les arcs, n’est pas bijective. En effet, pour le réseauNde la figure 1.4 contenant un sommet hybrideh3de parentss1ets2et parent d’une feuilleg, le singleton{g}est représenté (en tant que clade souple ou strict) parg, parh3, et par les arcs(h3, g),(s1, h3)et(s2, h3).

En général, on choisira pour représenter un clade souple ou strictCun arc dont la cible est un plus petit représentant deCpour la relation de descendance.

Ces deux variantes de définition des clades, stricts et souples, correspondent respecti- vement au modèle “Accumulation Phylogeny” [Baroni et Steel, 2006] et “Relaxed Accumu- lation Phylogeny” [Willson, 2010a].

Enfin, nous pouvons noter un lien intéressant entre les triplets et les clades d’un réseau. Chaque cladeCdéfinit en effet de façon naturelle un ensemble de triplets induitsR(C) =

{xy|z : x,y∈C, z∈ ¯C}, et chaque ensembleCde clades induit également un ensemble de tripletsR(C) = S

C∈CR(C)

. On a alors la propriété suivante :

Proposition 2 Si Cest un clade souple d’un réseau phylogénétique explicite enraciné N, alorsR(C)est un ensemble de triplets deN.

Démonstration. Étant donné un réseau phylogénétique explicite enraciné N, C∈S(N)

⇒ ∃T ∈ T(N) tel que C ∈ C(T) ⇒ ∀x, y ∈ C, z ∈ ¯C, lcaT({x,y}) ¹ lcaT({x,z}) ⇒

∀xy|z∈R(C),xy|z∈R(T) ⇒∀xy|z∈R(C),xy|z∈R(N).  La réciproque de cette propriété est fausse dans le cas général, comme le montre l’exemple de la figure 1.6. Cependant elle est vraie pour des classes restreintes de réseaux phylogénétiques comme nous le verrons en section 3.3.1. D’autres auteurs ont approfondi les liens entre triplets et clades d’un réseau [van Iersel et Kelk, 2011], avec des consé- quences importantes sur la complexité de certains problèmes de reconstruction que nous détaillerons en section 2.1.2.

e) Bipartitions d’un réseau

Définition 1.12 (Bipartitions) Étant donné un réseau phylogénétique explicite non enra-

cinéN sur un ensemble X de taxons, on appelle bipartition deN toute bipartition d’un

FIGURE1.6 : RéseauNoù l’équivalence clades-triplets induits n’est pas respectée :c1c2|x1∈

R(N)etc1c2|x2∈R(N)mais{c1, c2}6∈S(N).

Par exemple, commeB ={a,h}|{b,c,d,e,f,g}est une bipartition de l’arbreT de la fi- gure 1.5(iii) qui est contenu dans le réseauNde la figure 1.5(i), alorsBest une partition de

N. L’ensemble de toutes les bipartitions d’un réseauNest notéB(N).

Nous pouvons donner une autre définition des bipartitions d’un réseau explicite non enraciné. Cette seconde définition est basée sur les coupes minimales, et similaire à celle donnée par Brandes et Cornelsen [2009]. Bien qu’ils affirment que les réseaux phylogéné- tiques explicites “représentent différemment les bipartitions” par rapport à la représenta- tion en coupes minimales qu’ils proposent pour les réseaux qu’ils considèrent, nous prou- vons que la définition ci-dessous et la définition 1.12 sont équivalentes.

Définition 1.13 Une bipartitionA|A¯ est contenue dans un réseau phylogénétique non en- racinéNs’il existe une coupe minimale deNqui déconnecteAde ¯A.

Proposition 3 Les définitions 1.12 et 1.13 sont équivalentes.

Démonstration. Supposons queNest déconnecté par une coupe minimaleEen deux ré- seaux :NAqui contient toutes les feuilles deAetNA¯ qui contient ¯A, comme montré dans l’exemple de la figure 1.7. Soient alorsuvune arête deE, et deux arbres couvrantsTudeNA

d’une part, etTvdeNA¯ d’autre part, tels queu∈Tuetv∈Tv. Alors la bipartitionA|A¯ est

contenue dans un arbreT0(contenu dansN) obtenu par l’union deTu,Tvetuv, suivi d’un

nombre nécessaire de contractions d’arêtes pour faire disparaître tout sommet de degré 2 (en évitant bien sûr la contraction de l’arêteuv).

Supposons maintenant que la bipartition A|A¯ est contenue dans un arbre contenu dans N. Alors il existe une arête x de T qui déconnecte T en deux sous-arbres, TA qui

contientAetTA¯ qui contient ¯A. Rappelons que d’après la remarque 3, tout arbre contenu dans un réseau phylogénétique non enraciné N peut être associé à un arbre couvrant deN. Appelons doncTA0 l’arbre couvrant deNassocié àTA etTA¯0 l’arbre couvrant deN

associé àTA¯. Construisons l’ensemble d’arêtesEde la manière suivante : pour tout chemin d’un sommet deTA0 vers un sommet deT¯0

A, si ce chemin ne contient aucune arête deT

0

A,

ni de T¯0

A, ni x, on ajoute la première arête de ce chemin (incidente au sommet de T

0

A)

FIGURE1.7 : Un réseau phylogénétique explicite non enracinéN, séparé en deux réseaux

NA etNA¯ par une coupe indiquée en gras et représentant la bipartitionA|A¯, pourA =

{e,f}. Les arêtes du sous-arbre couvrant Tu de NA sont en gris foncé, et celles du sous-

arbre couvrantTvdeNA¯ sont en gris clair.

déconnecteAde ¯A. En effet, c’est une coupe car par définition, en supprimant les arêtes deE, on déconnecteTA0 deT¯0

A. De plus, s’il existait une autre coupeE

0

( E, considérons

une arêtex0∈E − E0: elle se trouverait sur un chemin deTA0 àT¯0

A. Or aucune autre arête

de ce chemin n’appartient àE0, doncTA0 etT¯0

Ane seraient pas déconnectés, et doncE

0ne

serait pas une coupe : absurde ! 

Remarque 7 Le fait que toutes les bipartitions d’un arbre non enracinéT sont contenues dans un réseau phylogénétique non enracinéN n’implique pas nécessairement queT est contenu dansN. Par exemple, les bipartitions de l’arbreTde la figure 1.8(iii) sont contenues dans le réseauN0de la figure 1.8(ii) maisTn’est pas contenu dansN0.

(i) (ii) (iii)

FIGURE 1.8 : Un réseau non enraciné N (i) et un réseau simple non enraciné N0 =

Simple(N)(ii) tel queB(N)⊆B(N0)etQ(N)⊆Q(N0). L’arbreTest contenu dansNmais pas dansN0, alors queB(T)⊆B(N0).

De même que pour les clades et les triplets dans le contexte enraciné, une bipartition

B = A|A¯ est naturellement associée à un ensemble de quadruplets induitsQ(B) = {ab|cd :

a, b∈A, c, d∈ ¯A}, tel que siBest contenue dans un réseau explicite non enracinéN, alors

Précisons également que la notion d’arbre contenu, qui est bien définie pour les ré- seaux explicites, l’est moins pour les réseaux abstraits. Si l’on considère par exemple les réseaux de bipartitions, qui permettent de visualiser chaque bipartition sous forme d’une coupe minimale constituée par un ensemble parallèle d’arêtes d’un graphe non orienté2, on peut s’interroger sur la définition la plus appropriée. En fait, les méthodes existantes de reconstruction de réseaux abstraits à partir d’arbres ne procèdent pas directement à partir des arbres, mais à partir de leurs bipartitions : que ce soit pour construire des réseaux mé- dians [Holland et Moulton, 2003] ou des réseaux de bipartitions [Huson et al., 2004], les au- teurs ne précisent pas de quelle façon ils contiennent les arbres, mais seulement comment ils contiennent les bipartitions de ces arbres. Or, si nous choisissons de baser la définition d’arbre contenu dans un réseau abstrait sur le concept d’arbre couvrant, comme pour les réseaux explicites, et comme le font Woolley et al. [2008], nous obtenons des arbres conte- nus dont les bipartitions ne sont pas nécessairement toutes contenues dans le réseau. Par exemple, l’arbreT de la figure 1.9(i) peut être obtenu à partir du réseau de bipartitionsN

de la figure 1.9(ii) suite à des opérations de suppression puis de contraction d’arêtes. Tou- tefois, la bipartition{a,d,e}|{b,c}est contenue dansTmais pas dansN. En effet, outre les bipartitions triviales,Nne contient que 3 bipartitions représentées par les ensembles pa- rallèles d’arêtes :{a,b,c}|{d,e},{a,b,e}|{c,d}et{a,e}|{b,c,d}. Ainsi, nous n’approfondirons pas l’étude combinatoire des arbres ou quadruplets contenus dans les réseaux phylogéné- tiques abstraits.

(i) (ii)

FIGURE1.9 : Un arbre phylogénétique non enracinéT (i) et un réseau de bipartitionsN(ii)

qui le contient en tant qu’arbre couvrant, mais ne contient pas la bipartition{a,d,e}|{b,c} pourtant contenue dansT.