• Aucun résultat trouvé

Structure arborée depuis un ensemble dense de quadruplets

2.2 Reconstruction à partir de quadruplets

2.2.3 Structure arborée depuis un ensemble dense de quadruplets

Nous nous concentrons maintenant sur le cas où l’ensemble de quadrupletsQen en- trée est dense. Dans cette section, nous montrons comment trouver les blobs d’un réseau phylogénétique non enracinéNà partir deQ. Pour ce faire, nous introduisons tout d’abord le concept de SN-bipartition, qui est analogue à celui de SN-ensemble [Jansson et Sung, 2006; To et Habib, 2009] évoqué en section 2.1.2.

Précisons que d’après le lemme 3, si nous savons qu’un réseau non enraciné de niveau 1 contient l’ensembleQde quadruplets fourni en entrée, alors il existe également un ré- seau simple (c’est-à-dire à un seul blob non trivial)N0, plus parcimonieux en termes de nombre d’arêtes, qui contientQ. Toutefois,N0est moins intéressant en pratique car il n’est pas optimal quant au nombre de quadruplets contenus dansN0mais absents deQ. Ceci explique pourquoi en pratique on commencera par essayer de déduire deQles blobs du réseau à reconstruire, puis on se concentrera sur la reconstruction de chaque blob du ré- seau pour déterminer sa structure interne.

a) Construction des SN-bipartitions

Définition 2.1 SoitQun ensemble de quadruplets sur un ensembleXde taxons,A⊆X. Une bipartitionA|A¯ des taxons est une SN-bipartition deQsi c’est soit une bipartition triviale soit une bipartition qui vérifie la propriété suivante : pour toutx, y∈A, z, t∈ ¯A, le seul quadruplet sur{x,y,z,t}, siQen contient un, estxy|zt.

Cette définition d’une SN-bipartition est similaire à la définition des SN-ensembles proposée par To et Habib [2009]. La définition originale des SN-ensembles [Jansson et Sung, 2006] peut aussi être adaptée pour définir les SN-bipartitions dans un contexte non enraciné, comme clôtures par une opération de complétion d’ensembles. Toutefois, nous ne la décrirons pas ici car elle est plus complexe que celle que nous utilisons.

Nous donnons maintenant une propriété importante des SN-bipartitions avant de montrer comment les calculer de manière efficace.

Proposition 8 Pour un ensemble denseQde quadruplets, l’ensemble des SN-bipartitions de

Qest un ensemble compatible de bipartitions.

Démonstration. Considérons deux bipartitionsB1= A1|A10etB2= A2|A20. Supposons par

l’absurde qu’aucune des quatre intersectionsA1∩A2,A1∩A20,A10∩A2etA10∩A20 ne soit

vide. Alors ∃a∈A1∩A2, b∈A1∩A20, c∈A10∩A2 etd∈A10∩A20. Comme Qest dense,

alors il doit contenir un quadruplet sur{a,b,c,d}. CommeB1est une SN-bipartition, que

a, b∈A1et quec, d∈ ¯A1, alors ce quadruplet devrait êtreab|cd. Mais commeB2est aussi

une SN-bipartition, quea, c∈A2et queb, d∈ ¯A2, ce quadruplet devrait êtreac|bd, ce qui

Nous rappelons la propriété classique mentionnée en section 1.2.2 selon laquelle un ensemble compatible de bipartitions peut être représenté par un arbre non enraciné. On associe donc à l’ensemble des SN-bipartitions un arbre appelé SN-arbre non enraciné d’un ensemble dense de quadruplets, dont les arêtes sont étiquetées de façon bijective par les SN-bipartitions, comme illustré en figure 2.6(ii).

(i) (ii)

FIGURE2.6 : Un réseauNde niveau 2 (i) et le SN-arbre non enraciné de son ensembleQ(N)

de quadruplets (ii), où nous étiquetons par l’ensemble de feuillesAl’arête correspondant à la SN-bipartitionA|A¯.

Notons que siQcontient au plus un quadruplet sur chaque ensemble de quatre feuilles, alors le SN-arbre non enraciné deQest exactement l’arbreT∗défini par Berry et Gascuel [2000], et les SN-bipartitions sont en bijection avec les arêtes deT∗. Nous utiliserons cette remarque pour donner un algorithme efficace de calcul du SN-arbre non enraciné deQ. Proposition 9 Pour un ensemble denseQde quadruplets, il y aO(n)SN-bipartitions, et le SN-arbre non enraciné deQpeut être reconstruit en tempsO(n4).

Démonstration. La proposition 8 implique que le nombre de SN-bipartitions est linéaire enn =|X|.

L’algorithme de construction du SN-arbre non enraciné fonctionne de la manière sui- vante. Nous partitionnons tout d’abord l’ensemble de quadrupletsQdonné en entrée :

– en un ensembleQ0de quadruplets construit de la manière suivante : pour tout en- semble de quatre feuilles{a,b,c,d}∈Xon choisit aléatoirement un des quadruplets

deQ|{a,b,c,d}(il en existe au moins un carQest dense) que l’on ajoute àQ0

– et l’ensemble des quadruplets restantsQ00=Q−Q0.

Nous reconstruisons alors le SN-arbre non enraciné de Q0 en temps O(n4), à l’aide de l’algorithmeQ∗[Berry et Gascuel, 2000]. Finalement, pour tout quadrupletqdeQ00, nous modifions le SN-arbre non enraciné de la manière suivante :

– soit{a,b,c,d}l’ensemble des feuilles deq,ab|cdétant le quadruplet deT∗sur les feuilles{a,b,c,d}, soitule sommet intersection, dansT∗, des chemins deaàb, de

aàc, et debàd, et soitvle sommet intersection, dansT∗, des chemins decàd, de

– contractons alors toutes les arêtes sur le chemin entreuetv. Ceci assure que toutes les arêtes correspondant aux SN-bipartitions séparant{a,b}de{c,d}sont contrac- tées, et qu’ainsi ces SN-bipartitions deQ0sont détruites, ce qui est cohérent avec la présence des deux quadrupletsqetab|cddansQ.

Nous pouvons effectuer cette étape efficacement en tempsO(n4)de la façon suivante : après un prétraitement en tempsO(n), il est possible de déterminer en temps constant, pour chacun desO(n4)quadruplets deQ00, s’ils sont contenus dansT∗. L’astuce consiste à utiliser des requêtes de plus petit ancêtre commun en temps constant [Harel et Tarjan, 1984] sur un enracinement de T∗. Pour chacune des O(n) contractions d’arêtes dans l’arbreT∗, le recalcul d’un enracinement de l’arbre et de la structure de données pour les requêtes de plus petit ancêtre commun s’effectue en temps O(n). Ainsi, la complexité

totale en temps estO(n4+ n2) = O(n4). 

Un corollaire de cette proposition est que l’ensemble des SN-bipartitions d’un en- semble dense de quadruplets peut être construit en tempsO(n4).

b) Lien entre blobs et SN-bipartitions

Nous prouvons maintenant deux lemmes avant de montrer le lien entre les SN- bipartitions deQet les blobs deN.

Définition 2.2 Pour tout blobBd’un réseau phylogénétique non enracinéN, nous appe- lonsE(B)l’ensemble des isthmes{e1, . . . , et}qui ont un sommet dansB, comme illustré en

figure 2.7. Pour toute arêteei= bici∈E(B)bi∈Betci∉B, nous appelonsLB(ei)l’en-

semble des feuilles de la composante connexe deN −{ei}qui contientci.

FIGURE2.7 : Partitionnement des feuilles autour du blobB:E(B) ={e1, e2, e3, e4, e5}.

Lemme 4 Étant donné un réseau non enraciné N de niveau k, et un ensemble dense Q de quadruplets contenus dansN, alors pour toute SN-bipartition A|A¯ de Q, il existe un

blob B de N tel que E(B)est partitionné en deux ensembles disjoints EA et EA¯ tels que A = S e∈EA LB(e)et ¯A = S e∈EA¯ LB(e).

Démonstration. Supposons par l’absurde que cette propriété est fausse. Alors aucun des isthmes deNne sépareAde ¯A. Donc il existe deux isthmese1ete2, et deux blobsB1et

B2de N, tels que les deux composantes connexesLB1(e1)etLB2(e2) deN −{e1, e2}qui

ne contiennent les sommets d’aucun chemin entree1 ete2 sont des sous-ensembles de

A. Nous pouvons choisir les isthmese1 et e2 tels queLB1(e1)et LB2(e2) sont des sous-

ensembles maximaux deA.

Ainsi, tout isthmeesur un chemin entree1 ete2se trouve aussi sur un chemin entre

deux feuillesx1etx2de ¯A, comme montré en figure 2.8. Notons qu’un tel isthmeeexiste,

sinon il existerait un blobBtel que les isthmese1ete2appartiennent tous deux àE(B). Le

réseauNcontient donca1a2|x1x2, ce qui contredit le fait queA|A¯ est une SN-bipartition.

FIGURE 2.8 : Une configuration impossible si a1, a2∈A, x1, x2 ∈ ¯A, et que A|A¯ est une

SN-bipartition.



Lemme 5 Étant donné un réseau non enracinéNde niveauk, s’il existe un blobB, quatre arêtes distinctese1, e2,e3 ete4∈E(B), et quatre feuilles distinctesa∈LB(e1), b∈LB(e2),

c∈LB(e3), d∈LB(e4), alors au moins deux des quadruplets ab|cd,ac|bd etad|bc sont

contenus dansN.

Démonstration. Appelons respectivementa0,b0,c0etd0les sommets deBincidents àe1,

e2,e3ete4. D’après le théorème de Menger, commeBne contient pas d’isthme, il existe

deux chemins arête-disjoints,P1etP2, entre les ensembles{a0, b0}et{c0, d0}, dansB. Di-

sons queP1est le chemin qui contienta0.

SiP1est un chemin entrea0etc0et queP2est en chemin entreb0etd0, alors nous ap-

pliquons le théorème de Menger dansBentre les ensembles{a0, c0}et{b0, d0}, et trouvons ainsi deux quadruplets sur les feuilles{a,b,c,d}.

Si P1 est un chemin entrea0et d0et queP2 est un chemin entreb0 etc0, alors nous

appliquons le théorème de Menger entre les ensembles{a0, d0}et{b0, c0}, et trouvons ainsi

Théorème 6 SoitNun réseau non enraciné de niveau k. L’ensemble de ses isthmes est en bijection avec les SN-bipartitions de son ensemble de quadrupletsQ(N).

Démonstration. Pour tout isthme e = uv de N, le graphe N − e est constitué de deux composantes connexes, qu’on appelleNA etNA¯, oùAest l’ensemble des feuilles deNA.

Commeeest un isthme, alors pour toutes feuillesa, a0Aetx, x0∈ ¯A,Q(N)

|{a,a0,x,x0}=

aa0|xx0 et donc la bipartition des feuilles A|A¯ induite par e est clairement une SN- bipartition deQ(N).

Inversement, supposons par l’absurde qu’il existe une SN-bipartitionA|A¯ non repré- sentée par un isthme deN. D’après le lemme 4, il existe un blobBdeNtel queE(B)est partitionné enEA etEA¯, oùA =Se∈EALB(e)et ¯A =

S

e∈EA¯ LB(e). CommeA|A¯ n’est pas représentée par un isthme deN, alors|EA|≥2et|EA¯|≥2, donc il existe quatre isthmes distinctse1, e2∈EAete10, e20 ∈EA¯, et quatre feuillesa1eta2dansA,x1etx2dans ¯A, telles

quea1∈LB(e1),a2∈LB(e2),x1∈LB(e10)etx2∈LB(e20). Alors, d’après le lemme 5, deux

quadruplets distincts sur{a1, a2, x1, x2}sont contenus dansN, ce qui contredit le fait que

A|A¯ est une SN-bipartition deQ(N). 

Grâce à ce théorème, nous pouvons considérer le SN-arbre non enraciné de Q(N) comme un résumé deN, puisque les deux ont le même ensemble d’isthmes, et diffèrent seulement par leurs blobs, qui sont de simples sommets dans le SN-arbre, et des graphes sans isthmes dansN.