• Aucun résultat trouvé

M´ethodes sp´ecifiques `a la construction d’arbres de g`enes

CHAPITRE 2: CONTEXTE BIOLOGIQUE ET INFORMA-

3.2 M´ethodes d’inf´erence phylog´en´etique

3.2.3 M´ethodes sp´ecifiques `a la construction d’arbres de g`enes

pour la construction d’arbres de g`enes suivent le mˆeme principe: int´egrer l’information de l’arbre d’esp`eces et/ou de la r´econciliation aux m´ethodes d´ecrites ci-haut. Ces m´ethodes, que nous survolons ici, sont assez r´ecentes, datant d’au plus une dizaine d’ann´ees.

SYNERGY [167] (2007): cette m´ethode bas´ee sur les distances incorpore, `a la reconstruction de l’arbre de g`enes, des informations bas´ees sur l’arbre d’esp`eces et la synt´enie. C’est d’ailleurs la seule qui, `a notre connaissance, consid`ere cette derni`ere source d’information. La synt´enie, avec les distances d’alignement entre les s´equences, est utilis´ee dans le calcul de la distance entre deux g`enes - les paires de g`enes faisant partie de blocs synt´eniques sont consid´er´es comme plus proches, la taille du bloc ´etant consid´er´ee dans cette mesure de proximit´e. Une mesure de distance entre deux groupes de g`enes est ´egalement propos´ee. SYNERGY construit r´ecursivement un ensemble

d’arbres de g`enes `a partir de la racine de l’arbre d’esp`eces. Si s1 et s2 sont

les enfants de la racine, un ensemble d’arbres de g`enes G1 (resp. G2) est

construit `a partir des g`enes pr´esents dans un descendant de s1 (resp. s2).

Une distance est calcul´ee entre chaque paire d’arbres de G1∪G2, et Neighbor-

Joining est ensuite utilis´e pour joindre les arbres de G1∪ G2 en un seul.

Prime-GSR [2] (2009): l’algorithme Prime-GSR (la signification de l’acronyme GSR n’est sp´ecifi´ee nulle part) est une m´ethode Bay´esienne qui ´etend celle d´ecrite plus haut en y incorporant la r´econciliation. Plus pr´ecis´ement, l’arbre d’esp`eces est utilis´e pour rattacher `a un arbre candidat G une probabilit´e `a chacune de ses r´econciliations possibles. Cette distribution fait partie de la probabilit´e associ´ee `a G et sert `a d´eterminer la distribution de transition et d’acceptation/rejet dans les m´ethodes MCMC.

GIGA [161] (2010): l’algorithme GIGA (Gene tree Inference in the Genomic Age) est une m´ethode bas´ee sur les distances qui incorpore l’arbre d’esp`eces et la r´econciliation `a la construction. La proc´edure s’apparente `a UPGMA mais d´efinit un ensemble de r`egles bas´ees sur des informations g´enomiques permettant de r´earranger l’arbre pendant sa construction. Par exemple, si deux sous-arbres A et B doivent ˆetre joints en un seul arbre AB `a une certaine ´etape, et que A et B n’ont qu’un seul g`ene par esp`ece, alors la topologie de AB est exactement celle de l’arbre d’esp`eces (alors que UPGMA aurait joint r(A) et r(B) sous une racine commune). Sinon, B est greff´e `a A de fa¸con `a minimiser le coˆut de r´econciliation. D’autres r`egles s’appliquent et permettent, entre autre, d’inf´erer les longueurs des branches sur l’arbre trouv´e.

SPIMAP [131] (2011): les auteurs de SPIMAP d´efinissent un mod`ele ´evolutif permettant de calculer la probabilit´e d’un arbre de g`enes (et autres param`etres tels que la longueur des branches et les taux de duplications et pertes) ´etant donn´e un arbre d’esp`eces. La m´ethode construit d’abord un arbre Neighjor-Joining et, d’une fa¸con similaire aux heuristiques pour le

maximum de parcimonie/vraisemblance, effectue une recherche `a partir de cet arbre afin de trouver celui qui maximise la probabilit´e.

PHYLDOG [15] (2013): cet algorithme est le seul de cette liste `a ne pas prendre en entr´ee un arbre d’esp`eces. En fait, ´etant donn´e un ensemble de familles de g`enes (avec leurs s´equences), PHYLDOG fait de la co-estimation, c’est-`a-dire qu’il inf`ere `a la fois un arbre d’esp`eces et un arbre de g`enes pour chaque famille. Ceci se traduit par la recherche des arbres de g`enes, de l’arbre d’esp`eces et des ´ev´enements de duplication et pertes qui sont les plus probables. Un arbre d’esp`eces initial est inf´er´e et sert `a estimer un premier ensemble d’arbres de g`enes. Ceux-ci servent ensuite `a am´eliorer l’arbre d’esp`eces, qui sert `a r´e-inf´erer les arbres de g`enes, et ainsi de suite. TERA [141] (2014): `a partir d’un ensemble d’arbres de g`enes (par exem- ple un ´echantillon obtenu par une m´ethode d’inf´erence bay´esienne), cette m´ethode construit un arbre de g`enes dans lequel chaque clade fait partie d’au moins un des arbres donn´es en entr´ee (ce que les auteurs appellent un amalgame). Le choix de cet arbre est bas´e sur une combinaison du score de vraisemblance et du coˆut de r´econciliation en tenant compte des dupli- cations, pertes et transferts horizontaux. Un algorithme de programmation dynamique permet d’explorer l’espace des arbres.

3.2.4 Bootstrapping

Les m´ethodes de construction qui utilisent les s´equences (incluant les m´ethodes par distances) permettent d’effectuer un bootstrapping, un des tests statistiques les plus r´epandus afin d’´evaluer la robustesse d’un arbre inf´er´e par un algorithme A [56]. Si M est la matrice des s´equences, on obtient une nouvelle matrice M′ en choisissant al´eatoirement un certain nombre n< n

de colonnes de M . La mˆeme colonne peut se r´ep´eter et les colonnes peu- vent ˆetre ordonn´ees au hasard. On ex´ecute ensuite A sur cette nouvelle matrice M′ pour obtenir un arbre bootstrap T. On r´ep`ete ensuite cette

op´eration un grand nombre de fois, puis on ´evalue les branches de T . La valeur de bootstrap b(xy) d’une branche xy est donn´ee par la proportion des arbres bootstrap qui contiennent la branche xy (un arbre enracin´e “contient la branche” xy s’il contient clade(x), o`u x est l’enfant de y, et un arbre non- enracin´e contient xy s’il contient le split xy). La valeur b(xy) repr´esente donc le support de la branche xy. Les branches ayant un faible support sont tr`es sensibles aux s´equences, et on peut difficilement leur faire confiance ´etant donn´e les erreurs pouvant s’ins´erer dans les donn´ees. On fait g´en´eralement confiance aux branches ayant un support au-dessus de 0.8.