Méthodes spécifiques à la construction d’arbres de gènes

CHAPITRE 2: CONTEXTE BIOLOGIQUE ET INFORMA-

3.2 Méthodes d’inférence phylogénétique

3.2.3 Méthodes spécifiques à la construction d’arbres de gènes

pour la construction d’arbres de gènes suivent le même principe: intégrer l’information de l’arbre d’espèces et/ou de la réconciliation aux méthodes décrites ci-haut. Ces méthodes, que nous survolons ici, sont assez récentes, datant d’au plus une dizaine d’années.

SYNERGY [167] (2007): cette méthode basée sur les distances incorpore, à la reconstruction de l’arbre de gènes, des informations basées sur l’arbre d’espèces et la synténie. C’est d’ailleurs la seule qui, à notre connaissance, considère cette dernière source d’information. La synténie, avec les distances d’alignement entre les séquences, est utilisée dans le calcul de la distance entre deux gènes - les paires de gènes faisant partie de blocs synténiques sont considérés comme plus proches, la taille du bloc étant considérée dans cette mesure de proximité. Une mesure de distance entre deux groupes de gènes est également proposée. SYNERGY construit récursivement un ensemble

d’arbres de gènes à partir de la racine de l’arbre d’espèces. Si s1 et s2 sont

les enfants de la racine, un ensemble d’arbres de g`enes G1 (resp. G2) est

construit à partir des gènes présents dans un descendant de s1 (resp. s2).

Une distance est calcul´ee entre chaque paire d’arbres de G1∪G2, et Neighbor-

Joining est ensuite utilis´e pour joindre les arbres de G1∪ G2 en un seul.

Prime-GSR [2] (2009): l’algorithme Prime-GSR (la signification de l’acronyme GSR n’est spécifiée nulle part) est une méthode Bayésienne qui étend celle décrite plus haut en y incorporant la réconciliation. Plus précisément, l’arbre d’espèces est utilisé pour rattacher à un arbre candidat G une probabilité à chacune de ses réconciliations possibles. Cette distribution fait partie de la probabilité associée à G et sert à déterminer la distribution de transition et d’acceptation/rejet dans les méthodes MCMC.

GIGA [161] (2010): l’algorithme GIGA (Gene tree Inference in the Genomic Age) est une méthode basée sur les distances qui incorpore l’arbre d’espèces et la réconciliation à la construction. La procédure s’apparente à UPGMA mais définit un ensemble de règles basées sur des informations génomiques permettant de réarranger l’arbre pendant sa construction. Par exemple, si deux sous-arbres A et B doivent être joints en un seul arbre AB à une certaine étape, et que A et B n’ont qu’un seul gène par espèce, alors la topologie de AB est exactement celle de l’arbre d’espèces (alors que UPGMA aurait joint r(A) et r(B) sous une racine commune). Sinon, B est greffé à A de fa¸con à minimiser le coût de réconciliation. D’autres règles s’appliquent et permettent, entre autre, d’inférer les longueurs des branches sur l’arbre trouvé.

SPIMAP [131] (2011): les auteurs de SPIMAP définissent un modèle évolutif permettant de calculer la probabilité d’un arbre de gènes (et autres paramètres tels que la longueur des branches et les taux de duplications et pertes) étant donné un arbre d’espèces. La méthode construit d’abord un arbre Neighjor-Joining et, d’une fa¸con similaire aux heuristiques pour le

maximum de parcimonie/vraisemblance, effectue une recherche `a partir de cet arbre afin de trouver celui qui maximise la probabilit´e.

PHYLDOG [15] (2013): cet algorithme est le seul de cette liste à ne pas prendre en entrée un arbre d’espèces. En fait, étant donné un ensemble de familles de gènes (avec leurs séquences), PHYLDOG fait de la co-estimation, c’est-à-dire qu’il infère à la fois un arbre d’espèces et un arbre de gènes pour chaque famille. Ceci se traduit par la recherche des arbres de gènes, de l’arbre d’espèces et des événements de duplication et pertes qui sont les plus probables. Un arbre d’espèces initial est inféré et sert à estimer un premier ensemble d’arbres de gènes. Ceux-ci servent ensuite à améliorer l’arbre d’espèces, qui sert à ré-inférer les arbres de gènes, et ainsi de suite. TERA [141] (2014): à partir d’un ensemble d’arbres de gènes (par exemple un échantillon obtenu par une méthode d’inférence bayésienne), cette méthode construit un arbre de gènes dans lequel chaque clade fait partie d’au moins un des arbres donnés en entrée (ce que les auteurs appellent un amalgame). Le choix de cet arbre est basé sur une combinaison du score de vraisemblance et du coût de réconciliation en tenant compte des duplications, pertes et transferts horizontaux. Un algorithme de programmation dynamique permet d’explorer l’espace des arbres.

3.2.4 Bootstrapping

Les méthodes de construction qui utilisent les séquences (incluant les méthodes par distances) permettent d’effectuer un bootstrapping, un des tests statistiques les plus répandus afin d’évaluer la robustesse d’un arbre inféré par un algorithme A [56]. Si M est la matrice des séquences, on obtient une nouvelle matrice M′ _{en choisissant aléatoirement un certain nombre n}′ _{< n}

de colonnes de M . La même colonne peut se répéter et les colonnes peu- vent être ordonnées au hasard. On exécute ensuite A sur cette nouvelle matrice M′ _{pour obtenir un arbre bootstrap T}′_{. On répète ensuite cette}

opération un grand nombre de fois, puis on évalue les branches de T . La valeur de bootstrap b(xy) d’une branche xy est donnée par la proportion des arbres bootstrap qui contiennent la branche xy (un arbre enraciné “contient la branche” xy s’il contient clade(x), où x est l’enfant de y, et un arbre non- enraciné contient xy s’il contient le split xy). La valeur b(xy) représente donc le support de la branche xy. Les branches ayant un faible support sont très sensibles aux séquences, et on peut difficilement leur faire confiance étant donné les erreurs pouvant s’insérer dans les données. On fait généralement confiance aux branches ayant un support au-dessus de 0.8.

Dans le document Algorithmes de construction et correction d'arbres de gènes par la réconciliation (Page 64-67)