• Aucun résultat trouvé

CHAPITRE 2: CONTEXTE BIOLOGIQUE ET INFORMA-

2.4 Mod`ele DLS et r´econciliation

2.4.1 Parcimonie et autres r´econciliations

La r´econciliation d´ecrite ci-haut, qui est utilis´ee `a travers cette th`ese, s’appuie sur le principe de la parcimonie. La minimisation des duplications

8

Notons qu’au sens strict, G doit contenir un g`ene pour chaque esp`ece de S - nous laissons le soin au lecteur de v´erifier qu’ajouter une copie de S dans G ne change pas le r´esultat)

et pertes est justifi´ee par l’id´ee que l’explication la plus simple est celle qui devrait ˆetre pr´ef´er´ee. On l’appelle d’ailleurs la MPR dans la litt´erature, pour Most Parsimonious Reconciliation. La vie serait bien ´evidemment trop facile si la parcimonie ´etait toujours respect´ee, et quelques autres mod`eles de r´econciliation ont ´et´e imagin´es. Dans [145], on propose une m´ethode Bay´esienne permettant d’inf´erer une distribution de probabilit´es sur les r´econciliations possibles. Le mod`ele ´etudi´e est plus complexe qu’ici et se base sur la vraisemblance statistique d’un mapping g`ene-esp`ece et d’une r´econciliation. La fonction de vraisemblance est calcul´ee `a partir des s´equences des g`enes, d’un mod`ele d’´evolution et de taux de substitutions sur les branches de l’arbre de g`enes. Dans ce mod`ele, des ´ev´enements sous- optimaux au point de vue parcimonie sont permis, puisqu’ils peuvent ˆetre mieux support´es au point de vue de la vraisemblance. Il est donc possible que le mapping g`ene-esp`ece le plus vraisemblable ne soit pas le lca-mapping, et que des pertes et duplications n’apparaissant pas dans la MPR soient inf´er´ees. Le mod`ele n´ecessite l’apprentissage de taux de pertes et duplications, ainsi qu’une estimation des temps repr´esent´es par les branches des arbres. Les auteurs de [45] ont ´etudi´e la distribution des r´econciliations obtenues et ont montr´e qu’elle est domin´ee par un petit ensemble de r´econciliations qui sont tr`es proches de la MPR. L’exactitude de la MPR est toutefois d´ebattue. Dans [131], une ´etude empirique sur des arbres simul´es montre que dans 98% des cas, la r´econciliation MPR est la plus statistiquement vraisemblable. Ceci contraste avec les r´esultats dans [110], o`u les auteurs obtiennent, sur des ar- bres de vert´ebr´es, que dans 19% des cas, la r´econciliation MPR n’est pas la plus vraisemblable - les auteurs expliquent cette diff´erence par leur utilisa- tion d’un mod`ele ´evolutif plus r´ealiste. Mentionnons aussi que la premi`ere ´etude a ´et´e faite sur des arbres simul´es alors que la seconde a ´et´e faite sur des donn´ees r´eelles. Nous n’allons pas nous engluer davantage dans ce d´ebat ici et allons nous contenter de la r´econciliation MPR.

Notons par ailleurs qu’il existe des m´ethodes de r´econciliation perme-

ttant d’incorporer d’autres ´ev´enements ´evolutifs. En particulier, on peut s’int´eresser au mod`ele DTLS, o`u les transferts horizontaux de g`enes sont permis, i.e. le transfert de g`enes d’une esp`ece `a une autre esp`ece ayant exist´e `a la mˆeme ´epoque. La plupart des travaux faits dans ce mod`ele se basent sur la parcimonie. On cherche alors `a minimiser les ´ev´enements de dupli- cations et transferts, et parfois aussi de pertes. Ce type de r´econciliation ´etend la notion d’arbre d’esp`eces `a celle de r´eseaux phylog´en´etiques [86], qui peut ˆetre vu comme un arbre orient´e auquel on ajoute des arcs entre des noeuds qui sont s´epar´es. On ne connaˆıt habituellement pas ces arcs, et ils doivent souvent ˆetre inf´er´es pendant la r´econciliation. Toutefois, on veut ´eviter de produire des sc´enarios dans lesquels une esp`ece transmet un g`ene `a une esp`ece ayant autre exist´e `a une autre ´epoque. En particulier, le r´eseau phylog´en´etique d’esp`eces doit ˆetre sans cycle. Le probl`eme de minimiser le nombre de duplications et de transferts seulement devient NP-complet lorsqu’on ne sait pas quelles esp`eces ont cohabit´e [73], mais peut se faire en temps polynomial si les branches de l’arbre d’esp`eces sont dat´ees [44]. Tel que mentionn´e plus haut, le lca-mapping n’est plus valable en pr´esence de transferts, et il y a une multitude d’esp`eces auxquelles un g`ene ancestral a pu appartenir. L’algorithme de minimisation de duplications et transferts accomplit sa tˆache en remplissant une table de programmation dynamique `a deux dimensions: une pour les g`enes ancestraux et une pour les esp`eces ancestrales. Un coˆut de r´econciliation est calcul´e pour chaque paire (g, s) de g`ene et d’esp`ece repr´esentant le mapping s(g) = s.

Aussi, on fait ´etat dans [170] et [132] de la r´econciliation avec pertes, duplications et coalescence profonde. Cette notion explique les diff´erences entre G et S par la coexistence de plusieurs all`eles d’un g`ene qui ´evoluent diff´eremment. L’article propose une heuristique dont le temps et la pr´ecision th´eoriques restent vagues, et la complexit´e du probl`eme demeure inconnue.

CHAPITRE 3

CONSTRUCTION ET CORRECTION D’ARBRES DE G`ENES

Nous d´ecrivons dans ce chapitre les m´ethodes algorithmiques li´ees `a la construction et `a la correction d’arbres de g`enes. Nous adoptons ici le pro- cessus d’inf´erence d’arbre de g`enes bas´e sur les trois grandes ´etapes suivantes:

1. inf´erer une famille F de g`enes homologues;

2. construire un arbre de g`enes `a partir des s´equences de F align´ees; 3. d´etecter les erreurs pr´esentes dans G et le corriger/l’am´eliorer.

Nous survolons dans ce chapitre les m´ethodes permettant de r´ealiser chacune de ces ´etapes. Dans cette th`ese, nous nous concentrons surtout sur la d´etection et la correction d’erreurs (chapitres 4, 5 et 6). Une bonne connaissance des m´ethodes actuelles d’inf´erence de familles et ar- bres de g`enes est toutefois n´ecessaire afin de comprendre d’o`u proviennent les erreurs et ainsi motiver la n´ecessit´e d’algorithmes de correction. Nous d´ecrivons donc bri`evement dans la section 3.1 comment les familles de g`enes sont g´en´eralement inf´er´ees et, dans la section 3.2, survolons les m´ethodes d’inf´erence phylog´en´etique traditionnelles. Celles-ci sont g´en´eriques et appli- cables `a des jeux de donn´ees qui ne sont pas n´ecessairement issus de la biolo- gie. Nous compl´etons donc cette section en pr´esentant les r´ecentes m´ethodes d’inf´erence qui s’appliquent sp´ecifiquement aux arbres de g`enes.

Aussi, comme nous le verrons dans le chapitre 7, il est possible de par- titionner une famille en sous-groupes de g`enes qui sont plus faciles `a traiter (par exemple en groupe d’orthologues), puis d’inf´erer un arbre pour cha- cun de ces groupes. On obtient ainsi des arbres de g`enes en lesquels on a un meilleur degr´e de confiance, que l’on peut ensuite combiner en un seul

“superarbre”. Il existe bien des fa¸cons de d´efinir ce qu’est un ‘bon’ superar- bre et, cons´equemment, une multitude de m´ethodes existent pour combiner plusieurs arbres en un. Nous passons en revue ces m´ethodes dans la sec- tion 3.3, en mettant l’emphase sur l’algorithme Build. Ces m´ethodes sont g´en´erales et peuvent s’appliquer `a n’importe quel type d’arbre, et nous mon- trons comment Build peut ˆetre ´etendu au cas sp´ecifique de superarbre de g`enes dans le chapitre 7.

Nous terminons ce chapitre par la section 3.4, qui d´ecrit les principales sources d’erreur au sein d’un arbre de g`enes, puis propose une revue des m´ethodes actuelles de correction d’arbres de g`enes. C’est dans le cadre du d´eveloppement de telles m´ethodes de correction que viennent se placer les algorithmes pr´esent´es dans cette th`ese.