Parcimonie et autres réconciliations - Modèle DLS et réconciliation

CHAPITRE 2: CONTEXTE BIOLOGIQUE ET INFORMA-

2.4 Mod`ele DLS et r´econciliation

2.4.1 Parcimonie et autres r´econciliations

La réconciliation décrite ci-haut, qui est utilisée à travers cette thèse, s’appuie sur le principe de la parcimonie. La minimisation des duplications

Notons qu’au sens strict, G doit contenir un gène pour chaque espèce de S - nous laissons le soin au lecteur de vérifier qu’ajouter une copie de S dans G ne change pas le résultat)

et pertes est justifiée par l’idée que l’explication la plus simple est celle qui devrait être préférée. On l’appelle d’ailleurs la MPR dans la littérature, pour Most Parsimonious Reconciliation. La vie serait bien évidemment trop facile si la parcimonie était toujours respectée, et quelques autres modèles de réconciliation ont été imaginés. Dans [145], on propose une méthode Bayésienne permettant d’inférer une distribution de probabilités sur les réconciliations possibles. Le modèle étudié est plus complexe qu’ici et se base sur la vraisemblance statistique d’un mapping gène-espèce et d’une réconciliation. La fonction de vraisemblance est calculée à partir des séquences des gènes, d’un modèle d’évolution et de taux de substitutions sur les branches de l’arbre de gènes. Dans ce modèle, des événements sous- optimaux au point de vue parcimonie sont permis, puisqu’ils peuvent être mieux supportés au point de vue de la vraisemblance. Il est donc possible que le mapping gène-espèce le plus vraisemblable ne soit pas le lca-mapping, et que des pertes et duplications n’apparaissant pas dans la MPR soient inférées. Le modèle nécessite l’apprentissage de taux de pertes et duplications, ainsi qu’une estimation des temps représentés par les branches des arbres. Les auteurs de [45] ont étudié la distribution des réconciliations obtenues et ont montré qu’elle est dominée par un petit ensemble de réconciliations qui sont très proches de la MPR. L’exactitude de la MPR est toutefois débattue. Dans [131], une étude empirique sur des arbres simulés montre que dans 98% des cas, la réconciliation MPR est la plus statistiquement vraisemblable. Ceci contraste avec les résultats dans [110], où les auteurs obtiennent, sur des arbres de vertébrés, que dans 19% des cas, la réconciliation MPR n’est pas la plus vraisemblable - les auteurs expliquent cette différence par leur utilisa- tion d’un modèle évolutif plus réaliste. Mentionnons aussi que la première étude a été faite sur des arbres simulés alors que la seconde a été faite sur des données réelles. Nous n’allons pas nous engluer davantage dans ce débat ici et allons nous contenter de la réconciliation MPR.

Notons par ailleurs qu’il existe des m´ethodes de r´econciliation perme-

ttant d’incorporer d’autres événements évolutifs. En particulier, on peut s’intéresser au modèle DTLS, où les transferts horizontaux de gènes sont permis, i.e. le transfert de gènes d’une espèce à une autre espèce ayant existé à la même époque. La plupart des travaux faits dans ce modèle se basent sur la parcimonie. On cherche alors à minimiser les événements de duplications et transferts, et parfois aussi de pertes. Ce type de réconciliation étend la notion d’arbre d’espèces à celle de réseaux phylogénétiques [86], qui peut être vu comme un arbre orienté auquel on ajoute des arcs entre des noeuds qui sont séparés. On ne connaˆıt habituellement pas ces arcs, et ils doivent souvent être inférés pendant la réconciliation. Toutefois, on veut éviter de produire des scénarios dans lesquels une espèce transmet un gène à une espèce ayant autre existé à une autre époque. En particulier, le réseau phylogénétique d’espèces doit être sans cycle. Le problème de minimiser le nombre de duplications et de transferts seulement devient NP-complet lorsqu’on ne sait pas quelles espèces ont cohabité [73], mais peut se faire en temps polynomial si les branches de l’arbre d’espèces sont datées [44]. Tel que mentionné plus haut, le lca-mapping n’est plus valable en présence de transferts, et il y a une multitude d’espèces auxquelles un gène ancestral a pu appartenir. L’algorithme de minimisation de duplications et transferts accomplit sa tâche en remplissant une table de programmation dynamique à deux dimensions: une pour les gènes ancestraux et une pour les espèces ancestrales. Un coût de réconciliation est calculé pour chaque paire (g, s) de gène et d’espèce représentant le mapping s(g) = s.

Aussi, on fait état dans [170] et [132] de la réconciliation avec pertes, duplications et coalescence profonde. Cette notion explique les différences entre G et S par la coexistence de plusieurs allèles d’un gène qui évoluent différemment. L’article propose une heuristique dont le temps et la précision théoriques restent vagues, et la complexité du problème demeure inconnue.

CHAPITRE 3

CONSTRUCTION ET CORRECTION D’ARBRES DE G`ENES

Nous décrivons dans ce chapitre les méthodes algorithmiques liées à la construction et à la correction d’arbres de gènes. Nous adoptons ici le pro- cessus d’inférence d’arbre de gènes basé sur les trois grandes étapes suivantes:

1. inf´erer une famille F de g`enes homologues;

2. construire un arbre de gènes à partir des séquences de F alignées; 3. détecter les erreurs présentes dans G et le corriger/l’améliorer.

Nous survolons dans ce chapitre les méthodes permettant de réaliser chacune de ces étapes. Dans cette thèse, nous nous concentrons surtout sur la détection et la correction d’erreurs (chapitres 4, 5 et 6). Une bonne connaissance des méthodes actuelles d’inférence de familles et arbres de gènes est toutefois nécessaire afin de comprendre d’où proviennent les erreurs et ainsi motiver la nécessité d’algorithmes de correction. Nous décrivons donc brièvement dans la section 3.1 comment les familles de gènes sont généralement inférées et, dans la section 3.2, survolons les méthodes d’inférence phylogénétique traditionnelles. Celles-ci sont génériques et appli- cables à des jeux de données qui ne sont pas nécessairement issus de la biolo- gie. Nous complétons donc cette section en présentant les récentes méthodes d’inférence qui s’appliquent spécifiquement aux arbres de gènes.

Aussi, comme nous le verrons dans le chapitre 7, il est possible de par- titionner une famille en sous-groupes de gènes qui sont plus faciles à traiter (par exemple en groupe d’orthologues), puis d’inférer un arbre pour cha- cun de ces groupes. On obtient ainsi des arbres de gènes en lesquels on a un meilleur degré de confiance, que l’on peut ensuite combiner en un seul

“superarbre”. Il existe bien des fa¸cons de définir ce qu’est un ‘bon’ superarbre et, conséquemment, une multitude de méthodes existent pour combiner plusieurs arbres en un. Nous passons en revue ces méthodes dans la section 3.3, en mettant l’emphase sur l’algorithme Build. Ces méthodes sont générales et peuvent s’appliquer à n’importe quel type d’arbre, et nous mon- trons comment Build peut être étendu au cas spécifique de superarbre de gènes dans le chapitre 7.

Nous terminons ce chapitre par la section 3.4, qui décrit les principales sources d’erreur au sein d’un arbre de gènes, puis propose une revue des méthodes actuelles de correction d’arbres de gènes. C’est dans le cadre du développement de telles méthodes de correction que viennent se placer les algorithmes présentés dans cette thèse.

Dans le document Algorithmes de construction et correction d'arbres de gènes par la réconciliation (Page 52-56)