• Aucun résultat trouvé

Sources d’erreur dans les arbres de g`enes

CHAPITRE 2: CONTEXTE BIOLOGIQUE ET INFORMA-

3.4 D´etection d’erreurs et correction d’arbres de g`enes

3.4.1 Sources d’erreur dans les arbres de g`enes

Il existe une multitude de sources d’erreur pouvant faire en sorte qu’un arbre de g`enes est erron´e. Nous en ´enum´erons ici quelques unes:

Mauvaise diff´erentiation au niveau des s´equences: les signaux phy- log´en´etiques envoy´es par les s´equences peuvent parfois ˆetre trop faibles pour en d´eduire des arbres pr´ecis [123]. Il se peut que certains g`enes aient des s´equences trop similaires, ou bien que les diff´erences entre trois g`enes ou plus n’indiquent pas de topologie claire (par exemple, que faire avec trois g`enes tous diff´erents mais ´equidistants, i.e. chaque paire de g`enes a la mˆeme dis- tance). Face `a de telles ambigu¨ıt´es, les algorithmes de construction d’arbre doivent soit effectuer un choix, soit laisser des parties de l’arbre non-r´esolues, donnant ainsi lieu `a des polytomies.

Famille de g`enes incorrecte: les m´ethodes de regroupement de g`enes en famille ne sont pas parfaites et peuvent parfois manquer des g`enes homologues lors de l’inf´erence d’une famille. Il se peut par exemple que certains g´enomes

´etudi´es soient partiellement s´equenc´es et que certains g`enes nous soient in- connus. De plus, certains g`enes “intrus” peuvent se retrouver au sein d’une famille `a laquelle ils n’appartiennent pas. Or, la pr´esence ou l’absence d’un g`ene peut avoir un impact significatif sur la topologie d’un arbre inf´er´e par les m´ethodes ´enum´er´ees dans la section 3.2 [136].

Homoplasie: l’homoplasie se d´efinit par la possession de traits similaires ou identiques par deux esp`eces, alors que ces traits n’ont pas ´et´e h´erit´es par un ancˆetre commun de ces esp`eces. L’homoplasie est souvent (mais pas toujours) due `a une adaptation des deux esp`eces `a des conditions environnementales similaires. On peut aussi avoir pr´esence d’homoplasie simplement par chance. On distingue trois types d’homoplasie.

L’´evolution convergente se produit lorsque deux esp`eces n’ayant pas de lien de parent´e direct ´evoluent le mˆeme trait de fa¸con ind´ependante. Un exemple classique est la capacit´e de voler, qui a ´et´e acquise par les oiseaux, les mouches et les chauve-souris alors que le dernier ancˆetre commun de ces esp`eces ne volait pas.

L’´evolution parall`ele se produit lorsque deux esp`eces divergent de leur dernier ancˆetre commun, mais de la mˆeme fa¸con. Les deux esp`eces sont donc similaires, mais diff´erentes de leur ancˆetre. Les feuilles des plantes sont reconnues pour ´evoluer de fa¸con parall`ele, puisque lors d’un changement environnemental, les plantes ont tendance `a s’y adapter d’une fa¸con similaire [124].

Finalement, le renversement ´evolutif se produit lorsqu’un trait avanc´e acquis par une esp`ece revient `a sa version primitive ou est perdu. L’esp`ece redevient donc similaire `a celles qui n’avaient pas acquis ce trait. Par exem- ple, on sait que l’ancˆetre de la grenouille Gastrotheca guentheri poss´edait une dentition inf´erieure, mais elle a ´et´e perdue il y a 230 millions d’ann´ees [168] (les raisons explicant cette perte ne sont pas claires, mais on croit qu’un changement environnemental rendait cette dentition inutile). La grenouille a d’ailleurs “regagn´e” cette dentition il y a 2-30 millions d’ann´ee, un rare cas

de perte et de regain de fonction.

Notons que le ph´enom`ene d’homoplasie peut aussi s’appliquer au niveau mol´eculaire, et donc que des positions correspondantes de deux s´equences peuvent devenir similaires alors qu’elles ne l’´etaient pas. Au niveau phylog´en´etique, le probl`eme avec l’homoplasie, plus particuli`erement avec l’´evolution convergente, est que deux esp`eces ou g`enes en apparence sim- ilaires peuvent ˆetre distants au point de vue ´evolutif. Puisque toutes les m´ethodes de reconstruction phylog´en´etique tentent de rassembler les g`enes et esp`eces qui se ressemblent le plus, autant dans les mod`eles de parcimonie que ceux bas´es sur la vraisemblance, de erreurs seront n´ecessairement intro- duites en pr´esence d’homoplasie - `a moins de pouvoir la d´etecter, ce qui est `a jour une tˆache difficile `a accomplir.

Sous-optimalit´e des algorithmes ou de l’´evolution: les crit`eres d’optimisation utilis´es en inf´erence phylog´en´etique se traduisent souvent en des probl`emes NP-complet, et les algorithmes courants ne peuvent souvent explorer qu’un sous-ensemble de l’espace de solutions. L’optimalit´e de la so- lution n’est donc pas garantie. De plus, mˆeme si c’´etait le cas, il peut parfois y avoir un nombre exponentiel de solutions possible lorsque l’on optimise un ou des crit`eres combinatoires par parcimonie. Cette optimisation est souvent bas´ee sur des param`etres qui doivent ˆetre sp´ecifi´es par l’utilisateur, et ce choix peut mener `a des solutions diff´erentes. Par exemple, on peut vouloir r´esoudre une polytomie en minimisant la r´econciliation, mais en attribuant un coˆut diff´erent aux duplications et aux pertes (e.g. si on suspecte que cer- taines esp`eces sont mal s´equenc´ees, des pertes en cette esp`eces s’expliquent peut-ˆetre par un manque d’informations, et on voudra attribuer un coˆut plus faible aux pertes). Chaque coˆut peut alors mener `a un nombre exponentiel de r´esolutions optimales. Notons aussi que par ailleurs, l’´evolution ne suit pas toujours un chemin optimal, ou ne correspond pas toujours au sc´enario le plus probable.