• Aucun résultat trouvé

Vers une approche statistique pour la phylog´enie

Dans le document The DART-Europe E-theses Portal (Page 21-25)

?

? la

lu

lb

lc

Fig. 1.4 –Arbre mod`ele pour le calcul de vraisemblance d’une phylog´enie.0 et 1 sont les deux

´etats des caract`eres ´etudi´es. ? : l’´etat du caract`ere est inconnu.

la phylog´enie. L’inf´erence bayesienne a ´et´e introduite dans le domaine de la phylog´enie en 1996 par Yang et Rannala. Elle s’est largement d´evelopp´ee depuis et constitue, `a l’heure actuelle, une strat´egie tr`es r´epandue pour l’estimation d’arbres `a partir de donn´ees mol´eculaires. Le principe de cette approche est pr´esent´e au chapitre 2 et d´etaill´e au chapitre 3.

1.4 Vers une approche statistique pour la phylog´ enie

Les mod`eles de substitutions jouent, `a l’heure actuelle, un rˆole central dans le domaine de la phylog´enie.

Ainsi, comme nous l’avons ´evoqu´e pr´ec´edemment, ils sont `a la base de l’estimation de distances ´evolutives ou du calcul de la vraisemblance d’un arbre. Cette place pr´epond´erante s’explique en grande partie par les caract´eristiques favorables des donn´ees mol´eculaires pour l’inf´erence statistique en phylog´enie.

La premi`ere de ces caract´eristiques r´eside dans la nature mˆeme des macromol´ecules analys´ees. Celles-ci sont constitu´ees d’une suite de caract`eres pouvant prendre un nombre d’´etats fini (les quatre bases de l’ADN et les vingt acides amin´es des prot´eines). Il est donc possible de proposer des hypoth`eses simples concernant les m´ecanismes de substitutions entre ces diff´erents ´etats. `A l’oppos´e, d´eterminer la probabilit´e de substitution d’un caract`ere morphologique par un autre en un temps donn´e est g´en´eralement p´erilleux.

Le second avantage pr´esent´e par les donn´ees mol´eculaires est la possibilit´e de disposer d’importantes quantit´es de s´equences. Par exemple, la base de donn´ees RDP propose quelques 16,000 s´equences align´ees d’ARN de la petite sous-unit´e ribosomique. Aussi, en F´evrier 2002, HOBACGEN (Homologous Bacterial Genes Database) (Perri`ere et al., 2000) contenait 260,025 prot´eines organis´ees en pr`es de 24,000 familles homologues potentiellement exploitables pour la construction de phylog´enies. Or, dans le domaine des statistiques inf´erentielles, auquel se rattache l’estimation d’arbres fond´ee sur des mod`eles de substitutions, une m´ethode d’estimation consistanteest d’autant plus fiable que la taille de l’´echantillon analys´e est importante.

Ainsi, d`es 1969, Jukes et Cantor proposent un mod`ele de substitution s’appliquant aux s´equences nucl´eiques et prot´eiques. De nombreuses approches, de plus en plus sophistiqu´ees (voir Swofford et al., 1996 pour une revue) et sp´ecialement adapt´ees aux donn´ees `a analyser (voir Tamura et Nei, 1993 pour un exemple), ont ´et´e d´evelopp´ees par la suite. La validation (et surtout l’invalidation) de ces mod`eles a permis d’affiner nos connaissances sur la mani`ere dont ´evoluent les g`enes et les prot´eines. La construction de phylog´enies `a partir de ceux-ci a aussi largement contribu´e `a remettre en cause ou confirmer certains acquis en syst´ematique (voir Graur et Li, 1991, D’Erchia et al., 1996 puis Murphy et al. 2001 pour l’exemple de la monophylie des rongeurs).

Notons cependant que l’utilisation de mod`eles stochastiques dans le cas des donn´ees mol´eculaires a

´et´e et reste s´ev`erement critiqu´ee par les partisans de l’´ecole cladiste. Le point le plus conflictuel concerne la validit´e biologique des mod`eles propos´es. Il est en effet vraisemblable que ces derniers ne prennent pas en compte toute la complexit´e des processus ´evolutifs auxquels sont soumis les s´equences nucl´eiques ou prot´eiques. Or,a priori, il semble difficile d’´etablir des phylog´enies fiables `a partir de m´ethodes d’inf´erence bas´ees sur des hypoth`eses erron´ees. Cependant, comme le souligne Yang (1997a), en r´eponse `a Purvis et Quicke (1997), la violation des hypoth`eses soutenues par le mod`ele ´evolutif n’engendre pas obligatoirement l’apparition d’erreurs dans l’estimation des phylog´enies. Les m´ethodes bas´ees sur une approche statistique sont g´en´eralement robustes vis `a vis des ´ecarts au mod`ele (Gaut et Lewis, 1995), `a condition que ce dernier capture les grands traits du mode d’´evolution des s´equences.

Par cons´equent, une telle critique ne justifie en aucun cas l’abandon de l’inf´erence statistique en phylog´enie. En revanche, elle indique `a juste titre la n´ecessit´e d’´etablir des mod`eles pertinents, capables de rendre compte du processus ´evolutif de mani`ere r´ealiste, sans toutefois recourir `a un nombre excessif de param`etres. Le chapitre suivant pr´esente et discute les solutions propos´ees.

Mod´ eliser l’´ evolution des s´ equences

La mod´elisation statistique est la traduction en termes math´ematiques d’hypoth`eses concernant le processus de g´en´eration des donn´ees analys´ees. Dans le domaine de l’´evolution mol´eculaire, les donn´ees correspondent `a un alignement de s´equences homologues et le processus se r´ef`ere aux modifications, au cours de l’´evolution, de la suite de caract`eres composant ces s´equences. Ce chapitre est consacr´e `a la description des mod`eles markoviens de substitutions entre bases nucl´eiques ou acides amin´es. Dans un premier temps, nous d´ecrivons les donn´ees ´etudi´ees, puis les hypoth`eses sous lesquelles se placent la plupart des mod`eles sont discut´ees. Les principaux mod`eles de substitution sont pr´esent´es ensuite et leur utilisation dans le cadre des diff´erentes m´ethodes d’inf´erence phylog´en´etique est d´etaill´ee.

2.1 Que mod´ elise-t-on ?

L’´evolution mol´eculaire est rendue possible par l’action conjointe de deux processus : le premier est la g´en´eration de nouveaux variants, ou all`eles, le second est le maintien ou l’´elimination de ceux-ci.

Les nouveaux all`eles sont engendr´es par mutations, c’est `a dire le remplacement d’un nucl´eotide par un autre, par insertion de nucl´eotides, ou par la d´el´etion d’une partie de la s´equence originale. Ces

´ev`enements sont, dans la majorit´e des cas, sans cons´equences car ils affectent les cellules somatiques.

N´eanmoins, lorsque ceux-ci touchent les g´enomes de cellules germinales, les nouveaux all`eles sont transmis

`a la g´en´eration suivante. La d´erive g´en´etique, c’est `a dire l’´echantillonnage al´eatoire des all`eles d’une g´en´eration `a la suivante, peut alors provoquer la perte de certains variants, ou au contraire, leurfixation dans la population apr`es quelques g´en´erations. La s´election naturelle intervient ´egalement `a ce niveau.

Lorsqu’un nouvel all`ele procure un avantage aux individus porteurs, il est s´electionn´epositivementet

´eventuellement fix´e dans la population. Si, au contraire, le nouvel all`ele d´efavorise les individus porteurs, il est s´electionn´en´egativementet, `a terme, ´elimin´e de la population. Dans de nombreux cas, les diff´erents types de s´election coupl´es `a la d´erive g´en´etique permettent de maintenir dans la population plusieurs all`eles `a diff´erentes fr´equences.

Une mutation maintenue au sein de la population est unesubstitution. C’est `a ce niveau qu’intervient

la mod´elisation des processus ´evolutifs en phylog´enie mol´eculaire. Les ´ev`enements de d´el´etion ou insertion ne sont g´en´eralement pas int´egr´es au mod`ele propos´e, bien qu’il existe quelques exceptions (Thorne et al., 1991, 1992 ; Mitchison et Durbin, 1995). Ainsi, les mod`eles actuels englobent deux ´el´ements de natures diff´erentes. Le premier, la mutation, est un processus biochimique, tandis que le second se rapporte aux forces agissant pour le maintien du nouvel all`ele au sein de la population, et donc de l’esp`ece. Le processus de mod´elisation se situe ici au carrefour entre la biologie mol´eculaire et la g´en´etique des populations.

En pratique, les mod`eles sont construits `a partir de l’observation des diff´erents types de diff´erences entre s´equences et ne distinguent donc pas les processus biochimiques de l’action conjointe de la d´erive g´en´etique et la s´election naturelle.

Dans le document The DART-Europe E-theses Portal (Page 21-25)