• Aucun résultat trouvé

Avanc´ees r´ecentes

Dans le document The DART-Europe E-theses Portal (Page 46-49)

Nous pr´esentons ici deux approches r´ecentes, permettant de prendre en compte des caract´eristiques importantes de l’´evolution des s´equences g´en´etiques, et offrant ainsi la possibilit´e d’am´eliorer l’ajustement des mod`eles de substitution aux donn´ees analys´ees.

2.5.1 Mod´ elisation de la variabilit´ e des vitesses entre sites

L’h´et´erog´en´eit´e des vitesses d’´evolution est une caract´eristique ´evolutive tr`es r´epandue au sein des s´equences nucl´eiques (Uzzell et Corbin, 1971; Wakeley, 1993; Sullivan et al., 1995; Yang et Kumar, 1996;

Yang, 1996). La structure mˆeme du code g´en´etique favorise cette variabilit´e : la probabilit´e qu’une muta-tion sur la troisi`eme posimuta-tion d’un codon modifie la nature de l’acide amin´e traduit, est bien plus faible que si la mutation se produit sur la premi`ere ou sur la seconde position. Il en r´esulte une vitesse d’´evolution des sites en troisi`eme position bien sup´erieure `a celles des sites en premi`ere ou seconde position.

Ignorer cette variabilit´e alors qu’elle affecte effectivement les s´equences peut causer divers probl`emes.

Par exemple, les distances ´evolutives sont sous-estim´ees lorsque ce facteur n’est pas pris en compte (Jin et Nei, 1990; Tateno et al., 1994). Il en r´esulte une sous-estimation des longueurs de branches et du ratio transition/transversion dans le meilleur des cas (Wakeley, 1994), et des erreurs dans la topologie de la phylog´enie inf´er´ee dans le pire des cas (Yang, 1993; Yang et al., 1994; Tateno et al., 1994).

L’analyse de diff´erents groupes de g`enes homologues montre que le nombre de substitutions par site est approximativement distribu´e suivant une loi binomiale n´egative (Uzzel et Corbin, 1971 mais voir aussi Golding, 1983 pour une revue plus compl`ete). Ceci indique qu’une loi gamma repr´esente convenablement la distribution des taux de substitutions par site. Cette loi pr´esente un param`etre de forme, not´e a, dont la valeur est une fonction d´ecroissante de l’intensit´e de la variabilit´e des taux. Les trois distributions pr´esent´ees dans la Figure 2.8 correspondent `a trois valeurs distinctes dea. Dans cet exemple, les esp´erances de ces distributions sont toutes trois ´egales `a 1.0.

La loi gamma a ´et´e introduite dans le cadre de l’estimation de distances ´evolutives (Golding, 1983;

Jin et Nei, 1990; Tamura et Nei, 1993; Rzhetsky et Nei, 1994). La probabilit´e que deux s´equences ayant diverg´e `a un instant t ant´erieur `a l’instant pr´esent, diff´erent `a un site pris au hasard est alors donn´ee par :

p(2t) = Z

0

p(2tλ)g(λ)dλ

o`uλest un facteur multiplicatif distribu´e selon une loi gamma d’esp´erance ´egale `a 1.0 et dont la fonction de r´epartition est not´eeg(λ). La r´esolution de cette ´equation pour le mod`ele JC69 donne :

p(2t) =3 4 −3

4 a

a+ 8t a

o`u aest le param`etre de forme de la loi gamma. En combinant cette expression avec l’´equation 2.7, on

0.00.20.40.60.81.01.2

facteur multiplicatif

densit´edeprobabilit´e

a= 0.3

a= 1 a= 10

0 1 2 3 44

Fig.2.8 –Loi gamma.L’axe des abscisses reporte la valeur du facteur multiplicatif de la vitesse moyenne d’´evolution. Les esp´erances de ces trois distributions sont ´egales `a 1.0 et leurs variances sont des fonctions d´ecroissantes de a, le param`etre de forme de la loi.

obtient :

dJC69=3 4a

(1−4

3p(2t))1/a−1

La distance estim´ee est donc :

dbJC69= 3 4α

(1−4

3p)b1/α−1

(2.17) L’estimateur de la distance ´evolutive est donc une fonction deα: la valeur estim´ee du param`etre de forme de la loi gamma. Il existe plusieurs m´ethodes pour estimer ce param`etre (Sullivan et al., 1995; Yang et Kumar, 1996; Tourasse et Gouy, 1997; Gu et Zhang, 1997). L’objectif de ces derni`eres est d’approcher la valeur du param`etre d´ecrivant au mieux la variabilit´e r´eelle des vitesses d’´evolution entre sites. Une nouvelle approche (Guindon et Gascuel, 2002 ; Annexe A) est pr´esent´ee au chapitre 4. Contrairement aux autres travaux, l’estimation vise ici `a d´efinir la valeur deαla plus adapt´ee pour la construction de topologies d’arbres `a partir de distances estim´ees.

Yang (1993) est le premier `a d´ecrire une impl´ementation de la loi gamma dans le cadre du maximum de vraisemblance. L’expression de la vraisemblance d’une phylog´enie est la suivante :

L=

Np

Y

s=1

Z

0

g(λ)Ls(λ)dλ

o`u Ls(λ) est la vraisemblance de la phylog´enie au site s lorsque toutes les longueurs de branches sont

multipli´ees parλ. Int´egrer la vraisemblance sur une distribution continue des valeurs deλest tr`es coˆuteux en temps de calcul et utiliser une approximation discr`ete de cette distribution est une solution efficace.

La vraisemblance s’´ecrit alors :

o`u C est le nombre de cat´egories de la loi gamma discr´etis´ee, λc est le facteur multiplicatif correspon-dant `a la cat´egoriec et h(λc) est la probabilit´e de la cat´egoriec. Yang (1994) propose une m´ethode de discr´etisation de la loi gamma aboutissant `a une distribution uniforme pourh(λc). On a donc :

L=

En pratique, quatre cat´egories suffisent pour approximer de mani`ere convenable la distribution continue (Yang et al., 1994). Le temps de calcul de la vraisemblance d’une phylog´enie est donc, dans ce cas, multipli´e par quatre par rapport au cas o`u la variabilit´e des vitesses entre sites n’est pas prise en compte.

La formule de calcul r´ecursif de la vraisemblance (´equation 2.12) s’´ecrit alors :

Ls=

o`uLs(u=y, λc) est la vraisemblance du sous-arbre dontuest la racine, conditionnellement `a l’´etaty et lorsque les longueurs de l’ensemble des branches de la phylog´enie sont multipli´ees par λc. Pour chacune des valeurs de λc, le calcul de la vraisemblance s’effectue de mani`ere standard et les algorithmes 1 et 2 peuvent ˆetre utilis´es pour l’obtention des vraisemblances conditionnelles.

2.5.2 Mod´ elisation de la variabilit´ e des vitesses entre lign´ ees

Les mod`eles d´ecrits pr´ec´edemment reposent sur l’hypoth`ese de constance de la vitesse d’´evolution de chaque site au cours du temps. Or, des fluctuations environnementales peuvent engendrer des variations de pression s´elective et ainsi affecter la vitesse d’´evolution des macromol´ecules. Aussi, `a la suite de la duplication d’un g`ene, il est tr`es fr´equent d’observer une augmentation de la vitesse d’´evolution au sein d’une des deux copies puis un ralentissement lorsqu’un nouvel ´equilibre fonctionnel et structural est atteint.

Tr`es r´ecemment, Galtier (2001), a propos´e un mod`ele permettant de d´ecrire les variations de vitesses le long d’une phylog´enie. Les taux multiplicatifs de la loi gamma discr´etis´ee, correspondant aux facteurs d’acc´el´eration de la vitesse d’´evolution d’un site dans l’exemple pr´ec´edent, sont, l`a-encore, des facteurs d’acc´el´eration, mais ceux-ci s’appliquent `a pr´esent `a chaque position dans la phylog´enie. Dans ce mod`ele,

les substitutions concernent `a la fois les changements en bases mais aussi les transitions entre vitesses d’´evolution.

Reprenons l’arbre mod`ele de la Figure 2.5a. La vraisemblance d’une phylog´enie `a un site donn´e s’´ecrit ici :

Pxy,λrλk(lu) est la probabilit´e de changement de l’´etatxvers l’´etaty et du facteur d’acc´el´erationλr par λk sur une branche de taillelu. Pxy,λrλk(lv) est d´efini de mani`ere similaire. Les probabilit´es de change-ments concernent donc ici les ´etats des caract`eres ainsi que les vitesses d’´evolution.Ls(u=y, λk) est la vraisemblance du sous-arbre dontuest la racine conditionnellement `a l’´etatyet au facteur d’acc´el´eration λk `a ce noeud. Les probabilit´es de changements s’obtiennent `a partir de l’expression :

Pxy,λrλk(l) =Pxy|λrλk(l)Pλrλk(l)

Le termePλrλk(l) est une fonction deλrketlainsi que d’un param`etre, not´eν, repr´esentant la fr´equence des variations de vitesses d’´evolution.νest le seul param`etre suppl´ementaire compar´e au mod`ele pr´ec´edent et le temps de calcul de la vraisemblance de la phylog´enie `a un site est `a nouveau multipli´e parC.

L’analyse de s´equences homologues d’ARN ribosomique sugg`ere que la variation des vitesses d’´evolu-tion au sein de la phylog´enie est ici une caract´eristique importante du mode d’´evolud’´evolu-tion. En effet, tenir compte de ce ph´enom`ene am´eliore significativement l’ajustement du mod`ele aux donn´ees. Cette conclusion s’applique tr`es certainement `a la plupart des jeux de donn´ees pour lesquels les divergences entre s´equences sont tr`es anciennes. L’utilisation de ce type de mod`ele devrait donc ˆetre profitable `a l’estimation d’une phylog´enie universelle `a partir de la comparaison de s´equences homologues (Lopez et al., 1999; Philippe et al., 2000).

Dans le document The DART-Europe E-theses Portal (Page 46-49)