• Aucun résultat trouvé

2.3 Inf´ erence d’arbre de g` enes

2.3.2 Mod` eles d’´ evolution

´

Evaluer la distance ´evolutive d entre deux s´equences est l’un des points clefs de la phylog´enie mol´eculaire. Consid´erons deux s´equences S1 et S2 ayant diverg´e d’une s´equence ancestrale κ depuis un temps t (Figure2.10). On d´efinit la distance ´evolutive entre S1 et S2 comme ´etant le nombre moyen de substitutions par site ayant eu lieu depuis κ.

ATCACTCGATAG ATCCCTCGCTAG

ATCCCTCGGTAG

C→A

G→A

G→C

ATCACTCGATAG ATCCCTCGCTAG

ATCCCTCGGTAG C→T G→A G→C T→C C→T T→A t ATCACTCGATAG ATCCCTCGCTAG ATCCCTCGGTAG = = =

Figure 2.10 – ´Evolution d’une s´equence κ en deux s´equences S1 et

S2 durant un temps t. A gauche le sc´enario le plus parcimonieux, `a droite la v´eritable histoire ´evolutive.

Soient N le nombre de substitutions observ´ees entre les s´equences S1 et S2, et

` le nombre de sites homologues compar´es. En premi`ere approximation on peut

consid´erer que la distance ´evolutive entre ces deux s´equences est ´egale au rapport

N/`, ´egalement appel´ee p-distance ou divergence observ´ee. Dans ce mod`ele, la

sub-stitution est consid´er´ee comme un ´ev´enement de Bernoulli, c’est-`a-dire qu’`a chaque site il y a ou il n’y a pas de substitution (respectivement succ`es et ´echec de l’´epreuve de Bernoulli). L’ensemble des ` sites suit donc une loi Binomiale. N´eanmoins, cette approximation sous-estime la distance ´evolutive r´eelle d entre les s´equences, en particulier si elles ont diverg´e depuis longtemps. En effet, ce calcul ne prend pas en compte les substitutions interm´ediaires qui ont pu avoir lieu dans chacune des s´equences filles.

Mod`eles markoviens

Afin de prendre en compte les substitutions multiples ou cach´ees, la quasi-totalit´e des mod`eles utilis´es en phylog´enie mol´eculaire sont fond´es sur une mod´elisation markovienne.

Comme dans tout processus de Markov de premier ordre en temps continu, l’´etat du caract`ere i `a un instant t + dt ne d´epend que de sont ´etat en l’instant

t. Ainsi, pour un site donn´e, l’apparition d’une substitution n’est pas d´ependante

des substitutions ayant pu avoir lieu avant l’instant t, et les r´eversions sont pos-sibles. La plupart des mod`eles d’´evolution supposent cinq grandes hypoth`eses : i) l’ind´ependance des sites, ii) l’uniformit´e du processus, iii) son homog´en´eit´e, iv) sa stationnarit´e et v) sa r´eversibilit´e. Ainsi, l’´evolution de tous les sites de toutes les

s´equences est mod´elis´ee par le mˆeme processus, les taux d’´evolution sont constants au cours du temps et, `a l’´equilibre, la quantit´e de changements de l’´etat i vers j est ´egale `a la quantit´e de changements de j vers i.

Dans le cas des s´equences nucl´eotidiques, chaque nucl´eotide i est susceptible d’ˆetre substitu´e en un nucl´eotide j selon un taux qij (avec i, j ∈ {A, T, C, G}). Onefinit la matrice Q, des taux de transitions instantan´es du processus de Markov, par : Q = −λA qAT qAC qAG qT A −λT qT C qT G qCA qCT −λC qCG qGA qGT qGC −λG

avec λjle taux d’´evolution instantan´e du nucl´eotide j tel que λj =P

i,i6=jqij puisque, par d´efinition, la somme des lignes d’une matrice des taux d’un processus de Markov vaut z´ero.

A partir de cette matrice des taux instantan´es, on peut d´efinir la probabilit´e d’une substitution de i vers j pendant un temps t comme ´etant pij(t + dt) ' qijdt. Comme expliqu´e pr´ec´edemment, la pr´esence du nucl´eotide i `a une position donn´ee `

a l’instant t + dt n’est conditionn´ee que par le nucl´eotide pr´esent `a cette position `

a l’instant t. Ainsi, deux sc´enarios sont possibles : i) `a l’instant t, i ´etait pr´esent `a cette position ou ii) un des trois autres nucl´eotides ´etait pr´esent. La probabilit´e de la pr´esence du nucl´eotide i `a l’instant t + dt est donc d´etermin´ee par l’´equation :

Pi(t + dt) = (1 − λidt)Pi(t) +X j6=i

Pj(t)qjidt (2.3)

Soit, sous forme matricielle :

P(t + dt) = P(t) + QP(t)dt

⇒ P(t) = eQt (2.4)

avec P(t) la matrice dite matrice de transition, d´efinie par :

P(t) = pAA(t) pAT(t) pAC(t) pAG(t) pT A(t) pT T(t) pT C(t) pT G(t) pCA(t) pCT(t) pCC(t) pCG(t) pGA(t) pGT(t) pGC(t) pGG(t)

partir du jeu de donn´ees ´etudi´e. En effet, sous les hypoth`eses de stationnarit´e et de r´eversibilit´e, `a l’´equilibre la quantit´e d’´echange i → j est ´egale `a la quantit´e d’´echange j → i. Avec πi la fr´equence de la base i `a l’´equilibre, sous ces hypoth`eses, il vient que :

πipij(t) = πjpji(t) ∀i, j ∈ {A, T, C, G}

⇒ qij = πjsij i 6= j (2.5)

avec sij = sij le param`etre d’´echangeabilit´e entre i et j qu’il est possible de d´ eter-miner `a partir de l’alignement multiples des s´equences ´etudi´ees. A partir de (2.5) on en d´eduit l’expression de la matrice Q telle que :

Q = SΠ = . sAT sAC sAG sAT . sCT sGT sAC sCT . sCG sAG sGT sCG . × πA 0 0 0 0 πT 0 0 0 0 πC 0 0 0 0 πG

L’expression ci-dessus correspond au mod`ele GTR (Generalized Time Rever-sible) soit le mod`ele markovien standard comprenant le plus grand nombre de param`etres (six param`etres d’´echeangeabilit´e et trois param`etres de fr´equences `a l’´equilibre)[208]. L’ensemble des mod`eles classiques (dont certains sont d´ecrits ci-dessous) sont des simplifications du GTR.

Pour d´eterminer la distance ´evolutive d s´eparant deux s´equences, l’hypoth`ese de r´eversibilit´e du processus de Markov permet d’´etablir la relation :

d = 2X

i

πiλit (2.6)

avec πi et λi respectivement les fr´equences `a l’´equilibre et les taux d’´evolutions du nucl´eotide i. L’ensemble des ces ´equations permet de d´eterminer ensuite une rela-tion entre la p-distance et la distance ´evolutive d selon les matrices Q envisag´ees.

a) Mod`eles nucl´eiques

Dans le premier mod`ele de substitution markovien publi´e, Jukes et Cantor [209] ont fix´e tous les taux de substitutions instantan´es comme ´egaux `a α et toutes les fr´equences `a l’´equilibre πi = 1/4. De ce fait, les termes λi sont donc tous ´egaux `a

3α. La matrice Q correspondante s’´ecrit : Q = −λ α α α α −λ α α α α −λ α α α α −λ

La r´esolution de l’´equation (2.4) conduit dans ce cas `a des valeurs de la matrice

P(t) ´egales `a : pii(t) = 1 4 + 3 4e −4αt et pij(t) = 1 4− 1 4e −4αt (2.7) avec i 6= j. Ainsi, `a l’´equilibre (t → ∞), les fr´equences de chaque base sont effecti-vement ´egales `a 1/4. Soit p la p-distance entre deux s´equences, le mod`ele de Jukes et Cantor estime que la distance ´evolutive d vaut :

ˆ d = −3 4ln  1 − 4 3p  (2.8)

N´eanmoins, comme pr´ecis´e auparavant, toutes les substitutions ne sont pas ´equivalentes. C’est pourquoi, en 1980, Kimura [210] a propos´e un nouveau mod`ele dans lequel les taux de transition (α) sont diff´erents des taux de transversion (β). Sous ce mod`ele, la distance ´evolutive entre deux s´equences est donn´ee par :

ˆ

d = −1

2ln(1 − 2r − v) − 1

4ln(1 − 2v) (2.9)

avec r la fr´equence des transitions et v celle des transversions (p = r + v).

De nombreux autres mod`eles ont ensuite ´et´e propos´es pour am´eliorer la mod´ e-lisation de l’´evolution de s´equences nucl´eiques. Parmi les plus r´epandus, citons F81 [211], HKY85 [212], T92 [213] et TN93 [214].

Par ailleurs, d`es les ann´ees 1990, de nombreux mod`eles s’affranchissant des cinq hypoth`eses d´ecrites pr´ec´edemment (ind´ependance des sites, uniformit´e, ho-mog´en´eit´e, stationnarit´e et r´eversibilit´e) ont ´et´e d´evelopp´es pour les s´equences nu-cl´eiques. Concernant les mod`eles ne consid´erant pas l’ind´ependance des sites on peut citer ceux ´etablis par Sch¨oniger et al. [215] et Muse [216]. Un plus grand nombre de mod`eles non homog`enes ont ´et´e publi´es dont ceux de Yang et Ro-berts [217], de Foster [218] ou encore le mod`ele de Jayaswal et al. [219]. Concernant

les mod`eles non stationnaires, les plus couramment utilis´es sont le LogDet [220] et celui de Blanquart et Lartillot [221]. Un des premiers mod`eles non r´eversibles est celui de Lobry [222], suivi de celui de Galtier et Gouy [223] (non homog`ene et non stationnaire).

b) Mod`eles prot´eiques

Si dans la mod´elisation de l’´evolution des s´equences nucl´eiques `a l’aide de chaˆınes de Markov seuls quatre ´etats de caract`ere sont `a consid´erer, l’analyse des s´equences prot´eiques n´ecessite l’utilisation d’une matrice Q de taille 20 × 20 et donc l’´ evalua-tion de 189 param`etres d’´echangeabilit´e (matrice S) et de 19 fr´equences `a l’´ equi-libre (matrice Π). Ainsi, pour les analyses prot´eiques, il est courant d’utiliser des valeurs empiriques d´etermin´ees sur des jeux de donn´ees de r´ef´erence. Fond´ees sur des ensembles de s´equences align´ees, on distingue les matrices construites par des approches utilisant le maximum de parcimonie de celles inf´er´ees par maximum de vraisemblance.

PAM et JTT

PAM fut le premier mod`ele de substitution markovien construit sur la base d’un ensemble de 1300 s´equences r´eparties en 71 familles « proches » (au moins 85% d’identit´e entre chaque paire possible `a l’int´erieur d’une famille) [147]. Pour chaque famille (alignement), un arbre est calcul´e et les s´equences ancestrales sont inf´er´ees par maximum de parcimonie. Le nombre de substitutions entre paires de s´equences est ensuite comptabilis´e, et leurs fr´equences relatives calcul´ees. La matrice PAM1 est alors d´efinie comme la matrice des taux de substitutions attendus si 1% des acides amin´es sont mut´es. A partir de cette matrice, les autres matrices PAM sont d´eduites par exponentiation de PAM1. Ainsi PAM250 correspond `a PAM1250. Publi´ee en 1992, la matrice JTT est bas´ee sur une m´ethodologie tr`es similaire `a celle de PAM [171]. La diff´erence majeure r´esidant dans le nombre de s´equences ´etudi´ees : 16130 au lieu de 1300.

WAG et LG

En 2001, une nouvelle m´ethodologie pour le calcul des ´echangeabilit´es entre acides amin´es fut propos´ee par Whelan et Goldman [224]. La matrice WAG (Whelan And Goldman) est en effet calcul´ee par maximum de vraisemblance `a partir de 182 alignements comptabilisant 3905 s´equences. Pour chaque alignement, les distances

entre les paires de s´equences sont calcul´ees grˆace `a la matrice PAM, puis l’arbre correspondant est inf´er´e par la m´ethode NJ. A partir de cet arbre consid´er´e comme vrai, les longueurs des branches sont r´e-estim´ees par maximum de vraisemblance en utilisant le mod`ele JTT. La matrice WAG est alors d´efinie comme la matrice des taux maximisant la vraisemblance des donn´ees pour l’arbre consid´er´e.

La matrice LG (pour Le and Gascuel ), propos´ee en 2008 [225], est quant `a elle fond´ee sur la mˆeme m´ethodologie que WAG mais autorise des taux de substitutions diff´erents lors du recalcul des longueurs de branches (utilisation d’une loi Γ, voir ci-dessous). De plus, les auteurs ont d´ecid´e d’utiliser la matrice WAG et non JTT pour le second calcul ainsi que d’effectuer deux it´erations suppl´ementaires de recalcul de topologies et de longueurs de branches afin d’am´eliorer la pr´ecision des taux inf´er´es.

Mod`eles s’affranchissant des hypoth`eses classiques

Les ann´ees 2000 ont vu le d´eveloppement de mod`eles prot´eiques essayant de s’af-franchir de l’hypoth`ese d’homog´en´eit´e afin de prendre en compte les contraintes biologiques telles que les structures secondaires et tertiaires des prot´eines. En 2004, Lartillot et Philippe [226] pr´esentent ainsi le mod`ele de m´elange CAT (CATegories) dans lequel les sites sont divis´es en cat´egories, chacune poss´edant une distribution de fr´equences `a l’´equilibre sp´ecifique (matrice Π). Dans cette version du mod`ele, d´evelopp´ee pour les inf´erences phylog´en´etiques bay´esiennes, le nombre de cat´ ego-ries est d´etermin´e en utilisant une distribution de Dirichlet et un processus de Monte-Carlo. La matrice d’´echangeabilit´es S est, quant `a elle, fixe pour toutes les cat´egories (il s’agit de JTT, WAG, Poisson ou encore MtREV [227]). En 2008, les auteurs proposent une version empirique du mod`ele [228], applicable aux recons-tructions par maximum de vraisemblance. Ils d´eterminent en effet les profils des

K cat´egories (K ∈ {10, 20, . . . , 60}) `a l’aide d’un algorithme EM

(Expectation-Maximization) sur un ensemble de plus de 32000 alignements. Le mod`ele CAT20 ressort alors comme le meilleur compromis entre nombre de cat´egories et am´ elio-ration de l’arbre.

Enfin, la mˆeme ann´ee cette ´equipe pr´esente ´egalement d’autres mod`eles de m´ e-lange estim´es it´erativement de fa¸con supervis´ee (EXO, EX2 et EX3) et non su-pervis´ee (UL2 et UL3) [229] et ce sur un ensemble de 1771 alignements. Dans ces mod`eles, les sites sont divis´es selon leur accessibilit´e au solvant, accessibilit´es calcul´ees grˆace `a la structure tertiaire des prot´eines. EX2 et UL2 sont ainsi des mo-d`eles `a deux matrices de taux (sites expos´es et non expos´es) tandis que EH0, EX3 et UL3 comprennent trois matrices diff´erentes. Dans ce mˆeme article, les auteurs

comparent ces mod`eles ainsi que JTT et WAG au mod`ele LG (Figure 2.11).

Figure omise pour des

raisons de droits d'auteur.

Figure 2.11 – Gain en AIC par rapport au mod`ele LG. Les valeurs n´e-gatives (respectivement positives) repr´esentent des mod`eles moins bons (res-pectivement meilleurs) que LG. En blanc (resp. noir) les alignements avec un index de saturation inf´erieur (resp. sup´erieur) `a deux. [229]

Les mod`eles comprenant une seule matrice de taux pr´esentent syst´ ematique-ment des valeurs au test AIC (Akaike Information Criterion) [230] inf´erieures `

a celles obtenues par les mod`eles autorisant des taux diff´erents entre les sites de l’alignement.

c) Correction par la loi Gamma

Sous l’hypoth`ese d’uniformit´e, le taux global de substitutions λ = P

iπiλi est le mˆeme pour tous les sites de l’alignement, ce qui constitue une hypoth`ese dont on sait qu’elle est erron´ee. Il a donc ´et´e propos´e de moduler la valeur de ce taux par un facteur correctif r, ceci grˆace `a l’emploi d’une distribution Gamma. Cette distribution est caract´eris´ee par deux param`etres : α (ou param`etre de forme) et

β (ou param`etre d’´echelle). N´eanmoins, en phylog´enie mol´eculaire, on fixe β =

1/α puisqu’on ne s’int´eresse qu’`a des taux d’´evolution relatifs. Ainsi, l’allure de la distribution Gamma n’est d´etermin´ee que par la valeur de α. Plus α est grand, plus la variance de r diminue ; l’hypoth`ese d’uniformit´e correspondant au cas extrˆeme o`u α → ∞. Plusieurs m´ethodes d’estimation de α ont ´et´e propos´ees mais c’est celle publi´ee par Yang [231] qui est la plus fr´equemment utilis´ee.