Th´ eorie de l’´ evolution
Tous les organismes vivants d´ erivent d’un ancˆ etre commun. Diversit´ e due ` a la sp´ eciation (s´ eparation d’une esp` ece en deux esp` eces)
Pas d’information directe sur le pass´ e. Reconstruction d’une phylog´ enie bas´ ee sur des mod` eles simplifi´ es utilisant des donn´ ees incompl` etes.
Id´ ee de base: Les caract` eres sont transmis d’une g´ en´ eration ` a l’autre, et au cours de l’´ evolution, ces caract` eres subissent une s´ erie de mutations En g´ en´ eral les caract` eres ´ etudi´ es sont des positions ou des r´ egions de
l’ADN. Utilise les m´ ethodes de comparaisons de s´ equences de nucl´ eotides
ou d’acides amin´ es.
Arbres enracin´ es et non enracin´ es
Arbre enracin´ e: Direction repr´ esentant le temps d’´ evolution: plus un nœud est proche de la racine, plus il est vieux.
racine
H C G O B
Arbre non-enracin´ e: Ne permet pas de d´ eduire des relations de descendance.
C
H
G O
B
racine possible qui donne lieu a
l’arbre du haut
Plusieurs m´ ethodes de construction d’arbres de phylog´ enie g´ en` erent des arbres non-enracin´ es. Il faut ensuite trouver un “outgroup”
pour enraciner l’arbre.
Type de donn´ ees
Deux types de donn´ ees: les caract` eres (trait, caract´ eristique) et les distances.
Caract` eres g´ en´ eralement repr´ esent´ ees par une matrice X = (x
ij), o` u x
ijest l’´ etat du caract` ere i dans l’esp` ece j .
Hypoth` ese g´ en´ eralement consid´ er´ ee: Chaque caract` ere ´ evolue ind´ ependemment des autres.
Evolution d’un ensemble d’esp` ´ eces d´ eduite ` a partir de caract` eres homologues. Par exemple, g` enes homologues (orthologues ou
paralogues).
Caract` eres les plus utilis´ es pour les ´ etudes d’´ evolution: s´ equences de nucl´ eotides ou d’acides amin´ es. Caract` eres repr´ esent´ es par les positions, et l’´ etat d’un caract` ere est le nucl´ eotide (ou l’AA)
observ´ e ` a la position consid´ er´ ee. Par exemple, position 139 est le caract` ere, et ‘A’ est l’´ etat du caract` ere 139.
N´ ecessite un alignement des s´ equences.
S´ equences de nucl´ eotides:
Vache AGTGACAACTAGGCCATAATGTACGA Eponge ACTGTCAACTACGCTTTGATGTACGT Mouche AGAGTCATCCACGCTTTAATCTTCGA
S´ equences d’acides amin´ es:
Vache RTGMAALTPRWACDLKINHIYR
Eponge ASGMTALSPKYTCELRMNHLYR
Mouche TTGMSALSPRWSCDLKIEHIWK
Construction d’arbres de phylog´ enie
M´ ethodes de distance: Input du probl` eme −→ ensemble de distances (par exemple distance d’´ edition). Construire l’arbre de phylog´ enie en
“accord” avec cet ensemble de distances.
Distances ultram´ etriques ou additives donnent lieu ` a des probl` emes faciles ` a traiter.
Heuristiques pour le cas g´ en´ eral: arbre qui fournit la “meilleure approximation”.
M´ ethodes de parsimonie: Arbre qui explique l’´ evolution des esp` eces par un nombre minimal de mutations. Deux composantes principales:
• Calcul du score d’un arbre donn´ e.
• Recherche, parmi tous les arbres, de l’arbre de score minimal.
Parsimonie maximale = Nombre minimal de mutations.
M´ ethodes de maximum de vraisemblance: M´ ethode probabiliste.
Trouver les s´ equences des nœuds internes les plus probables.
I. M´ ethodes de distance
INPUT: Matrice de distance entre les s´ equences. D´ ecoule des alignements de s´ equences. En g´ en´ eral, les gaps sont ´ elimin´ es des alignements.
Distances ´ evolutives entre deux s´ equences bas´ ees sur plusieurs mod` eles d’´ evolution. Les plus simples:
Mod` ele de Jukes Cantor (1969): Mˆ eme taux de substitution pour chaque paire de nucl´ eotides.
Mod` ele de Kimura (1980): Les transitions (A ↔ G, C ↔ T ) et les transversions (A ↔ T, G ↔ T, A ↔ C, C ↔ G) ont des taux
diff´ erents.
Algorithme UPGMA
n s´ equences; D
i,j: distance entre les deux s´ equences i et j . Proc´ eder par regroupement des s´ equences les plus proches. ` A chaque ´ etape, les deux regroupements les plus “proches” sont fusionn´ es.
d
i,j: Distance entre deux regroupements C
iet C
j. Moyenne des distances des paires de s´ equences entre les deux regroupements:
d
i,j= 1
|C
i||C
j| Σ
p∈Ci,q∈CjD
p,qSi C
k= C
i∪ C
j, et C
lun autre regroupement, alors:
d
kl= d
il|C
i| + d
jl|C
j|
|C
i| + |C
j|
3 5
7 (III)
1: A T G T T C G 2: A T C T T T G 3: G G C T A C G 4: G C C T T G C 5: G C A T T C G
3 5
7 1
2 d68
1 2
6 3
7
5 8
4 9
5
1 2 3 4
1 2 3 4 5
2 4 5 3
4 4 4
4 3
3
1 2
3
1 2
6 1
2d12 6
(I)
4 5
I
1 2
3
1 2
6 6
(I) 3 4
3 4 5 6
5 6
4 3 4
3 4.5
3.5 4 5
7
3 7
5
1 2
1 2
6 6
4 3
4 6 7
4
7
4.5 3.5 3.75
7
5 8
4 1 2 d47
9
1 2
6
4 6 8
1 2 d35
(IV) 6
6 4.12
8
8
Algorithme UPGMA:
Initialisation:
D´ efinir n regroupements, chaque regroupement C
icontenant la seule s´ equence numero i;
D´ efinir un arbre T restreint ` a un ensemble n de feuilles, une feuille pour chaque regroupement. Toutes les feuilles sont de hauteur 0;
It´ eration:
Consid´ erer deux regroupements C
i, C
jtels que d
i,jsoit minimal;
D´ efinir un nouveau regroupement C
k= C
i∪ C
j, et d´ efinir les d
kl, pour tout l;
D´ efinir un nouveau nœud k de fils i, j , et placer le ` a une hauteur d
ij/2;
Rajouter C
kdans l’ensemble des regroupements, et ´ eliminer C
iet C
j; Fin:
Lorsqu’il ne reste plus que deux regroupements C
i, C
j, placer la racine
Arbre ultram´ etrique
Construction d’un arbre par UPGMA sous-entend un mod` ele d’´ evolution faisant intervenir l’hypoth` ese de l’horloge mol´ eculaire: taux de mutation constant
−→ Tous les chemins d’un nœud particulier ` a n’importe quelle feuille, ont la mˆ eme longueur.
UPGMA trouve LE bon arbre ssi il existe un arbre ultram´ etrique pour D
Arbre ultram´ etrique pour D: Arbre T enracin´ e v´ erifiant:
1. T contient n feuille, chaque feuille ´ etiquett´ ee par une ligne de D (une esp` ece).
2. Chaque nœud interne ´ etiquett´ e par une case de D, et ` a au moins deux fils.
3. Le long d’un chemin quelconque de la racine ` a une feuille, les valeurs
des ´ etiquettes des nœuds d´ ecroissent strictement.
4. Pour deux feuilles quelconques i, j, D(i, j ) est l’´ etiquette du dernier ancˆ etre commun de i et j dans T .
T , s’il existe, est une repr´ esentation compacte de D.
E D C B A A B C D E
0 8 8 5 3
0 0
0 0 8 8 3
8 8
5 (a)
B C
D E
A
5 3
8
(b) 3
Figure 1: (a) Matrice sym´ etrique D. (b) Arbre ultram´ etrique associ´ e
` a D.
Remarque: T a au plus n − 1 nœuds internes. Donc, si D ` a plus de n − 1
valeurs, il n’existe pas d’arbre ultram´ etrique pour D.
Distance ultram´ etrique
D´ efinition: Une matrice sym´ etrique D d´ efinie une distance
ultram´ etrique ssi, pour trois indices qqes i, j , k, le maximum de D(i, j ), D(i, k), D(j, k) n’est pas unique.
Si D peut ˆ etre repr´ esent´ e par un arbre ultram´ etrique, alors D est une distance ultram´ etrique.
k v
u
i j
Th´ eor` eme 1: D peut ˆ etre repr´ esent´ ee par un arbre ultram´ etrique
ssi D est une distance ultram´ etrique.
Th´ eor` eme 2: Si D est une matrice ultram´ etrique, alors l’arbre ultram´ etrique de D est unique.
Preuve: Dans la construction de l’arbre, les classes sont “forc´ ees”, i.e. ne peuvent pas ˆ etre d´ etermin´ ees autrement, et les positions de ces classes sont forc´ ees ´ egalement.
Cons´ equence: Si D refl` ete effectivement la distance d’´ evolution entre les esp` eces, alors l’arbre obtenu est n´ ecessairement le vrai arbre.
Th´ eor` eme 3: Si D est ultram´ etrique, alors l’arbre ultram´ etrique peut ˆ etre construit en un temps O(n
2). D’autre part, on peut
d´ eterminer en un temps O(n
2) si une distance est ultram´ etrique ou
non.
Que signifient des donn´ ees ultram´ etriques
Distances ´ etiquettant les nœuds des arbres ultram´ etriques suppos´ ees refl´ eter le temps qui s’est ´ ecoul´ e depuis la s´ eparation des deux esp` eces.
Th´ eorie de l’horloge mol´ eculaire (1960): Pour une prot´ eine donn´ ee, le taux de mutations accept´ ees par intervalle de temps est constant. Ce taux de mutations n’est pas le mˆ eme pour deux prot´ eines diff´ erentes.
Avec cette th´ eorie, si k mutations accept´ ees entre les prot´ eines A et B,
alors on peut estimer ` a k/2 le nb de mutations survenues pour chaque
esp` ece depuis la divergence. Permet d’obtenir des donn´ ees ultram´ etriques
Le plus souvent, les donn´ ees r´ eelles ne sont pas ultram´ etriques. Lorsque
les donn´ ees sont ultram´ etriques (ou presque) cela constitue une preuve
forte de la pertinence des donn´ ees. Si non, une possibilit´ e est de les
modifier de fa¸ con minimale de telle sorte qu’elles le deviennent.
Distances additives
Autre hypoth` ese sous-entendue dans la construction d’un arbre par UPGMA: distance additive.
D: Matrice sym´ etrique n × n dont la diagonale ne contient que des z´ eros, et les autres cases des r´ eels strictement positifs
T : arbre contenant au moins n nœuds (dont les feuilles), chaque ligne (esp` ece) de D correspond ` a un nœud diff´ erent, et les arˆ etes sont
´ etiquett´ ees.
T arbre additif pour D si, pour toute paire de nœuds (i, j ), le poids total
du chemin de i ` a j est D(i, j ).
A
B
C 2
1 4
A 2 B C
A B C
0 0
0 5 8 5
Probl` eme: Trouver un arbre additif pour D, ou d´ eterminer qu’un tel arbre n’existe pas.
Distance additive: Contrainte moins forte que la contrainte
ultram´ etrique. Cependant, les donn´ ees r´ eelles sont rarement additives.
Un vaste domaine de recherche: comment effectuer la plus petite
“d´ eviation” possible sur les donn´ ees pour qu’elles deviennent additives?
Test d’additivit´ e, condition des quatre points
Arbre additif pour D: Distance entre deux feuilles qqs de l’arbre = somme des poids des arˆ etes du chemin joignant ces deux feuilles.
Pour tout ensemble de 4 ´ el´ ements i, j, k, l, deux des distances D
ij+ D
kl, D
ik+ D
jl, D
il+ D
jksont ´ egales et sup´ erieures ` a la troisi` eme
i
j
k
l
i
j
k
l
i
j
k
l
i
j
k
l
M´ ethode de construction d’un arbre additif
Paire de feuilles voisines: Deux feuilles de T ayant le mˆ eme p` ere.
• Choisir deux objets i, j garantis d’ˆ etre voisins dans un arbre additif
• Supprimer i, j de la liste des objets, et rajouter le nœud k
correspondant au p` ere commun de i et j . Distance de k ` a une feuille quelconque m: D(k, m) =
12(D(i, m) + D(j, m) − D(i, j )).
De cette fa¸ con, nb de feuilles r´ eduit de 1 ` a chaque ´ etape, jusqu’` a arriver
`
a un ensemble restreint ` a 2 feuilles.
m k
i
j
3 4
2 1
0.1 0.1
0.1
0.4 0.4
Comment d´ eterminer, ` a partir de D, deux feuilles qui sont
n´ ecessairement voisines dans un arbre additif de D? Il ne suffit pas de choisir une paire d’objets dont la distance est minimale.
L: Ensemble des objets (feuilles d’un arbre additif)
Pour tout (i, j ) ∈ L, D(i, j ) valeur obtenue en soustrayant de D(i, j ) la distance moyenne de i et j ` a tous les autres objets:
D(i, j ) = D(i, j ) − (r
i+ r
j)
r
i= 1
|L| − 2
X
k∈L\i,j
D(i, k )
Th´ eor` eme: Si T arbre additif pour la distance additive D, si (i, j ) paire
d’objets telle que D(i, j ) est minimal parmi toutes les paires d’objets,
alors i et j sont voisins dans T
Algorithme Neighbour-joining
Initialisation :
T ensemble de toutes les feuilles, une pour chaque objet, et L = T . It´ eration:
Consid´ erer une paire (i, j) de L telle que D (i, j ) est minimal.
D´ efinir un nouveau nœud k et poser:
D(k, m) =
12(D(i, m) + D(j, m) − D(i, j)) pour tout m ∈ L.
Rajouter k dans T , cr´ eer deux arˆ etes (i, k) et (j, k) de poids D(i, k ) =
12(D(i, j) + r
i− r
j) et D(j, k) = D(i, j) − D(i, k).
Supprimer i et j de L et rajouter k.
Fin:
L contient exactement deux feuilles i, j.
Cr´ eer une arˆ ete (i, j) de poids D(i, j).
1
2
(D(i, j ) + r
i− r
j): moyenne de
12(D(i, j ) + D(i, m) − D(j, m)) pour toutes les feuilles m. Chacune de ces expressions repr´ esente exactement D(i, k)
Remarque: Pour une distance additive, il n’existe pas un seul arbre additif
Heuristique: Appliquer l’algorithme plusieurs fois en modifiant al´ eatoirement l’ordre des objets dans L (des ordres diff´ erents entrainent des choix diff´ erents d’objets voisins). Trouver un consensus pour l’ensemble des arbres obtenus.
Lorsque la distance n’est pas additive, on peut quand meme
appliquer Neighbour-Joining, mais pas de garantie sur la qualit´ e de
l’arbre obtenu.
Enraciner les arbres
Contrairement ` a l’algorithme UPGMA, Neighbour-joining construit un arbre non enracin´ e. Pour raciner l’arbre, il suffit de rajouter un outgroup, i.e. une esp` ece tr` es ´ eloign´ ee des autres esp` eces
consid´ er´ ees
giant panda
lesser panda
orignal
goshawk vautour canard
alligator axolotl
Autre strat´ egie: Choisir le milieu d’un plus long chemin dans
l’arbre. Hypoth` ese de l’horloge mol´ eculaire consid´ er´ ee
M´ ethodes de parsimonie
M´ ethode g´ en´ erale:
• Consid´ erer l’ensemble T de toutes les topologies d’arbres possibles ayant les objets (s´ equences) pour ´ etiquettes des feuilles.
• Calculer un poids pour chaque arbre T de T .
• S´ electionner un arbre de T de poids minimal.
Pond´ eration d’un arbre: Affecter des s´ equences aux nœuds internes de telle sorte ` a minimiser le poids total de l’arbre (somme des
distances entre les nœuds voisins)
Si on a un alignement des s´ equences, proc´ eder colonne par colonne.
AAG
AAA AAA
1 1
AAA AGA AAA GGA
AAG AGA
AAA AAA
1
GGA AAA AAA
AAG AAA
GGA AGA AAA
AGA AAA
1 1
AAG
1AAA GGA
AGA
2 2 1Hypoth` ese: Chaque colonne a ´ evolu´ e s´ epar´ ement des autres.
Sous-probl` emes pour des s´ equences r´ eduites ` a un caract` ere de Σ ∪ {−}
Probl` eme: Trouver un ´ etiquettage des nœuds internes qui minimise
le nombre de nœuds adjacents ayant des ´ etiquettes 6=
Parsimonie pond´ er´ ee
On ne compte pas juste le nombre de substitutions, mais un poids S (a, b) pour la substitution de a en b.
Etiquetter les nœuds internes de telle sorte ` ´ a minimiser le poids total de l’arbre
Par r´ ecurrence: ´ etiquette d’un nœud d´ eduite des ´ etiquettes des nœuds fils.
S
k(a): poids du sous-arbre de racine k, sous la condition que k est
´ etiquett´ e par a.
Algorithme parsimonie pond´ er´ ee:
Initialisation:
Poser k = 2n − 1, le num´ ero de la racine;
R´ ecurrence - Calculer S
k(a) pour tous les a:
Si k est une feuille
Poser S
k(a) = 0 pour a ´ etiquette de k, S
k(a) = ∞ si non;
Si k n’est pas une feuille
Calculer S
i(a), S
j(a) pour tous les a, o` u i, j sont les fils de k;
Poser S
k(a) = min
b(S
i(b) + S (a, b)) + min
b(S
j(b) + S (a, b));
Fin:
Poids minimal de l’arbre = min
aS
2n−1(a);
Pour retrouver les nucl´ eotides aux nœuds internes, garder des
pointeurs l
k(a), r
k(a), pour chaque a et chaque nœud k, et rajouter les deux instructions suivante dans le bloc de r´ ecurrence:
Poser l
k(a) = argmin
b(S
i(b) + S (a, b));
Poser r
k(a) = argmin
b(S
j(b) + S(a, b));
Pour retrouver une assignation correcte pour les nœuds internes, choisir un nucl´ eotide a ` a la racine qui donne lieu ` a un poids
S
2n−1(a) minimal, et suivre les pointeurs
Parsimonie traditionnelle, Algorithme de Fitch
Minimiser le nombre de substitutions de caract` eres. Garder ` a chaque nœud une liste de nucl´ eotides “valides”. C : Poids courant de l’arbre.
Initialisation:
Poser k = 2n − 1, le num´ ero de la racine, et C = 0;
R´ ecurrence:
Si k est une feuille
Poser R
k= {´ etiquette de k};
Si k n’est pas une feuille
Calculer R
i, R
j, o` u i, j sont les fils de k;
Si R
i∩ R
j6= ∅, poser R
k= R
i∩ R
j; Si non, R
k= R
i∪ R
jet incr´ ementer C ; Fin:
Poids minimal de l’arbre = C ;
A B
A B
{A,B}
{A,B}
A
Pour retrouver les nucl´ eotides des nœuds internes: Choisir un nucl´ eotide dans R
2n−1, puis descendre dans l’arbre. Si on a choisit a pour k, Alors, pour le fils i de k, choisir a si possible, si non, choisir un nucl´ eotide au hasard dans R
i.
Complexit´ e: O(n|Σ|), o` u n est la taille de l’arbre (nombre de nœuds).
Probl` eme de la parsimonie traditionnelle: Certaines assignations
possibles des nœuds internes ne sont jamais consid´ er´ ees.
A B
A B
A A
A B
A B
A A
A B
A B
A B
A B
A B
B
B
B {1,1}
{1,2}
{2,2}
Observation: Le poids minimal d’un arbre, calcul´ e par la m´ ethode de parsimonie traditionnelle, est ind´ ependant du choix de la racine.
Cons´ equence: on n’a pas besoin de tester tous les arbres racin´ es possibles.
Enum´ ´ eration de tous les arbres possibles
Arbres binaires enracin´ es de n feuilles:
n feuilles = ⇒ n − 1 nœuds internes
= ⇒ Nombre total de nœuds et feuilles = 2n − 1
= ⇒ 2n − 2 arˆ etes.
Arbre sans racine: 2n − 2 nœuds et 2n − 3 arˆ etes.
Pour former un arbre enracin´ e, on rajoute une racine au milieu d’un des 2n − 3 arˆ etes = ⇒ 2n − 3 arbres enracin´ es
3 fa¸ cons de former un arbre sans racine de 4 feuilles ` a partir d’un arbre sans racine de 3 feuilles.
5 fa¸ cons de former un arbre sans racine de 5 feuilles ` a partir d’un
arbre sans racine de 4 feuilles· · ·
Par r´ ecurrence: (3).(5).(7). · · · (2n − 5) arbres sans racine de n feuilles.
= ⇒ (3).(5).(7). · · · (2n − 5)(2n − 3) = (2n − 3)!! arbres enracin´ es de n feuilles
Le nombre d’arbres croˆıt tr` es rapidement en fonction de n.
Exemple: Pour n = 10, ∼ 2000000 arbres. Pour n = 20,
∼ 2.2 × 10
20arbres.
S´ election d’arbres ` a tester
Algorithme d’insertion: Algorithme glouton; construit l’arbre en rajoutant une arˆ ete ` a chaque ´ etape.
• Construire un arbre T non enracin´ e ` a partir de trois objets choisits al´ eatoirement (2 objets dans le cas d’un arbre enracin´ e).
• Pour T contenant r feuilles, choisir al´ eatoirement un r + 1` eme objet, et le rajouter dans T de fa¸ con optimale.
Pas garanti d’obtenir un arbre optimal. Des ordres diff´ erents pour les objets donnent lieu ` a des arbres diff´ erents, de scores diff´ erents.
Algorithme tr` es rapide. Sert g´ en´ eralement de point de d´ epart pour les m´ ethodes de recherche locale.
Recherche locale et r´ earrangements d’arbres: Etant donn´ ´ e un arbre T , permuter al´ eatoirement des branches dans T , et choisir l’arbre obtenu si son score est meilleur que le score courant. Pas garanti d’obtenir un
arbre optimal.
Algorithme Branch and Bound Rajouter des feuilles ` a l’arbre courant, et s’arrˆ eter d` es que l’arbre a un nombre maximal de feuilles, ou d` es que le score d´ epasse un certain seuil (score du meilleur arbre obtenu jusque la).
Correct car le nombre de mismatches ne peut qu’augmenter avec le nombre d’arˆ etes.
Tous les arbres non-enracin´ es sont ´ enum´ er´ es dans le tableau
[i
3][i
5][i
7] · · · [i
2n−5], o` u chaque case i
kprend les valeurs de 0 ` a k.
Signification : Construire l’arbre contenant les trois premiers objets (3 arˆ etes). Rajouter une arˆ ete pour le 4` eme objet sur l’arˆete d’indice i
3. Le nouveau nombre d’arˆ etes est alors 5. i
5d´ etermine l’indice de l’arˆ ete o` u doit ˆ etre rajout´ ee une arˆ ete pour le 5` eme objet, etc.
1. Consid´ erer la case la plus ` a droite du tableau, et l’incr´ ementer
jusqu’` a obtenir la valeur 2n − 5. Remplacer alors cette valeur par 0.
Incr´ ementer la case pr´ ec´ edente jusqu’` a obtenir la valeur 2n − 7. La
remplacer par 0, etc.
2. Lorsque l’on arrive ` a une situation o` u l’on n’a que des 0 ` a droite d’une certaine case, on incr´ emente simultan´ ement toutes ces cases.
[3] - - - - [7][0][0][0][0]
[3] - - - - [7][1][1][1][1]
3. Commencer avec le tableau [1][0][0] · · · [0]. Soit C le score du meilleur arbre obtenu ` a l’´ etape courante de l’algorithme. Si on
obtient un arbre T de score sup´ erieur ` a C , alors aucun arbre optimal ne peut ˆ etre obtenu en rajoutant des arˆ etes ` a T . Dans ce cas, si
toutes les cases du tableau ` a partir d’un certain indice i ne contiennent que des 0, alors il suffit d’incr´ ementer i.
[3] - - - - [7][0][0][0][0]
[3] - - - - [8][0][0][0][0]
Inconsistance du mod` ele de parsimonie
Consistance d’une m´ ethode d’estimation: Capacit´ e ` a converger vers une bonne valeur (ici, le vrai arbre de phylog´ enie) avec
l’augmentation des donn´ ees.
En consid´ erant un mod` ele d’´ evolution simple, la m´ ethode de parsimonie peut entrainer une fausse estimation de l’arbre (Felsenstein )
Supposons que la vraie phylog´ enie d’un groupe de 4 taxons soit:
A A
A A (3)A (2) GC
AA
GG GA
(1) Type de motif (4)
I Non−informatif (constant) II Non−informatif
III Non−informatif IV Information fausse
(A)
Taille des branches refl` ete le taux d’´ evolution. Taux d’´ evolution acc´ el´ er´ e pour les branches menant ` a (1) et (4). Les deux autres branches sont si courtes qu’il n’y a presque pas de difference entre (2) et (3).
4 classes possibles pour les nucl´ eotides de (1) et (4). I, II, III ne
fournissent aucune information permettant de clairement favoriser cet
arbre par rapport ` a tous les autres. IV: seule classe permettant de
favoriser un arbre particulier. Malheureusement, favorise le mauvais
arbre:
(1)
(4)
(2)
(3) (3)
(2)
(1) (4)
(B) (C)
Felsenstein appelle une telle situation positively misleading car plus on a de caract` eres (plus les s´ equences sont longues), plus on est sur d’obtenir un arbre faux.
Lorsqu’on est dans la zone Felsenstein, le seul espoir d’obtenir un bon
arbre est de s´ equencer suffisamment peu de caract` eres, de sorte ` a ˆ etre
induit en erreur le moins possible. Ph´ enom` ene appel´ e attraction des
longues branches.
Diff´ erence entre parsimonie et likelihood Arbre non-enracin´ e:
1 2
Temps
A A A
A A A A A C G (A)
Comment deviner le nucl´ eotide de l’ancˆ etre (1)?
Algorithme de Fitch: On peut attribuer ` a (1) n’importe lequel des nucl´ eotides A, C ou G avec un poids de 2 pour l’arbre. T augmente ce poids de 1.
D’autre part, une nouvelle s´ equence avec C , A, ou G peut ˆ etre
ins´ er´ ee avec un poids de 2 ` a n’importe quelle branche. ´ Egalement,
nouvelle s´ equence contenant T peut ˆ etre ins´ er´ ee avec un poids de 3
`
a n’importe quelle branche. Dans tous les cas, s´ equence non informative (ne favorise aucun arbre)
A C C G
A C
G A
C C G
C (D)
(C) (B)
Maximum de vraisemblance: Choisir l’hypoth` ese qui maximise la probabilit´ e d’observer le nucl´ eotide obtenu.
Mod` ele d’´ evolution choisit: Taux de substitution identique pour tous les nucl´ eotides; nombre moyen de substitutions le long d’une branche proportionnel ` a la longueur de la branche.
Observation: Tous les descendants de (2) ont des A. Donc, taux de
mutation faible. D’o` u, phylog´ enie entrainant peu de mutations plus
probable que phylog´ enie entrainant beaucoup de mutations. Donc,
pr´ esence d’un A ` a l’ancˆ etre (2) beaucoup plus probable que
pr´ esence d’un C, G ou T (mais hypoth` ese d’un C,G,T non rejet´ ee).
Nucl´ eotide ` a l’ancˆ etre 1? A, C ou G? Supposons un A ` a (2). Plus probable que la substitution ait eu lieu sur la branche longue.
Donc, plus probable d’avoir un A en (1). Plus g´ en´ eralement, ordre de probabilit´ e: A > C > G > T .
Rajout d’une s´ equence avec un C: arbre (C) plus probable que les autres, car pour les arbres (B) et (D), deux substitutions A → C seraient n´ ecessaires.
La taille des branches est une information importante pour la m´ ethode de maximum likelihood, et donc pas de probl` eme
d’attraction des longues branches. Dans ce cas, arbre (8B) tr` es
probable.
M´ ethode de maximum de vraisemblance On veut calculer la vraisemblance
P (Donn´ ees|Arbre, Longueur de branches)
P (x|y, t): Probabilit´ e d’´ evolution d’une s´ equence y en une s´ equence x le long d’une branche de taille t.
x1
x2
x3 t1
t2
t3 t4
x4
x5
P (x
1, · · · , x
5|T, L) =
P (x
1|x
4, t
1)P (x
2|x
4, t
2)P (x
3|x
5, t
3)P (x
4|x
5, t
4)P (x
5)
M´ ethode de maximum de vraisemblance
Probl` eme: Trouver l’arbre le plus vraisemblable pour un ensemble de s´ equences X , i.e. l’arbre T de longueur de branches L qui
maximise P (X |T, L). Sous-entend:
1. Essayer toutes les topologies d’arbres et tous les assignements de feuilles possibles;
2. Pour chaque topologie, toutes les longueurs de branches possibles.
Comme on l’a vu, il y a (2n − 3)!! arbres binaires enracin´ es de n feuilles. Consid´ erer des heuristiques efficaces (comme le
branch-and-bound d´ eja vu) pour (1). Pour (2), il existe une
multitude de techniques d’optimisation.
Probabilit´ e des substitutions Mod` ele simple:
1. Chaque site (colonne d’un alignement multiple) ´ evolue
ind´ ependamment des autres. Alors pour deux s´ equences x et y:
P (x|y, t) = Π
uP (x
u|y
u, t)
2. Evolution par substitutions seulement (pas de indel).
P (a|b, t): Probabilit´ e que le r´ esidu a soit substitu´ e en b sur une branche de taille t. Pour un alphabet de taille n, table Table S (t) n × n:
S(t) =
P (A
1|A
1, t) P (A
2|A
1, t) · · · P (A
n|A
1, t) P (A
1|A
2, t) P (A
2|A
2, t) · · · P (A
n|A
2, t)
· · · · · · · · · · · ·
P (A
1|A
n, t) P (A
2|A
n, t) · · · P (A
n|A
n, t)
Taux de substitutions pour les nucl´ eotides
Table Q 4 × 4 de substitutions pour les nucl´ eotides: chaque Q
ijrepr´ esente le taux de changement d’un site de l’´ etat i ` a l’´ etat j au cours d’un temps dt.
Q =
−µ(aπC +bπG +cπT) µaπC µbΠG µcπT
µaπA −µ(aπA +dπG +eπT) µdΠG µeπT
µbπA µdπC −µ(bπA +dπC +f πT) µf πT
µcπA µeπC µf πG −µ(cπA +eπC +f πG)
µ: taux moyen de substitution en dt.
a, b, c, d, e, f : taux de mutation d’un nucl´ eotide particulier en un autre.
µ
A, µ
C, µ
G, µ
T: Fr´ equences de chaque nucl´ eotide.
Probabilit´ e des substitutions
Q: taux de changements en un intervalle de temps dt.
Pour calculer les vraisemblances, on a besoin des probabilit´ es de changements d’un ´ etat i ` a un ´ etat j le long d’une branche de taille t.
La matrice de probabilit´ e des substitutions est:
S (t) = e
QtMod` eles de substitutions
Mod` ele de Jukes Cantor (JC): π
A= π
C= π
G= π
T= 0.25, et a = b = c = d = e = f = 1
Q =
−
34µ
14µ
14µ
14µ
1
4
µ −
34µ
14µ
14µ
1
4
µ
14µ −
34µ
14µ
1
4
µ
14µ
14µ −
34µ
Q =
−3α α α α
α −3α α α
α α −3α α
α α α −3α
Cette matrice donne lieu ` a la matrice de substitution en un temps t:
S (t) =
r
ts
ts
ts
ts
tr
ts
ts
ts
ts
tr
ts
ts
ts
ts
tr
t
avec r
t=
14(1 + 3e
−4αt) et s
t=
14(1 − e
−4αt) Cette matrice est multiplicative, c’est-` a-dire:
S (t)S (s) = S (t + s)
Si s et t sont vus comme des temps, cela induit le mod` ele
d’´ evolution suivant: La probabilit´ e qu’un a au temps t soit chang´ e
en un b au temps s ne d´ epend que de l’intervalle de temps (s − t).
Mod` eles de substitutions
Mod` ele de Kimura (K2P): Les transitions (A ↔ G, C ↔ T ) et les transversions (A ↔ T, G ↔ T, A ↔ C, C ↔ G) ont des taux
diff´ erents
−→ a = c = d = f = 1, b = e = κ
Matrice S(t) ´ egalement multiplicative: La probabilit´ e qu’un r´ esidu
au temps t soit chang´ e en un autre r´ esidu au temps s ne d´ epend
que de l’intervalle de temps (s − t).
Calcul de la vraisemblance pour 2 s´ equences
x
uy
ut1
t2 a
P (x
u, y
u, a|T, t
1, t
2) = π
aP (x
u|a, t
1)P (y
u|a, t
2)
P (x
u, y
u|T, t
1, t
2) = X
a
π
aP (x
u|a, t
1)P (y
u|a, t
2)
P (x, y|T, t
1, t
2) = Π
nu=1P (x
u, y
u|T, t
1, t
2)
M´ ethode de Felsenstein (1981)
c b
j i
k a
P (L
k|a): Probabilit´ e de toutes les feuilles du sous-arbre de racine k
sachant que le r´ esidu au noeud k est a.
Algorithme de Felsenstein:
Initialisation:
Poser k = 2n − 1, le num´ ero de la racine;
R´ ecurrence - Calculer P (L
k|a) pour tous les a:
Si k est une feuille
Poser P (L
k|a) = 1 pour a = x
ku, L(L
k|a) = 0 si non;
Si k n’est pas une feuille
Calculer P (L
i|a), P (L
j|a) pour tous les a, o` u i, j sont les fils de k;
Poser P (L
k|a) = P
b,c
P (b|a, t
i)P (L
i|b)P (c|a, t
j)P (L
j|c);
Fin:
Vraisemblance ` a la colonne u = P
a