Th´ eorie de l’´ evolution
Tous les organismes vivants d´erivent d’un ancˆetre commun Diversit´e due
`
a la sp´eciation (s´eparation d’une esp`ece en deux esp`eces)
Pas d’information directe sur le pass´e. Reconstruction d’une phylog´enie bas´ee sur des mod`eles simplifi´es utilisant des donn´ees incompl`etes.
Id´ee de base: Les caract`eres sont transmis d’une g´en´eration `a l’autre, et au cours de l’´evolution, ces caract`eres subissent une s´erie de mutations En g´en´eral les caract`eres ´etudi´es sant des positions ou des r´egions de
l’ADN. Utilise les m´ethodes de comparaisons de s´equences de nucl´eotides ou d’acides amin´es.
Arbres enracin´es et non enracin´es
Arbre enracin´e: Direction repr´esentant le temps d’´evolution: plus un nœud est proche de la racine, plus il est vieux.
racine
H C G O B
Arbre non-enracin´e: Ne permet pas de d´eduire des relations de descendance.
C
H
G O
B
racine possible qui donne lieu a
l’arbre du haut
Plusieurs m´ethodes de construction d’arbres de phylog´enie g´en`erent des arbres non-enracin´es. Il faut ensuite trouver un “outgroup”
pour enraciner l’arbre.
Type de donn´ees
Deux types de donn´ees: les caract`eres (trait, caract´eristique) et les distances.
Caract`eres g´en´eralement repr´esent´ees par une matrice X = (xij), o`u xij est l’´etat du caract`ere i dans l’esp`ece j.
Hypoth`ese g´en´eralement consid´er´ee: Chaque caract`ere ´evolue ind´ependamment des autres.
Evolution d’un ensemble d’esp`´ eces d´eduite `a partir de caract`eres homologues. Par exemple, g`enes homologues (orthologues ou
paralogues).
Caract`eres les plus utilis´es pour les ´etudes d’´evolution: s´equences de nucl´eotides ou d’acides amin´es. Caract`eres repr´esent´es par les positions, et l’´etat d’un caract`ere est le nucl´eotide (ou l’AA)
observ´e `a la position consid´er´ee. Par exemple, position 139 est le caract`ere, et ‘A’ est l’´etat du caract`ere 139.
N´ecessite un alignement des s´equences.
S´equences de nucl´eotides:
Vache AGTGACAACTAGGCCATAATGTACGA Eponge ACTGTCAACTACGCTTTGATGTACGT Mouche AGAGTCATCCACGCTTTAATCTTCGA
S´equences d’acides amin´es:
Vache RTGMAALTPRWACDLKINHIYR Eponge ASGMTALSPKYTCELRMNHLYR Mouche TTGMSALSPRWSCDLKIEHIWK
Construction d’arbres de phylog´enie
Trois m´ethodes principales.
M´ethodes de distance: Input du probl`eme −→ ensemble de distances (par exemple distance d’´edition). Construire l’arbre de phylog´enie en
“accord” avec cet ensemble de distances.
Distances ultram´etriques ou additives donnent lieu `a des probl`emes faciles `a traiter. Heuristiques pour le cas g´en´eral: arbre qui fournit la
“meilleure approximation”. Pas de consensus sur la d´efinition de
“meilleure”.
M´ethodes de parsimonie: Arbre qui explique l’´evolution des esp`eces par un nombre minimal de mutations. Deux composantes principales:
• Calcul du score d’un arbre donn´e.
• Recherche, parmi tous les arbres, de l’arbre de score minimal.
Parsimonie maximale = Nombre minimal de mutations.
M´ethodes de maximum de vraisemblance: M´ethode probabiliste.
Trouver la s´equence de nœuds internes la plus probable.
M´ethodes de distance
n s´equences; Di,j: distance entre les deux s´equences i et j.
Algorithme de clustering, UPGMA: Proc´eder par regroupement des s´equences les plus proches. `A chaque ´etape, les deux regroupements les plus “proches” sont fusionn´es.
di,j: Distance entre deux regroupements Ci et Cj. Moyenne des distances des paires de s´equences entre les deux regroupements:
di,j = 1
|Ci||Cj|Σp∈Ci,q∈CjDp,q
Si Ck = Ci ∪ Cj, et Cl un autre regroupement, alors:
dkl = dil|Ci| + djl|Cj|
|Ci| + |Cj|
3 5
7 (III)
1: A T G T T C G 2: A T C T T T G 3: G G C T A C G 4: G C C T T G C 5: G C A T T C G
3 5
7 1
2 d68
1 2
6 3
7
5 8
4 9
5
1 2 3 4
1 2 3 4 5
2 4 5 3
4 4 4
4 3
3
1 2
3
1 2
6 1
2d12 6
(I)
4 5
I
1 2
3
1 2
6 6
(I) 3 4
3 4 5 6
5 6
4 3 4
3 4.5
3.5 4 5
7
3 7
5
1 2
1 2
6 6
4 3
4 6 7
4
7
4.5 3.5 3.75
7
5 8
4 1 2 d47
9
1 2
6
4 6 8
1 2 d35
(IV) 6
6 4.12
8
8
Algorithme UPGMA:
Initialisation:
D´efinir n regroupements, chaque regroupement Ci contenant la seule s´equence numero i;
D´efinir un arbre T restreint `a un ensemble n de feuilles, une feuille pour chaque regroupement. Toutes les feuilles sont de hauteur 0;
It´eration:
Consid´erer deux regroupements Ci, Cj tels que di,j soit minimal;
D´efinir un nouveau regroupement Ck = Ci ∪ Cj, et d´efinir les dkl, pour tout l;
D´efinir un nouveau nœud k de fils i, j, et placer le `a une hauteur dij/2;
Rajouter Ck dans l’ensemble des regroupements, et ´eliminer Ci et Cj; Fin:
Lorsqu’il ne reste plus que deux regroupements Ci, Cj, placer la racine
Arbre ultram´etrique
Construction d’un arbre par UPGMA sous-entend un mod`ele d’´evolution faisant intervenir l’hypoth`ese de l’horloge mol´eculaire: taux de mutation constant
−→ Tous les chemins d’un nœud particulier `a n’importe quelle feuille, ont la mˆeme longueur.
UPGMA trouve LE bon arbre ssi il existe un arbre ultram´etrique pour D Arbre ultram´etrique: Arbre T enracin´e v´erifiant:
1. T contient n feuille, chaque feuille ´etiquett´ee par une ligne de D (une esp`ece).
2. Chaque nœud interne ´etiquett´e par une case de D, et `a au moins deux fils.
3. Le long d’un chemin quelconque de la racine `a une feuille, les valeurs des ´etiquettes des nœuds d´ecroissent strictement.
4. Pour deux feuilles quelconques i, j, D(i, j) est l’´etiquette du dernier ancˆetre commun de i et j dans T.
T, s’il existe, est une repr´esentation compacte de D.
E D C B A A B C D E
0 8 8 5 3
0 0
0 0 8 8 3
8 8
5 (a)
B C
D E
A
5 3
8
(b) 3
Figure 1: (a) Matrice sym´etrique D. (b) Arbre ultram´etrique associ´e
` a D.
Remarque: T a au plus n − 1 nœuds internes. Donc, si D `a plus de n − 1 valeurs, il n’existe pas d’arbre ultram´etrique pour D.
Distance ultram´etrique
Une matrice sym´etrique D d´efinie une distance ultram´etrique ssi, pour trois indices qqes i, j, k, le maximum de D(i, j), D(i, k), D(j, k) n’est pas unique.
Si D peut ˆetre repr´esent´e par un arbre ultram´etrique, alors D est ultram´etrique.
k v
u
i j
Th´eor`eme 1: D peut ˆetre repr´esent´ee par un arbre ultram´etrique ssi D est ultram´etrique.
Th´eor`eme 2: Si D est une matrice ultram´etrique, alors l’arbre ultram´etrique de D est unique.
Preuve: Dans la construction de l’arbre, les classes sont “forc´ees”, i.e. ne peuvent pas ˆetre d´etermin´ees autrement, et les positions de ces classes sont forc´ees ´egalement.
Cons´equence: Si D refl`ete effectivement la distance d’´evolution entre les esp`eces, alors l’arbre obtenu est n´ecessairement le vrai arbre.
Th´eor`eme 3: Si D est ultram´etrique, alors l’arbre ultram´etrique peut ˆetre construit en un temps O(n2). D’autre part, on peut
d´eterminer en un temps O(n2) si une distance est ultram´etrique ou non.
Comment obtenir des donn´ees ultram´etriques
Distances ´etiquettant les nœuds des arbres ultram´etriques suppos´ees refl´eter le temps qui s’est ´ecoul´e depuis la s´eparation des deux esp`eces.
Th´eorie de l’horloge mol´eculaire (1960): Pour une prot´eine donn´ee, le taux de mutations accept´ees par intervalle de temps est constant. Ce taux de mutations n’est pas le mˆeme pour deux prot´eines diff´erentes.
Avec cette th´eorie, si k mutations accept´ees entre les prot´eines A et B, alors peut estimer `a k/2 le nb de mutations survenues pour chaque esp`ece depuis la divergence. Permet d’obtenir des donn´ees ultram´etriques
Le plus souvent, les donn´ees r´eelles ne sont pas ultram´etriques. Lorsque les donn´ees sont ultram´etriques (ou presque) cela constitue une preuve forte de la pertinence des donn´ees. Si non, une possibilit´e est de les modifier de fa¸con minimale de telle sorte qu’elles le deviennent.
Distances additives
Autre hypoth`ese sous-entendue dans la construction d’un arbre par UPGMA: distance additive.
D: Matrice sym´etrique n × n dont la diagonale ne contient que des z´eros, et les autres cases des r´eels strictement positifs
T: arbre contenant au moins n nœuds (dont les feuilles), chaque ligne (esp`ece) de D correspond `a un nœud diff´erent, et les arcs sont ´etiquett´es.
T arbre additif pour D si, pour toute paire de nœuds (i, j), le poids total du chemin de i `a j est D(i, j).
A
B
C 2
1 4
A 2 B C
A B C
0
0
0 5 8 5
Probl`emes: Trouver un arbre additif pour D, ou d´eterminer qu’un tel arbre n’existe pas.
Distance additive: Contrainte moins forte que la contrainte
ultram´etrique. Cependant, les donn´ees r´eelles sont rarement additives.
Un vaste domaine de recherche: comment effectuer la plus petite
“d´eviation” possible sur les donn´ees pour qu’elles deviennent additives?
Test d’additivit´e, condition des quatre points
Arbre additif pour D: Distance entre deux feuilles qqs de l’arbre = somme des poids des arcs du chemin joignant ces deux feuilles.
Pour tout ensemble de 4 ´el´ements i, j, k, l, deux des distances
dij + dkl, dik + djl, dil +djl sont ´egales et sup´erieures `a la troisi`eme
i
j
k
l
i
j
k
l
i
j
k
l
i
j
k
l
M´ethode de construction d’un arbre additif
Paire de feuilles voisines: Deux feuilles de T ayant le mˆeme p`ere.
• Choisir deux objets i, j garantis d’ˆetre voisins dans un arbre additif
• Supprimer i, j de la liste des objets, et rajouter le nœud k
correspondant au p`ere commun de i et j. Distance de k `a une feuille quelconque m: D(k, m) = 12(D(i, m) + D(j, m) − D(i, j)).
De cette fa¸con, nb de feuilles r´eduit de 1 `a chaque ´etape, jusqu’`a arriver
`
a un ensemble restreint `a 2 feuilles.
m k
i
j
3 4
2 1
0.1 0.1
0.1
0.4 0.4
Comment d´eterminer, `a partir de d, deux feuilles qui sont n´ecessairement voisines dans un arbre additif e D? Il ne suffit pas de choisir une paire d’objets dont la distance est minimale.
L: Ensemble des objets (feuilles d’un arbre additif)
Pour tout (i, j) ∈ L, D(i, j) valeur obtenue en soustrayant de D(i, j) la distance moyenne de i et j `a tous les autres objets:
D(i, j) = D(i, j) − (ri + rj)
ri = 1
|L| − 2
X
k∈L\i,j
D(i, k)
Th´eor`eme: Si T arbre additif pour la distance additive D, si (i, j) paire d’objets telle que D(i, j) est minimal parmi toutes les paires d’objets, alors i et j sont voisins dans T
Algorithme Neighbour-joining
Initialisation:
T ensemble de toutes les feuilles, une pour chaque objet, et L = T. It´eration:
Consid´erer une paire (i, j) de L telle que D(i, j) est minimal.
D´efinir un nouveau nœud k et poser:
D(k, m) = 12(D(i, m) +D(j, m) − D(i, j)) pour tout m ∈ L.
Rajouter k dans T, cr´eer deux arcs (i, k) et (j, k) de poids D(i, k) = 12(D(i, j) + ri − rj) et D(j, k) = D(i, j) − D(i, k).
Supprimer i et j de L et rajouter k.
Fin:
L contient exactement deux feuilles i, j.
Cr´eer un arc (i, j) de poids D(i, j).
1
2(D(i, j) + ri − rj): moyenne de 12(D(i, j) + D(i, m) − D(j, m)) pour toutes les feuilles m. Chacune de ces expressions repr´esente exactement D(i, k)
Remarque: Pour une distance additive, il n’existe pas un seul arbre additif
Heuristique: Appliquer l’algorithme plusieurs fois en modifiant al´eatoirement l’ordre des objets dans L (des ordres diff´erents entrainent des choix diff´erents d’objets voisins). Trouver un consensus pour l’ensemble des arbres obtenus.
Lorsque la distance n’est pas additive, on peut quand meme
appliquer Neighbour-Joining, mais pas garantie sur la qualit´e de l’arbre obtenu.
Enraciner les arbres
Contrairement `a l’algorithme UPGMA, Neighbour-joining construit un arbre non enracin´e. Pour raciner l’arbre, il suffit de rajouter un outgroup, i.e. une esp`ece tr`es ´eloign´ee des autres esp`eces
consid´er´ees
giant panda
lesser panda
orignal
goshawk vautour canard
alligator axolotl
Autre strat´egie: Choisir le milieu d’un plus long chemin dans l’arbre. Hypoth`ese de l’horloge mol´eculaire consid´er´ee
M´ethodes de parsimonie
M´ethode g´en´erale:
• Consid´erer l’ensemble T de toutes les topologies d’arbres possibles ayant les objets (s´equences) pour ´etiquettes des racines.
• Calculer un poids pour chaque arbre T de T .
• S´electionner un arbre de T de poids minimal.
Pond´eration d’un arbre: Affecter des s´equences aux nœuds internes de telle sorte `a minimiser le poids total de l’arbre (somme des
distances entre les nœuds voisins)
Si on a un alignement des s´equences, proc´eder colonne par colonne.
Hypoth`ese: Chaque colonne a ´evolu´e s´epar´ement des autres.
Sous-probl`emes pour des s´equences r´eduites `a un caract`ere de Σ ∪ {−}
AAG
AAA AAA
1 1
AAA AGA AAA GGA
AAG AGA
AAA AAA
1
GGA AAA AAA
AAG AAA
GGA AGA AAA
AGA AAA
1 1
AAG 1
AAAGGA
AGA 2 2 1
Probl`eme: Trouver un ´etiquettage des nœuds internes qui minimise le nombre de nœuds adjacents ayant des ´etiquettes 6=
Parsimonie pond´er´ee
On ne compte pas juste le nombre de substitutions, mais un poids S(a, b) pour la substitution de a en b.
Etiquetter les nœuds internes de telle sorte `´ a minimiser le poids total de l’arbre
Par r´ecurrence: ´etiquette d’un nœud d´eduite des ´etiquettes des nœuds fils.
Sk(a): poids du sous-arbre de racine k, sous la condition que k est
´etiquett´e par a.
Algorithme parsimonie pond´er´ee:
Initialisation:
Poser k = 2n − 1, le num´ero de la racine;
R´ecurrence - Calculer Sk(a) pour tous les a:
Si k est une feuille
Poser Sk(a) = 0 pour a ´etiquette de k, Sk(a) = ∞ si non;
Si k n’est pas une feuille
Calculer Si(a), Sj(a) pour tous les a, o`u i, j sont les fils de k;
Poser Sk(a) = minb(Si(b) + S(a, b)) + minb(Sj(b) + S(a, b));
Fin:
Poids minimal de l’arbre = mina S2n−1(a);
Pour retrouver les nucl´eotides aux nœuds internes, garder des
pointeurs lk(a), rk(a), pour chaque a et chaque nœud k, et rajouter les deux instructions suivante dans le bloc de r´ecurrence:
Poser lk(a) = argminb(Si(b) + S(a, b));
Poser rk(a) = argminb(Sj(b) + S(a, b));
Pour retrouver une assignation correcte pour les nœuds internes, choisir un nucl´eotide a `a la racine qui donne lieu `a un poids
S2n−1(a) minimal, et suivre les pointeurs
Parsimonie traditionnelle, Algorithme de Fitch
Minimiser le nombre de substitutions de caract`eres. Garder `a chaque nœud une liste de nucl´eotides “valides”. C: Poids courant de l’arbre.
Initialisation:
Poser k = 2n − 1, le num´ero de la racine, et C = 0;
R´ecurrence:
Si k est une feuille
Poser Rk = {´etiquette de k};
Si k n’est pas une feuille
Calculer Ri, Rj, o`u i, j sont les fils de k;
Si Ri ∩ Rj 6= ∅, poser Rk = Ri ∩ Rj; Si non, Rk = Ri ∪ Rj et incr´ementer C; Fin:
Poids minimal de l’arbre = C;
A B
A B
{A,B}
{A,B}
A
Pour retrouver les nucl´eotides des nœuds internes: Choisir un nucl´eotide dans R2n−1, puis d´escendre dans l’arbre. Si on a choisit a pour k, Alors, pour le fils i de k, choisir a si possible, si non, choisir un nucl´eotide au hasard dans Ri.
Complexit´e: O(n|Σ|), o`u n est la taille de l’arbre (nombre de nœuds).
Probl`eme de la parsimonie traditionnelle: Certaines assignations possibles des nœuds internes ne sont jamais consid´er´ees.
A B
A B
A A
A B
A B
A A
A B
A B
A B
A B
A B
B
B
B {1,1}
{1,2}
{2,2}
Observation: Le poids minimal d’un arbre, calcul´e par la m´ethode de parsimonie traditionnelle, est ind´ependant du choix de la racine.
Cons´equence: on n’a pas besoin de tester tous les arbres racin´es possibles.
Enum´´ eration de tous les arbres possibles
Arbres binaires enracin´es de n feuilles:
n feuilles =⇒ n − 1 nœuds internes
=⇒ Nombre total de nœuds et feuilles = 2n − 1
=⇒ 2n − 2 arcs.
Arbre sans racine: 2n − 2 nœuds et 2n − 3 arcs.
Pour former un arbre enracin´e, on rajoute une racine au milieu d’un des 2n − 3 arcs =⇒ 2n − 3 arbres enracin´es
3 fa¸cons de former un arbre sans racine de 4 feuilles `a partir d’un arbre sans racine de 3 feuilles.
5 fa¸cons de former un arbre sans racine de 5 feuilles `a partir d’un arbre sans racine de 4 feuilles· · ·
Par r´ecurrence: (3).(5).(7).· · ·(2n − 5) arbres sans racine de n feuilles.
=⇒ (3).(5).(7).· · ·(2n − 5)(2n − 3) = (2n − 3)!! arbres enracin´es de n feuilles
Le nombre d’arbres croˆıt tr`es rapidement en fonction de n.
Exemple: Pour n = 10, ∼ 2000000 arbres. Pour n = 20,
∼ 2.2 × 1020 arbres.
S´election d’arbres `a tester
Premi`ere m´ethode stochastique: Etant donn´´ e un arbre T, permuter
al´eatoirement des branches dans T, et choisir l’arbre obtenu si son score est meilleur que le score courant. Pas garanti d’obtenir un arbre optimal.
Deuxi`eme m´ethode stochastique: Construire l’arbre en rajoutant un arc
`
a chaque ´etape.
• Construire un arbre T non enracin´e `a partir de trois objets choisits al´eatoirement (2 objets dans le cas d’un arbre enracin´e).
• Pour T contenant r feuilles, choisir al´eatoirement un r + 1`eme objet, et le rajouter dans T de fa¸con optimale.
Pas garanti , non plus, d’obtenir un arbre optimal. Des ordres diff´erents pour les objets donnent lieu `a des arbres diff´erents, de scores diff´erents.
Troisi`eme m´ethode: Branch and Bound Rajouter des feuilles `a l’arbre courant, et s’arrˆeter d`es que l’arbre a un nombre maximal de feuilles, ou d`es que le score d´epasse un certain seuil (score du meilleur arbre obtenu jusque la). Correct car le nombre de mismatches ne peut qu’augmenter avec le nombre d’arcs.
Tous les arbres non-enracin´es sont ´enum´er´es dans le tableau
[i3][i5][i7]· · ·[i2n−5], o`u chaque case ik prend les valeurs de 0 `a k.
Signification: Construire l’arbre contenant les trois premiers objets (3 arcs). Rajouter un arc pour le 4`eme objet sur l’arc d’indice i3. Le
nouveau nombre d’arcs est alors 5. i5 d´etermine l’indice de l’arc o`u doit ˆetre rajout´e un arc pour le 5`eme objet, etc.
1. Consid´erer la case la plus `a droite du tableau, et l’incr´ementer
jusqu’`a obtenir la valeur 2n − 5. Remplacer alors cette valeur par 0.
Incr´ementer la case pr´ec´edente jusqu’`a obtenir la valeur 2n − 7. La remplacer par 0, etc.
2. Lorsque l’on arrive `a une situation o`u l’on n’a que des 0 `a droite d’une certaine case, on incr´emente simultan´ement toutes ces cases.
[3] - - - - [7][0][0][0][0]
[3] - - - - [7][1][1][1][1]
3. Commencer avec le tableau [1][0][0]· · ·[0]. Soit C le score du meilleur arbre obtenu `a l’´etape courante de l’algorithme. Si on
obtient un arbre T de score sup´erieur `a C, alors aucun arbre optimal ne peut ˆetre obtenu en rajoutant des arcs `a T. Dans ce cas, si toutes les cases du tableau `a partir d’un certain indice i ne contiennent que des 0, alors il suffit d’incr´ementer i.
[3] - - - - [7][0][0][0][0]
[3] - - - - [8][0][0][0][0]
Inconsistance du mod`ele de parsimonie
Consistance d’une m´ethode d’estimation: Capacit´e `a converger vers une bonne valeur (ici, le vrai arbre de phylog´enie) avec
l’augmentation des donn´ees.
En consid´erant un mod`ele d’´evolution simple, la m´ethode de parsimonie peut entrainer une fausse estimation de l’arbre (Felsenstein)
Supposons que la vraie phylog´enie d’un groupe de 4 taxons soit:
A A
A A (3)A (2) GC
AA
GG GA
(1) Type de motif (4)
I Non−informatif (constant) II Non−informatif
III Non−informatif IV Information fausse
(A)
Taille des branches refl`ete le taux d’´evolution. Taux d’´evolution acc´el´er´e pour les branches menant `a (1) et (4). Les deux autres branches si
courtes qu’il n’y a presque pas de difference entre (2) et (3).
4 classes possibles pour les nucl´eotides de (1) et (4). I, II, III ne
fournissent aucune information permettant de clairement favoriser cet arbre par rapport `a tous les autres. IV: seule classe permettant de favoriser un arbre particulier. Malheureusement, favorise le mauvais arbre:
(1)
(4)
(2)
(3) (3)
(2)
(1) (4)
(B) (C)
Felsenstein appelle une telle situation positively misleading car plus on a de caract`eres (plus les s´equences sont longues), plus on est sur d’obtenir un arbre faux.
Lorsqu’on est dans la zone Felsenstein, le seul espoir d’obtenir un bon arbre est de s´equencer suffisamment peu de caract`eres, de sorte `a ˆetre induit en erreur le moins possible. Ph´enom`ene appel´e attraction des longues branches.
Diff´erence entre parsimonie et likelihood Arbre non-enracin´e:
1 2
Temps
A A A
A A A A A C G (A)
Comment deviner le nucl´eotide de l’ancˆetre (1)?
Algorithme de Fitch: On peut attribuer `a (1) n’importe lequel des nucl´eotides A, C ou G avec un poids de 2 pour l’arbre. T augmente ce poids de 1.
D’autre part, une nouvelle s´equence avec C, A, ou G peut ˆetre ins´er´ee avec un poids de 2 `a n’importe quelle branche. ´Egalement, nouvelle s´equence contenant T peut ˆetre ins´er´ee avec un poids de 3
`
a n’importe quelle branche. Dans tous les cas, s´equence non informative (ne favorise aucun arbre)
A C C G
A C
G A
C C G
C (D)
(C) (B)
Maximum de vraisemblance: Choisir l’hypoth`ese qui maximise la probabilit´e d’observer le nucl´eotide obtenu.
Mod`ele d’´evolution choisit: Taux de substitution identique pour tous les nucl´eotides; nombre moyen de substitutions le long d’une branche proportionnel ´a la longueur de la branche.
Observation: Tous les descendants de (2) ont des A. Donc, taux de mutation faible. D’o`u, phylog´enie entrainant peu de mutations plus probable que phylog´enie entrainant beaucoup de mutations. Donc,
pr´esence d’un A `a l’ancˆetre (2) beaucoup plus probable que
pr´esence d’un C, G ou T (mais hypoth`ese d’un C,G,T non rejet´ee).
Nucl´eotide `a l’ancˆetre 1? A, C ou G? Supposons un A `a (2). Plus probable que la substitution ait eu lieu sur la branche longue.
Donc, plus probable d’avoir un A en (1). Plus g´en´eralement, ordre de probabilit´e: A > C > G > T.
Rajout d’une s´equence avec un C: arbre (C) plus probable que les autres, car pour les arbres (B) et (D), deux substitutions A → C seraient n´ecessaires.
La taille des branches est une information importante pour la m´ethode de maximum likelihood, et donc pas de probl`eme
d’attraction des longues branches. Dans ce cas, arbre (8B) tr`es probable.