• Aucun résultat trouvé

Th´eorie de l’´evolution

N/A
N/A
Protected

Academic year: 2022

Partager "Th´eorie de l’´evolution"

Copied!
40
0
0

Texte intégral

(1)

Th´ eorie de l’´ evolution

Tous les organismes vivants d´erivent d’un ancˆetre commun Diversit´e due

`

a la sp´eciation (s´eparation d’une esp`ece en deux esp`eces)

Pas d’information directe sur le pass´e. Reconstruction d’une phylog´enie bas´ee sur des mod`eles simplifi´es utilisant des donn´ees incompl`etes.

Id´ee de base: Les caract`eres sont transmis d’une g´en´eration `a l’autre, et au cours de l’´evolution, ces caract`eres subissent une s´erie de mutations En g´en´eral les caract`eres ´etudi´es sant des positions ou des r´egions de

l’ADN. Utilise les ethodes de comparaisons de s´equences de nucl´eotides ou d’acides amin´es.

(2)

Arbres enracin´es et non enracin´es

Arbre enracin´e: Direction repr´esentant le temps d’´evolution: plus un nœud est proche de la racine, plus il est vieux.

racine

H C G O B

Arbre non-enracin´e: Ne permet pas de d´eduire des relations de descendance.

C

H

G O

B

racine possible qui donne lieu a

l’arbre du haut

Plusieurs m´ethodes de construction d’arbres de phylog´enie g´en`erent des arbres non-enracin´es. Il faut ensuite trouver un “outgroup”

pour enraciner l’arbre.

(3)

Type de donn´ees

Deux types de donn´ees: les caract`eres (trait, caract´eristique) et les distances.

Caract`eres g´en´eralement repr´esent´ees par une matrice X = (xij), o`u xij est l’´etat du caract`ere i dans l’esp`ece j.

Hypoth`ese g´en´eralement consid´er´ee: Chaque caract`ere ´evolue ind´ependamment des autres.

Evolution d’un ensemble d’esp`´ eces d´eduite `a partir de caract`eres homologues. Par exemple, g`enes homologues (orthologues ou

paralogues).

(4)

Caract`eres les plus utilis´es pour les ´etudes d’´evolution: s´equences de nucl´eotides ou d’acides amin´es. Caract`eres repr´esent´es par les positions, et l’´etat d’un caract`ere est le nucl´eotide (ou l’AA)

observ´e `a la position consid´er´ee. Par exemple, position 139 est le caract`ere, et ‘A’ est l’´etat du caract`ere 139.

N´ecessite un alignement des s´equences.

S´equences de nucl´eotides:

Vache AGTGACAACTAGGCCATAATGTACGA Eponge ACTGTCAACTACGCTTTGATGTACGT Mouche AGAGTCATCCACGCTTTAATCTTCGA

S´equences d’acides amin´es:

Vache RTGMAALTPRWACDLKINHIYR Eponge ASGMTALSPKYTCELRMNHLYR Mouche TTGMSALSPRWSCDLKIEHIWK

(5)

Construction d’arbres de phylog´enie

Trois m´ethodes principales.

ethodes de distance: Input du probl`eme −→ ensemble de distances (par exemple distance d’´edition). Construire l’arbre de phylog´enie en

“accord” avec cet ensemble de distances.

Distances ultram´etriques ou additives donnent lieu `a des probl`emes faciles `a traiter. Heuristiques pour le cas g´en´eral: arbre qui fournit la

“meilleure approximation”. Pas de consensus sur la d´efinition de

“meilleure”.

ethodes de parsimonie: Arbre qui explique l’´evolution des esp`eces par un nombre minimal de mutations. Deux composantes principales:

Calcul du score d’un arbre donn´e.

Recherche, parmi tous les arbres, de l’arbre de score minimal.

Parsimonie maximale = Nombre minimal de mutations.

ethodes de maximum de vraisemblance: ethode probabiliste.

Trouver la s´equence de nœuds internes la plus probable.

(6)

M´ethodes de distance

n s´equences; Di,j: distance entre les deux s´equences i et j.

Algorithme de clustering, UPGMA: Proc´eder par regroupement des s´equences les plus proches. `A chaque ´etape, les deux regroupements les plus “proches” sont fusionn´es.

di,j: Distance entre deux regroupements Ci et Cj. Moyenne des distances des paires de s´equences entre les deux regroupements:

di,j = 1

|Ci||Cjp∈Ci,q∈CjDp,q

Si Ck = Ci ∪ Cj, et Cl un autre regroupement, alors:

dkl = dil|Ci| + djl|Cj|

|Ci| + |Cj|

(7)

3 5

7 (III)

1: A T G T T C G 2: A T C T T T G 3: G G C T A C G 4: G C C T T G C 5: G C A T T C G

3 5

7 1

2 d68

1 2

6 3

7

5 8

4 9

5

1 2 3 4

1 2 3 4 5

2 4 5 3

4 4 4

4 3

3

1 2

3

1 2

6 1

2d12 6

(I)

4 5

I

1 2

3

1 2

6 6

(I) 3 4

3 4 5 6

5 6

4 3 4

3 4.5

3.5 4 5

7

3 7

5

1 2

1 2

6 6

4 3

4 6 7

4

7

4.5 3.5 3.75

7

5 8

4 1 2 d47

9

1 2

6

4 6 8

1 2 d35

(IV) 6

6 4.12

8

8

(8)

Algorithme UPGMA:

Initialisation:

efinir n regroupements, chaque regroupement Ci contenant la seule s´equence numero i;

efinir un arbre T restreint `a un ensemble n de feuilles, une feuille pour chaque regroupement. Toutes les feuilles sont de hauteur 0;

It´eration:

Consid´erer deux regroupements Ci, Cj tels que di,j soit minimal;

efinir un nouveau regroupement Ck = Ci Cj, et d´efinir les dkl, pour tout l;

efinir un nouveau nœud k de fils i, j, et placer le `a une hauteur dij/2;

Rajouter Ck dans l’ensemble des regroupements, et ´eliminer Ci et Cj; Fin:

Lorsqu’il ne reste plus que deux regroupements Ci, Cj, placer la racine

(9)

Arbre ultram´etrique

Construction d’un arbre par UPGMA sous-entend un mod`ele d’´evolution faisant intervenir l’hypoth`ese de l’horloge mol´eculaire: taux de mutation constant

−→ Tous les chemins d’un nœud particulier `a n’importe quelle feuille, ont la mˆeme longueur.

UPGMA trouve LE bon arbre ssi il existe un arbre ultram´etrique pour D Arbre ultram´etrique: Arbre T enracin´e v´erifiant:

1. T contient n feuille, chaque feuille ´etiquett´ee par une ligne de D (une esp`ece).

2. Chaque nœud interne ´etiquett´e par une case de D, et `a au moins deux fils.

3. Le long d’un chemin quelconque de la racine `a une feuille, les valeurs des ´etiquettes des nœuds d´ecroissent strictement.

(10)

4. Pour deux feuilles quelconques i, j, D(i, j) est l’´etiquette du dernier ancˆetre commun de i et j dans T.

T, s’il existe, est une repr´esentation compacte de D.

E D C B A A B C D E

0 8 8 5 3

0 0

0 0 8 8 3

8 8

5 (a)

B C

D E

A

5 3

8

(b) 3

Figure 1: (a) Matrice sym´etrique D. (b) Arbre ultram´etrique associ´e

` a D.

Remarque: T a au plus n 1 nœuds internes. Donc, si D `a plus de n 1 valeurs, il n’existe pas d’arbre ultram´etrique pour D.

(11)

Distance ultram´etrique

Une matrice sym´etrique D d´efinie une distance ultram´etrique ssi, pour trois indices qqes i, j, k, le maximum de D(i, j), D(i, k), D(j, k) n’est pas unique.

Si D peut ˆetre repr´esent´e par un arbre ultram´etrique, alors D est ultram´etrique.

k v

u

i j

Th´eor`eme 1: D peut ˆetre repr´esent´ee par un arbre ultram´etrique ssi D est ultram´etrique.

(12)

Th´eor`eme 2: Si D est une matrice ultram´etrique, alors l’arbre ultram´etrique de D est unique.

Preuve: Dans la construction de l’arbre, les classes sont “forc´ees”, i.e. ne peuvent pas ˆetre d´etermin´ees autrement, et les positions de ces classes sont forc´ees ´egalement.

Cons´equence: Si D refl`ete effectivement la distance d’´evolution entre les esp`eces, alors l’arbre obtenu est n´ecessairement le vrai arbre.

Th´eor`eme 3: Si D est ultram´etrique, alors l’arbre ultram´etrique peut ˆetre construit en un temps O(n2). D’autre part, on peut

d´eterminer en un temps O(n2) si une distance est ultram´etrique ou non.

(13)

Comment obtenir des donn´ees ultram´etriques

Distances ´etiquettant les nœuds des arbres ultram´etriques suppos´ees refl´eter le temps qui s’est ´ecoul´e depuis la s´eparation des deux esp`eces.

Th´eorie de l’horloge mol´eculaire (1960): Pour une prot´eine donn´ee, le taux de mutations accept´ees par intervalle de temps est constant. Ce taux de mutations n’est pas le mˆeme pour deux prot´eines diff´erentes.

Avec cette th´eorie, si k mutations accept´ees entre les prot´eines A et B, alors peut estimer `a k/2 le nb de mutations survenues pour chaque esp`ece depuis la divergence. Permet d’obtenir des donn´ees ultram´etriques

Le plus souvent, les donn´ees r´eelles ne sont pas ultram´etriques. Lorsque les donn´ees sont ultram´etriques (ou presque) cela constitue une preuve forte de la pertinence des donn´ees. Si non, une possibilit´e est de les modifier de fa¸con minimale de telle sorte qu’elles le deviennent.

(14)

Distances additives

Autre hypoth`ese sous-entendue dans la construction d’un arbre par UPGMA: distance additive.

D: Matrice sym´etrique n × n dont la diagonale ne contient que des z´eros, et les autres cases des r´eels strictement positifs

T: arbre contenant au moins n nœuds (dont les feuilles), chaque ligne (esp`ece) de D correspond `a un nœud diff´erent, et les arcs sont ´etiquett´es.

T arbre additif pour D si, pour toute paire de nœuds (i, j), le poids total du chemin de i `a j est D(i, j).

(15)

A

B

C 2

1 4

A 2 B C

A B C

0

0

0 5 8 5

Probl`emes: Trouver un arbre additif pour D, ou d´eterminer qu’un tel arbre n’existe pas.

Distance additive: Contrainte moins forte que la contrainte

ultram´etrique. Cependant, les donn´ees r´eelles sont rarement additives.

Un vaste domaine de recherche: comment effectuer la plus petite

“d´eviation” possible sur les donn´ees pour qu’elles deviennent additives?

(16)

Test d’additivit´e, condition des quatre points

Arbre additif pour D: Distance entre deux feuilles qqs de l’arbre = somme des poids des arcs du chemin joignant ces deux feuilles.

Pour tout ensemble de 4 ´el´ements i, j, k, l, deux des distances

dij + dkl, dik + djl, dil +djl sont ´egales et sup´erieures `a la troisi`eme

i

j

k

l

i

j

k

l

i

j

k

l

i

j

k

l

(17)

M´ethode de construction d’un arbre additif

Paire de feuilles voisines: Deux feuilles de T ayant le mˆeme p`ere.

Choisir deux objets i, j garantis d’ˆetre voisins dans un arbre additif

Supprimer i, j de la liste des objets, et rajouter le nœud k

correspondant au p`ere commun de i et j. Distance de k `a une feuille quelconque m: D(k, m) = 12(D(i, m) + D(j, m) D(i, j)).

De cette fa¸con, nb de feuilles r´eduit de 1 `a chaque ´etape, jusqu’`a arriver

`

a un ensemble restreint `a 2 feuilles.

m k

i

j

3 4

2 1

0.1 0.1

0.1

0.4 0.4

(18)

Comment d´eterminer, `a partir de d, deux feuilles qui sont n´ecessairement voisines dans un arbre additif e D? Il ne suffit pas de choisir une paire d’objets dont la distance est minimale.

L: Ensemble des objets (feuilles d’un arbre additif)

Pour tout (i, j) L, D(i, j) valeur obtenue en soustrayant de D(i, j) la distance moyenne de i et j `a tous les autres objets:

D(i, j) = D(i, j) (ri + rj)

ri = 1

|L| − 2

X

k∈L\i,j

D(i, k)

Th´eor`eme: Si T arbre additif pour la distance additive D, si (i, j) paire d’objets telle que D(i, j) est minimal parmi toutes les paires d’objets, alors i et j sont voisins dans T

(19)

Algorithme Neighbour-joining

Initialisation:

T ensemble de toutes les feuilles, une pour chaque objet, et L = T. It´eration:

Consid´erer une paire (i, j) de L telle que D(i, j) est minimal.

efinir un nouveau nœud k et poser:

D(k, m) = 12(D(i, m) +D(j, m) D(i, j)) pour tout m L.

Rajouter k dans T, cr´eer deux arcs (i, k) et (j, k) de poids D(i, k) = 12(D(i, j) + ri rj) et D(j, k) = D(i, j) D(i, k).

Supprimer i et j de L et rajouter k.

Fin:

L contient exactement deux feuilles i, j.

Cr´eer un arc (i, j) de poids D(i, j).

(20)

1

2(D(i, j) + ri − rj): moyenne de 12(D(i, j) + D(i, m) − D(j, m)) pour toutes les feuilles m. Chacune de ces expressions repr´esente exactement D(i, k)

Remarque: Pour une distance additive, il n’existe pas un seul arbre additif

Heuristique: Appliquer l’algorithme plusieurs fois en modifiant al´eatoirement l’ordre des objets dans L (des ordres diff´erents entrainent des choix diff´erents d’objets voisins). Trouver un consensus pour l’ensemble des arbres obtenus.

Lorsque la distance n’est pas additive, on peut quand meme

appliquer Neighbour-Joining, mais pas garantie sur la qualit´e de l’arbre obtenu.

(21)

Enraciner les arbres

Contrairement `a l’algorithme UPGMA, Neighbour-joining construit un arbre non enracin´e. Pour raciner l’arbre, il suffit de rajouter un outgroup, i.e. une esp`ece tr`es ´eloign´ee des autres esp`eces

consid´er´ees

giant panda

lesser panda

orignal

goshawk vautour canard

alligator axolotl

Autre strat´egie: Choisir le milieu d’un plus long chemin dans l’arbre. Hypoth`ese de l’horloge mol´eculaire consid´er´ee

(22)

M´ethodes de parsimonie

M´ethode g´en´erale:

• Consid´erer l’ensemble T de toutes les topologies d’arbres possibles ayant les objets (s´equences) pour ´etiquettes des racines.

• Calculer un poids pour chaque arbre T de T .

• S´electionner un arbre de T de poids minimal.

Pond´eration d’un arbre: Affecter des s´equences aux nœuds internes de telle sorte `a minimiser le poids total de l’arbre (somme des

distances entre les nœuds voisins)

(23)

Si on a un alignement des s´equences, proc´eder colonne par colonne.

Hypoth`ese: Chaque colonne a ´evolu´e s´epar´ement des autres.

Sous-probl`emes pour des s´equences r´eduites `a un caract`ere de Σ ∪ {−}

AAG

AAA AAA

1 1

AAA AGA AAA GGA

AAG AGA

AAA AAA

1

GGA AAA AAA

AAG AAA

GGA AGA AAA

AGA AAA

1 1

AAG 1

AAAGGA

AGA 2 2 1

Probl`eme: Trouver un ´etiquettage des nœuds internes qui minimise le nombre de nœuds adjacents ayant des ´etiquettes 6=

(24)

Parsimonie pond´er´ee

On ne compte pas juste le nombre de substitutions, mais un poids S(a, b) pour la substitution de a en b.

Etiquetter les nœuds internes de telle sorte `´ a minimiser le poids total de l’arbre

Par r´ecurrence: ´etiquette d’un nœud d´eduite des ´etiquettes des nœuds fils.

Sk(a): poids du sous-arbre de racine k, sous la condition que k est

´etiquett´e par a.

(25)

Algorithme parsimonie pond´er´ee:

Initialisation:

Poser k = 2n − 1, le num´ero de la racine;

R´ecurrence - Calculer Sk(a) pour tous les a:

Si k est une feuille

Poser Sk(a) = 0 pour a ´etiquette de k, Sk(a) = ∞ si non;

Si k n’est pas une feuille

Calculer Si(a), Sj(a) pour tous les a, o`u i, j sont les fils de k;

Poser Sk(a) = minb(Si(b) + S(a, b)) + minb(Sj(b) + S(a, b));

Fin:

Poids minimal de l’arbre = mina S2n−1(a);

(26)

Pour retrouver les nucl´eotides aux nœuds internes, garder des

pointeurs lk(a), rk(a), pour chaque a et chaque nœud k, et rajouter les deux instructions suivante dans le bloc de r´ecurrence:

Poser lk(a) = argminb(Si(b) + S(a, b));

Poser rk(a) = argminb(Sj(b) + S(a, b));

Pour retrouver une assignation correcte pour les nœuds internes, choisir un nucl´eotide a `a la racine qui donne lieu `a un poids

S2n−1(a) minimal, et suivre les pointeurs

(27)

Parsimonie traditionnelle, Algorithme de Fitch

Minimiser le nombre de substitutions de caract`eres. Garder `a chaque nœud une liste de nucl´eotides “valides”. C: Poids courant de l’arbre.

Initialisation:

Poser k = 2n 1, le num´ero de la racine, et C = 0;

ecurrence:

Si k est une feuille

Poser Rk = etiquette de k};

Si k n’est pas une feuille

Calculer Ri, Rj, o`u i, j sont les fils de k;

Si Ri Rj 6= ∅, poser Rk = Ri Rj; Si non, Rk = Ri Rj et incr´ementer C; Fin:

Poids minimal de l’arbre = C;

(28)

A B

A B

{A,B}

{A,B}

A

Pour retrouver les nucl´eotides des nœuds internes: Choisir un nucl´eotide dans R2n−1, puis d´escendre dans l’arbre. Si on a choisit a pour k, Alors, pour le fils i de k, choisir a si possible, si non, choisir un nucl´eotide au hasard dans Ri.

Complexit´e: O(n|Σ|), o`u n est la taille de l’arbre (nombre de nœuds).

Probl`eme de la parsimonie traditionnelle: Certaines assignations possibles des nœuds internes ne sont jamais consid´er´ees.

(29)

A B

A B

A A

A B

A B

A A

A B

A B

A B

A B

A B

B

B

B {1,1}

{1,2}

{2,2}

Observation: Le poids minimal d’un arbre, calcul´e par la m´ethode de parsimonie traditionnelle, est ind´ependant du choix de la racine.

Cons´equence: on n’a pas besoin de tester tous les arbres racin´es possibles.

(30)

Enum´´ eration de tous les arbres possibles

Arbres binaires enracin´es de n feuilles:

n feuilles =⇒ n − 1 nœuds internes

=⇒ Nombre total de nœuds et feuilles = 2n − 1

=⇒ 2n − 2 arcs.

Arbre sans racine: 2n − 2 nœuds et 2n − 3 arcs.

Pour former un arbre enracin´e, on rajoute une racine au milieu d’un des 2n − 3 arcs =⇒ 2n − 3 arbres enracin´es

3 fa¸cons de former un arbre sans racine de 4 feuilles `a partir d’un arbre sans racine de 3 feuilles.

5 fa¸cons de former un arbre sans racine de 5 feuilles `a partir d’un arbre sans racine de 4 feuilles· · ·

(31)

Par r´ecurrence: (3).(5).(7).· · ·(2n − 5) arbres sans racine de n feuilles.

=⇒ (3).(5).(7).· · ·(2n − 5)(2n − 3) = (2n − 3)!! arbres enracin´es de n feuilles

Le nombre d’arbres croˆıt tr`es rapidement en fonction de n.

Exemple: Pour n = 10, ∼ 2000000 arbres. Pour n = 20,

∼ 2.2 × 1020 arbres.

(32)

S´election d’arbres `a tester

Premi`ere m´ethode stochastique: Etant donn´´ e un arbre T, permuter

al´eatoirement des branches dans T, et choisir l’arbre obtenu si son score est meilleur que le score courant. Pas garanti d’obtenir un arbre optimal.

Deuxi`eme m´ethode stochastique: Construire l’arbre en rajoutant un arc

`

a chaque ´etape.

Construire un arbre T non enracin´e `a partir de trois objets choisits al´eatoirement (2 objets dans le cas d’un arbre enracin´e).

Pour T contenant r feuilles, choisir al´eatoirement un r + 1`eme objet, et le rajouter dans T de fa¸con optimale.

Pas garanti , non plus, d’obtenir un arbre optimal. Des ordres diff´erents pour les objets donnent lieu `a des arbres diff´erents, de scores diff´erents.

(33)

Troisi`eme m´ethode: Branch and Bound Rajouter des feuilles `a l’arbre courant, et s’arrˆeter d`es que l’arbre a un nombre maximal de feuilles, ou d`es que le score d´epasse un certain seuil (score du meilleur arbre obtenu jusque la). Correct car le nombre de mismatches ne peut qu’augmenter avec le nombre d’arcs.

Tous les arbres non-enracin´es sont ´enum´er´es dans le tableau

[i3][i5][i7]· · ·[i2n−5], o`u chaque case ik prend les valeurs de 0 `a k.

Signification: Construire l’arbre contenant les trois premiers objets (3 arcs). Rajouter un arc pour le 4`eme objet sur l’arc d’indice i3. Le

nouveau nombre d’arcs est alors 5. i5 etermine l’indice de l’arc o`u doit ˆetre rajout´e un arc pour le 5`eme objet, etc.

1. Consid´erer la case la plus `a droite du tableau, et l’incr´ementer

jusqu’`a obtenir la valeur 2n 5. Remplacer alors cette valeur par 0.

Incr´ementer la case pr´ec´edente jusqu’`a obtenir la valeur 2n 7. La remplacer par 0, etc.

(34)

2. Lorsque l’on arrive `a une situation o`u l’on n’a que des 0 `a droite d’une certaine case, on incr´emente simultan´ement toutes ces cases.

[3] - - - - [7][0][0][0][0]

[3] - - - - [7][1][1][1][1]

3. Commencer avec le tableau [1][0][0]· · ·[0]. Soit C le score du meilleur arbre obtenu `a l’´etape courante de l’algorithme. Si on

obtient un arbre T de score sup´erieur `a C, alors aucun arbre optimal ne peut ˆetre obtenu en rajoutant des arcs `a T. Dans ce cas, si toutes les cases du tableau `a partir d’un certain indice i ne contiennent que des 0, alors il suffit d’incr´ementer i.

[3] - - - - [7][0][0][0][0]

[3] - - - - [8][0][0][0][0]

(35)

Inconsistance du mod`ele de parsimonie

Consistance d’une m´ethode d’estimation: Capacit´e `a converger vers une bonne valeur (ici, le vrai arbre de phylog´enie) avec

l’augmentation des donn´ees.

En consid´erant un mod`ele d’´evolution simple, la m´ethode de parsimonie peut entrainer une fausse estimation de l’arbre (Felsenstein)

Supposons que la vraie phylog´enie d’un groupe de 4 taxons soit:

(36)

A A

A A (3)A (2) GC

AA

GG GA

(1) Type de motif (4)

I Non−informatif (constant) II Non−informatif

III Non−informatif IV Information fausse

(A)

Taille des branches refl`ete le taux d’´evolution. Taux d’´evolution acc´el´er´e pour les branches menant `a (1) et (4). Les deux autres branches si

courtes qu’il n’y a presque pas de difference entre (2) et (3).

4 classes possibles pour les nucl´eotides de (1) et (4). I, II, III ne

fournissent aucune information permettant de clairement favoriser cet arbre par rapport `a tous les autres. IV: seule classe permettant de favoriser un arbre particulier. Malheureusement, favorise le mauvais arbre:

(37)

(1)

(4)

(2)

(3) (3)

(2)

(1) (4)

(B) (C)

Felsenstein appelle une telle situation positively misleading car plus on a de caract`eres (plus les s´equences sont longues), plus on est sur d’obtenir un arbre faux.

Lorsqu’on est dans la zone Felsenstein, le seul espoir d’obtenir un bon arbre est de s´equencer suffisamment peu de caract`eres, de sorte `a ˆetre induit en erreur le moins possible. Ph´enom`ene appel´e attraction des longues branches.

(38)

Diff´erence entre parsimonie et likelihood Arbre non-enracin´e:

1 2

Temps

A A A

A A A A A C G (A)

Comment deviner le nucl´eotide de l’ancˆetre (1)?

Algorithme de Fitch: On peut attribuer `a (1) n’importe lequel des nucl´eotides A, C ou G avec un poids de 2 pour l’arbre. T augmente ce poids de 1.

D’autre part, une nouvelle s´equence avec C, A, ou G peut ˆetre ins´er´ee avec un poids de 2 `a n’importe quelle branche. ´Egalement, nouvelle s´equence contenant T peut ˆetre ins´er´ee avec un poids de 3

(39)

`

a n’importe quelle branche. Dans tous les cas, s´equence non informative (ne favorise aucun arbre)

A C C G

A C

G A

C C G

C (D)

(C) (B)

Maximum de vraisemblance: Choisir l’hypoth`ese qui maximise la probabilit´e d’observer le nucl´eotide obtenu.

Mod`ele d’´evolution choisit: Taux de substitution identique pour tous les nucl´eotides; nombre moyen de substitutions le long d’une branche proportionnel ´a la longueur de la branche.

Observation: Tous les descendants de (2) ont des A. Donc, taux de mutation faible. D’o`u, phylog´enie entrainant peu de mutations plus probable que phylog´enie entrainant beaucoup de mutations. Donc,

(40)

pr´esence d’un A `a l’ancˆetre (2) beaucoup plus probable que

pr´esence d’un C, G ou T (mais hypoth`ese d’un C,G,T non rejet´ee).

Nucl´eotide `a l’ancˆetre 1? A, C ou G? Supposons un A `a (2). Plus probable que la substitution ait eu lieu sur la branche longue.

Donc, plus probable d’avoir un A en (1). Plus g´en´eralement, ordre de probabilit´e: A > C > G > T.

Rajout d’une s´equence avec un C: arbre (C) plus probable que les autres, car pour les arbres (B) et (D), deux substitutions A → C seraient n´ecessaires.

La taille des branches est une information importante pour la m´ethode de maximum likelihood, et donc pas de probl`eme

d’attraction des longues branches. Dans ce cas, arbre (8B) tr`es probable.

Références

Documents relatifs

Th`emes d’analyse pour l’agr´egation, St´ephane GONNORD & Nicolas TOSEL, page

Comme f est continue sur [0, 1] (compact) elle est born´ee et atteint

[r]

La deuxi` eme partie qui d´ emontre le th´ eor` eme de Cantor-Bernstein est facultative, moins dans l’esprit du programme ECS (mais bien dans l’esprit d’une ´ epreuve maths 2

Autrement dit, on consid` ere des tirages de p ´ el´ ements de E avec remise, mais sans tenir compte de l’ordre.. Le nombre de r´ esultats possible est

Dans le cas pr´ esent, la part du cuisinier serait de trois pi` eces, mais les pirates se querellent et six d’entre eux sont tu´ es, ce qui porte la part du cuisinier ` a quatre

Comparer cette estimation avec celle donn´ ee par le th´ eor` eme de Minkowski pour de petites et de grandes valeurs de

La diff´ erence entre le th´ eor` eme et sa r´ eciproque tient aux conclusions et aux hypoth` eses : Pour montrer que deux droites sont parall` eles, on utilise le th´ eor` eme de