Th´eorie de l’´evolution

(1)

Th´ eorie de l’´ evolution

Tous les organismes vivants d´ erivent d’un ancˆ etre commun. Diversit´ e due ` a la sp´ eciation (s´ eparation d’une esp` ece en deux esp` eces)

Pas d’information directe sur le pass´ e. Reconstruction d’une phylog´ enie bas´ ee sur des mod` eles simplifi´ es utilisant des donn´ ees incompl` etes.

Id´ ee de base: Les caract` eres sont transmis d’une g´ en´ eration ` a l’autre, et au cours de l’´ evolution, ces caract` eres subissent une s´ erie de mutations En g´ en´ eral les caract` eres ´ etudi´ es sont des positions ou des r´ egions de

l’ADN. Utilise les m´ ethodes de comparaisons de s´ equences de nucl´ eotides

ou d’acides amin´ es.

(2)

Arbres enracin´ es et non enracin´ es

Arbre enracin´ e: Direction repr´ esentant le temps d’´ evolution: plus un nœud est proche de la racine, plus il est vieux.

racine

H C G O B

Arbre non-enracin´ e: Ne permet pas de d´ eduire des relations de descendance.

C

H

G O

B

racine possible qui donne lieu a

l’arbre du haut

Plusieurs m´ ethodes de construction d’arbres de phylog´ enie g´ en` erent des arbres non-enracin´ es. Il faut ensuite trouver un “outgroup”

pour enraciner l’arbre.

(3)

Type de donn´ ees

Deux types de donn´ ees: les caract` eres (trait, caract´ eristique) et les distances.

Caract` eres g´ en´ eralement repr´ esent´ ees par une matrice X = (x

_ij

), o` u x

_ij

est l’´ etat du caract` ere i dans l’esp` ece j .

Hypoth` ese g´ en´ eralement consid´ er´ ee: Chaque caract` ere ´ evolue ind´ ependemment des autres.

Evolution d’un ensemble d’esp` ´ eces d´ eduite ` a partir de caract` eres homologues. Par exemple, g` enes homologues (orthologues ou

paralogues).

(4)

Caract` eres les plus utilis´ es pour les ´ etudes d’´ evolution: s´ equences de nucl´ eotides ou d’acides amin´ es. Caract` eres repr´ esent´ es par les positions, et l’´ etat d’un caract` ere est le nucl´ eotide (ou l’AA)

observ´ e ` a la position consid´ er´ ee. Par exemple, position 139 est le caract` ere, et ‘A’ est l’´ etat du caract` ere 139.

N´ ecessite un alignement des s´ equences.

S´ equences de nucl´ eotides:

Vache AGTGACAACTAGGCCATAATGTACGA Eponge ACTGTCAACTACGCTTTGATGTACGT Mouche AGAGTCATCCACGCTTTAATCTTCGA

S´ equences d’acides amin´ es:

Vache RTGMAALTPRWACDLKINHIYR

Eponge ASGMTALSPKYTCELRMNHLYR

Mouche TTGMSALSPRWSCDLKIEHIWK

(5)

Construction d’arbres de phylog´ enie

M´ ethodes de distance: Input du probl` eme −→ ensemble de distances (par exemple distance d’´ edition). Construire l’arbre de phylog´ enie en

“accord” avec cet ensemble de distances.

Distances ultram´ etriques ou additives donnent lieu ` a des probl` emes faciles ` a traiter.

Heuristiques pour le cas g´ en´ eral: arbre qui fournit la “meilleure approximation”.

M´ ethodes de parsimonie: Arbre qui explique l’´ evolution des esp` eces par un nombre minimal de mutations. Deux composantes principales:

• Calcul du score d’un arbre donn´ e.

• Recherche, parmi tous les arbres, de l’arbre de score minimal.

Parsimonie maximale = Nombre minimal de mutations.

M´ ethodes de maximum de vraisemblance: M´ ethode probabiliste.

Trouver les s´ equences des nœuds internes les plus probables.

(6)

I. M´ ethodes de distance

INPUT: Matrice de distance entre les s´ equences. D´ ecoule des alignements de s´ equences. En g´ en´ eral, les gaps sont ´ elimin´ es des alignements.

Distances ´ evolutives entre deux s´ equences bas´ ees sur plusieurs mod` eles d’´ evolution. Les plus simples:

Mod` ele de Jukes Cantor (1969): Mˆ eme taux de substitution pour chaque paire de nucl´ eotides.

Mod` ele de Kimura (1980): Les transitions (A ↔ G, C ↔ T ) et les transversions (A ↔ T, G ↔ T, A ↔ C, C ↔ G) ont des taux

diff´ erents.

(7)

Algorithme UPGMA

n s´ equences; D

_i,j

: distance entre les deux s´ equences i et j . Proc´ eder par regroupement des s´ equences les plus proches. ` A chaque ´ etape, les deux regroupements les plus “proches” sont fusionn´ es.

d

_i,j

: Distance entre deux regroupements C

_i

et C

_j

. Moyenne des distances des paires de s´ equences entre les deux regroupements:

d

_i,j

= 1

|C

_i

||C

_j

| Σ

_p∈C_i_,q∈C_j

D

_p,q

Si C

_k

= C

_i

∪ C

_j

, et C

_l

un autre regroupement, alors:

d

_kl

= d

_il

|C

_i

| + d

_jl

|C

_j

|

|C

_i

| + |C

_j

|

(8)

3 5

7 (III)

1: A T G T T C G 2: A T C T T T G 3: G G C T A C G 4: G C C T T G C 5: G C A T T C G

3 5

7 1

2 d68

1 2

6 3

7

5 8

4 9

5

1 2 3 4

1 2 3 4 5

2 4 5 3

4 4 4

4 3

3

1 2

3

1 2

6 1

2d12 6

(I)

4 5

I

1 2

3

1 2

6 6

(I) 3 4

3 4 5 6

5 6

4 3 4

3 4.5

3.5 4 5

7

3 7

5

1 2

6 6

4 3

4 6 7

4

7

4.5 3.5 3.75

7

5 8

4 1 2 d47

9

1 2

6

4 6 8

1 2 d35

(IV) 6

6 4.12

8

(9)

Algorithme UPGMA:

Initialisation:

D´ efinir n regroupements, chaque regroupement C

i

contenant la seule s´ equence numero i;

D´ efinir un arbre T restreint ` a un ensemble n de feuilles, une feuille pour chaque regroupement. Toutes les feuilles sont de hauteur 0;

It´ eration:

Consid´ erer deux regroupements C

_i

, C

_j

tels que d

_i,j

soit minimal;

D´ efinir un nouveau regroupement C

_k

= C

_i

∪ C

_j

, et d´ efinir les d

kl

, pour tout l;

D´ efinir un nouveau nœud k de fils i, j , et placer le ` a une hauteur d

_ij

/2;

Rajouter C

_k

dans l’ensemble des regroupements, et ´ eliminer C

_i

et C

_j

; Fin:

Lorsqu’il ne reste plus que deux regroupements C

i

, C

j

, placer la racine

(10)

Arbre ultram´ etrique

Construction d’un arbre par UPGMA sous-entend un mod` ele d’´ evolution faisant intervenir l’hypoth` ese de l’horloge mol´ eculaire: taux de mutation constant

−→ Tous les chemins d’un nœud particulier ` a n’importe quelle feuille, ont la mˆ eme longueur.

UPGMA trouve LE bon arbre ssi il existe un arbre ultram´ etrique pour D

Arbre ultram´ etrique pour D: Arbre T enracin´ e v´ erifiant:

1. T contient n feuille, chaque feuille ´ etiquett´ ee par une ligne de D (une esp` ece).

2. Chaque nœud interne ´ etiquett´ e par une case de D, et ` a au moins deux fils.

3. Le long d’un chemin quelconque de la racine ` a une feuille, les valeurs

des ´ etiquettes des nœuds d´ ecroissent strictement.

(11)

4. Pour deux feuilles quelconques i, j, D(i, j ) est l’´ etiquette du dernier ancˆ etre commun de i et j dans T .

T , s’il existe, est une repr´ esentation compacte de D.

E D C B A A B C D E

0 8 8 5 3

0 0

0 0 8 8 3

8 8

5 (a)

B C

D E

A

5 3

8

(b) 3

Figure 1: (a) Matrice sym´ etrique D. (b) Arbre ultram´ etrique associ´ e

` a D.

Remarque: T a au plus n − 1 nœuds internes. Donc, si D ` a plus de n − 1

valeurs, il n’existe pas d’arbre ultram´ etrique pour D.

(12)

Distance ultram´ etrique

D´ efinition: Une matrice sym´ etrique D d´ efinie une distance

ultram´ etrique ssi, pour trois indices qqes i, j , k, le maximum de D(i, j ), D(i, k), D(j, k) n’est pas unique.

Si D peut ˆ etre repr´ esent´ e par un arbre ultram´ etrique, alors D est une distance ultram´ etrique.

k v

u

i j

Th´ eor` eme 1: D peut ˆ etre repr´ esent´ ee par un arbre ultram´ etrique

ssi D est une distance ultram´ etrique.

(13)

Th´ eor` eme 2: Si D est une matrice ultram´ etrique, alors l’arbre ultram´ etrique de D est unique.

Preuve: Dans la construction de l’arbre, les classes sont “forc´ ees”, i.e. ne peuvent pas ˆ etre d´ etermin´ ees autrement, et les positions de ces classes sont forc´ ees ´ egalement.

Cons´ equence: Si D refl` ete effectivement la distance d’´ evolution entre les esp` eces, alors l’arbre obtenu est n´ ecessairement le vrai arbre.

Th´ eor` eme 3: Si D est ultram´ etrique, alors l’arbre ultram´ etrique peut ˆ etre construit en un temps O(n

²

). D’autre part, on peut

d´ eterminer en un temps O(n

²

) si une distance est ultram´ etrique ou

non.

(14)

Que signifient des donn´ ees ultram´ etriques

Distances ´ etiquettant les nœuds des arbres ultram´ etriques suppos´ ees refl´ eter le temps qui s’est ´ ecoul´ e depuis la s´ eparation des deux esp` eces.

Th´ eorie de l’horloge mol´ eculaire (1960): Pour une prot´ eine donn´ ee, le taux de mutations accept´ ees par intervalle de temps est constant. Ce taux de mutations n’est pas le mˆ eme pour deux prot´ eines diff´ erentes.

Avec cette th´ eorie, si k mutations accept´ ees entre les prot´ eines A et B,

alors on peut estimer ` a k/2 le nb de mutations survenues pour chaque

esp` ece depuis la divergence. Permet d’obtenir des donn´ ees ultram´ etriques

Le plus souvent, les donn´ ees r´ eelles ne sont pas ultram´ etriques. Lorsque

les donn´ ees sont ultram´ etriques (ou presque) cela constitue une preuve

forte de la pertinence des donn´ ees. Si non, une possibilit´ e est de les

modifier de fa¸ con minimale de telle sorte qu’elles le deviennent.

(15)

Distances additives

Autre hypoth` ese sous-entendue dans la construction d’un arbre par UPGMA: distance additive.

D: Matrice sym´ etrique n × n dont la diagonale ne contient que des z´ eros, et les autres cases des r´ eels strictement positifs

T : arbre contenant au moins n nœuds (dont les feuilles), chaque ligne (esp` ece) de D correspond ` a un nœud diff´ erent, et les arˆ etes sont

´ etiquett´ ees.

T arbre additif pour D si, pour toute paire de nœuds (i, j ), le poids total

du chemin de i ` a j est D(i, j ).

(16)

A

B

C 2

1 4

A 2 B C

A B C

0 0

0 5 8 5

Probl` eme: Trouver un arbre additif pour D, ou d´ eterminer qu’un tel arbre n’existe pas.

Distance additive: Contrainte moins forte que la contrainte

ultram´ etrique. Cependant, les donn´ ees r´ eelles sont rarement additives.

Un vaste domaine de recherche: comment effectuer la plus petite

“d´ eviation” possible sur les donn´ ees pour qu’elles deviennent additives?

(17)

Test d’additivit´ e, condition des quatre points

Arbre additif pour D: Distance entre deux feuilles qqs de l’arbre = somme des poids des arˆ etes du chemin joignant ces deux feuilles.

Pour tout ensemble de 4 ´ el´ ements i, j, k, l, deux des distances D

_ij

+ D

_kl

, D

_ik

+ D

_jl

, D

_il

+ D

_jk

sont ´ egales et sup´ erieures ` a la troisi` eme

i

j

k

l

i

j

k

l

i

j

k

l

i

j

k

l

(18)

M´ ethode de construction d’un arbre additif

Paire de feuilles voisines: Deux feuilles de T ayant le mˆ eme p` ere.

• Choisir deux objets i, j garantis d’ˆ etre voisins dans un arbre additif

• Supprimer i, j de la liste des objets, et rajouter le nœud k

correspondant au p` ere commun de i et j . Distance de k ` a une feuille quelconque m: D(k, m) =

¹₂

(D(i, m) + D(j, m) − D(i, j )).

De cette fa¸ con, nb de feuilles r´ eduit de 1 ` a chaque ´ etape, jusqu’` a arriver

`

a un ensemble restreint ` a 2 feuilles.

m k

i

j

3 4

2 1

0.1 0.1

0.1

0.4 0.4

(19)

Comment d´ eterminer, ` a partir de D, deux feuilles qui sont

n´ ecessairement voisines dans un arbre additif de D? Il ne suffit pas de choisir une paire d’objets dont la distance est minimale.

L: Ensemble des objets (feuilles d’un arbre additif)

Pour tout (i, j ) ∈ L, D(i, j ) valeur obtenue en soustrayant de D(i, j ) la distance moyenne de i et j ` a tous les autres objets:

D(i, j ) = D(i, j ) − (r

i

+ r

j

)

r

i

= 1

|L| − 2

X

k∈L\i,j

D(i, k )

Th´ eor` eme: Si T arbre additif pour la distance additive D, si (i, j ) paire

d’objets telle que D(i, j ) est minimal parmi toutes les paires d’objets,

alors i et j sont voisins dans T

(20)

Algorithme Neighbour-joining

Initialisation :

T ensemble de toutes les feuilles, une pour chaque objet, et L = T . It´ eration:

Consid´ erer une paire (i, j) de L telle que D (i, j ) est minimal.

D´ efinir un nouveau nœud k et poser:

D(k, m) =

¹₂

(D(i, m) + D(j, m) − D(i, j)) pour tout m ∈ L.

Rajouter k dans T , cr´ eer deux arˆ etes (i, k) et (j, k) de poids D(i, k ) =

¹₂

(D(i, j) + r

_i

− r

_j

) et D(j, k) = D(i, j) − D(i, k).

Supprimer i et j de L et rajouter k.

Fin:

L contient exactement deux feuilles i, j.

Cr´ eer une arˆ ete (i, j) de poids D(i, j).

(21)

1

2

(D(i, j ) + r

_i

− r

_j

): moyenne de

¹₂

(D(i, j ) + D(i, m) − D(j, m)) pour toutes les feuilles m. Chacune de ces expressions repr´ esente exactement D(i, k)

Remarque: Pour une distance additive, il n’existe pas un seul arbre additif

Heuristique: Appliquer l’algorithme plusieurs fois en modifiant al´ eatoirement l’ordre des objets dans L (des ordres diff´ erents entrainent des choix diff´ erents d’objets voisins). Trouver un consensus pour l’ensemble des arbres obtenus.

Lorsque la distance n’est pas additive, on peut quand meme

appliquer Neighbour-Joining, mais pas de garantie sur la qualit´ e de

l’arbre obtenu.

(22)

Enraciner les arbres

Contrairement ` a l’algorithme UPGMA, Neighbour-joining construit un arbre non enracin´ e. Pour raciner l’arbre, il suffit de rajouter un outgroup, i.e. une esp` ece tr` es ´ eloign´ ee des autres esp` eces

consid´ er´ ees

giant panda

lesser panda

orignal

goshawk vautour canard

alligator axolotl

Autre strat´ egie: Choisir le milieu d’un plus long chemin dans

l’arbre. Hypoth` ese de l’horloge mol´ eculaire consid´ er´ ee

(23)

M´ ethodes de parsimonie

M´ ethode g´ en´ erale:

• Consid´ erer l’ensemble T de toutes les topologies d’arbres possibles ayant les objets (s´ equences) pour ´ etiquettes des feuilles.

• Calculer un poids pour chaque arbre T de T .

• S´ electionner un arbre de T de poids minimal.

Pond´ eration d’un arbre: Affecter des s´ equences aux nœuds internes de telle sorte ` a minimiser le poids total de l’arbre (somme des

distances entre les nœuds voisins)

(24)

Si on a un alignement des s´ equences, proc´ eder colonne par colonne.

AAG

AAA AAA

1 1

AAA AGA AAA GGA

AAG AGA

AAA AAA

1

GGA AAA AAA

AAG AAA

GGA AGA AAA

AGA AAA

1 1

AAG

1

AAA GGA

AGA

² ² ¹

Hypoth` ese: Chaque colonne a ´ evolu´ e s´ epar´ ement des autres.

Sous-probl` emes pour des s´ equences r´ eduites ` a un caract` ere de Σ ∪ {−}

Probl` eme: Trouver un ´ etiquettage des nœuds internes qui minimise

le nombre de nœuds adjacents ayant des ´ etiquettes 6=

(25)

Parsimonie pond´ er´ ee

On ne compte pas juste le nombre de substitutions, mais un poids S (a, b) pour la substitution de a en b.

Etiquetter les nœuds internes de telle sorte ` ´ a minimiser le poids total de l’arbre

Par r´ ecurrence: ´ etiquette d’un nœud d´ eduite des ´ etiquettes des nœuds fils.

S

_k

(a): poids du sous-arbre de racine k, sous la condition que k est

´ etiquett´ e par a.

(26)

Algorithme parsimonie pond´ er´ ee:

Initialisation:

Poser k = 2n − 1, le num´ ero de la racine;

R´ ecurrence - Calculer S

_k

(a) pour tous les a:

Si k est une feuille

Poser S

_k

(a) = 0 pour a ´ etiquette de k, S

_k

(a) = ∞ si non;

Si k n’est pas une feuille

Calculer S

_i

(a), S

_j

(a) pour tous les a, o` u i, j sont les fils de k;

Poser S

_k

(a) = min

_b

(S

_i

(b) + S (a, b)) + min

_b

(S

_j

(b) + S (a, b));

Fin:

Poids minimal de l’arbre = min

_a

S

_2n−1

(a);

(27)

Pour retrouver les nucl´ eotides aux nœuds internes, garder des

pointeurs l

_k

(a), r

_k

(a), pour chaque a et chaque nœud k, et rajouter les deux instructions suivante dans le bloc de r´ ecurrence:

Poser l

_k

(a) = argmin

_b

(S

_i

(b) + S (a, b));

Poser r

_k

(a) = argmin

_b

(S

_j

(b) + S(a, b));

Pour retrouver une assignation correcte pour les nœuds internes, choisir un nucl´ eotide a ` a la racine qui donne lieu ` a un poids

S

_2n−1

(a) minimal, et suivre les pointeurs

(28)

Parsimonie traditionnelle, Algorithme de Fitch

Minimiser le nombre de substitutions de caract` eres. Garder ` a chaque nœud une liste de nucl´ eotides “valides”. C : Poids courant de l’arbre.

Initialisation:

Poser k = 2n − 1, le num´ ero de la racine, et C = 0;

R´ ecurrence:

Si k est une feuille

Poser R

k

= {´ etiquette de k};

Si k n’est pas une feuille

Calculer R

_i

, R

_j

, o` u i, j sont les fils de k;

Si R

i

∩ R

j

6= ∅, poser R

k

= R

i

∩ R

j

; Si non, R

_k

= R

i

∪ R

j

et incr´ ementer C ; Fin:

Poids minimal de l’arbre = C ;

(29)

A B

{A,B}

A

Pour retrouver les nucl´ eotides des nœuds internes: Choisir un nucl´ eotide dans R

_2n−1

, puis descendre dans l’arbre. Si on a choisit a pour k, Alors, pour le fils i de k, choisir a si possible, si non, choisir un nucl´ eotide au hasard dans R

i

.

Complexit´ e: O(n|Σ|), o` u n est la taille de l’arbre (nombre de nœuds).

Probl` eme de la parsimonie traditionnelle: Certaines assignations

possibles des nœuds internes ne sont jamais consid´ er´ ees.

(30)

A B

A A

A B

A A

A B

B

B {1,1}

{1,2}

{2,2}

Observation: Le poids minimal d’un arbre, calcul´ e par la m´ ethode de parsimonie traditionnelle, est ind´ ependant du choix de la racine.

Cons´ equence: on n’a pas besoin de tester tous les arbres racin´ es possibles.

(31)

Enum´ ´ eration de tous les arbres possibles

Arbres binaires enracin´ es de n feuilles:

n feuilles = ⇒ n − 1 nœuds internes

= ⇒ Nombre total de nœuds et feuilles = 2n − 1

= ⇒ 2n − 2 arˆ etes.

Arbre sans racine: 2n − 2 nœuds et 2n − 3 arˆ etes.

Pour former un arbre enracin´ e, on rajoute une racine au milieu d’un des 2n − 3 arˆ etes = ⇒ 2n − 3 arbres enracin´ es

3 fa¸ cons de former un arbre sans racine de 4 feuilles ` a partir d’un arbre sans racine de 3 feuilles.

5 fa¸ cons de former un arbre sans racine de 5 feuilles ` a partir d’un

arbre sans racine de 4 feuilles· · ·

(32)

Par r´ ecurrence: (3).(5).(7). · · · (2n − 5) arbres sans racine de n feuilles.

= ⇒ (3).(5).(7). · · · (2n − 5)(2n − 3) = (2n − 3)!! arbres enracin´ es de n feuilles

Le nombre d’arbres croˆıt tr` es rapidement en fonction de n.

Exemple: Pour n = 10, ∼ 2000000 arbres. Pour n = 20,

∼ 2.2 × 10

²⁰

arbres.

(33)

S´ election d’arbres ` a tester

Algorithme d’insertion: Algorithme glouton; construit l’arbre en rajoutant une arˆ ete ` a chaque ´ etape.

• Construire un arbre T non enracin´ e ` a partir de trois objets choisits al´ eatoirement (2 objets dans le cas d’un arbre enracin´ e).

• Pour T contenant r feuilles, choisir al´ eatoirement un r + 1` eme objet, et le rajouter dans T de fa¸ con optimale.

Pas garanti d’obtenir un arbre optimal. Des ordres diff´ erents pour les objets donnent lieu ` a des arbres diff´ erents, de scores diff´ erents.

Algorithme tr` es rapide. Sert g´ en´ eralement de point de d´ epart pour les m´ ethodes de recherche locale.

Recherche locale et r´ earrangements d’arbres: Etant donn´ ´ e un arbre T , permuter al´ eatoirement des branches dans T , et choisir l’arbre obtenu si son score est meilleur que le score courant. Pas garanti d’obtenir un

arbre optimal.

(34)

Algorithme Branch and Bound Rajouter des feuilles ` a l’arbre courant, et s’arrˆ eter d` es que l’arbre a un nombre maximal de feuilles, ou d` es que le score d´ epasse un certain seuil (score du meilleur arbre obtenu jusque la).

Correct car le nombre de mismatches ne peut qu’augmenter avec le nombre d’arˆ etes.

Tous les arbres non-enracin´ es sont ´ enum´ er´ es dans le tableau

[i

₃

][i

₅

][i

₇

] · · · [i

_2n−5

], o` u chaque case i

_k

prend les valeurs de 0 ` a k.

Signification : Construire l’arbre contenant les trois premiers objets (3 arˆ etes). Rajouter une arˆ ete pour le 4` eme objet sur l’arˆete d’indice i

3

. Le nouveau nombre d’arˆ etes est alors 5. i

₅

d´ etermine l’indice de l’arˆ ete o` u doit ˆ etre rajout´ ee une arˆ ete pour le 5` eme objet, etc.

1. Consid´ erer la case la plus ` a droite du tableau, et l’incr´ ementer

jusqu’` a obtenir la valeur 2n − 5. Remplacer alors cette valeur par 0.

Incr´ ementer la case pr´ ec´ edente jusqu’` a obtenir la valeur 2n − 7. La

remplacer par 0, etc.

(35)

2. Lorsque l’on arrive ` a une situation o` u l’on n’a que des 0 ` a droite d’une certaine case, on incr´ emente simultan´ ement toutes ces cases.

[3] - - - - [7][0][0][0][0]

[3] - - - - [7][1][1][1][1]

3. Commencer avec le tableau [1][0][0] · · · [0]. Soit C le score du meilleur arbre obtenu ` a l’´ etape courante de l’algorithme. Si on

obtient un arbre T de score sup´ erieur ` a C , alors aucun arbre optimal ne peut ˆ etre obtenu en rajoutant des arˆ etes ` a T . Dans ce cas, si

toutes les cases du tableau ` a partir d’un certain indice i ne contiennent que des 0, alors il suffit d’incr´ ementer i.

[3] - - - - [7][0][0][0][0]

[3] - - - - [8][0][0][0][0]

(36)

Inconsistance du mod` ele de parsimonie

Consistance d’une m´ ethode d’estimation: Capacit´ e ` a converger vers une bonne valeur (ici, le vrai arbre de phylog´ enie) avec

l’augmentation des donn´ ees.

En consid´ erant un mod` ele d’´ evolution simple, la m´ ethode de parsimonie peut entrainer une fausse estimation de l’arbre (Felsenstein )

Supposons que la vraie phylog´ enie d’un groupe de 4 taxons soit:

(37)

A A

A A (3)A (2) GC

AA

GG GA

(1) Type de motif (4)

I Non−informatif (constant) II Non−informatif

III Non−informatif IV Information fausse

(A)

Taille des branches refl` ete le taux d’´ evolution. Taux d’´ evolution acc´ el´ er´ e pour les branches menant ` a (1) et (4). Les deux autres branches sont si courtes qu’il n’y a presque pas de difference entre (2) et (3).

4 classes possibles pour les nucl´ eotides de (1) et (4). I, II, III ne

fournissent aucune information permettant de clairement favoriser cet

arbre par rapport ` a tous les autres. IV: seule classe permettant de

favoriser un arbre particulier. Malheureusement, favorise le mauvais

arbre:

(38)

(1)

(4)

(2)

(3) (3)

(2)

(1) (4)

(B) (C)

Felsenstein appelle une telle situation positively misleading car plus on a de caract` eres (plus les s´ equences sont longues), plus on est sur d’obtenir un arbre faux.

Lorsqu’on est dans la zone Felsenstein, le seul espoir d’obtenir un bon

arbre est de s´ equencer suffisamment peu de caract` eres, de sorte ` a ˆ etre

induit en erreur le moins possible. Ph´ enom` ene appel´ e attraction des

longues branches.

(39)

Diff´ erence entre parsimonie et likelihood Arbre non-enracin´ e:

1 2

Temps

A A A

A A A A A C G (A)

Comment deviner le nucl´ eotide de l’ancˆ etre (1)?

Algorithme de Fitch: On peut attribuer ` a (1) n’importe lequel des nucl´ eotides A, C ou G avec un poids de 2 pour l’arbre. T augmente ce poids de 1.

D’autre part, une nouvelle s´ equence avec C , A, ou G peut ˆ etre

ins´ er´ ee avec un poids de 2 ` a n’importe quelle branche. ´ Egalement,

nouvelle s´ equence contenant T peut ˆ etre ins´ er´ ee avec un poids de 3

(40)

`

a n’importe quelle branche. Dans tous les cas, s´ equence non informative (ne favorise aucun arbre)

A C C G

A C

G A

C C G

C (D)

(C) (B)

Maximum de vraisemblance: Choisir l’hypoth` ese qui maximise la probabilit´ e d’observer le nucl´ eotide obtenu.

Mod` ele d’´ evolution choisit: Taux de substitution identique pour tous les nucl´ eotides; nombre moyen de substitutions le long d’une branche proportionnel ` a la longueur de la branche.

Observation: Tous les descendants de (2) ont des A. Donc, taux de

mutation faible. D’o` u, phylog´ enie entrainant peu de mutations plus

probable que phylog´ enie entrainant beaucoup de mutations. Donc,

(41)

pr´ esence d’un A ` a l’ancˆ etre (2) beaucoup plus probable que

pr´ esence d’un C, G ou T (mais hypoth` ese d’un C,G,T non rejet´ ee).

Nucl´ eotide ` a l’ancˆ etre 1? A, C ou G? Supposons un A ` a (2). Plus probable que la substitution ait eu lieu sur la branche longue.

Donc, plus probable d’avoir un A en (1). Plus g´ en´ eralement, ordre de probabilit´ e: A > C > G > T .

Rajout d’une s´ equence avec un C: arbre (C) plus probable que les autres, car pour les arbres (B) et (D), deux substitutions A → C seraient n´ ecessaires.

La taille des branches est une information importante pour la m´ ethode de maximum likelihood, et donc pas de probl` eme

d’attraction des longues branches. Dans ce cas, arbre (8B) tr` es

probable.

(42)

M´ ethode de maximum de vraisemblance On veut calculer la vraisemblance

P (Donn´ ees|Arbre, Longueur de branches)

P (x|y, t): Probabilit´ e d’´ evolution d’une s´ equence y en une s´ equence x le long d’une branche de taille t.

x1

x2

x3 t1

t2

t3 t4

x4

x5

P (x

₁

, · · · , x

₅

|T, L) =

P (x

₁

|x

₄

, t

₁

)P (x

₂

|x

₄

, t

₂

)P (x

₃

|x

₅

, t

₃

)P (x

₄

|x

₅

, t

₄

)P (x

₅

)

(43)

M´ ethode de maximum de vraisemblance

Probl` eme: Trouver l’arbre le plus vraisemblable pour un ensemble de s´ equences X , i.e. l’arbre T de longueur de branches L qui

maximise P (X |T, L). Sous-entend:

1. Essayer toutes les topologies d’arbres et tous les assignements de feuilles possibles;

2. Pour chaque topologie, toutes les longueurs de branches possibles.

Comme on l’a vu, il y a (2n − 3)!! arbres binaires enracin´ es de n feuilles. Consid´ erer des heuristiques efficaces (comme le

branch-and-bound d´ eja vu) pour (1). Pour (2), il existe une

multitude de techniques d’optimisation.

(44)

Probabilit´ e des substitutions Mod` ele simple:

1. Chaque site (colonne d’un alignement multiple) ´ evolue

ind´ ependamment des autres. Alors pour deux s´ equences x et y:

P (x|y, t) = Π

_u

P (x

_u

|y

_u

, t)

2. Evolution par substitutions seulement (pas de indel).

P (a|b, t): Probabilit´ e que le r´ esidu a soit substitu´ e en b sur une branche de taille t. Pour un alphabet de taille n, table Table S (t) n × n:

S(t) =







P (A

₁

|A

₁

, t) P (A

₂

|A

₁

, t) · · · P (A

_n

|A

₁

, t) P (A

1

|A

₂

, t) P (A

2

|A

₂

, t) · · · P (A

n

|A

₂

, t)

· · · · · · · · · · · ·

P (A

₁

|A

_n

, t) P (A

₂

|A

_n

, t) · · · P (A

_n

|A

_n

, t)







(45)

Taux de substitutions pour les nucl´ eotides

Table Q 4 × 4 de substitutions pour les nucl´ eotides: chaque Q

_ij

repr´ esente le taux de changement d’un site de l’´ etat i ` a l’´ etat j au cours d’un temps dt.

Q =





−µ(aπC +bπG +cπT) µaπC µbΠG µcπT

µaπA −µ(aπA +dπG +eπT) µdΠG µeπT

µbπA µdπC −µ(bπA +dπC +f πT) µf πT

µcπA µeπC µf πG −µ(cπA +eπC +f πG)





µ: taux moyen de substitution en dt.

a, b, c, d, e, f : taux de mutation d’un nucl´ eotide particulier en un autre.

µ

_A

, µ

_C

, µ

_G

, µ

_T

: Fr´ equences de chaque nucl´ eotide.

(46)

Probabilit´ e des substitutions

Q: taux de changements en un intervalle de temps dt.

Pour calculer les vraisemblances, on a besoin des probabilit´ es de changements d’un ´ etat i ` a un ´ etat j le long d’une branche de taille t.

La matrice de probabilit´ e des substitutions est:

S (t) = e

^Qt

(47)

Mod` eles de substitutions

Mod` ele de Jukes Cantor (JC): π

_A

= π

_C

= π

_G

= π

_T

= 0.25, et a = b = c = d = e = f = 1

Q =







−

³₄

µ

¹₄

µ

¹₄

µ

¹₄

µ

1

4

µ −

³₄

µ

¹₄

µ

¹₄

µ

1

4

µ

¹₄

µ −

³₄

µ

¹₄

µ

1

4

µ

¹₄

µ

¹₄

µ −

³₄

µ







Q =







−3α α α α

α −3α α α

α α −3α α

α α α −3α







(48)

Cette matrice donne lieu ` a la matrice de substitution en un temps t:

S (t) =







r

_t

s

_t

s

_t

s

_t

s

_t

r

_t

s

_t

s

_t

s

_t

s

_t

r

_t

s

_t

s

_t

s

_t

s

_t

r

_t







avec r

_t

=

¹₄

(1 + 3e

^−4αt

) et s

_t

=

¹₄

(1 − e

^−4αt

) Cette matrice est multiplicative, c’est-` a-dire:

S (t)S (s) = S (t + s)

Si s et t sont vus comme des temps, cela induit le mod` ele

d’´ evolution suivant: La probabilit´ e qu’un a au temps t soit chang´ e

en un b au temps s ne d´ epend que de l’intervalle de temps (s − t).

(49)

Mod` eles de substitutions

Mod` ele de Kimura (K2P): Les transitions (A ↔ G, C ↔ T ) et les transversions (A ↔ T, G ↔ T, A ↔ C, C ↔ G) ont des taux

diff´ erents

−→ a = c = d = f = 1, b = e = κ

Matrice S(t) ´ egalement multiplicative: La probabilit´ e qu’un r´ esidu

au temps t soit chang´ e en un autre r´ esidu au temps s ne d´ epend

que de l’intervalle de temps (s − t).

(50)

Calcul de la vraisemblance pour 2 s´ equences

x

_u

y

_u

t1

t2 a

P (x

_u

, y

_u

, a|T, t

₁

, t

₂

) = π

_a

P (x

_u

|a, t

₁

)P (y

_u

|a, t

₂

)

P (x

_u

, y

_u

|T, t

₁

, t

₂

) = X

a

π

_a

P (x

_u

|a, t

₁

)P (y

_u

|a, t

₂

)

P (x, y|T, t

₁

, t

₂

) = Π

ⁿ_u=1

P (x

_u

, y

_u

|T, t

₁

, t

₂

)

(51)

M´ ethode de Felsenstein (1981)

c b

j i

k a

P (L

_k

|a): Probabilit´ e de toutes les feuilles du sous-arbre de racine k

sachant que le r´ esidu au noeud k est a.

(52)

Algorithme de Felsenstein:

Initialisation:

Poser k = 2n − 1, le num´ ero de la racine;

R´ ecurrence - Calculer P (L

_k

|a) pour tous les a:

Si k est une feuille

Poser P (L

_k

|a) = 1 pour a = x

^k_u

, L(L

_k

|a) = 0 si non;

Si k n’est pas une feuille

Calculer P (L

_i

|a), P (L

_j

|a) pour tous les a, o` u i, j sont les fils de k;

Poser P (L

_k

|a) = P

b,c

P (b|a, t

_i

)P (L

_i

|b)P (c|a, t

_j

)P (L

_j

|c);

Fin:

Vraisemblance ` a la colonne u = P

a

P (L

_2n−1

|a)π

_a