• Aucun résultat trouvé

Phylogénies. phylogénie ou arbre évolutif. IFT 3290, H2004, Miklós Csűrös Université de Montréal Phylogénies 2

N/A
N/A
Protected

Academic year: 2022

Partager "Phylogénies. phylogénie ou arbre évolutif. IFT 3290, H2004, Miklós Csűrös Université de Montréal Phylogénies 2"

Copied!
21
0
0

Texte intégral

(1)

Phylog ´enies

(2)

Phylog ´enies

phylog ´enie ou arbre ´evolutif

Humain Chimpanzé Gorille Orang-outan Babouin

vers la reste de l'arbre

temps ancêtre

commun

(3)

Arbre racin ´e

H C G O B

racine

branche

feuille noeud interne

(4)

Arbre non-racin ´e

H

C

G

O B

feuille noeud interne

(5)

D’o ` u vient l’arbre ?

(6)

Evolution de caract `eres/s ´equences ´

S ´equence assosi ´ee `a chaque noeud : peut ˆetre des s ´equences mol ´eculaires ou d’autres «caract `eres» (poss `ede des ailes, pr ´esence de colonne vert ´ebrale) Evolution comme transmission d’une s ´equence ancestrale `a partir de la´ racine vers les feuilles

Mutations introduites sur les branches

⇒ arbre sur les s ´equences (pas n ´ecessairement le m ˆeme que la phy- log ´enie des esp `eces)

(7)

Mutations

Substitutions : O(10−9) par site par an dans ADN de mammif `eres, cca.

10 fois plus grand en ADN mitochondrial)

- transitions : A ↔ G ou T ↔ C et transversions - peut changer le codon ou non

Recombinations

Insertions et suppressions Inversions

(8)

Maximum de parcimonie (MP)

minimiser le nombre total de changements de caract `eres sur les branches (valeur de parcimonie)

Probl `eme 1 : calculer la valuer de parcimonie pour un arbre donn ´e — PD Probl `eme 2 : trouver l’arbre qui minimise la parcimonie — NP-difficile

Nombre d’arbres non-racin ´es avec n feuilles : 1 · 3 · 5· · ·(2n − 5)

(9)

Parcimonie 2

Probl `eme 1 (la petite parcimonie)

S ´equences [align ´ees] : s1, . . . , sn, de longueur `

Arbre : chaque si assign ´ee `a une feuille ; d ´eterminer les s ´equences ances- trales sj: j > n assign ´ees aux noeuds internes

Valeur de parcimonie sur une branche ij :

VP(ij) = P`k=1 I{si[k] 6= sj[k]} o `u I{A} est l’indicateur de A ( ´egal `a 1 ssi A est vrai)

On veut minimiser Pij VP(ij).

(10)

Parcimonie 3

Observation : Pij VP(ij) = P`k=1Pij I{si[k] 6= sj[k] donc il suffit de trouver un algorithme pour des s ´equences de longueur 1 est l’utiliser ` fois.

Programmation dynamique : calculer pour chaque noeud u - V (u) : VP pour le sous-arbre racin ´e `a u

- V (u, a) : VP pour le sous-arbre si u est assign ´e caract `ere a

Feuilles : V (u) = 0; V (u, a) = 0 si u est assign ´e a, V (u, a) = ∞ sinon R ´ecurrences pour noeud interne : V (u, a) = Pv est un d ´esc ´endantmin{V (v)+

(11)

Distances

Mod `ele d’ ´evolution de s ´equences sur un arbre : relai d’un message de la racine vers les feuilles transmission avec du «bruit» sur chaque branche bruit = mutations

mod `ele probabiliste pour les mutations

les s ´equences correspond `a un «´echantillon» al ´eatoire

(12)

Cavender-Farris

mod `ele de Cavender-Farris : s ´equences binaires, mutations symmetriques Exemple : noeud x est le parent de y, transmission d’un bit X → Y .

Probabilit ´e de mutation sur la branche : pxy. Alors P{X 6= Y } = pxy.

Similarit ´e de deux noeuds : S(x, y) = P{X = Y } − P{X 6= Y }.

Thm. S(x, y) se multiplie sur chaque chemin.

(13)

Distances - 2

Algorithme pour la construction d’un arbre `a partir des distances : triples

u v

w o

u

v w

o

D(u, o) =

D(u, v) + D(u, w) − D(v, w)

/2.

(14)

Algorithme pour construire l’arbre

[Esquiss ´e. . . ]

Feuilles : 1, . . . , n ; matrice de distances entre feuilles de taille n × n 1. Commencer avec le triple 1,2,3 et son centre

2. Pour i = 4, . . . , n :

2.1 choisir* un triple j1, j2, i avec j1, j2 < i;

2.2 ins ´erer son centre c sur le chemin entre j1 et j2 dans l’arbre ; 2.3 joindre i `a c et calculer les nouvelles longueurs de branches

(15)

Jukes-Cantor

Jukes-Cantor-Neyman : ´evolution de s ´equences sur un alphabet Σ = {a1, . . . , am}

mutations de caract `eres ind ´ependantes en chaque position des s ´equences mutation sur une branche XY : sym ´etrique, sp ´ecifi ´ee par la probabilit ´e de mutation p

P

Y = a0

X = a

=

1 − p si a = a0 ; p/(m − 1) si a 6= a0. Distance : D(X, Y ) = −log(1 − m−1m P{X 6= Y })

(16)

Mod `ele Markovien

Mutations ind ´ependantes ; probabilit ´es de substitutions sp ´ecifi ´ees par une matrice de transition

MX→Y [a, a0] = P

Y = a0

X = a

On a que MX→Z = MX→Y MY →Z.

Donc D(X, Y ) = −log

detMX→Y detMY →X

est une distance sur

(17)

Neighbor joining

1 2

3,4,...,n X

voisins 1: (1,2)

1 2

5,6,...,n X

voisins 2: (3,4)

3 4 Y

1 2

6,7,...,n X

voisins 3: (5,X)

3 4 Y

Z 5

(18)

Neighbor joining - 2

1 2

3,4,...,n X

calcul de longueurs de branches : prenons la moyenne L1X = 1

n − 2

n X i=3

(d1i + d12 − d2i)/2.

L2X m ˆeme chose

LiX = (d1i + d2i − d12)/2.

(19)

Neighbor joining - 3

choix des voisins : minimiser le somme total de longueurs de branches

1

2

X Y

3 4

n ...

S12 = L1X + L2X + LXY +

n X i=3

LY i. o `u LXY = (Pi≥3 LXiPi≥3 LY i)/(n − 2).

(20)

Neighbor joining - 4

On a Pni=3 LY i = n−31 P3≤i<j≤n dij. Apr `es un peu d’arithm ´etique :

S12 = 1

2d12 + 1 n − 2

X i<j

dij − 1 n − 2

Pn

i=1 d1i + Pni=1 d2i 2

Calculer en avance : Rk = Pni=1 dki pour chaque feuille k,

choisir la paire qui minimise (n − 2)dkk0 − Rk − Rk0 : elle minimise Skk0

aussi

(21)

Neighbor joining - 5

algorithme en O(n3) (pas it ´eratif) :

(1) trouver 1,2 en minimisant S12 (temps O(n2)) ;

(2) calculer L1X, L2X, et diX pour i ≥ 3 (temps O(n)) ; (3) remplacer 1,2 par X dans la matrice de distances.

Thm. C¸ a donne l’arbre correct pour des distances additives.

Preuve. Id ´ee seulement : le calcul des longueurs de branches est correct si 12 sont les voisins. Il faut prouver que 12 sont les voisins quand on minimise S12.

Références

Documents relatifs

Cette ´ equation signifie que pour que la convection transporte de la chaleur il faut que les variation lat´ erales de v z et de δT soient corr´ el´ ees et, pour le flux soit vers

´electrique intense r`egne dans l’espace inter-´electrodes, et les ´electrons, ´emis par la cathode centrale, se di- rigeraient vers l’anode externe `a grande vitesse si le

Fiche issue de http://www.ilephysique.net 1.. Les diff´erents hydrocarbures contenus dans le p´etrole sont s´epar´es dans des raffineries par distillation frac- tionn´ee : le

Nous avons vu en cours comment lire un fichier de donn´ ees et placer dans un data-frame de R les valeurs de diff´ erents caract` eres pour les divers individus de l’´

Il est donc n´ecessaire de d´etecter et d’isoler les donn´ees aberrantes pour reconstruire des arbres plus robustes, avec des valeurs boots- trap plus ´elev´ees, qui peuvent

[r]

` A l’aide d’un intervalle de fluctuation au seuil de 95%, d´ eterminer si le lyc´ ee Alexandre Dumas est repr´ esentatif de la population fran¸ caise2. Les r´ esultats

` A cause des r´ eactions nucl´ eaires en son sein, le mat´ eriau d´ egage une puissance thermique volumique σ r´ epartie uniform´ ement dans le syst` eme.. 1/(a) Rappeler la loi