• Aucun résultat trouvé

Coalescence : principe et bases th´eoriques

N/A
N/A
Protected

Academic year: 2022

Partager "Coalescence : principe et bases th´eoriques"

Copied!
38
0
0

Texte intégral

(1)

Coalescence : principe et bases th´ eoriques

Simon Boitard

INRA, GenPhySE, Toulouse

M2 BBS, Atelier G´en´etique Statistique, 2017-2018

1 / 31

(2)

G´ en´ etique des populations

Reconstruction de l’histoire ´evolutive`a une ´echelle de temps courte (intra-esp`ece) `a partir de donn´ees g´enomiques.

(3)

G´ en´ etique des populations

Reconstruction de l’histoire ´evolutive`a une ´echelle de temps courte (intra-esp`ece) `a partir de donn´ees g´enomiques.

2 / 31

(4)

G´ en´ etique des populations

Reconstruction de l’histoire ´evolutive`a une ´echelle de temps courte (intra-esp`ece) `a partir de donn´ees g´enomiques.

(5)

Le coalescent

Mod`ele math´ematique permettant de d´ecrire / simuler la g´en´ealogie d’un ´echantillon de s´equences d’ADN (ou individus haplo¨ıdes).

Outil pour comprendre l’influence du processus ´evolutif sur la diversit´e g´en´etique.

Onremontele temps au lieu de le descendre.

Article fondateur de Kingman en 1982, tr`es utilis´e depuis.

3 / 31

(6)

Mod` ele de Wright-Fisher pour un locus sans recombinaison

(7)

Mod` ele de Wright-Fisher pour un locus sans recombinaison

4 / 31

(8)

Mod` ele de Wright-Fisher pour un locus sans recombinaison

(9)

Mod` ele de Wright-Fisher pour un locus sans recombinaison

4 / 31

(10)

Mod` ele de Wright-Fisher pour un locus sans recombinaison

(11)

Mod` ele de Wright-Fisher pour un locus sans recombinaison

4 / 31

(12)

G´ en´ ealogie et taille efficace

(13)

G´ en´ ealogie et taille efficace

5 / 31

(14)

Plan du cours

1 Mod`ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ee

4 Mod`ele avec recombinaison

5 Conclusions

(15)

Plan du cours

1 Mod`ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ee

4 Mod`ele avec recombinaison

5 Conclusions

7 / 31

(16)

Temps de coalescence

Proba qu’il n’y ait pas de coalescence `a une g´en´eration donn´ee qN(n) =

n−1

Y

i=1

(1− i

N) = 1−n(n−1)

2N +O( 1 N2) TnN suit une loi g´eom´etrique

P(TnN >t) = (qN(n))t Changement d’´echelle τ = Nt

P(TnN >Nτ) = (qN(n)) ≈(1−n(n−1)

2N ) →en(n−1)2 τ

(17)

Ev` enements de coalescence

La proba que trois individus ou plus coalescent `a la mˆeme g´en´eration est en O(N12)

→ n´egligeable quandN →+∞.

En pratique, une coalescence consiste toujours `a regrouper exactement deux lign´ees.

9 / 31

(18)

Esp´ erance du TMRCA

TMRCA =

n

X

k=2

Tk

E[TMRCA] =

n

X

k=2

E[Tk]

=

n

X

k=2

2 k(k−1)

= 2

n

X

k=2

( 1 k−1 −1

k)

= 2(1− 1 )≈2

(19)

Mutations

Probaµ de mutation par site et par m´eiose.

M(t) nombre de mutations pour une branche de longueur t =Nτ et un locus de tailleL.

E[M(t)] =µLNτ = θ 2Lτ en posantθ= 2Nµ.

M(τ) loi de Poisson d’intensit´e θ2Lτ.

On peut choisir ensuite le mod`ele qu’on veut pour d´ecrire ce qui se passe quand une mutation se produit.

11 / 31

(20)

Mutations

(21)

Mutations

12 / 31

(22)

Infinite site model

(23)

Simulation

1 Pour k allant den `a 2 :

1 Simuler une loi exponentielleTk de param`etre k(k2−1).

2 Choisir uniform´ement celui des k(k−1)2 couples d’haplotypes qui coalesce.

2 Placer les mutations ind´ependamment sur chaque branche selon un processus de Poisson d’intensit´e θ2L.

Beaucoup plus rapide que de simuler la population en forward!

14 / 31

(24)

Population diplo¨ıde

N taille de la population, 2N all`eles.

Remplacer N par 2N dans tout ce qui pr´ec`ede.

En particulier : unit´e de temps 2N g´en´erations, θ= 4Nµ.

(25)

Plan du cours

1 Mod`ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ee

4 Mod`ele avec recombinaison

5 Conclusions

16 / 31

(26)

Principe

La taille de la population change selon une fonction d´eterministe du temps :

Croissance exponentielle : N(t) =N0e−αt, α >0 ecroissance exponentielle : N(t) =N0eαt, α >0 ecroissance lin´eaire : N(t) =N0+αt, α >0

Goulot d’´etranglement (”bottleneck”) : N(t) =N0 sit <t, N1sit t

La probabilit´e de coalescence d´epend de la taille de population et donc varie au cours du temps.

L’unit´e de temps est τ = Nt

0. En un temps τ, on a `a peu pr`es:

Tn(τ)∼ N(τ)

exp(n(n−1) )

(27)

Simulation (approch´ ee)

τ = 0

1 Pour k allant den `a 2 :

1 Simuler une loi exponentielleTk de param`etre k(k2−1).

2 Tk =Tk N(τ)N

0 .

3 τ=τ+Tk.

4 Choisir uniform´ement celui des k(k−1)2 couples d’haplotypes qui coalesce.

2 Placer les mutations ind´ependamment sur chaque branche selon un processus de Poisson d’intensit´e θ2L.

18 / 31

(28)

Application

Population croissante→ temps de coalescence plus longs en bas de l’arbre→ plus de fr´equences all´eliques extrˆemes.

Population d´ecroissante →temps de coalescence plus longs en haut de l’arbre→ plus de fr´equences all´eliques interm´ediaires.

(29)

Plan du cours

1 Mod`ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ee

4 Mod`ele avec recombinaison

5 Conclusions

20 / 31

(30)

Principe

Pour chaque noeud de l’arbre, une ´etiquette indique sa population d’origine.

Coalescences intra population. Par ex, pour deux pops 1 et 2, 2 ´ev`enements possibles : coalescence dans 1 et coalescence dans 2.

Taille relative des pops importante car d´etermine la vitesse des

´

ev`enements.

Si migrations entre populations avec une proba par g´en´eration enO(N1), ´ev`enements ”migration de 1 vers 2” et ”migration de 2 vers 1” possibles.

(31)

Exemple

22 / 31

(32)

Plan du cours

1 Mod`ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ee

4 Mod`ele avec recombinaison

5 Conclusions

(33)

Principe

Un haplotype cr´e´e par recombinaison n’a plus un seul mais deux parents.

En remontant dans le temps, une branche peut donc se diviser en deux. Cela se produit avec une proba c par g´en´eration,c taux de recombinaison entre les locus.

A l’´echelle τ = Nt, et en posant ρ= 2Nc, le temps au bout duquel une branche se divise en deux suit une loi exponentielle de param`etre ρ2.

La g´en´ealogie joite des deux locus est appell´ee ”Ancestral Recombination Graph”. On peut en d´eduire les arbres de coalescence marginaux pour chacun des locus (qui sont corr´el´es).

24 / 31

(34)

Exemple

(35)

Simulation

k=n. Tant que k >1 :

1 Simuler U, une loi exponentielle de param`etre k(k−1)2 .

2 Simuler V, une loi exponentielle de param`etre 2 .

3 SiUV, choisir au hasard celui des k(k2−1) couples d’haplotypes qui coalesce.

SiU>V, choisir au hasard celle desk lign´ees qui se s´epare.

Remarque : le stadek = 1 finit toujours par ˆetre atteint, mais cela peut ˆetre long.

26 / 31

(36)

Plan du cours

1 Mod`ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ee

4 Mod`ele avec recombinaison

5 Conclusions

(37)

Le coalescent en g´ en´ etique des populations

Mod`ele th´eorique permettant de faire le lien entre des donn´ees g´en´etiques observ´ees et des mod`eles d´emographiques.

Outil de simulation tr`es performant.

Logiciels de simulation : ms, msprime, scrm . . .

En pratique, tous les aspects du mod`eles (d´emographie, structure, recombinaison) sont m´elang´es.

28 / 31

(38)

Quelques refs

Simon Tavar´e (2001),Ancestral inference in molecular biology. Ecole de Probabilit´es de Saint-Flour.

Handbook of statistical genetics, Wiley. Chapitres 22.6, 25, 26, 27.3.

Références

Documents relatifs

On g´ en´ erera ce mod` ele en utilisant comme regresseurs (x ij ) des r´ ealisations ind´ ependantes de va- riables uniformes sur [−1, 1] qui seront fix´ ees une bonne fois pour

On g´ en´ erera ce mod` ele en utilisant comme regresseurs (x ij ) des r´ ealisations ind´ ependantes de va- riables uniformes sur [−1, 1] qui seront fix´ ees une bonne fois pour

Par cons´ equent, en se basant sur le crit` ere du coefficient de d´ etermination multiple R 2 , l’´ equation comprenant les variables X 2 et X 3 s’av` ere ˆ etre la meilleure,

Nous avons atteint dans l’article pr´ ec´ edent de cette s´ erie notre objectif, d´ ecoder une image issue de Meteor-M2 en partant du signal radiofr´ equence brut, en le transposant

La première année de service étant une épreuve laborieuse, funeste même pour un certain nombre de recrues, il conviendrait de faire passer dans la deuxième portion du contingent

Ce r´ esultat important permet d’affirmer que si la matrice de Leslie d’un mod` ele dynamique (3) est primitive alors cette dynamique pr´ esentera, lorsque t augmente, un

Pr´ ecisez quelle est cette solution (en simplifiant son expression) lorsque la condition initiale vaut 200, puis calculer sa valeur aux temps t = 10 et t = 202. Donner, sans

Aujourd’hui on cherche ` a les g´ en´ eraliser ` a des structures de plus en plus complexes pour d´ etecter des d´ efauts soit lors d’un processus industriel (contrˆ ole de