Coalescence : principe et bases th´ eoriques
Simon Boitard
INRA, GenPhySE, Toulouse
M2 BBS, Atelier G´en´etique Statistique, 2017-2018
1 / 31
G´ en´ etique des populations
Reconstruction de l’histoire ´evolutive`a une ´echelle de temps courte (intra-esp`ece) `a partir de donn´ees g´enomiques.
G´ en´ etique des populations
Reconstruction de l’histoire ´evolutive`a une ´echelle de temps courte (intra-esp`ece) `a partir de donn´ees g´enomiques.
2 / 31
G´ en´ etique des populations
Reconstruction de l’histoire ´evolutive`a une ´echelle de temps courte (intra-esp`ece) `a partir de donn´ees g´enomiques.
Le coalescent
Mod`ele math´ematique permettant de d´ecrire / simuler la g´en´ealogie d’un ´echantillon de s´equences d’ADN (ou individus haplo¨ıdes).
Outil pour comprendre l’influence du processus ´evolutif sur la diversit´e g´en´etique.
Onremontele temps au lieu de le descendre.
Article fondateur de Kingman en 1982, tr`es utilis´e depuis.
3 / 31
Mod` ele de Wright-Fisher pour un locus sans recombinaison
Mod` ele de Wright-Fisher pour un locus sans recombinaison
4 / 31
Mod` ele de Wright-Fisher pour un locus sans recombinaison
Mod` ele de Wright-Fisher pour un locus sans recombinaison
4 / 31
Mod` ele de Wright-Fisher pour un locus sans recombinaison
Mod` ele de Wright-Fisher pour un locus sans recombinaison
4 / 31
G´ en´ ealogie et taille efficace
G´ en´ ealogie et taille efficace
5 / 31
Plan du cours
1 Mod`ele de base : une population de taille constante, un locus sans recombinaison
2 Population de taille variable au cours du temps
3 Population structur´ee
4 Mod`ele avec recombinaison
5 Conclusions
Plan du cours
1 Mod`ele de base : une population de taille constante, un locus sans recombinaison
2 Population de taille variable au cours du temps
3 Population structur´ee
4 Mod`ele avec recombinaison
5 Conclusions
7 / 31
Temps de coalescence
Proba qu’il n’y ait pas de coalescence `a une g´en´eration donn´ee qN(n) =
n−1
Y
i=1
(1− i
N) = 1−n(n−1)
2N +O( 1 N2) TnN suit une loi g´eom´etrique
P(TnN >t) = (qN(n))t Changement d’´echelle τ = Nt
P(TnN >Nτ) = (qN(n))Nτ ≈(1−n(n−1)
2N )Nτ →e−n(n−1)2 τ
Ev` enements de coalescence
La proba que trois individus ou plus coalescent `a la mˆeme g´en´eration est en O(N12)
→ n´egligeable quandN →+∞.
En pratique, une coalescence consiste toujours `a regrouper exactement deux lign´ees.
9 / 31
Esp´ erance du TMRCA
TMRCA =
n
X
k=2
Tk
E[TMRCA] =
n
X
k=2
E[Tk]
=
n
X
k=2
2 k(k−1)
= 2
n
X
k=2
( 1 k−1 −1
k)
= 2(1− 1 )≈2
Mutations
Probaµ de mutation par site et par m´eiose.
M(t) nombre de mutations pour une branche de longueur t =Nτ et un locus de tailleL.
E[M(t)] =µLNτ = θ 2Lτ en posantθ= 2Nµ.
M(τ) loi de Poisson d’intensit´e θ2Lτ.
On peut choisir ensuite le mod`ele qu’on veut pour d´ecrire ce qui se passe quand une mutation se produit.
11 / 31
Mutations
Mutations
12 / 31
Infinite site model
Simulation
1 Pour k allant den `a 2 :
1 Simuler une loi exponentielleTk de param`etre k(k2−1).
2 Choisir uniform´ement celui des k(k−1)2 couples d’haplotypes qui coalesce.
2 Placer les mutations ind´ependamment sur chaque branche selon un processus de Poisson d’intensit´e θ2L.
Beaucoup plus rapide que de simuler la population en forward!
14 / 31
Population diplo¨ıde
N taille de la population, 2N all`eles.
Remplacer N par 2N dans tout ce qui pr´ec`ede.
En particulier : unit´e de temps 2N g´en´erations, θ= 4Nµ.
Plan du cours
1 Mod`ele de base : une population de taille constante, un locus sans recombinaison
2 Population de taille variable au cours du temps
3 Population structur´ee
4 Mod`ele avec recombinaison
5 Conclusions
16 / 31
Principe
La taille de la population change selon une fonction d´eterministe du temps :
Croissance exponentielle : N(t) =N0∗e−αt, α >0 D´ecroissance exponentielle : N(t) =N0∗eαt, α >0 D´ecroissance lin´eaire : N(t) =N0+αt, α >0
Goulot d’´etranglement (”bottleneck”) : N(t) =N0 sit <t∗, N1sit ≥t∗
La probabilit´e de coalescence d´epend de la taille de population et donc varie au cours du temps.
L’unit´e de temps est τ = Nt
0. En un temps τ, on a `a peu pr`es:
Tn(τ)∼ N(τ)
exp(n(n−1) )
Simulation (approch´ ee)
τ = 0
1 Pour k allant den `a 2 :
1 Simuler une loi exponentielleTk de param`etre k(k2−1).
2 Tk =Tk ∗N(τ)N
0 .
3 τ=τ+Tk.
4 Choisir uniform´ement celui des k(k−1)2 couples d’haplotypes qui coalesce.
2 Placer les mutations ind´ependamment sur chaque branche selon un processus de Poisson d’intensit´e θ2L.
18 / 31
Application
Population croissante→ temps de coalescence plus longs en bas de l’arbre→ plus de fr´equences all´eliques extrˆemes.
Population d´ecroissante →temps de coalescence plus longs en haut de l’arbre→ plus de fr´equences all´eliques interm´ediaires.
Plan du cours
1 Mod`ele de base : une population de taille constante, un locus sans recombinaison
2 Population de taille variable au cours du temps
3 Population structur´ee
4 Mod`ele avec recombinaison
5 Conclusions
20 / 31
Principe
Pour chaque noeud de l’arbre, une ´etiquette indique sa population d’origine.
Coalescences intra population. Par ex, pour deux pops 1 et 2, 2 ´ev`enements possibles : coalescence dans 1 et coalescence dans 2.
Taille relative des pops importante car d´etermine la vitesse des
´
ev`enements.
Si migrations entre populations avec une proba par g´en´eration enO(N1), ´ev`enements ”migration de 1 vers 2” et ”migration de 2 vers 1” possibles.
Exemple
22 / 31
Plan du cours
1 Mod`ele de base : une population de taille constante, un locus sans recombinaison
2 Population de taille variable au cours du temps
3 Population structur´ee
4 Mod`ele avec recombinaison
5 Conclusions
Principe
Un haplotype cr´e´e par recombinaison n’a plus un seul mais deux parents.
En remontant dans le temps, une branche peut donc se diviser en deux. Cela se produit avec une proba c par g´en´eration,c taux de recombinaison entre les locus.
A l’´echelle τ = Nt, et en posant ρ= 2Nc, le temps au bout duquel une branche se divise en deux suit une loi exponentielle de param`etre ρ2.
La g´en´ealogie joite des deux locus est appell´ee ”Ancestral Recombination Graph”. On peut en d´eduire les arbres de coalescence marginaux pour chacun des locus (qui sont corr´el´es).
24 / 31
Exemple
Simulation
k=n. Tant que k >1 :
1 Simuler U, une loi exponentielle de param`etre k(k−1)2 .
2 Simuler V, une loi exponentielle de param`etre kρ2 .
3 SiU≤V, choisir au hasard celui des k(k2−1) couples d’haplotypes qui coalesce.
SiU>V, choisir au hasard celle desk lign´ees qui se s´epare.
Remarque : le stadek = 1 finit toujours par ˆetre atteint, mais cela peut ˆetre long.
26 / 31
Plan du cours
1 Mod`ele de base : une population de taille constante, un locus sans recombinaison
2 Population de taille variable au cours du temps
3 Population structur´ee
4 Mod`ele avec recombinaison
5 Conclusions
Le coalescent en g´ en´ etique des populations
Mod`ele th´eorique permettant de faire le lien entre des donn´ees g´en´etiques observ´ees et des mod`eles d´emographiques.
Outil de simulation tr`es performant.
Logiciels de simulation : ms, msprime, scrm . . .
En pratique, tous les aspects du mod`eles (d´emographie, structure, recombinaison) sont m´elang´es.
28 / 31
Quelques refs
Simon Tavar´e (2001),Ancestral inference in molecular biology. Ecole de Probabilit´es de Saint-Flour.
Handbook of statistical genetics, Wiley. Chapitres 22.6, 25, 26, 27.3.