Estimation de tailles efficaces variables dans le temps ` a partir de donn´ ees g´ enomiques actuelles
Flora Jay
1, Simon Boitard
21 : CNRS, Laboratoire de Recherche en Informatique (LRI), Orsay 2 : INRA, G´en´etique Physiologie et Syst`emes d’Elevage (GenPhySE), Toulouse
R´ eseau des Ressources G´ en´ etiques Animales 12 et 13 mai 2016
1 / 33
Motivations
Vision dynamique, identifier les populations en d´ eclin.
Interpr´ etation des variations de taille: ´ ev` enements g´ eologiques, climatiques, anthropomorphiques . . . Meilleure d´ etection des locus sous s´ election.
2 / 33
Plan de l’expos´ e
1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus
M´ ethodes d’estimation
2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC
Donn´ ees r´ esum´ ees
L’approche ABC (Approximate Bayesian Computation)
3 Conclusions
3 / 33
Plan de l’expos´ e
1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus
M´ ethodes d’estimation
2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC
Donn´ ees r´ esum´ ees
L’approche ABC (Approximate Bayesian Computation)
3 Conclusions
4 / 33
Mod` ele de Wright-Fisher ` a un locus
5 / 33
Mod` ele de Wright-Fisher ` a un locus
5 / 33
Mod` ele de Wright-Fisher ` a un locus
5 / 33
Mod` ele de Wright-Fisher ` a un locus
5 / 33
G´ en´ ealogie
6 / 33
G´ en´ ealogie
6 / 33
Mutations
7 / 33
Mutations
7 / 33
Lien avec la taille
1
Le temps de coalescence augmente avec la taille efficace.
2
Le nombre de mutations sur une branche augmente avec le temps de coalescence.
8 / 33
Application
Population croissante → temps de coalescence plus longs en bas de l’arbre → plus de fr´ equences all´ eliques extrˆ emes.
Population d´ ecroissante → temps de coalescence plus longs en haut de l’arbre → plus de fr´ equences all´ eliques interm´ ediaires.
9 / 33
Plan de l’expos´ e
1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus
M´ ethodes d’estimation
2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC
Donn´ ees r´ esum´ ees
L’approche ABC (Approximate Bayesian Computation)
3 Conclusions
10 / 33
Principe g´ en´ eral
Pour un locus i donn´ e:
P(D
i| N()) = X
G
P(D
i| G )P(G | N())
D
iall` eles observ´ es, N() d´ emographie, G g´ en´ ealogie.
En pratique, simulation “intelligente” de g´ en´ ealogies car
´
enum´ eration impossible.
Pour p locus ind´ ependants:
P (D | N()) =
p
Y
i=1
P (D
i| N())
11 / 33
Exemples
M´ ethode N() donn´ ees approche
Bottleneck 1 changement microsatellites test
(Cornuet et Luikart, 1996)
heuristique
Msvar 1 changement microsatellites MCMC
(Beaumont, 1999)Beast continu s´ equences MCMC
(Drummond et Rambaut, 2007)
VarEff continu microsatellites formule
(Nikolic et Chevalet, 2014)
approch´ ee
12 / 33
Plan de l’expos´ e
1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus
M´ ethodes d’estimation
2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC
Donn´ ees r´ esum´ ees
L’approche ABC (Approximate Bayesian Computation)
3 Conclusions
13 / 33
Probl´ ematique
Int´ erˆ et:
Donn´ ees disponibles (puces de g´ enotypage, s´ equen¸ cage, RADseq).
Plus de locus → estimation plus pr´ ecise.
Obstacles:
G´ en´ ealogies G
iet G
jpour deux locus proches diff´ erentes mais corr´ el´ ees.
Corr´ elation difficile ` a mod´ eliser, prise en compte de la recombinaison.
14 / 33
Plan de l’expos´ e
1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus
M´ ethodes d’estimation
2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC
Donn´ ees r´ esum´ ees
L’approche ABC (Approximate Bayesian Computation)
3 Conclusions
15 / 33
PSMC (Li et Durbin, 2011)
Estimation bas´ ee sur le g´ enome entier d’un individu diplo¨ıde.
16 / 33
Principe
PSMC = Pairwise Sequentially Markovian Coalescent G´ en´ ealogie simplifi´ ee: G = T
2.
Approximation de Markov: G
i+1= f (G
i)
→ Chaˆıne de Markov cach´ ee.
17 / 33
Autres m´ ethodes SMC
dical (Sheehan et al, 2013), MSMC (Schiffels et Durbin, 2014).
Petit nombre d’individus (≈ 5 diplo¨ıdes max).
→ Faible pr´ ecison pour la d´ emographie r´ ecente.
PSMC, n=2
years before present (log scale)
effective population size (log scale)
10 100 1,000 10,000 100,000
1001,00010,000100,000
domestication breed formation
true value estimations
MSMC, n=4
10 100 1,000 10,000 100,000
1001,00010,000100,000
domestication breed formation
18 / 33
Plan de l’expos´ e
1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus
M´ ethodes d’estimation
2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC
Donn´ ees r´ esum´ ees
L’approche ABC (Approximate Bayesian Computation)
3 Conclusions
19 / 33
Principe
Remplacer les donn´ ees compl` etes D par un ensemble de statistiques S r´ esumant ces donn´ ees.
Avantage: P(S | N()) plus facile ` a calculer que P(D | N()) Inconv´ enient: Estimation un peu moins pr´ ecise.
20 / 33
Spectre des fr´ equences all´ eliques (AFS)
Proportion de SNPs sur le g´ enome.
Parmi ces SNPs, proportion de ceux ayant i copies de l’all` ele le moins fr´ equent, pour i de 1 ` a n/2 (n taille de l’´ echantillon).
Formule analytique approch´ ee pour P (S | N()) (Bhaskar et al, 2015; Liu et al, 2015).
●
●
●
●
●
●
●
●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
5 10 15 20
0.020.040.060.080.100.120.14
minor allele count
frequency
21 / 33
D´ es´ equilibre de liaison (LD)
r
2= corr´ elation des g´ enotypes observ´ es entre deux SNPs.
r
2diminue quand le taux de recombinaison c augmente.
Approximation de Hayes et al (2003):
r
2ˆ (c) ≈ 1 1 + 2N(1/2c)c
22 / 33
Exemple
The Bovine HapMap consortium (2009)
23 / 33
Segments IBS (Identical By State)
Zone du g´ enome sans polymorphisme.
McLeod et al (2013), Harris et Nielsen (2013):
formules approch´ ees pour P (S | N()), S distribution de la longueur des segments IBS chez un individu.
24 / 33
Plan de l’expos´ e
1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus
M´ ethodes d’estimation
2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC
Donn´ ees r´ esum´ ees
L’approche ABC (Approximate Bayesian Computation)
3 Conclusions
25 / 33
Principe (Beaumont et al, 2002)
Approche par simulation:
1
Tirer une histoire d´ emographique selon une loi a priori.
2
Simuler un ´ echantillon de g´ enomes selon cette histoire.
3
Caculer les statistiques r´ esumantes.
4
Conserver les param` etres de l’histoire si les statistiques simul´ ees ressemblent ` a celles observ´ ees.
Avantages:
Combiner diff´ erentes cat´ egories de statistiques.
Pas d’approximations du mod` ele.
Mesure de l’incertitude du r´ esultat (approche Bayesienne).
Inconv´ enients: temps de calcul important!
Boitard et al (2016): combiner AFS et LD.
26 / 33
Erreur de pr´ ediction moyenne (n = 50)
27 / 33
AFS et LD compl´ ementaires
AFS statistics
generations before present (log scale)
effective population size (log scale)
0 10 100 1,000 10,000100,000
1001,00010,000100,000
E[TMRCA]
LD statistics
0 10 100 1,000 10,000100,000
1001,00010,000100,000
E[TMRCA]
AFS and LD statistics
0 10 100 1,00010,000100,000
1001,00010,000100,000
E[TMRCA]
0 10 100 1,000 10,000100,000
1001,00010,000100,000
E[TMRCA]
0 10 100 1,000 10,000100,000
1001,00010,000100,000
E[TMRCA]
0 10 100 1,00010,000100,000
1001,00010,000100,000
E[TMRCA]
0 10 100 1,000 10,000100,000
1001,00010,000100,000
E[TMRCA]
0 10 100 1,000 10,000100,000
1001,00010,000100,000
E[TMRCA]
0 10 100 1,00010,000100,000
1001,00010,000100,000
E[TMRCA]
28 / 33
Comparaison avec les approches SMC
ABC, n=50
years before present (log scale)
effective population size (log scale)
10 100 1,000 10,000 100,000
1001,00010,000100,000
domestication breed formation true value estimations for one replicate 90% CI for one replicate
PSMC : n=2
10 100 1,000 10,000 100,000
1001,00010,000100,000
domestication breed formation
MSMC : n=4
10 100 1,000 10,000 100,000
1001,00010,000100,000
domestication breed formation
Utiliser des grands ´ echantillons am´ eliore l’estimation de l’histoire r´ ecente.
29 / 33
Comparaison avec les approches SMC
ABC, n=50
generations before present (log scale)
effective population size (log scale)
0 10 100 1,000 10,000 100,000
1001,00010,000100,000
true value estimations for one replicate 90% CI for one replicate
PSMC : n=2
0 10 100 1,000 10,000 100,000
1001,00010,000100,000
MSMC : n=4
0 10 100 1,000 10,000 100,000
1001,00010,000100,000
30 / 33
Application chez la vache (projet 1000 g´ enomes)
years before present (log scale)
effective population size (log scale)
10 100 1,000 10,000 100,000
1003001,0003,00010,00030,000100,000
domestication breed formation
BrownSwiss Fleckvieh Holstein SwedishRed
Charolais Limousin Hereford Jersey
Les histoires dans chaque race divergent ` a partir de la domestication.
D´ eclin continu ant´ erieur
`
a la domestication, similaire MacLeod et al (2013).
Classement des races d’apr` es leur taille r´ ecente coh´ erent.
31 / 33
Plan de l’expos´ e
1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus
M´ ethodes d’estimation
2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC
Donn´ ees r´ esum´ ees
L’approche ABC (Approximate Bayesian Computation)
3 Conclusions
32 / 33
Conclusions
Diversit´ e g´ enomique pr´ esente contient beaucoup d’information sur variations pass´ ees de la taille efficace.
R´ esolution accrue par le haut d´ ebit.
Approche SMC tr` es prometteuse mais:
M´ ethodes actuelles peu pr´ ecises pour l’histoire r´ ecente.
S´ equences continues n´ ecessaires.
Approches par statistiques r´ esumantes: bonne alternative, adapt´ ees ` a donn´ ees plus vari´ ees.
ABC: grande flexibilit´ e mais mise en ouevre plus longue.
33 / 33