HAL Id: hal-01605807
https://hal.archives-ouvertes.fr/hal-01605807
Submitted on 5 Jun 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Inferring Population Size History from Large Samples of Genome-Wide Molecular Data - An Approximate
Bayesian Computation Approach.
Simon Boitard, Willy Rodríguez, Flora Jay, Stefano Mona, Frédéric Austerlitz
To cite this version:
Simon Boitard, Willy Rodríguez, Flora Jay, Stefano Mona, Frédéric Austerlitz. Inferring Popula- tion Size History from Large Samples of Genome-Wide Molecular Data - An Approximate Bayesian Computation Approach.. GDR AIEM, Nov 2016, Montpellier, France. �hal-01605807�
Variations de la taille d’une population:
estimation `a partir de g´enomes entiers.
Simon Boitard1, Willy Rodriguez2, Flora Jay3, Stefano Mona4, Fr´ed´eric Austerlitz3
1 : G´en´etique, Physiologie et Syst`emes d’Elevage (INRA & INP), Toulouse 2 : Institut de Math´ematiques de Toulouse (Univ. Toulouse & CNRS) 3 : Eco-anthropologie et Ethnobiologie (MNHN & CNRS & Univ. Paris Diderot) 4 : Institut de Syst´ematique, Evolution et Biodiversit´e (EPHE & MNHN & CNRS
& UPMC), Paris
GDR AIEM, 30 nov - 1 dec 2016
La taille d’une population
Mod`ele de Wright-Fisher: population isol´ee de taille constante, g´en´erations non chevauchantes, reproduction al´eatoire.
→ taille = nombre d’individus dans cette population id´eale.
Int´erˆet?
Comparer des populations, identifier des populations en danger.
Hypoth`ese nulle pour d´etecter des locus sous s´election.
Estimation`a partir de donn´ees mol´eculaires actuelles:
Proportion de sites polymorphes (Watterson, 1975).
Nombre de diff´erences entre deux s´equences homologues (Tajima, 1983).
Mod`eles `a taille variable
Motivation:
Vision dynamique, identifier les populations en d´eclin.
Interpr´etation des variations de taille: ´ev`enements g´eologiques, climatiques, anthropomorphiques . . .
Meilleure d´etection des locus sous s´election.
Estimation:
Plus d’all`eles rares (resp. fr´equents) dans les populations en expansion (resp. en d´eclin).
Nombreuses m´ethodes: Bottleneck (Cornuet et Luikart, 1996), Msvar (Beaumont, 1999), Beast (Drummond and Rambaut, 2007), VarEff (Nikolic and Chevalet, 2014).
Petit nombre de locusind´ependants sans recombinaison
PSMC (Li and Durbin, 2011)
Estimation bas´ee sur le g´enome entier d’un individu diplo¨ıde, grˆace
`a une approximation du coalescent avec recombinaison.
Motivation
Plusieurs m´ethodes r´ecentes exploitant des g´enomes entiers : dical (Sheehan et al, 2013), MacLeodet al (2013), Harris and Nielsen (2013), MSMC (Schiffels and Durbin, 2014).
Limit´ees `a un petit nombre d’individus (≈5 diplo¨ıdes max).
→ Faible pr´ecison pour l’histoire r´ecente.
Objectif: D´evelopper une m´ethode exploitant de grands
´
echantillonsdeg´enomes entiers.
Approche ABC (Approximate Bayesian Computation)
Approche par simulation:
1 Tirer une histoire d´emographique selon une loi a priori.
2 Simuler un ´echantillon de g´enomes selon cette histoire.
3 Conserver les param`etres de l’histoire si l’´echantillon simul´e ressemble `a l’´echantillon observ´e.
Astuce fondamentale: A l’´etape 2, remplacer les donn´ees brutes par des statistiques r´esumant ces donn´ees.
Statistiques r´esumantes : fr´equences all´eliques (AFS)
Proportion de SNPs sur le g´enome.
Parmi ces SNPs, proportion de ceux ayant i copies de l’all`ele le moins fr´equent, pouri de 1 `an (taille de l’´echantillon).
●
●
●
●
●
●
●
●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
5 10 15 20
0.020.040.060.080.100.120.14
minor allele count
frequency
Statistiques r´esumantes : d´es´equilire de liaison (LD)
r2 : pour une paire de SNPs, corr´elation des g´enotypes.
Statistiques : r2 moyen pourm cat´egories de distance entre SNPs, de 100bp `a 2Mb.
Erreur de pr´ediction moyenne (n = 25)
Influence de la taille d’´echantillon
0.00.20.40.60.81.0population size prediction error
0 10 100 1,000 10,000 100,000
n=10 n=15 n=20 n=25 n=50
Exemple: population en d´eclin
ABC, n=25
years before present (log scale)
effective population size (log scale)
10 100 1,000 10,000 100,000
1001,00010,000100,000
domestication breed formation true value estimations for one replicate 90% CI for one replicate
PSMC : n=1
10 100 1,000 10,000 100,000
1001,00010,000100,000
domestication breed formation
MSMC : n=2
10 100 1,000 10,000 100,000
1001,00010,000100,000
domestication breed formation
Exemple: population constante
ABC, n=25
generations before present (log scale)
effective population size (log scale)
0 10 100 1,000 10,000 100,000
1001,00010,000100,000
true value estimations for one replicate 90% CI for one replicate
PSMC : n=1
0 10 100 1,000 10,000 100,000
1001,00010,000100,000
MSMC : n=2
0 10 100 1,000 10,000 100,000
1001,00010,000100,000
LD et AFS compl´ementaires
AFS statistics
0 10 100 1,000 10,000100,000
1001,00010,000100,000
E[TMRCA]
LD statistics
0 10 100 1,000 10,000100,000
1001,00010,000100,000
E[TMRCA]
AFS and LD statistics
0 10 100 1,00010,000100,000
1001,00010,000100,000
E[TMRCA]
0 10 100 1,000 10,000100,000
1001,00010,000100,000
E[TMRCA]
0 10 100 1,000 10,000100,000
1001,00010,000100,000
E[TMRCA]
0 10 100 1,00010,000100,000
1001,00010,000100,000
E[TMRCA]
0 10 100 1,000 10,000100,000
1001,00010,000100,000
E[TMRCA]
0 10 100 1,000 10,000100,000
1001,00010,000100,000
E[TMRCA]
0 10 100 1,00010,000100,000
1001,00010,000100,000
E[TMRCA]
Application : projet 1000 g´enomes bovins
years before present (log scale)
effective population size (log scale)
10 100 1,000 10,000 100,000
1003001,0003,00010,00030,000100,000
domestication breed formation
BrownSwiss Fleckvieh Holstein SwedishRed
Charolais Limousin Hereford Jersey
Les histoires dans chaque racedivergent `a partir de la domestication.
D´eclin continuant´erieur
`
a la domestication, similaire MacLeodet al (2013).
Classement des races d’apr`es leur taille r´ecente coh´erent.
Diff´erences entre races : 3 groupes g´eographiques
years before present
effective population size
0 2000 4000 6000 8000 10000
010000200003000040000
BrownSwiss Fleckvieh Holstein SwedishRed
Charolais Limousin Hereford Jersey
origine “Danubienne”.
origine
“M´editerran´eenne”.
origine plus complexe.
Diff´erences entre races : 3 groupes g´eographiques
years before present
effective population size
0 2000 4000 6000 8000 10000
010000200003000040000
BrownSwiss Fleckvieh Holstein SwedishRed
Charolais Limousin Hereford Jersey
origine “Danubienne”.
origine
“M´editerran´eenne”.
origine plus complexe.
Diff´erences entre races : 3 groupes g´eographiques
years before present
effective population size
0 2000 4000 6000 8000 10000
010000200003000040000
BrownSwiss Fleckvieh Holstein SwedishRed
Charolais Limousin Hereford Jersey
origine “Danubienne”.
origine
“M´editerran´eenne”.
origine plus complexe.
Diff´erences entre races : 3 groupes g´eographiques
years before present
effective population size
0 2000 4000 6000 8000 10000
010000200003000040000
BrownSwiss Fleckvieh Holstein SwedishRed
Charolais Limousin Hereford Jersey
origine “Danubienne”.
origine
“M´editerran´eenne”.
origine plus complexe.
Diff´erences entre races : 3 groupes g´eographiques
years before present
effective population size
0 2000 4000 6000 8000 10000
010000200003000040000
BrownSwiss Fleckvieh Holstein SwedishRed
Charolais Limousin Hereford Jersey
origine “Danubienne”.
origine
“M´editerran´eenne”.
origine plus complexe.
Conclusions
ABC permet d’exploiter des grands ´echantillons de g´enomes entiers.
Bonne estimation de l’histoire d´emographique dans son ensemble, y compris partie r´ecente.
Combiner LD et AFS am´eliore la pr´ediction.
Insensible aux erreurs de phasage et peu affect´e par erreurs de s´equen¸cage (MAF 20%).
Ref: Boitard et al (2016),PLoS Genet12(3): e1005877 url: https://forge-dga.jouy.inra.fr/projects/popsizeabc/
Perspectives
Tenir compte de la structure des populations, qui peut g´en´erer de faux changements de tailles (cf Olivier Mazet).
Utiliser des donn´ees temporelles: ADN ancien, cryobanques.
Remerciements
Plateforme bioinfo Genotoul.
Projet 1000 g´enomes bovin (Ben Hayes, Didier Boichard).
Lounes Chikhi (Universit´e Toulouse III & CNRS), Olivier Mazet, Simona Grusea (INSA Toulouse).
Membres de l’ANR Demochips.
Bertrand Servin.