• Aucun résultat trouvé

Inferring Population Size History from Large Samples of Genome-Wide Molecular Data - An Approximate Bayesian Computation Approach.

N/A
N/A
Protected

Academic year: 2021

Partager "Inferring Population Size History from Large Samples of Genome-Wide Molecular Data - An Approximate Bayesian Computation Approach."

Copied!
23
0
0

Texte intégral

(1)

HAL Id: hal-01605807

https://hal.archives-ouvertes.fr/hal-01605807

Submitted on 5 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Inferring Population Size History from Large Samples of Genome-Wide Molecular Data - An Approximate

Bayesian Computation Approach.

Simon Boitard, Willy Rodríguez, Flora Jay, Stefano Mona, Frédéric Austerlitz

To cite this version:

Simon Boitard, Willy Rodríguez, Flora Jay, Stefano Mona, Frédéric Austerlitz. Inferring Popula- tion Size History from Large Samples of Genome-Wide Molecular Data - An Approximate Bayesian Computation Approach.. GDR AIEM, Nov 2016, Montpellier, France. �hal-01605807�

(2)

Variations de la taille d’une population:

estimation `a partir de g´enomes entiers.

Simon Boitard1, Willy Rodriguez2, Flora Jay3, Stefano Mona4, Fr´ed´eric Austerlitz3

1 : G´en´etique, Physiologie et Syst`emes d’Elevage (INRA & INP), Toulouse 2 : Institut de Math´ematiques de Toulouse (Univ. Toulouse & CNRS) 3 : Eco-anthropologie et Ethnobiologie (MNHN & CNRS & Univ. Paris Diderot) 4 : Institut de Syst´ematique, Evolution et Biodiversit´e (EPHE & MNHN & CNRS

& UPMC), Paris

GDR AIEM, 30 nov - 1 dec 2016

(3)

La taille d’une population

Mod`ele de Wright-Fisher: population isol´ee de taille constante, g´en´erations non chevauchantes, reproduction al´eatoire.

taille = nombre d’individus dans cette population id´eale.

Int´erˆet?

Comparer des populations, identifier des populations en danger.

Hypoth`ese nulle pour d´etecter des locus sous s´election.

Estimation`a partir de donn´ees mol´eculaires actuelles:

Proportion de sites polymorphes (Watterson, 1975).

Nombre de diff´erences entre deux s´equences homologues (Tajima, 1983).

(4)

Mod`eles `a taille variable

Motivation:

Vision dynamique, identifier les populations en d´eclin.

Interpr´etation des variations de taille: ´ev`enements g´eologiques, climatiques, anthropomorphiques . . .

Meilleure d´etection des locus sous s´election.

Estimation:

Plus d’all`eles rares (resp. fr´equents) dans les populations en expansion (resp. en d´eclin).

Nombreuses m´ethodes: Bottleneck (Cornuet et Luikart, 1996), Msvar (Beaumont, 1999), Beast (Drummond and Rambaut, 2007), VarEff (Nikolic and Chevalet, 2014).

Petit nombre de locusind´ependants sans recombinaison

(5)

PSMC (Li and Durbin, 2011)

Estimation bas´ee sur le g´enome entier d’un individu diplo¨ıde, grˆace

`a une approximation du coalescent avec recombinaison.

(6)

Motivation

Plusieurs m´ethodes r´ecentes exploitant des g´enomes entiers : dical (Sheehan et al, 2013), MacLeodet al (2013), Harris and Nielsen (2013), MSMC (Schiffels and Durbin, 2014).

Limit´ees `a un petit nombre d’individus (≈5 diplo¨ıdes max).

Faible pr´ecison pour l’histoire r´ecente.

Objectif: evelopper une m´ethode exploitant de grands

´

echantillonsdeenomes entiers.

(7)

Approche ABC (Approximate Bayesian Computation)

Approche par simulation:

1 Tirer une histoire d´emographique selon une loi a priori.

2 Simuler un ´echantillon de g´enomes selon cette histoire.

3 Conserver les param`etres de l’histoire si l’´echantillon simul´e ressemble `a l’´echantillon observ´e.

Astuce fondamentale: A l’´etape 2, remplacer les donn´ees brutes par des statistiques r´esumant ces donn´ees.

(8)

Statistiques r´esumantes : fr´equences all´eliques (AFS)

Proportion de SNPs sur le g´enome.

Parmi ces SNPs, proportion de ceux ayant i copies de l’all`ele le moins fr´equent, pouri de 1 `an (taille de l’´echantillon).

5 10 15 20

0.020.040.060.080.100.120.14

minor allele count

frequency

(9)

Statistiques r´esumantes : d´es´equilire de liaison (LD)

r2 : pour une paire de SNPs, corr´elation des g´enotypes.

Statistiques : r2 moyen pourm cat´egories de distance entre SNPs, de 100bp `a 2Mb.

(10)

Erreur de pr´ediction moyenne (n = 25)

(11)

Influence de la taille d’´echantillon

0.00.20.40.60.81.0population size prediction error

0 10 100 1,000 10,000 100,000

n=10 n=15 n=20 n=25 n=50

(12)

Exemple: population en d´eclin

ABC, n=25

years before present (log scale)

effective population size (log scale)

10 100 1,000 10,000 100,000

1001,00010,000100,000

domestication breed formation true value estimations for one replicate 90% CI for one replicate

PSMC : n=1

10 100 1,000 10,000 100,000

1001,00010,000100,000

domestication breed formation

MSMC : n=2

10 100 1,000 10,000 100,000

1001,00010,000100,000

domestication breed formation

(13)

Exemple: population constante

ABC, n=25

generations before present (log scale)

effective population size (log scale)

0 10 100 1,000 10,000 100,000

1001,00010,000100,000

true value estimations for one replicate 90% CI for one replicate

PSMC : n=1

0 10 100 1,000 10,000 100,000

1001,00010,000100,000

MSMC : n=2

0 10 100 1,000 10,000 100,000

1001,00010,000100,000

(14)

LD et AFS compl´ementaires

AFS statistics

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

LD statistics

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

AFS and LD statistics

0 10 100 1,00010,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,00010,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,00010,000100,000

1001,00010,000100,000

E[TMRCA]

(15)

Application : projet 1000 g´enomes bovins

years before present (log scale)

effective population size (log scale)

10 100 1,000 10,000 100,000

1003001,0003,00010,00030,000100,000

domestication breed formation

BrownSwiss Fleckvieh Holstein SwedishRed

Charolais Limousin Hereford Jersey

Les histoires dans chaque racedivergent `a partir de la domestication.

eclin continuant´erieur

`

a la domestication, similaire MacLeodet al (2013).

Classement des races d’apr`es leur taille r´ecente coh´erent.

(16)

Diff´erences entre races : 3 groupes g´eographiques

years before present

effective population size

0 2000 4000 6000 8000 10000

010000200003000040000

BrownSwiss Fleckvieh Holstein SwedishRed

Charolais Limousin Hereford Jersey

origine “Danubienne”.

origine

“M´editerran´eenne”.

origine plus complexe.

(17)

Diff´erences entre races : 3 groupes g´eographiques

years before present

effective population size

0 2000 4000 6000 8000 10000

010000200003000040000

BrownSwiss Fleckvieh Holstein SwedishRed

Charolais Limousin Hereford Jersey

origine “Danubienne”.

origine

“M´editerran´eenne”.

origine plus complexe.

(18)

Diff´erences entre races : 3 groupes g´eographiques

years before present

effective population size

0 2000 4000 6000 8000 10000

010000200003000040000

BrownSwiss Fleckvieh Holstein SwedishRed

Charolais Limousin Hereford Jersey

origine “Danubienne”.

origine

“M´editerran´eenne”.

origine plus complexe.

(19)

Diff´erences entre races : 3 groupes g´eographiques

years before present

effective population size

0 2000 4000 6000 8000 10000

010000200003000040000

BrownSwiss Fleckvieh Holstein SwedishRed

Charolais Limousin Hereford Jersey

origine “Danubienne”.

origine

“M´editerran´eenne”.

origine plus complexe.

(20)

Diff´erences entre races : 3 groupes g´eographiques

years before present

effective population size

0 2000 4000 6000 8000 10000

010000200003000040000

BrownSwiss Fleckvieh Holstein SwedishRed

Charolais Limousin Hereford Jersey

origine “Danubienne”.

origine

“M´editerran´eenne”.

origine plus complexe.

(21)

Conclusions

ABC permet d’exploiter des grands ´echantillons de g´enomes entiers.

Bonne estimation de l’histoire d´emographique dans son ensemble, y compris partie r´ecente.

Combiner LD et AFS am´eliore la pr´ediction.

Insensible aux erreurs de phasage et peu affect´e par erreurs de equen¸cage (MAF 20%).

Ref: Boitard et al (2016),PLoS Genet12(3): e1005877 url: https://forge-dga.jouy.inra.fr/projects/popsizeabc/

(22)

Perspectives

Tenir compte de la structure des populations, qui peut en´erer de faux changements de tailles (cf Olivier Mazet).

Utiliser des donn´ees temporelles: ADN ancien, cryobanques.

(23)

Remerciements

Plateforme bioinfo Genotoul.

Projet 1000 g´enomes bovin (Ben Hayes, Didier Boichard).

Lounes Chikhi (Universit´e Toulouse III & CNRS), Olivier Mazet, Simona Grusea (INSA Toulouse).

Membres de l’ANR Demochips.

Bertrand Servin.

Références

Documents relatifs

• Simulated samples are summarized using the same statistics as the observed sample, and the best 0.5% of population size histories (i.e. those providing statistics that are the

Inferring Population Size History from Large Samples of Genome-Wide Molecular Data - An Approximate Bayesian Compu- tation Approach.. conférence Jaques Monod ”Coalescence des

To do so, we merged our Cuban dataset with publicly available whole-genome and genome-wide SNP datasets for European, African, and Native American ancestries (called

Outside this window however, population size histo- ries estimated by MSMC often had a totally different trend than the true history, (see for instance the small constant size or

The above single base mutation offers only a lower bound to the true value of the decay constant R c (i) of the error ǫ i in predicting base pair i.. Strictly speaking, to calculate R

61 NORMENT, KG Jebsen Centre for Psychosis Research, Institute of Clinical Medicine, University of Oslo and Division of Mental Health and Addiction, Oslo University Hospital,

Similarly to the analysis performed for the small biological datasets, we transformed each one of the representative parameter vectors into a vector of costs that was then used

Genome wide sequence data contains rich information about population size history, cf PSMC (Li and Durbin, 2011).... Development of an