Inferring Population Size History from Large Samples of Genome-Wide Molecular Data - An Approximate Bayesian Computation Approach.

(1)

HAL Id: hal-01605807

https://hal.archives-ouvertes.fr/hal-01605807

Submitted on 5 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Inferring Population Size History from Large Samples of Genome-Wide Molecular Data - An Approximate

Bayesian Computation Approach.

Simon Boitard, Willy Rodríguez, Flora Jay, Stefano Mona, Frédéric Austerlitz

To cite this version:

Simon Boitard, Willy Rodríguez, Flora Jay, Stefano Mona, Frédéric Austerlitz. Inferring Popula- tion Size History from Large Samples of Genome-Wide Molecular Data - An Approximate Bayesian Computation Approach.. GDR AIEM, Nov 2016, Montpellier, France. �hal-01605807�

(2)

Variations de la taille d’une population:

estimation `a partir de g´enomes entiers.

Simon Boitard¹, Willy Rodriguez², Flora Jay³, Stefano Mona⁴, Fr´ed´eric Austerlitz³

1 : Génétique, Physiologie et Systèmes d’Elevage (INRA & INP), Toulouse 2 : Institut de Mathématiques de Toulouse (Univ. Toulouse & CNRS) 3 : Eco-anthropologie et Ethnobiologie (MNHN & CNRS & Univ. Paris Diderot) 4 : Institut de Systématique, Evolution et Biodiversité (EPHE & MNHN & CNRS

& UPMC), Paris

GDR AIEM, 30 nov - 1 dec 2016

(3)

La taille d’une population

Modèle de Wright-Fisher: population isolée de taille constante, générations non chevauchantes, reproduction aléatoire.

→ taille = nombre d’individus dans cette population id´eale.

Int´erˆet?

Comparer des populations, identifier des populations en danger.

Hypothèse nulle pour détecter des locus sous sélection.

Estimationà partir de données moléculaires actuelles:

Proportion de sites polymorphes (Watterson, 1975).

Nombre de diff´erences entre deux s´equences homologues (Tajima, 1983).

(4)

Mod`eles `a taille variable

Motivation:

Vision dynamique, identifier les populations en d´eclin.

Interprétation des variations de taille: évènements géologiques, climatiques, anthropomorphiques . . .

Meilleure d´etection des locus sous s´election.

Estimation:

Plus d’allèles rares (resp. fréquents) dans les populations en expansion (resp. en déclin).

Nombreuses m´ethodes: Bottleneck (Cornuet et Luikart, 1996), Msvar (Beaumont, 1999), Beast (Drummond and Rambaut, 2007), VarEff (Nikolic and Chevalet, 2014).

Petit nombre de locusind´ependants sans recombinaison

(5)

PSMC (Li and Durbin, 2011)

Estimation basée sur le génome entier d’un individu diplo¨ıde, grâce

`a une approximation du coalescent avec recombinaison.

(6)

Motivation

Plusieurs méthodes récentes exploitant des génomes entiers : dical (Sheehan et al, 2013), MacLeodet al (2013), Harris and Nielsen (2013), MSMC (Schiffels and Durbin, 2014).

Limit´ees `a un petit nombre d’individus (≈5 diplo¨ıdes max).

→ Faible pr´ecison pour l’histoire r´ecente.

Objectif: D´evelopper une m´ethode exploitant de grands

´

echantillonsdeg´enomes entiers.

(7)

Approche ABC (Approximate Bayesian Computation)

Approche par simulation:

1 Tirer une histoire d´emographique selon une loi a priori.

2 Simuler un ´echantillon de g´enomes selon cette histoire.

3 Conserver les paramètres de l’histoire si l’échantillon simulé ressemble à l’échantillon observé.

Astuce fondamentale: A l’étape 2, remplacer les données brutes par des statistiques résumant ces données.

(8)

Statistiques résumantes : fréquences alléliques (AFS)

Proportion de SNPs sur le g´enome.

Parmi ces SNPs, proportion de ceux ayant i copies de l’allèle le moins fréquent, pouri de 1 àn (taille de l’échantillon).

●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

5 10 15 20

0.020.040.060.080.100.120.14

minor allele count

frequency

(9)

Statistiques résumantes : déséquilire de liaison (LD)

r² : pour une paire de SNPs, corr´elation des g´enotypes.

Statistiques : r² moyen pourm cat´egories de distance entre SNPs, de 100bp `a 2Mb.

(10)

Erreur de pr´ediction moyenne (n = 25)

(11)

Influence de la taille d’´echantillon

0.00.20.40.60.81.0population size prediction error

0 10 100 1,000 10,000 100,000

n=10 n=15 n=20 n=25 n=50

(12)

Exemple: population en d´eclin

ABC, n=25

years before present (log scale)

effective population size (log scale)

10 100 1,000 10,000 100,000

1001,00010,000100,000

domestication breed formation true value estimations for one replicate 90% CI for one replicate

PSMC : n=1

10 100 1,000 10,000 100,000

1001,00010,000100,000

domestication breed formation

MSMC : n=2

10 100 1,000 10,000 100,000

1001,00010,000100,000

(13)

Exemple: population constante

ABC, n=25

generations before present (log scale)

0 10 100 1,000 10,000 100,000

1001,00010,000100,000

true value estimations for one replicate 90% CI for one replicate

PSMC : n=1

0 10 100 1,000 10,000 100,000

1001,00010,000100,000

MSMC : n=2

0 10 100 1,000 10,000 100,000

1001,00010,000100,000

(14)

LD et AFS compl´ementaires

AFS statistics

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

LD statistics

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

AFS and LD statistics

0 10 100 1,00010,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,00010,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,00010,000100,000

1001,00010,000100,000

E[TMRCA]

(15)

Application : projet 1000 g´enomes bovins

years before present (log scale)

10 100 1,000 10,000 100,000

1003001,0003,00010,00030,000100,000

BrownSwiss Fleckvieh Holstein SwedishRed

Charolais Limousin Hereford Jersey

Les histoires dans chaque racedivergent `a partir de la domestication.

D´eclin continuant´erieur

`

a la domestication, similaire MacLeodet al (2013).

Classement des races d’après leur taille récente cohérent.

(16)

Diff´erences entre races : 3 groupes g´eographiques

years before present

effective population size

0 2000 4000 6000 8000 10000

010000200003000040000

origine “Danubienne”.

origine

“M´editerran´eenne”.

origine plus complexe.

(17)

0 2000 4000 6000 8000 10000

010000200003000040000

origine

(18)

0 2000 4000 6000 8000 10000

010000200003000040000

origine

(19)

0 2000 4000 6000 8000 10000

010000200003000040000

origine

(20)

0 2000 4000 6000 8000 10000

010000200003000040000

origine

(21)

Conclusions

ABC permet d’exploiter des grands ´echantillons de g´enomes entiers.

Bonne estimation de l’histoire d´emographique dans son ensemble, y compris partie r´ecente.

Combiner LD et AFS am´eliore la pr´ediction.

Insensible aux erreurs de phasage et peu affect´e par erreurs de s´equen¸cage (MAF 20%).

Ref: Boitard et al (2016),PLoS Genet12(3): e1005877 url: https://forge-dga.jouy.inra.fr/projects/popsizeabc/

(22)

Perspectives

Tenir compte de la structure des populations, qui peut g´en´erer de faux changements de tailles (cf Olivier Mazet).

Utiliser des donn´ees temporelles: ADN ancien, cryobanques.

(23)

Remerciements

Plateforme bioinfo Genotoul.

Projet 1000 g´enomes bovin (Ben Hayes, Didier Boichard).

Lounes Chikhi (Universit´e Toulouse III & CNRS), Olivier Mazet, Simona Grusea (INSA Toulouse).

Membres de l’ANR Demochips.

Bertrand Servin.