Estimation de tailles efficaces variables dans le temps à partir de données génomiques actuelles

(1)

Estimation de tailles efficaces variables dans le temps ` a partir de donn´ ees g´ enomiques actuelles

Flora Jay

¹

, Simon Boitard

²

1 : CNRS, Laboratoire de Recherche en Informatique (LRI), Orsay 2 : INRA, Génétique Physiologie et Systèmes d’Elevage (GenPhySE), Toulouse

R´ eseau des Ressources G´ en´ etiques Animales 12 et 13 mai 2016

1 / 33

(2)

Motivations

Vision dynamique, identifier les populations en d´ eclin.

Interpr´ etation des variations de taille: ´ ev` enements g´ eologiques, climatiques, anthropomorphiques . . . Meilleure d´ etection des locus sous s´ election.

2 / 33

(3)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

3 / 33

(4)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

4 / 33

(5)

Mod` ele de Wright-Fisher ` a un locus

5 / 33

(6)

Mod` ele de Wright-Fisher ` a un locus

5 / 33

(7)

Mod` ele de Wright-Fisher ` a un locus

5 / 33

(8)

Mod` ele de Wright-Fisher ` a un locus

5 / 33

(9)

G´ en´ ealogie

6 / 33

(10)

G´ en´ ealogie

6 / 33

(11)

Mutations

7 / 33

(12)

Mutations

7 / 33

(13)

Lien avec la taille

1

Le temps de coalescence augmente avec la taille efficace.

2

Le nombre de mutations sur une branche augmente avec le temps de coalescence.

8 / 33

(14)

Application

Population croissante → temps de coalescence plus longs en bas de l’arbre → plus de fr´ equences all´ eliques extrˆ emes.

Population d´ ecroissante → temps de coalescence plus longs en haut de l’arbre → plus de fr´ equences all´ eliques interm´ ediaires.

9 / 33

(15)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

10 / 33

(16)

Principe g´ en´ eral

Pour un locus i donn´ e:

P(D

_i

| N()) = X

G

P(D

_i

| G )P(G | N())

D

_i

all` eles observ´ es, N() d´ emographie, G g´ en´ ealogie.

En pratique, simulation “intelligente” de g´ en´ ealogies car

´

enum´ eration impossible.

Pour p locus ind´ ependants:

P (D | N()) =

p

Y

i=1

P (D

_i

| N())

11 / 33

(17)

Exemples

M´ ethode N() donn´ ees approche

Bottleneck 1 changement microsatellites test

(Cornuet et Luikart, 1996)

heuristique

Msvar 1 changement microsatellites MCMC

(Beaumont, 1999)

Beast continu s´ equences MCMC

(Drummond et Rambaut, 2007)

VarEff continu microsatellites formule

(Nikolic et Chevalet, 2014)

approch´ ee

12 / 33

(18)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

13 / 33

(19)

Probl´ ematique

Int´ erˆ et:

Donn´ ees disponibles (puces de g´ enotypage, s´ equen¸ cage, RADseq).

Plus de locus → estimation plus pr´ ecise.

Obstacles:

G´ en´ ealogies G

i

et G

j

pour deux locus proches diff´ erentes mais corr´ el´ ees.

Corr´ elation difficile ` a mod´ eliser, prise en compte de la recombinaison.

14 / 33

(20)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

15 / 33

(21)

PSMC (Li et Durbin, 2011)

Estimation bas´ ee sur le g´ enome entier d’un individu diplo¨ıde.

16 / 33

(22)

Principe

PSMC = Pairwise Sequentially Markovian Coalescent G´ en´ ealogie simplifi´ ee: G = T

2

.

Approximation de Markov: G

i+1

= f (G

i

)

→ Chaˆıne de Markov cach´ ee.

17 / 33

(23)

Autres m´ ethodes SMC

dical (Sheehan et al, 2013), MSMC (Schiffels et Durbin, 2014).

Petit nombre d’individus (≈ 5 diplo¨ıdes max).

→ Faible pr´ ecison pour la d´ emographie r´ ecente.

PSMC, n=2

years before present (log scale)

effective population size (log scale)

10 100 1,000 10,000 100,000

1001,00010,000100,000

domestication breed formation

true value estimations

MSMC, n=4

10 100 1,000 10,000 100,000

1001,00010,000100,000

18 / 33

(24)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

19 / 33

(25)

Principe

Remplacer les donn´ ees compl` etes D par un ensemble de statistiques S r´ esumant ces donn´ ees.

Avantage: P(S | N()) plus facile ` a calculer que P(D | N()) Inconv´ enient: Estimation un peu moins pr´ ecise.

20 / 33

(26)

Spectre des fr´ equences all´ eliques (AFS)

Proportion de SNPs sur le g´ enome.

Parmi ces SNPs, proportion de ceux ayant i copies de l’all` ele le moins fr´ equent, pour i de 1 ` a n/2 (n taille de l’´ echantillon).

Formule analytique approch´ ee pour P (S | N()) (Bhaskar et al, 2015; Liu et al, 2015).

●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

5 10 15 20

0.020.040.060.080.100.120.14

minor allele count

frequency

21 / 33

(27)

D´ es´ equilibre de liaison (LD)

r

²

= corr´ elation des g´ enotypes observ´ es entre deux SNPs.

r

²

diminue quand le taux de recombinaison c augmente.

Approximation de Hayes et al (2003):

r

²

ˆ (c) ≈ 1 1 + 2N(1/2c)c

22 / 33

(28)

Exemple

The Bovine HapMap consortium (2009)

23 / 33

(29)

Segments IBS (Identical By State)

Zone du g´ enome sans polymorphisme.

McLeod et al (2013), Harris et Nielsen (2013):

formules approch´ ees pour P (S | N()), S distribution de la longueur des segments IBS chez un individu.

24 / 33

(30)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

25 / 33

(31)

Principe (Beaumont et al, 2002)

Approche par simulation:

1

Tirer une histoire d´ emographique selon une loi a priori.

2

Simuler un ´ echantillon de g´ enomes selon cette histoire.

3

Caculer les statistiques r´ esumantes.

4

Conserver les param` etres de l’histoire si les statistiques simul´ ees ressemblent ` a celles observ´ ees.

Avantages:

Combiner diff´ erentes cat´ egories de statistiques.

Pas d’approximations du mod` ele.

Mesure de l’incertitude du r´ esultat (approche Bayesienne).

Inconv´ enients: temps de calcul important!

Boitard et al (2016): combiner AFS et LD.

26 / 33

(32)

Erreur de pr´ ediction moyenne (n = 50)

27 / 33

(33)

AFS et LD compl´ ementaires

AFS statistics

generations before present (log scale)

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

LD statistics

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

AFS and LD statistics

0 10 100 1,00010,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,00010,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,00010,000100,000

1001,00010,000100,000

E[TMRCA]

28 / 33

(34)

Comparaison avec les approches SMC

ABC, n=50

10 100 1,000 10,000 100,000

1001,00010,000100,000

domestication breed formation true value estimations for one replicate 90% CI for one replicate

PSMC : n=2

10 100 1,000 10,000 100,000

1001,00010,000100,000

MSMC : n=4

10 100 1,000 10,000 100,000

1001,00010,000100,000

Utiliser des grands ´ echantillons am´ eliore l’estimation de l’histoire r´ ecente.

29 / 33

(35)

Comparaison avec les approches SMC

ABC, n=50

generations before present (log scale)

0 10 100 1,000 10,000 100,000

1001,00010,000100,000

true value estimations for one replicate 90% CI for one replicate

PSMC : n=2

0 10 100 1,000 10,000 100,000

1001,00010,000100,000

MSMC : n=4

0 10 100 1,000 10,000 100,000

1001,00010,000100,000

30 / 33

(36)

Application chez la vache (projet 1000 g´ enomes)

10 100 1,000 10,000 100,000

1003001,0003,00010,00030,000100,000

BrownSwiss Fleckvieh Holstein SwedishRed

Charolais Limousin Hereford Jersey

Les histoires dans chaque race divergent ` a partir de la domestication.

D´ eclin continu ant´ erieur

`

a la domestication, similaire MacLeod et al (2013).

Classement des races d’apr` es leur taille r´ ecente coh´ erent.

31 / 33

(37)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

32 / 33

(38)

Conclusions

Diversit´ e g´ enomique pr´ esente contient beaucoup d’information sur variations pass´ ees de la taille efficace.

R´ esolution accrue par le haut d´ ebit.

Approche SMC tr` es prometteuse mais:

M´ ethodes actuelles peu pr´ ecises pour l’histoire r´ ecente.

S´ equences continues n´ ecessaires.

Approches par statistiques r´ esumantes: bonne alternative, adapt´ ees ` a donn´ ees plus vari´ ees.

ABC: grande flexibilit´ e mais mise en ouevre plus longue.

33 / 33