• Aucun résultat trouvé

Estimation de tailles efficaces variables dans le temps à partir de données génomiques actuelles

N/A
N/A
Protected

Academic year: 2021

Partager "Estimation de tailles efficaces variables dans le temps à partir de données génomiques actuelles"

Copied!
38
0
0

Texte intégral

(1)

Estimation de tailles efficaces variables dans le temps ` a partir de donn´ ees g´ enomiques actuelles

Flora Jay

1

, Simon Boitard

2

1 : CNRS, Laboratoire de Recherche en Informatique (LRI), Orsay 2 : INRA, G´en´etique Physiologie et Syst`emes d’Elevage (GenPhySE), Toulouse

R´ eseau des Ressources G´ en´ etiques Animales 12 et 13 mai 2016

1 / 33

(2)

Motivations

Vision dynamique, identifier les populations en d´ eclin.

Interpr´ etation des variations de taille: ´ ev` enements g´ eologiques, climatiques, anthropomorphiques . . . Meilleure d´ etection des locus sous s´ election.

2 / 33

(3)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

3 / 33

(4)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

4 / 33

(5)

Mod` ele de Wright-Fisher ` a un locus

5 / 33

(6)

Mod` ele de Wright-Fisher ` a un locus

5 / 33

(7)

Mod` ele de Wright-Fisher ` a un locus

5 / 33

(8)

Mod` ele de Wright-Fisher ` a un locus

5 / 33

(9)

G´ en´ ealogie

6 / 33

(10)

G´ en´ ealogie

6 / 33

(11)

Mutations

7 / 33

(12)

Mutations

7 / 33

(13)

Lien avec la taille

1

Le temps de coalescence augmente avec la taille efficace.

2

Le nombre de mutations sur une branche augmente avec le temps de coalescence.

8 / 33

(14)

Application

Population croissante → temps de coalescence plus longs en bas de l’arbre → plus de fr´ equences all´ eliques extrˆ emes.

Population d´ ecroissante → temps de coalescence plus longs en haut de l’arbre → plus de fr´ equences all´ eliques interm´ ediaires.

9 / 33

(15)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

10 / 33

(16)

Principe g´ en´ eral

Pour un locus i donn´ e:

P(D

i

| N()) = X

G

P(D

i

| G )P(G | N())

D

i

all` eles observ´ es, N() d´ emographie, G g´ en´ ealogie.

En pratique, simulation “intelligente” de g´ en´ ealogies car

´

enum´ eration impossible.

Pour p locus ind´ ependants:

P (D | N()) =

p

Y

i=1

P (D

i

| N())

11 / 33

(17)

Exemples

M´ ethode N() donn´ ees approche

Bottleneck 1 changement microsatellites test

(Cornuet et Luikart, 1996)

heuristique

Msvar 1 changement microsatellites MCMC

(Beaumont, 1999)

Beast continu s´ equences MCMC

(Drummond et Rambaut, 2007)

VarEff continu microsatellites formule

(Nikolic et Chevalet, 2014)

approch´ ee

12 / 33

(18)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

13 / 33

(19)

Probl´ ematique

Int´ erˆ et:

Donn´ ees disponibles (puces de g´ enotypage, s´ equen¸ cage, RADseq).

Plus de locus → estimation plus pr´ ecise.

Obstacles:

G´ en´ ealogies G

i

et G

j

pour deux locus proches diff´ erentes mais corr´ el´ ees.

Corr´ elation difficile ` a mod´ eliser, prise en compte de la recombinaison.

14 / 33

(20)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

15 / 33

(21)

PSMC (Li et Durbin, 2011)

Estimation bas´ ee sur le g´ enome entier d’un individu diplo¨ıde.

16 / 33

(22)

Principe

PSMC = Pairwise Sequentially Markovian Coalescent G´ en´ ealogie simplifi´ ee: G = T

2

.

Approximation de Markov: G

i+1

= f (G

i

)

→ Chaˆıne de Markov cach´ ee.

17 / 33

(23)

Autres m´ ethodes SMC

dical (Sheehan et al, 2013), MSMC (Schiffels et Durbin, 2014).

Petit nombre d’individus (≈ 5 diplo¨ıdes max).

→ Faible pr´ ecison pour la d´ emographie r´ ecente.

PSMC, n=2

years before present (log scale)

effective population size (log scale)

10 100 1,000 10,000 100,000

1001,00010,000100,000

domestication breed formation

true value estimations

MSMC, n=4

10 100 1,000 10,000 100,000

1001,00010,000100,000

domestication breed formation

18 / 33

(24)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

19 / 33

(25)

Principe

Remplacer les donn´ ees compl` etes D par un ensemble de statistiques S r´ esumant ces donn´ ees.

Avantage: P(S | N()) plus facile ` a calculer que P(D | N()) Inconv´ enient: Estimation un peu moins pr´ ecise.

20 / 33

(26)

Spectre des fr´ equences all´ eliques (AFS)

Proportion de SNPs sur le g´ enome.

Parmi ces SNPs, proportion de ceux ayant i copies de l’all` ele le moins fr´ equent, pour i de 1 ` a n/2 (n taille de l’´ echantillon).

Formule analytique approch´ ee pour P (S | N()) (Bhaskar et al, 2015; Liu et al, 2015).

5 10 15 20

0.020.040.060.080.100.120.14

minor allele count

frequency

21 / 33

(27)

D´ es´ equilibre de liaison (LD)

r

2

= corr´ elation des g´ enotypes observ´ es entre deux SNPs.

r

2

diminue quand le taux de recombinaison c augmente.

Approximation de Hayes et al (2003):

r

2

ˆ (c) ≈ 1 1 + 2N(1/2c)c

22 / 33

(28)

Exemple

The Bovine HapMap consortium (2009)

23 / 33

(29)

Segments IBS (Identical By State)

Zone du g´ enome sans polymorphisme.

McLeod et al (2013), Harris et Nielsen (2013):

formules approch´ ees pour P (S | N()), S distribution de la longueur des segments IBS chez un individu.

24 / 33

(30)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

25 / 33

(31)

Principe (Beaumont et al, 2002)

Approche par simulation:

1

Tirer une histoire d´ emographique selon une loi a priori.

2

Simuler un ´ echantillon de g´ enomes selon cette histoire.

3

Caculer les statistiques r´ esumantes.

4

Conserver les param` etres de l’histoire si les statistiques simul´ ees ressemblent ` a celles observ´ ees.

Avantages:

Combiner diff´ erentes cat´ egories de statistiques.

Pas d’approximations du mod` ele.

Mesure de l’incertitude du r´ esultat (approche Bayesienne).

Inconv´ enients: temps de calcul important!

Boitard et al (2016): combiner AFS et LD.

26 / 33

(32)

Erreur de pr´ ediction moyenne (n = 50)

27 / 33

(33)

AFS et LD compl´ ementaires

AFS statistics

generations before present (log scale)

effective population size (log scale)

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

LD statistics

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

AFS and LD statistics

0 10 100 1,00010,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,00010,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,000 10,000100,000

1001,00010,000100,000

E[TMRCA]

0 10 100 1,00010,000100,000

1001,00010,000100,000

E[TMRCA]

28 / 33

(34)

Comparaison avec les approches SMC

ABC, n=50

years before present (log scale)

effective population size (log scale)

10 100 1,000 10,000 100,000

1001,00010,000100,000

domestication breed formation true value estimations for one replicate 90% CI for one replicate

PSMC : n=2

10 100 1,000 10,000 100,000

1001,00010,000100,000

domestication breed formation

MSMC : n=4

10 100 1,000 10,000 100,000

1001,00010,000100,000

domestication breed formation

Utiliser des grands ´ echantillons am´ eliore l’estimation de l’histoire r´ ecente.

29 / 33

(35)

Comparaison avec les approches SMC

ABC, n=50

generations before present (log scale)

effective population size (log scale)

0 10 100 1,000 10,000 100,000

1001,00010,000100,000

true value estimations for one replicate 90% CI for one replicate

PSMC : n=2

0 10 100 1,000 10,000 100,000

1001,00010,000100,000

MSMC : n=4

0 10 100 1,000 10,000 100,000

1001,00010,000100,000

30 / 33

(36)

Application chez la vache (projet 1000 g´ enomes)

years before present (log scale)

effective population size (log scale)

10 100 1,000 10,000 100,000

1003001,0003,00010,00030,000100,000

domestication breed formation

BrownSwiss Fleckvieh Holstein SwedishRed

Charolais Limousin Hereford Jersey

Les histoires dans chaque race divergent ` a partir de la domestication.

D´ eclin continu ant´ erieur

`

a la domestication, similaire MacLeod et al (2013).

Classement des races d’apr` es leur taille r´ ecente coh´ erent.

31 / 33

(37)

Plan de l’expos´ e

1 Estimation ` a partir de locus ind´ ependants G´ en´ ealogie ` a un locus

M´ ethodes d’estimation

2 Estimation ` a partir de donn´ ees g´ enomiques haut d´ ebit Donn´ ees compl` etes: les mod` eles SMC

Donn´ ees r´ esum´ ees

L’approche ABC (Approximate Bayesian Computation)

3 Conclusions

32 / 33

(38)

Conclusions

Diversit´ e g´ enomique pr´ esente contient beaucoup d’information sur variations pass´ ees de la taille efficace.

R´ esolution accrue par le haut d´ ebit.

Approche SMC tr` es prometteuse mais:

M´ ethodes actuelles peu pr´ ecises pour l’histoire r´ ecente.

S´ equences continues n´ ecessaires.

Approches par statistiques r´ esumantes: bonne alternative, adapt´ ees ` a donn´ ees plus vari´ ees.

ABC: grande flexibilit´ e mais mise en ouevre plus longue.

33 / 33

Références

Documents relatifs

J’observe toutefois (Figure 13.3) ` a la fin du mod` ele la formation d’une seconde paire de zones cisaillantes du cˆ ot´ e retro du mod` ele, ce qui laisse penser que la

Le seuil de satisfaction est le seuil au del` a duquel l’acteur est satisfait alors que la satisfaction est le niveau de satisfaction fi- nale de l’acteur ` a l’issue de la

Enfin, dans la section 4, nous pr´ esentons quelques r´ esultats pr´ eliminaires montrant l’influence des individus utilis´ es pour l’inf´ erence sur le r´ eseau lui- mˆ eme et

L’´ erosion num´ erique introduite dans le mod` ele semble ˆ etre r´ ealiste pour simuler le ph´ enom` ene pr´ epond´ erant lors d’une op´ eration de d´ ecapage. Nous

Perdre ses photos de vacances : ¸ca n’a pas de

Programme des enseignements – Syst` emes d’information et conception d’entrepˆ ots de donn´ ees – Les principes et la d´ emarche du Data Mining (fouille de donn´ ees)

Objectifs : Maˆıtriser les structures de base de l’informatique (tableaux, listes, files, piles) et les op´ erations ´ el´ ementaires sur ces structures et introduction au

La boucle tant que est utilis ´ee lorsque le nombre d’it ´erations n’est pas connu `a l’avance: elle ex ´ecute le bloc d’instructions tant que la condition reste vraie.