• Aucun résultat trouvé

Estimation de la taille effective d’une population à partir des données NGS d’un individu

N/A
N/A
Protected

Academic year: 2021

Partager "Estimation de la taille effective d’une population à partir des données NGS d’un individu"

Copied!
87
0
0

Texte intégral

(1)

HAL Id: hal-02806587

https://hal.inrae.fr/hal-02806587

Submitted on 6 Jun 2020

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Estimation de la taille effective d’une population à partir

des données NGS d’un individu

Willy Rodríguez

To cite this version:

Willy Rodríguez. Estimation de la taille effective d’une population à partir des données NGS d’un

individu. Sciences du Vivant [q-bio]. 2012. �hal-02806587�

(2)

Objectif et Mod`ele Donn´ees Disponibles R´esultats Limitations du PSMC

Estimation de la taille effective d’une population `

a

partir des donn´

ees NGS d’un individu

Willy Rodr´ıguez, Simon Boitard, Olivier Mazet

July 19, 2012

(3)

Objectif et Mod`ele Donn´ees Disponibles R´esultats Limitations du PSMC

Objectif

Objectif

Estimer la taille effective d’une population au cours du temps `

a

partir du g´

enome d’un seul individu

(4)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Taille effective

N

e

(t) = N

0

λ(t) temps continu. N

e,k

= N

0

λ

k

temps discret

(5)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Taille effective

N

e

(t) = N

0

λ(t) temps continu. N

e,k

= N

0

λ

k

temps discret

(6)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Taille effective

N

e

(t) = N

0

λ(t) temps continu. N

e,k

= N

0

λ

k

temps discret

(7)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Taille effective

N

e

(t) = N

0

λ(t) temps continu. N

e,k

= N

0

λ

k

temps discret

(8)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Taille effective

N

e

(t) = N

0

λ(t) temps continu. N

e,k

= N

0

λ

k

temps discret

(9)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Taille effective

N

e

(t) = N

0

λ(t) temps continu. N

e,k

= N

0

λ

k

temps discret

(10)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Param`

etres `

a Estimer

Param`

etres

Pour arriver `

a tracer ce graphique il faut connaitre:

La valeur de N

0

Les valeurs de λ

k

pour chaque k

(11)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Graphique

(12)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Taille effective et temps de coalescence

Coalescence entre deux morceaux de chromosome et pour une

position donn´

ee sur le g´

enome.

Taux de coalescence en temps t

taux de coalescence `

a t ∼

N(t)

1

(13)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Recombinaison Individus Diploides

(14)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(15)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(16)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(17)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(18)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(19)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(20)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(21)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(22)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(23)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(24)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(25)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(26)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(27)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(28)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(29)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(30)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(31)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(32)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(33)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(34)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(35)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(36)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(37)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(38)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(39)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(40)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(41)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(42)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(43)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(44)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(45)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(46)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(47)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Coalescence

(48)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Ancˆ

etre Commun le Plus R´

ecent. Mutation.

(49)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Ancˆ

etre Commun le Plus R´

ecent. Mutation.

(50)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Ancˆ

etre Commun le Plus R´

ecent. Mutation.

(51)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Ancˆ

etre Commun le Plus R´

ecent. Mutation.

(52)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Ancˆ

etre Commun le Plus R´

ecent. Mutation.

(53)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Ancˆ

etre Commun le Plus R´

ecent. Mutation.

(54)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Ancˆ

etre Commun le Plus R´

ecent. Mutation.

(55)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Ancˆ

etre Commun le Plus R´

ecent. Mutation.

(56)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Ancˆ

etre Commun le Plus R´

ecent. Mutation.

(57)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Mutation et Coalescence

Locus H´

et´

erozygote et Mutation

Si `

a une position donn´

ee du g´

enome l’individu est h´

et´

erozygote, ¸

ca

veut dire qu’il y a eu une mutation entre le temps de coalescence

et le temps actuel.

Mutation et Temps de Coalescence

Plus le temps de coalescence est grand, plus la mutation est

probable.

(58)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Mutation et Coalescence

(59)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Mutation et Coalescence

(60)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Chaine de Markov Cach´

ee

Hypoth`

ese

La s´

equence t

1

, t

2

, t

3

, .... est une Chaine de Markov Cach´

e.

McVean, G. A. T. & Cardin, N. J. Approximating the coalescent

with recombination. Phil. Trans. R. Soc. B 360, 1387–1393

(2005).

(61)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

(62)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Model HMM

Chaine de Markov Cach´

e

Espace d’´

etats cach´

es: X = {t

1

, t

2

, ..., t

n

}

Espace d’´

etats observ´

es: Y = {0, 1}

Probabilit´

e de transition: p

kl

Probabilit´

e d’´

emission: e

k

(63)

Objectif et Mod`ele

Donn´ees Disponibles R´esultats Limitations du PSMC

Estimation des param`

etres

Estimation des param`

etres

La loi de p

kl

ainsi que celle de e

k

epend de λ

k

. On utilise

l’algorithme EM pour estimer les param`

etres de la Chaine de

Markov Cach´

e. Le logiciel utilis´

e est le PSMC.

Heng Li and Richard Durbin. The Pairwise Sequentially Markovian

Coalescent Model (2008)

(64)

Objectif et Mod`ele

Donn´ees Disponibles

R´esultats Limitations du PSMC

Donn´

ees Disponibles

Source des donn´

ees: International Sheep Genomics Consortium

Deux individus de la race Lacaune (France).

Un individu de la race Norduz (Moyen Orient)

Un individu de la race Sumatra (Indonesie)

Les donn´

es ont ´

et´

e t´

el´

echarg´

ees en format .BAM

(65)

Objectif et Mod`ele

Donn´ees Disponibles

R´esultats Limitations du PSMC

Logiciels utilis´

es

Samtools

site: http://sourceforge.net/projects/samtools/

Logiciel pour manipuler les ficher en format .bam

Permet diviser le .bam par r´

egions

Travail en parall`

ele

Les calculs ont ´

et´

e faits sur genotoul.

PSMC

site: https://github.com/lh3/psmc

Permet inf´

erer les param`

etres pour reconstruir l’histoire de la

population.

Fait des scripts pour des simulations sur ms.

Plot des r´

esultats.

(66)

Objectif et Mod`ele

Donn´ees Disponibles

R´esultats Limitations du PSMC

Traitement de l’information

(67)

Objectif et Mod`ele

Donn´ees Disponibles

R´esultats Limitations du PSMC

Le format SAM

Format SAM (Sequence Alignment/Map)

Cr´

e `

a l’initiative de, et utilis´

e par, le projet 1000 G´

enomes.

Utilis´

e en biologie, pour stocker les alignements de s´

equence

sur des s´

equences de r´

ef´

erence

Une ligne pour chaque segment du g´

enome s´

equenc´

e

Position sur la s´

equence de r´

ef´

erence correspondant `

a chaque

segment

Extension par convention: sam, bam pour la version binaris´

ee,

(compress´

ee)

(68)

Objectif et Mod`ele

Donn´ees Disponibles

R´esultats Limitations du PSMC

Exemple de ficher SAM

Alignement:

SAM qui corresponde:

(69)

Objectif et Mod`ele

Donn´ees Disponibles

R´esultats Limitations du PSMC

Le format vcf

VCF (Variant Call Format) version 4.0

Une ligne pour chaque position g´

enomique

Individu diplo¨ıde, deux alternatives (REF — ALT)

Chaque ligne contient la probabilit´

e de tous les g´

enotypes

trouv´

es

site: http://www.1000genomes.org/node/101

(70)

Objectif et Mod`ele

Donn´ees Disponibles

R´esultats Limitations du PSMC

Exemple VCF

(71)

Objectif et Mod`ele

Donn´ees Disponibles

R´esultats Limitations du PSMC

Le format FASTQ (.fq)

Le format FASTQ (.fq)

Repr´

esente une s´

equence consensus

Homozygote − > lettre qui correspond

et´

erozygote − > code

Quatri`

eme ligne contient la qualit´

e de la s´

equence

(72)

Objectif et Mod`ele

Donn´ees Disponibles

R´esultats Limitations du PSMC

Exemple FASTQ

(73)

Objectif et Mod`ele

Donn´ees Disponibles

R´esultats Limitations du PSMC

Le format psmcfa

Fichier en texte plain.

Entr´

ee pour le PSMC.

equence binaire (h´

et´

erozygote ou homozygote).

Repr´

esente les ´

etats observ´

es de la Chaine de Markov Cach´

e.

K - Homozygote, T- H´

et´

erozygote.

Exemple:

KKKKKTTKKKKKKTKTKTKKKKKKTKKKKKKTKKK

(74)

Objectif et Mod`ele

Donn´ees Disponibles

R´esultats Limitations du PSMC

Le format psmc

Le format psmc

Fichier en texte plain

Sortie du PSMC

Contient les estimations des valeurs de λ

k

(75)

Objectif et Mod`ele

Donn´ees Disponibles

R´esultats Limitations du PSMC

Exemple PSMC

(76)

Objectif et Mod`ele Donn´ees Disponibles

R´esultats

Limitations du PSMC

Histoire pour Lacaune. Individu 1

(77)

Objectif et Mod`ele Donn´ees Disponibles

R´esultats

Limitations du PSMC

Histoire pour Lacaune. Individu 2

(78)

Objectif et Mod`ele Donn´ees Disponibles

R´esultats

Limitations du PSMC

Histoire pour Norduz

(79)

Objectif et Mod`ele Donn´ees Disponibles

R´esultats

Limitations du PSMC

Histoire pour Sumatra

(80)

Objectif et Mod`ele Donn´ees Disponibles

R´esultats

Limitations du PSMC

Tous ensembles

(81)

Objectif et Mod`ele Donn´ees Disponibles

R´esultats

Limitations du PSMC

Estimation de la variance (bootstrapping). Lacaune 1

(82)

Objectif et Mod`ele Donn´ees Disponibles

R´esultats

Limitations du PSMC

Estimation de la variance (bootstrapping). Lacaune 2

(83)

Objectif et Mod`ele Donn´ees Disponibles

R´esultats

Limitations du PSMC

Estimation de la variance (bootstrapping). Norduz

(84)

Objectif et Mod`ele Donn´ees Disponibles

R´esultats

Limitations du PSMC

Estimation de la variance (bootstrapping). Sumatra

(85)

Objectif et Mod`ele Donn´ees Disponibles R´esultats

Limitations du PSMC

Estimations pour un temps plus r´

ecent

(86)

Objectif et Mod`ele Donn´ees Disponibles R´esultats

Limitations du PSMC

Perspectives

Perspectives

Si on arrive `

a ´

etendre le mod`

ele PSMC pour travailler avec plus

d’un individu, on pourrait obtenir des estimations plus fiables pour

les temps r´

ecents.

(87)

Objectif et Mod`ele Donn´ees Disponibles R´esultats

Limitations du PSMC

Estimation de la taille effective d’une population `

a

partir des donn´

ees NGS d’un individu

Willy Rodr´ıguez, Simon Boitard, Olivier Mazet

July 19, 2012

Références

Documents relatifs