HAL Id: hal-02806587
https://hal.inrae.fr/hal-02806587
Submitted on 6 Jun 2020
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Estimation de la taille effective d’une population à partir
des données NGS d’un individu
Willy Rodríguez
To cite this version:
Willy Rodríguez. Estimation de la taille effective d’une population à partir des données NGS d’un
individu. Sciences du Vivant [q-bio]. 2012. �hal-02806587�
Objectif et Mod`ele Donn´ees Disponibles R´esultats Limitations du PSMC
Estimation de la taille effective d’une population `
a
partir des donn´
ees NGS d’un individu
Willy Rodr´ıguez, Simon Boitard, Olivier Mazet
July 19, 2012
Objectif et Mod`ele Donn´ees Disponibles R´esultats Limitations du PSMC
Objectif
Objectif
Estimer la taille effective d’une population au cours du temps `
a
partir du g´
enome d’un seul individu
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Taille effective
N
e
(t) = N
0
λ(t) temps continu. N
e,k
= N
0
λ
k
temps discret
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Taille effective
N
e
(t) = N
0
λ(t) temps continu. N
e,k
= N
0
λ
k
temps discret
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Taille effective
N
e
(t) = N
0
λ(t) temps continu. N
e,k
= N
0
λ
k
temps discret
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Taille effective
N
e
(t) = N
0
λ(t) temps continu. N
e,k
= N
0
λ
k
temps discret
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Taille effective
N
e
(t) = N
0
λ(t) temps continu. N
e,k
= N
0
λ
k
temps discret
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Taille effective
N
e
(t) = N
0
λ(t) temps continu. N
e,k
= N
0
λ
k
temps discret
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Param`
etres `
a Estimer
Param`
etres
Pour arriver `
a tracer ce graphique il faut connaitre:
La valeur de N
0
Les valeurs de λ
k
pour chaque k
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Graphique
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Taille effective et temps de coalescence
Coalescence entre deux morceaux de chromosome et pour une
position donn´
ee sur le g´
enome.
Taux de coalescence en temps t
taux de coalescence `
a t ∼
N(t)
1
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Recombinaison Individus Diploides
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Ancˆ
etre Commun le Plus R´
ecent. Mutation.
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Ancˆ
etre Commun le Plus R´
ecent. Mutation.
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Ancˆ
etre Commun le Plus R´
ecent. Mutation.
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Ancˆ
etre Commun le Plus R´
ecent. Mutation.
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Ancˆ
etre Commun le Plus R´
ecent. Mutation.
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Ancˆ
etre Commun le Plus R´
ecent. Mutation.
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Ancˆ
etre Commun le Plus R´
ecent. Mutation.
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Ancˆ
etre Commun le Plus R´
ecent. Mutation.
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Ancˆ
etre Commun le Plus R´
ecent. Mutation.
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Mutation et Coalescence
Locus H´
et´
erozygote et Mutation
Si `
a une position donn´
ee du g´
enome l’individu est h´
et´
erozygote, ¸
ca
veut dire qu’il y a eu une mutation entre le temps de coalescence
et le temps actuel.
Mutation et Temps de Coalescence
Plus le temps de coalescence est grand, plus la mutation est
probable.
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Mutation et Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Mutation et Coalescence
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Chaine de Markov Cach´
ee
Hypoth`
ese
La s´
equence t
1
, t
2
, t
3
, .... est une Chaine de Markov Cach´
e.
McVean, G. A. T. & Cardin, N. J. Approximating the coalescent
with recombination. Phil. Trans. R. Soc. B 360, 1387–1393
(2005).
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Model HMM
Chaine de Markov Cach´
e
Espace d’´
etats cach´
es: X = {t
1
, t
2
, ..., t
n
}
Espace d’´
etats observ´
es: Y = {0, 1}
Probabilit´
e de transition: p
kl
Probabilit´
e d’´
emission: e
k
Objectif et Mod`ele
Donn´ees Disponibles R´esultats Limitations du PSMC
Estimation des param`
etres
Estimation des param`
etres
La loi de p
kl
ainsi que celle de e
k
d´
epend de λ
k
. On utilise
l’algorithme EM pour estimer les param`
etres de la Chaine de
Markov Cach´
e. Le logiciel utilis´
e est le PSMC.
Heng Li and Richard Durbin. The Pairwise Sequentially Markovian
Coalescent Model (2008)
Objectif et Mod`ele
Donn´ees Disponibles
R´esultats Limitations du PSMC
Donn´
ees Disponibles
Source des donn´
ees: International Sheep Genomics Consortium
Deux individus de la race Lacaune (France).
Un individu de la race Norduz (Moyen Orient)
Un individu de la race Sumatra (Indonesie)
Les donn´
es ont ´
et´
e t´
el´
echarg´
ees en format .BAM
Objectif et Mod`ele
Donn´ees Disponibles
R´esultats Limitations du PSMC
Logiciels utilis´
es
Samtools
site: http://sourceforge.net/projects/samtools/
Logiciel pour manipuler les ficher en format .bam
Permet diviser le .bam par r´
egions
Travail en parall`
ele
Les calculs ont ´
et´
e faits sur genotoul.
PSMC
site: https://github.com/lh3/psmc
Permet inf´
erer les param`
etres pour reconstruir l’histoire de la
population.
Fait des scripts pour des simulations sur ms.
Plot des r´
esultats.
Objectif et Mod`ele
Donn´ees Disponibles
R´esultats Limitations du PSMC
Traitement de l’information
Objectif et Mod`ele
Donn´ees Disponibles
R´esultats Limitations du PSMC
Le format SAM
Format SAM (Sequence Alignment/Map)
Cr´
e´
e `
a l’initiative de, et utilis´
e par, le projet 1000 G´
enomes.
Utilis´
e en biologie, pour stocker les alignements de s´
equence
sur des s´
equences de r´
ef´
erence
Une ligne pour chaque segment du g´
enome s´
equenc´
e
Position sur la s´
equence de r´
ef´
erence correspondant `
a chaque
segment
Extension par convention: sam, bam pour la version binaris´
ee,
(compress´
ee)
Objectif et Mod`ele
Donn´ees Disponibles
R´esultats Limitations du PSMC
Exemple de ficher SAM
Alignement:
SAM qui corresponde:
Objectif et Mod`ele
Donn´ees Disponibles
R´esultats Limitations du PSMC
Le format vcf
VCF (Variant Call Format) version 4.0
Une ligne pour chaque position g´
enomique
Individu diplo¨ıde, deux alternatives (REF — ALT)
Chaque ligne contient la probabilit´
e de tous les g´
enotypes
trouv´
es
site: http://www.1000genomes.org/node/101
Objectif et Mod`ele
Donn´ees Disponibles
R´esultats Limitations du PSMC
Exemple VCF
Objectif et Mod`ele
Donn´ees Disponibles
R´esultats Limitations du PSMC
Le format FASTQ (.fq)
Le format FASTQ (.fq)
Repr´
esente une s´
equence consensus
Homozygote − > lettre qui correspond
H´
et´
erozygote − > code
Quatri`
eme ligne contient la qualit´
e de la s´
equence
Objectif et Mod`ele
Donn´ees Disponibles
R´esultats Limitations du PSMC
Exemple FASTQ
Objectif et Mod`ele
Donn´ees Disponibles
R´esultats Limitations du PSMC
Le format psmcfa
Fichier en texte plain.
Entr´
ee pour le PSMC.
S´
equence binaire (h´
et´
erozygote ou homozygote).
Repr´
esente les ´
etats observ´
es de la Chaine de Markov Cach´
e.
K - Homozygote, T- H´
et´
erozygote.
Exemple:
KKKKKTTKKKKKKTKTKTKKKKKKTKKKKKKTKKK
Objectif et Mod`ele
Donn´ees Disponibles
R´esultats Limitations du PSMC
Le format psmc
Le format psmc
Fichier en texte plain
Sortie du PSMC
Contient les estimations des valeurs de λ
k
Objectif et Mod`ele
Donn´ees Disponibles
R´esultats Limitations du PSMC
Exemple PSMC
Objectif et Mod`ele Donn´ees Disponibles
R´esultats
Limitations du PSMC
Histoire pour Lacaune. Individu 1
Objectif et Mod`ele Donn´ees Disponibles
R´esultats
Limitations du PSMC
Histoire pour Lacaune. Individu 2
Objectif et Mod`ele Donn´ees Disponibles
R´esultats
Limitations du PSMC
Histoire pour Norduz
Objectif et Mod`ele Donn´ees Disponibles
R´esultats
Limitations du PSMC
Histoire pour Sumatra
Objectif et Mod`ele Donn´ees Disponibles
R´esultats
Limitations du PSMC
Tous ensembles
Objectif et Mod`ele Donn´ees Disponibles
R´esultats
Limitations du PSMC
Estimation de la variance (bootstrapping). Lacaune 1
Objectif et Mod`ele Donn´ees Disponibles
R´esultats
Limitations du PSMC
Estimation de la variance (bootstrapping). Lacaune 2
Objectif et Mod`ele Donn´ees Disponibles
R´esultats
Limitations du PSMC
Estimation de la variance (bootstrapping). Norduz
Objectif et Mod`ele Donn´ees Disponibles
R´esultats
Limitations du PSMC
Estimation de la variance (bootstrapping). Sumatra
Objectif et Mod`ele Donn´ees Disponibles R´esultats
Limitations du PSMC
Estimations pour un temps plus r´
ecent
Objectif et Mod`ele Donn´ees Disponibles R´esultats
Limitations du PSMC
Perspectives
Perspectives
Si on arrive `
a ´
etendre le mod`
ele PSMC pour travailler avec plus
d’un individu, on pourrait obtenir des estimations plus fiables pour
les temps r´
ecents.
Objectif et Mod`ele Donn´ees Disponibles R´esultats
Limitations du PSMC