• Aucun résultat trouvé

Coalescence : principe et bases théoriques

N/A
N/A
Protected

Academic year: 2021

Partager "Coalescence : principe et bases théoriques"

Copied!
36
0
0

Texte intégral

(1)

HAL Id: hal-02806590

https://hal.inrae.fr/hal-02806590

Submitted on 6 Jun 2020

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Coalescence : principe et bases théoriques

Simon Boitard

To cite this version:

Simon Boitard. Coalescence : principe et bases théoriques. Master de Bioinformatique et de biologie des systèmes (Génomique et génétique statistique), 2011. �hal-02806590�

(2)

Coalescence : principe et bases th´

eoriques

Simon Boitard

INRA, Laboratoire de G´en´etique Cellulaire, Toulouse

(3)

Introduction

Mod`ele math´ematique permettant de d´ecrire / simuler la g´en´ealogie d’un ´echantillon d’individus.

On remonte le temps au lieu de le descendre.

(4)
(5)
(6)
(7)
(8)
(9)
(10)

Plan du cours

1 Mod`ele de base : une population de taille constante, un locus sans

recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ee

4 Mod`ele avec recombinaison

(11)

une population de taille constante, un locus sans recombinaison

Plan du cours

1 Mod`ele de base : une population de taille constante, un locus sans

recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ee

4 Mod`ele avec recombinaison

(12)

Temps de coalescence

Proba qu’il n’y ait pas de coalescence `a une g´en´eration donn´ee

qN(n) = n−1 Y i =1 (1 − i N) = 1 − n(n − 1) 2N + O( 1 N2) TN

n suit une loi g´eom´etrique

P(TnN > t) = (qN(n))t Changement d’´echelle τ = Nt P(TnN > Nτ ) = (qN(n))Nτ ≈ (1 − n(n − 1) 2N ) Nτ → e−n(n−1)2 τ quand N → +∞. → TN

n tend vers Tn, de loi exponentielle de param`etre

n(n−1)

(13)

une population de taille constante, un locus sans recombinaison

Ev`

enements de coalescence

La proba que trois individus ou plus coalescent `a la mˆeme g´en´eration est en O(N12)

→ n´egligeable quand N → +∞.

En pratique, une coalescence consiste toujours `a regrouper

(14)

Esp´

erance du TMRCA

TMRCA = n X k=2 Tk E[TMRCA] = n X k=2 E[Tk] = n X k=2 2 k(k − 1) = 2 n X k=2 ( 1 k − 1− 1 k) = 2(1 − 1 n) ≈ 2

(15)

une population de taille constante, un locus sans recombinaison

Mutations

Proba µ de mutation par site et par m´eiose.

M(t) nombre de mutations pour une branche de longueur t = Nτ et un locus de taille L.

E[M(t)] = µLNτ = θ

2Lτ en posant θ = 2Nµ.

M(τ ) processus de Poisson d’intensit´e θ2L.

On peut choisir ensuite le mod`ele qu’on veut pour d´ecrire ce qui se

(16)
(17)

une population de taille constante, un locus sans recombinaison

(18)
(19)

une population de taille constante, un locus sans recombinaison

Simulation

1 Pour k allant de n `a 2 :

1 Simuler une loi exponentielle Tk de param`etre k(k−1)2 . 2 Choisir uniform´ement celui des k(k−1)

2 couples d’haplotypes qui

coalesce.

2 Placer les mutations ind´ependamment sur chaque branche selon un

processus de Poisson d’intensit´e θ2L.

(20)

Population diplo¨ıde

N taille de la population, 2N all`eles.

Remplacer N par 2N dans tout ce qui pr´ec`ede.

(21)

Population de taille variable au cours du temps

Plan du cours

1 Mod`ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ee

4 Mod`ele avec recombinaison

(22)

Principe

La taille de la population change selon une fonction d´eterministe du

temps :

Croissance exponentielle : N(t) = N0∗ e−αt, α > 0

D´ecroissance exponentielle : N(t) = N0∗ eαt, α > 0

D´ecroissance lin´eaire : N(t) = N0+ αt, α > 0

Goulot d’´etranglement (”bottleneck”) : N(t) = N0 si t < t∗, N1 si

t ≥ t∗

La probabilit´e de coalescence d´epend de la taille de population et

donc varie au cours du temps. L’unit´e de temps est τ = Nt

0.

En un temps τ , on a `a peu pr`es: Tn(τ ) ∼

N(τ )

N0 exp(

n(n − 1)

(23)

Population de taille variable au cours du temps

Simulation (approch´

ee)

τ = 0

1 Pour k allant de n `a 2 :

1 Simuler une loi exponentielle Tk de param`etre k(k−1)

2 .

2 La multiplier par N(τ ) N0 . 3 τ = τ + Tk.

4 Choisir uniform´ement celui des k(k−1)

2 couples d’haplotypes qui

coalesce.

2 Placer les mutations ind´ependamment sur chaque branche selon un

(24)

Application

Population croissante → temps de coalescence plus longs en bas de l’arbre → plus de fr´equences all´eliques extrˆemes.

Population d´ecroissante → temps de coalescence plus longs en haut

(25)

Population structur´ee

Plan du cours

1 Mod`ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ee

4 Mod`ele avec recombinaison

(26)

Principe

Pour chaque noeud de l’arbre, une ´etiquette indique sa population

d’origine.

Coalescences intra population. Par ex, pour deux pops 1 et 2, 2 ´

ev`enements possibles : coalescence dans 1 et coalescence dans 2.

Taille relative des pops importante car d´etermine la vitesse des

´

ev`enements.

Si migrations entre populations avec une proba par g´en´eration en

O(N1), ´ev`enements ”migration de 1 vers 2” et ”migration de 2 vers 1”

(27)

Population structur´ee

(28)

Plan du cours

1 Mod`ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ee

4 Mod`ele avec recombinaison

(29)

Mod`ele avec recombinaison

Principe

Un haplotype cr´e´e par recombinaison n’a plus un seul mais deux

parents.

En remontant dans le temps, une branche peut donc se diviser en

deux. Cela se produit avec une proba c par g´en´eration, c taux de

recombinaison entre les locus.

A l’´echelle τ = Nt, et en posant ρ = 2Nc, le temps au bout duquel une

branche se divise en deux suit une loi exponentielle de param`etre ρ2.

La g´en´ealogie joite des deux locus est appell´ee ”Ancestral

Recombination Graph”. On peut en d´eduire les arbres de coalescence

(30)
(31)

Mod`ele avec recombinaison

Simulation

k = n. Tant que k > 1 :

1 Simuler U, une loi exponentielle de param`etre k(k−1)

2 .

2 Simuler V , une loi exponentielle de param`etre kρ

2. 3 Si U ≤ V , choisir au hasard celui des k(k−1)

2 couples d’haplotypes qui

coalesce.

Si U > V , choisir au hasard celle des k lign´ees qui se s´epare.

Remarque : le stade k = 1 finit toujours par ˆetre atteint, mais cela peut

ˆ

(32)

Plan du cours

1 Mod`ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ee

4 Mod`ele avec recombinaison

(33)

Conclusions

Le coalescent en g´

en´

etique des populations

Mod`ele th´eorique permettant de faire le lien entre des donn´ees

g´en´etiques observ´ees et des mod`eles d´emographiques.

Outil de simulation tr`es performant.

Logiciels de simulation : ms, SIMCOAL, GENOME . . .

En pratique, tous les aspects du mod`eles (d´emographie, structure,

(34)

A suivre : TD, Etude de deux estimateurs de θ

Echantillon de n s´equences d’ADN de longueur L.

Estimateur de Watterson : θW = 1 LSn( n−1 X k=1 1 k) −1

avec Sn nombre de sites polymorphes.

Estimateur de Tajima : θT = πn= 1 L 1 n(n − 1) X i 6=j Π(i , j )

(35)

Conclusions

A suivre : TP, Simulation de donn´

ees g´

en´

etiques par

coalescence et analyses standard

Simulation de donn´ees g´en´etiques avec SIMCOAL2.

Analyse de ces ´echantillons simul´es avec ARLEQUIN.

(36)

Quelques refs

Simon Tavar´e (2001), Ancestral inference in molecular biology. Ecole

de Probabilit´es de Saint-Flour.

Références

Documents relatifs

4.1c ) afin d’évacuer la mousse facilement mais également de permettre la connexion à une réserve de gaz pour assurer le contrôle de la pression dans la cellule. Dans

Nous nous sommes aussi intéressés à la distribution du nombre de voisins au sein de la mousse, ainsi qu’à son évolution au cours du temps.. La figure 5.32 montre la répartition

Todo libro tiene su propia historia, y la que explica esta miscelánea es doble: primeramente, deriva del programa del concurso de la «Agrégation externe d’Espagnol» para las

Population croissante → temps de coalescence plus longs en bas de l’arbre → plus de fr´ equences all´ eliques extrˆ emes. Population d´ ecroissante → temps de coalescence

 Convention concernant la protection du patrimoine mondial culturel et naturel, 1972  Convention sur la protection du patrimoine culturel subaquatique, 2001..  Convention pour

Couronne des pôles d’emploi de l’espace rural : communes ou unités urbaines n’appartenant pas à l’espace à dominante urbaine, dont 40 % ou plus des actifs

Undrained triaxial compression constant strain rate tests were carried out for studying the influence of the viscous parameters: the values of the Cam-Clay parameters

Il d´ emontre la faisabilit´ e de la solution technique que nous proposons pour le contrˆ ole de l’´ energie dans un r´ eseau domestique r´ eel avec des sc´ enarios r´ eels qui