L’identit´ e g´ en´ etique et les temps de coalescence

1.3 L’œuf et la poule

2.1.2 L’identit´ e g´ en´ etique et les temps de coalescence

Il existe une relation étroite entre les probabilités d’identité de paires de

g`enes et les temps de coalescence (_Slatkin 1991;_Slatkinet_Voelm1991).

La théorie de la coalescence, dont le lien avec les modèles de génétique des

populations a été établie par _Kingman (1982a,b), s’intéresse au calcul des

probabilités de généalogies des gènes. On dira que deux gènes coalescent à

l’instant t dans le passé s’ils ont un ancêtre commun à cet instant t. Pour

bien comprendre cette définition, il faut se représenter le temps« à l’envers»,

c’est-à-dire allant du présent vers le passé, et se représenter graphiquement

la coalescence de deux gènes comme un événement de« fusion»de ces deux

gènes. Si l’on connaˆıt la généalogie des gènes, c’est-à-dire toutes leurs relations

de parenté, on dira donc que deux gènes coalescent lorsqu’ils se réunissent en

Présent

Passé

Figure 2.1: Un exemple de généalogie de 10 gènes. Cette figure

re-pr´esente une r´ealisation du processus de coalescence dans une

po-pulation constitu´ee de N = 100 individus haplo¨ıdes. Les temps de

coalescence (donn´es par l’ˆage de chaque nœud de la topologie) sont

distribu´es de fa¸con exponentielle.

un seul (voir la figure 2.1). L’intérêt d’étudier cette catégorie de modèles est

que, sous l’hypothèse que les différents variants sont sélectivement neutres,

les processus de mutation peuvent être découplés des processus généalogiques

(_Hudson 1990; _Norborg 2001). Ainsi, la distribution des ´etats all´eliques

de toutes les copies de gènes présentes dans une population est déterminée

d’une part par la généalogie de ces gènes et d’autre part par la distribution des

mutations qui se sont produites (_Norborg 2001). D’une certaine mani`ere,

cela signifie que l’on s´epare en deux processus distincts ce qui contribue `a

l’identité par descendance de ce qui contribue à l’identité par état. D’autre

part, on peut calculer séparément les temps de coalescence de gènes pris dans

différentes classes (_Slatkin 1991). Dans ce qui suit, on ne s’intéressera qu’à

un cas particulier de la théorie de la coalescence, où seules sont considérées

des paires de g`enes.

exact a été donné par _Latter (1973)

. On raisonnera de la mˆeme mani`ere

que pr´ec´edemment,

en consid´erant simplement qu’il existe un nombre fini n

de populations de N individus diplo¨ıdes et que la probabilit´e pour un g`ene

d’être immigrant est m. Les gènes sont dispersés indépendamment les uns

des autres et ont une égale probabilité de venir de l’un des (n−1) dèmes.

Les gènes sont échantillonnés après la dispersion. En reprenant les notations

de _Nagylaki (1983) et de _Crow et _Aoki (1984) on notera la proportion

des paires de gènes issues d’une sous-population unique à la génération préc´

e-dentea = (1−m)

+m

/(n−1) pour les g`enes d’une mˆeme sous-population et

b= (1−a)/(n−1) pour les g`enes de sous-populations distinctes

⁹

. Dans chaque

sous-population, une proportionsdes individus philopatriques

est produite

par autof´econdation. On note Q

₀

, la probabilit´e que les g`enes d’un individu

soient identiques par descendance,Q

₁

la probabilit´e que deux g`enes pris dans

deux individus distincts dans une mˆeme sous-population soient identiques, et

Q

₂

, la probabilit´e que deux g`enes pris dans deux sous-populations distinctes

soient identiques. On obtient les ´equations de r´ecurrence suivantes

Q

₀

(t+ 1) = γ^has

^Q0⁽₂^t⁾⁺¹

+ (1−s)Q

₁

(t)+ (1−a)Q

₂

(t)ⁱ

Q

(t+ 1) = γ

h

a

1 N Q0(t)+1 2

+ 1−

1 N

Q

(t)

+ (1−a)Q

(t)

i

(2.3)

Q

₂

(t+ 1) = γ^hb

_N¹ ^Q0⁽₂^t⁾⁺¹

+ 1−

1 N

Q

₁

(t)+ (1−b)Q

₂

(t)ⁱ

Ces ´equations peuvent s’´ecrire sous une forme matricielle. On note Q =

(Q

₀

, Q

₁

, Q

₂

)

le vecteur des probabilités d’identité de paires de gènes, où

7Le modèle à nombre d’ˆıles infini ou « modèle en ˆıles» a été développé par_Wright

en 1951. Ce modèle considère une population subdivisées en un nombre infini de

sous-populations de taille finie, ´echangeant des gam`etes entre elles.

8Voir les ´equations (2.1) et (2.2), p. 23.

9Par d´efinition, b est la proportion des paires de g`enes pris dans des sous-populations

distinctes et qui sont issues d’une sous-population unique à la génération précédente. Or

avec la probabilité 2m(1 −m)/(n−1) un seul gène a migré et provient de la même

population que l’autre gène à la génération précédente. De même, avec la probabilité

(n−2) [m/(n−1)]²les deux gènes ont migré et proviennent de la même sous-population à

la génération précédente. Par conséquent,b= 2m(1−m)/(n−1) + (n−2) [m/(n−1)]²=

(1−a)/(n−1).

10Par définition, s est la probabilité conditionnelle que deux gènes soient issus d’un

même parent, sachant que ces deux gènes proviennent d’une même sous-population avant

l’exposantT indique qu’il s’agit du vecteur transpos´e (et donc que Q est un

vecteur colonne). On peut ré-écrire les équations de récurrence (2.3) sous la

forme

Q(t+ 1) =γ[AQ(t) +D] (2.4)

o`u A est une matrice de transition et D un vecteur de tous les termes

constants dans les r´ecurrences.

A=







a

^s₂

a(1−s) (1−a)

a

₂¹_N

a 1−

1 N

(1−a)

b

₂¹_N

b 1−

1 N

(1−b)





 et D=







a

^s₂

a

₂¹_N

b

₂¹_N





 (2.5)

A l’équilibre, on obtient d’après l’équation (2.4) :

Q=γ(I−γA)

⁻¹

D (2.6)

o`uI est la matrice identit´e.

Si l’on revient à la définition de l’identité par descendance, on peut

ex-primer autrement la probabilité d’identité Qh de deux gènes, avec h = 0

lorsque les deux gènes sont tirés dans un même individu, h = 1 lorsque les

deux gènes sont tirés dans deux individus différents dans un même dème et

h= 2 lorsque les deux gènes sont tirés au hasard dans des dèmes différents.

On note C

(t) la probabilité que deux gènes aient leur ancêtre commun le

plus proche t générations dans le passé. On dit également que C

(t) est la

probabilité que ces gènescoalescent àt. L’identité par descendanceQ

a ´et´e

définie comme la probabilité que deux gènes soient des copies exactes (sans

mutation) de leur ancˆetre commun le plus r´ecent (_Hudson1990). Et puisque

la probabilité que ces deux gènes n’aient pas muté pendant les t générations

´ecoul´ees est γ

, alors

Q

=

∞

X

t=1

γ

C

(t) (2.7)

et _Voelm 1991). L’équation (2.7) reflète bien la probabilité nette que deux

gènes aient coalescé avant que l’un ou l’autre n’ait muté. Or l’équation (2.6)

peut ´egalement s’´ecrire sous la forme

Q=

∞

X

t=1

γ

A

^t⁻¹

D (2.8)

Par cons´equent,

C(t) = A

^t⁻¹

D (2.9)

donne le vecteur des probabilités de coalescence à t, en reprenant les mêmes

indices que pour les probabilités d’identité, c’est-à-direC= (C

, C

)

. Si

la matriceAest diagonalisable, on peut l’exprimer sous la formeA=SΛS

⁻¹

(voir, e.g. _Horn et _Johnson 1985, page 46), o`uS est la matrice compos´ee

des vecteurs propres `a droite de A, de telle fa¸con que le vecteur propre

`

a droite associé à la kième valeur propre est le kième vecteur-colonne de

S. S

⁻¹

est la matrice compos´ee des vecteurs propres `a gauche de A, de

telle sorte que le vecteur propre à gauche associé à la kième valeur propre

est le ki`eme vecteur-ligne de S. Λ est la matrice diagonale qui contient les

valeurs propres ordonn´ees (λ

₁

, . . . , λ

) de A sur la diagonale principale. Par

cons´equent, l’´equation (2.9) devient

C(t) = SΛ

^t⁻¹

S

⁻¹

D (2.10)

o`u Λ

^t⁻¹

= diag λ

^t₁⁻¹

, . . . , λ

^t_k⁻¹

est facilement calculable num´eriquement et

dépend des paramètres N, m, n et s du modèle. On peut donc facilement

calculer la distribution des probabilités de coalescence à partir de l’équation

(2.10). La figure 2.2 donne un exemple de la distribution des probabilit´es de

coalescence pour différentes paires de gènes. Il est à noter que le nombre de g´

e-nérations en abscisse correspond au nombre de générationsécoulées avant le

temps pr´esent (qui se trouve `a l’origine de l’axe des abscisses). La distribution

des probabilit´es de coalescence dans une classe de g`enes [par exemple C

₁

(t)]

est proportionnelle `a la distribution des probabilit´es de coalescence dans une

Générations

Probabilités de coalescence

1 C (t)

0 C (t)

2 C (t)

10 10

10

⁴

10

⁵

10

⁶

10

-8

10

-6

10

-4

10

-2

Figure 2.2: Distribution des probabilit´es de coalescence. Les

pro-babilit´es C

(t) que deux g`enes coalescent au temps t sont donn´ees

pour diff´erentes paires de g`enes. On remarquera que la distribution

des probabilités de coalescence à l’intérieur d’une classe devient

pro-portionnelle `a la distribution des probabilit´es de coalescence entre

classes, pour des temps anciens. N = 1000, m = 0.001, n = 100

et s = 0.5. Noter la double ´echelle logarithmique (d’apr`es _Rousset

1996).

classe de g`enes moins apparent´es [par exempleC

(t)] pour des temps anciens.

Rousset (2001b) montre que la diff´erence asymptotique entre les

probabi-lit´es de coalescence est de l’ordre de F

_ST

. En revanche, dans la p´eriode des

temps tr`es r´ecents les deux distributions ne sont pas proportionnelles l’une

`

a l’autre et les probabilités que deux gènes coalescent quelques générations

dans le passé sont très différentes, selon que ces gènes sont échantillonnés dans

des individus distincts de la mˆeme sous-population ou de sous-populations

diff´erentes.

2.1.3 Les F-statistiques

Dans le document Génétique des populations subdivisées : théorie et applications (Page 45-51)

L’identit´ e g´ en´ etique et les temps de coalescence

1.3 L’œuf et la poule

2.1.2 L’identit´ e g´ en´ etique et les temps de coalescence

Il existe une relation étroite entre les probabilités d’identité de paires de

g`enes et les temps de coalescence (Slatkin 1991;SlatkinetVoelm1991).

La théorie de la coalescence, dont le lien avec les modèles de génétique des

populations a été établie par Kingman (1982a,b), s’intéresse au calcul des

probabilités de généalogies des gènes. On dira que deux gènes coalescent à

l’instant t dans le passé s’ils ont un ancêtre commun à cet instant t. Pour

bien comprendre cette définition, il faut se représenter le temps« à l’envers»,

c’est-à-dire allant du présent vers le passé, et se représenter graphiquement

la coalescence de deux gènes comme un événement de« fusion»de ces deux

gènes. Si l’on connaˆıt la généalogie des gènes, c’est-à-dire toutes leurs relations

de parenté, on dira donc que deux gènes coalescent lorsqu’ils se réunissent en

Présent

Passé

Figure 2.1: Un exemple de généalogie de 10 gènes. Cette figure

re-pr´esente une r´ealisation du processus de coalescence dans une

po-pulation constitu´ee de N = 100 individus haplo¨ıdes. Les temps de

coalescence (donn´es par l’ˆage de chaque nœud de la topologie) sont

distribu´es de fa¸con exponentielle.

un seul (voir la figure 2.1). L’intérêt d’étudier cette catégorie de modèles est

que, sous l’hypothèse que les différents variants sont sélectivement neutres,

les processus de mutation peuvent être découplés des processus généalogiques

(Hudson 1990; Norborg 2001). Ainsi, la distribution des ´etats all´eliques

de toutes les copies de gènes présentes dans une population est déterminée

d’une part par la généalogie de ces gènes et d’autre part par la distribution des

mutations qui se sont produites (Norborg 2001). D’une certaine mani`ere,

cela signifie que l’on s´epare en deux processus distincts ce qui contribue `a

l’identité par descendance de ce qui contribue à l’identité par état. D’autre

part, on peut calculer séparément les temps de coalescence de gènes pris dans

différentes classes (Slatkin 1991). Dans ce qui suit, on ne s’intéressera qu’à

un cas particulier de la théorie de la coalescence, où seules sont considérées

des paires de g`enes.

exact a été donné par Latter (1973)

. On raisonnera de la mˆeme mani`ere

que pr´ec´edemment,

en consid´erant simplement qu’il existe un nombre fini n

de populations de N individus diplo¨ıdes et que la probabilit´e pour un g`ene

d’être immigrant est m. Les gènes sont dispersés indépendamment les uns

des autres et ont une égale probabilité de venir de l’un des (n−1) dèmes.

Les gènes sont échantillonnés après la dispersion. En reprenant les notations

de Nagylaki (1983) et de Crow et Aoki (1984) on notera la proportion

des paires de gènes issues d’une sous-population unique à la génération préc´

e-dentea = (1−m)

+m

/(n−1) pour les g`enes d’une mˆeme sous-population et

b= (1−a)/(n−1) pour les g`enes de sous-populations distinctes

. Dans chaque

sous-population, une proportionsdes individus philopatriques

est produite

par autof´econdation. On note Q

, la probabilit´e que les g`enes d’un individu

soient identiques par descendance,Q

la probabilit´e que deux g`enes pris dans

deux individus distincts dans une mˆeme sous-population soient identiques, et

Q

, la probabilit´e que deux g`enes pris dans deux sous-populations distinctes

soient identiques. On obtient les ´equations de r´ecurrence suivantes

Q

(t+ 1) = γhas

+ (1−s)Q

(t)+ (1−a)Q

(t)i

Q

(t+ 1) = γ

h

a

+ 1−

Q

(t)

+ (1−a)Q

(t)

i

(2.3)

Q

(t+ 1) = γhb

+ 1−

Q

(t)+ (1−b)Q

g`enes et les temps de coalescence (_Slatkin 1991;_Slatkinet_Voelm1991).

populations a été établie par _Kingman (1982a,b), s’intéresse au calcul des

(_Hudson 1990; _Norborg 2001). Ainsi, la distribution des ´etats all´eliques

mutations qui se sont produites (_Norborg 2001). D’une certaine mani`ere,

différentes classes (_Slatkin 1991). Dans ce qui suit, on ne s’intéressera qu’à

exact a été donné par _Latter (1973)

de _Nagylaki (1983) et de _Crow et _Aoki (1984) on notera la proportion

(t+ 1) = γ^has

(t)ⁱ

(t+ 1) = γ^hb

(t)ⁱ

mutation) de leur ancˆetre commun le plus r´ecent (_Hudson1990). Et puisque

et _Voelm 1991). L’équation (2.7) reflète bien la probabilité nette que deux