• Aucun résultat trouvé

L’identit´ e g´ en´ etique et les temps de coalescence

1.3 L’œuf et la poule

2.1.2 L’identit´ e g´ en´ etique et les temps de coalescence

Il existe une relation ´etroite entre les probabilit´es d’identit´e de paires de

g`enes et les temps de coalescence (Slatkin 1991;SlatkinetVoelm1991).

La th´eorie de la coalescence, dont le lien avec les mod`eles de g´en´etique des

populations a ´et´e ´etablie par Kingman (1982a,b), s’int´eresse au calcul des

probabilit´es de g´en´ealogies des g`enes. On dira que deux g`enes coalescent `a

l’instant t dans le pass´e s’ils ont un ancˆetre commun `a cet instant t. Pour

bien comprendre cette d´efinition, il faut se repr´esenter le temps« `a l’envers»,

c’est-`a-dire allant du pr´esent vers le pass´e, et se repr´esenter graphiquement

la coalescence de deux g`enes comme un ´ev´enement de« fusion»de ces deux

g`enes. Si l’on connaˆıt la g´en´ealogie des g`enes, c’est-`a-dire toutes leurs relations

de parent´e, on dira donc que deux g`enes coalescent lorsqu’ils se r´eunissent en

Présent

Passé

Figure 2.1: Un exemple de g´en´ealogie de 10 g`enes. Cette figure

re-pr´esente une r´ealisation du processus de coalescence dans une

po-pulation constitu´ee de N = 100 individus haplo¨ıdes. Les temps de

coalescence (donn´es par l’ˆage de chaque nœud de la topologie) sont

distribu´es de fa¸con exponentielle.

un seul (voir la figure 2.1). L’int´erˆet d’´etudier cette cat´egorie de mod`eles est

que, sous l’hypoth`ese que les diff´erents variants sont s´electivement neutres,

les processus de mutation peuvent ˆetre d´ecoupl´es des processus g´en´ealogiques

(Hudson 1990; Norborg 2001). Ainsi, la distribution des ´etats all´eliques

de toutes les copies de g`enes pr´esentes dans une population est d´etermin´ee

d’une part par la g´en´ealogie de ces g`enes et d’autre part par la distribution des

mutations qui se sont produites (Norborg 2001). D’une certaine mani`ere,

cela signifie que l’on s´epare en deux processus distincts ce qui contribue `a

l’identit´e par descendance de ce qui contribue `a l’identit´e par ´etat. D’autre

part, on peut calculer s´epar´ement les temps de coalescence de g`enes pris dans

diff´erentes classes (Slatkin 1991). Dans ce qui suit, on ne s’int´eressera qu’`a

un cas particulier de la th´eorie de la coalescence, o`u seules sont consid´er´ees

des paires de g`enes.

exact a ´et´e donn´e par Latter (1973)

7

. On raisonnera de la mˆeme mani`ere

que pr´ec´edemment,

8

en consid´erant simplement qu’il existe un nombre fini n

de populations de N individus diplo¨ıdes et que la probabilit´e pour un g`ene

d’ˆetre immigrant est m. Les g`enes sont dispers´es ind´ependamment les uns

des autres et ont une ´egale probabilit´e de venir de l’un des (n−1) d`emes.

Les g`enes sont ´echantillonn´es apr`es la dispersion. En reprenant les notations

de Nagylaki (1983) et de Crow et Aoki (1984) on notera la proportion

des paires de g`enes issues d’une sous-population unique `a la g´en´eration pr´ec´

e-dentea = (1−m)

2

+m

2

/(n−1) pour les g`enes d’une mˆeme sous-population et

b= (1−a)/(n−1) pour les g`enes de sous-populations distinctes

9

. Dans chaque

sous-population, une proportionsdes individus philopatriques

10

est produite

par autof´econdation. On note Q

0

, la probabilit´e que les g`enes d’un individu

soient identiques par descendance,Q

1

la probabilit´e que deux g`enes pris dans

deux individus distincts dans une mˆeme sous-population soient identiques, et

Q

2

, la probabilit´e que deux g`enes pris dans deux sous-populations distinctes

soient identiques. On obtient les ´equations de r´ecurrence suivantes

Q

0

(t+ 1) = γhas

Q0(2t)+1

+ (1−s)Q

1

(t)+ (1−a)Q

2

(t)i

Q

1

(t+ 1) = γ

h

a

1 N Q0(t)+1 2

+ 1−

1 N

Q

1

(t)

+ (1−a)Q

2

(t)

i

(2.3)

Q

2

(t+ 1) = γhb

N1 Q0(2t)+1

+ 1−

1 N

Q

1

(t)+ (1−b)Q

2

(t)i

Ces ´equations peuvent s’´ecrire sous une forme matricielle. On note Q =

(Q

0

, Q

1

, Q

2

)

T

le vecteur des probabilit´es d’identit´e de paires de g`enes, o`u

7Le mod`ele `a nombre d’ˆıles infini ou « mod`ele en ˆıles» a ´et´e d´evelopp´e parWright

en 1951. Ce mod`ele consid`ere une population subdivis´ees en un nombre infini de

sous-populations de taille finie, ´echangeant des gam`etes entre elles.

8Voir les ´equations (2.1) et (2.2), p. 23.

9Par d´efinition, b est la proportion des paires de g`enes pris dans des sous-populations

distinctes et qui sont issues d’une sous-population unique `a la g´en´eration pr´ec´edente. Or

avec la probabilit´e 2m(1 −m)/(n−1) un seul g`ene a migr´e et provient de la mˆeme

population que l’autre g`ene `a la g´en´eration pr´ec´edente. De mˆeme, avec la probabilit´e

(n−2) [m/(n−1)]2les deux g`enes ont migr´e et proviennent de la mˆeme sous-population `a

la g´en´eration pr´ec´edente. Par cons´equent,b= 2m(1−m)/(n−1) + (n−2) [m/(n−1)]2=

(1−a)/(n−1).

10Par d´efinition, s est la probabilit´e conditionnelle que deux g`enes soient issus d’un

mˆeme parent, sachant que ces deux g`enes proviennent d’une mˆeme sous-population avant

l’exposantT indique qu’il s’agit du vecteur transpos´e (et donc que Q est un

vecteur colonne). On peut r´e-´ecrire les ´equations de r´ecurrence (2.3) sous la

forme

Q(t+ 1) =γ[AQ(t) +D] (2.4)

o`u A est une matrice de transition et D un vecteur de tous les termes

constants dans les r´ecurrences.

A=

a

s2

a(1−s) (1−a)

a

21N

a 1−

1 N

(1−a)

b

21N

b 1−

1 N

(1−b)

 et D=

a

s2

a

21N

b

21N

 (2.5)

A l’´equilibre, on obtient d’apr`es l’´equation (2.4) :

Q=γ(I−γA)

−1

D (2.6)

o`uI est la matrice identit´e.

Si l’on revient `a la d´efinition de l’identit´e par descendance, on peut

ex-primer autrement la probabilit´e d’identit´e Qh de deux g`enes, avec h = 0

lorsque les deux g`enes sont tir´es dans un mˆeme individu, h = 1 lorsque les

deux g`enes sont tir´es dans deux individus diff´erents dans un mˆeme d`eme et

h= 2 lorsque les deux g`enes sont tir´es au hasard dans des d`emes diff´erents.

On note C

h

(t) la probabilit´e que deux g`enes aient leur ancˆetre commun le

plus proche t g´en´erations dans le pass´e. On dit ´egalement que C

h

(t) est la

probabilit´e que ces g`enescoalescent `at. L’identit´e par descendanceQ

h

a ´et´e

d´efinie comme la probabilit´e que deux g`enes soient des copies exactes (sans

mutation) de leur ancˆetre commun le plus r´ecent (Hudson1990). Et puisque

la probabilit´e que ces deux g`enes n’aient pas mut´e pendant les t g´en´erations

´ecoul´ees est γ

t

, alors

Q

h

=

X

t=1

γ

t

C

h

(t) (2.7)

et Voelm 1991). L’´equation (2.7) refl`ete bien la probabilit´e nette que deux

g`enes aient coalesc´e avant que l’un ou l’autre n’ait mut´e. Or l’´equation (2.6)

peut ´egalement s’´ecrire sous la forme

Q=

X

t=1

γ

t

A

t−1

D (2.8)

Par cons´equent,

C(t) = A

t−1

D (2.9)

donne le vecteur des probabilit´es de coalescence `a t, en reprenant les mˆemes

indices que pour les probabilit´es d’identit´e, c’est-`a-direC= (C

0

, C

1

, C

2

)

T

. Si

la matriceAest diagonalisable, on peut l’exprimer sous la formeA=SΛS

−1

(voir, e.g. Horn et Johnson 1985, page 46), o`uS est la matrice compos´ee

des vecteurs propres `a droite de A, de telle fa¸con que le vecteur propre

`

a droite associ´e `a la ki`eme valeur propre est le ki`eme vecteur-colonne de

S. S

−1

est la matrice compos´ee des vecteurs propres `a gauche de A, de

telle sorte que le vecteur propre `a gauche associ´e `a la ki`eme valeur propre

est le ki`eme vecteur-ligne de S. Λ est la matrice diagonale qui contient les

valeurs propres ordonn´ees (λ

1

, . . . , λ

k

) de A sur la diagonale principale. Par

cons´equent, l’´equation (2.9) devient

C(t) = SΛ

t−1

S

−1

D (2.10)

o`u Λ

t−1

= diag λ

t1−1

, . . . , λ

tk−1

est facilement calculable num´eriquement et

d´epend des param`etres N, m, n et s du mod`ele. On peut donc facilement

calculer la distribution des probabilit´es de coalescence `a partir de l’´equation

(2.10). La figure 2.2 donne un exemple de la distribution des probabilit´es de

coalescence pour diff´erentes paires de g`enes. Il est `a noter que le nombre de g´

e-n´erations en abscisse correspond au nombre de g´en´erations´ecoul´ees avant le

temps pr´esent (qui se trouve `a l’origine de l’axe des abscisses). La distribution

des probabilit´es de coalescence dans une classe de g`enes [par exemple C

1

(t)]

est proportionnelle `a la distribution des probabilit´es de coalescence dans une

Générations

Probabilités de coalescence

1

C (t)

0

C (t)

2

C (t)

10 10

2

10

3

10

4

10

5

10

6

10

-8

10

-6

10

-4

10

-2

Figure 2.2: Distribution des probabilit´es de coalescence. Les

pro-babilit´es C

h

(t) que deux g`enes coalescent au temps t sont donn´ees

pour diff´erentes paires de g`enes. On remarquera que la distribution

des probabilit´es de coalescence `a l’int´erieur d’une classe devient

pro-portionnelle `a la distribution des probabilit´es de coalescence entre

classes, pour des temps anciens. N = 1000, m = 0.001, n = 100

et s = 0.5. Noter la double ´echelle logarithmique (d’apr`es Rousset

1996).

classe de g`enes moins apparent´es [par exempleC

2

(t)] pour des temps anciens.

Rousset (2001b) montre que la diff´erence asymptotique entre les

probabi-lit´es de coalescence est de l’ordre de F

ST

. En revanche, dans la p´eriode des

temps tr`es r´ecents les deux distributions ne sont pas proportionnelles l’une

`

a l’autre et les probabilit´es que deux g`enes coalescent quelques g´en´erations

dans le pass´e sont tr`es diff´erentes, selon que ces g`enes sont ´echantillonn´es dans

des individus distincts de la mˆeme sous-population ou de sous-populations

diff´erentes.

2.1.3 Les F-statistiques