1.3 L’œuf et la poule
2.1.3 Les F -statistiques
Nous avons vu pr´ec´edemment que pour d´ecrire un mod`ele de population
structur´ee en sous-populations, il fallait d´efinir des probabilit´es d’identit´es
de paires de g`enes pris `a diff´erents niveaux hi´erarchiques. Ceci est vrai pour
n’importe quel type de structure (voir, par exemple, Ronfort et al. 1998;
Rousset 1999b; Slatkin et Voelm 1991). Il est en effet toujours possible
de d´efinir des classes de g`enes de telle sorte que le mod`ele est enti`erement
d´ecrit par les probabilit´es d’identit´e de paires de g`enes tir´es `a l’int´erieur de
ces classes et par les probabilit´es d’identit´e de paires de g`enes tir´es dans
des classes distinctes. Dans l’exemple pr´ec´edent, c’est-`a-dire dans le mod`ele
d´efini par le syst`eme d’´equations (2.3), j’ai distingu´e les paires de g`enes prises
`
a l’int´erieur des individus, des paires de g`enes prises dans une mˆeme
sous-population et des paires de g`enes prises dans des sous-populations distinctes.
Ces trois cat´egories de paires de g`enes d´efinissent donc les diff´erentes classes
dans le mod`ele pr´ec´edent.
Dans ce contexte, on peut d´efinir des corr´elations des ´etats all´eliques pour
les g`enes pris `a l’int´erieur d’une classe par rapport aux g`enes pris dans des
classes distinctes, c’est-`a-dire des corr´elations g´en´etiques intra-classes (
Co-ckerhametWeir1987;Rousset1996). Si les probabilit´es d’identit´e
consi-d´er´ees sont des probabilit´es d’identit´e par ´etat, ces corr´elations sont mieux
connues sous le nom deF-statistiques (Wright1951). Ainsi, les fameux
pa-ram`etres F
IS, F
STet F
ITintroduits dans la litt´erature par Wright (1951)
sont-ils d´efinis par
F
IS= Q
0−Q
11−Q
1F
ST= Q
1−Q
21−Q
2(2.11)
F
IT= Q
0−Q
21−Q
2fa¸con plus« g´en´erique», on note
FIJ = (QI−QJ)/(1−QJ) (2.12)
la corr´elation des g`enes dans la classe I (identiques par ´etat avec la
proba-bilit´e Q
I), relativement aux g`enes de la classeJ (identiques par ´etat avec la
probabilit´e QJ).
Depuis Wright (1943, 1951) la d´efinition, et donc l’estimation, des F
-statistiques ont fait l’objet d’un vaste d´ebat dans la litt´erature (
Chakra-bortyet Danker-Hopfe1991;Excoffier 2001; Rousset 2001b;Weir
et Cockerham 1984). Wright (1951) a d´efini les F-statistiques comme
des corr´elations g´en´etiques
11. Les d´efinitions de Wright (1951) ne sont
va-lables que pour des locus bi-all´eliques (c’est `a dire des locus dont les g`enes ne
peuvent ˆetre que dans deux ´etats all´eliques). Nei (1973, 1977, 1986) et Nei
et Chesser (1983) ont ´etendu ces d´efinitions au cas, plus g´en´eral, o`u l’on
trouve plus de deux all`eles `a un locus. Le probl`eme inh´erent aux d´efinitions
deNei(1973, 1977) tient essentiellement au fait qu’il ne consid`ere pas
expli-citement un mod`ele d’´evolution des fr´equences all´eliques (Nagylaki 1998).
Ceci a pour cons´equence que si l’on consid`ere que les fr´equences all´eliques
va-rient al´eatoirement dans une population sous l’effet de forces ´evolutives telles
que la mutation, la d´erive g´en´etique ou bien la migration, les indices de Nei
(1973, 1977) sont des variables al´eatoires
12. Du point de vue des inf´erences
que l’on peut faire `a partir de ces indices, ou bien de l’´etude de mod`eles th´
eo-riques de diff´erenciation des populations, les d´efinitions de Nei(1973, 1977)
souffrent donc de leur d´ependance aux fr´equences des all`eles et des g´enotypes
dans la population consid´er´ee (voir, par exemple, Nagylaki1989, 1998).
Une toute autre approche a ´et´e d´evelopp´ee parCockerham(1969, 1973).
Elle repose sur l’analyse d’un mod`ele lin´eaire dans lequel la fr´equence d’un
g`ene est d´etermin´ee par son esp´erance dans la population totale ainsi que par
des effets al´eatoires (d’esp´erances nulles) inh´erents aux processus de
muta-11« The correlation between gametes that unite to form an individual relative to the
gametes of the total population will be represented byFIT [. . .]»(Wright1969, p. 294).
12C’est-`a-dire des quantit´es qui prennent diff´erentes valeurs selon une loi de probabilit´e
tion, de d´erive et de dispersion. Ces effets al´eatoires se d´ecomposent en
com-posantes intra-individuelles, inter-individuelles au sein des sous-populations,
et inter-individuelles entre sous-populations distinctes (Cockerham 1969,
1973). Dans ce cadre th´eorique (celui de l’ANOVA), les F-statistiques de
Wright(1943, 1951) s’expriment en fonction de composantes de la variance,
et sont donc bien d´efinis comme des param`etres d’un mod`ele statistique
13.
S’il permet d’exprimer les F-statistiques dans le cadre d’un mod`ele o`u
les fr´equences all´eliques observ´ees (desvariables al´eatoires) sont des r´
ealisa-tions d’un processus stochastique dont on cherche `a estimer les param`etres,
ce formalisme souffre toutefois d’un probl`eme de construction. Comme le
reconnaissait en effet d´ej`a Cockerham (1969), les « composantes de la
variance» ainsi d´efinies peuvent prendre des valeurs n´egatives (voir
Cha-kraborty et Danker-Hopfe 1991; Excoffier 2001; Rousset 2001b).
CockerhametWeir(1987) ont tent´e de surmonter cette difficult´e en
ajou-tant un niveau hi´erarchique suppl´ementaire `a leur analyse (Cockerham et
Weir 1987, 1993). R´ecemment, Rousset (2001b) a montr´e que la d´
ecom-position de la variance totale dans le mod`ele lin´eaire consid´er´e par
Cocke-rham(1969, 1973) n’´etait pas une somme de variances classique, si bien que
les « composantes de la variance » d´evelopp´ees dans Cockerham (1969,
1973),Weir etCockerham(1984) etCockerham etWeir(1987, 1993)
sont en r´ealit´e des fonctions de covariances des fr´equences g´en´etiques (voir
´egalement Excoffier 2001). Cette confusion a pour origine l’hypoth`ese
faite a priori par Cockerham (1969, 1973) que les effets al´eatoires
intra-individuels, inter-individuels au sein des sous-populations et inter-individuels
entre sous-populations distinctes ne sont pas corr´el´es entre sous-populations,
entre individus au sein des sous-populations ou entre g`enes au sein des
indi-vidus.
Le point important de ces d´eveloppements est qu’une d´ecomposition de la
variance totale du mod`ele lin´eaire consid´er´e par Cockerham (1969, 1973)
conduit naturellement `a l’expression des F-statistiques en termes de
proba-bilit´es d’identit´es par ´etat, c’est-`a-dire dans les termes de l’´equation (2.12)
13
Long (1986) a propos´e un d´eveloppement multivari´e de ce mod`ele pour le cas
(Ronfort et al.1998; Rousset 2001b).
Estimation
´
Ecrire les F-statistiques en termes de probabilit´es d’identit´e par ´etat,
c’est-`a-dire dans les termes de l’´equation (2.12) permet ´egalement de proposer
une statistique de la forme
b
F
IJ= (Qb
I−Qb
J)/(1−Qb
J) (2.13)
pour estimer le param`etre F
IJ.Rousset(2001b) montre que les estimateurs
de la forme (2.13) sont exactement identiques `a ceux de Weir et
Cocke-rham (1984) (voir ´egalement Weir 1996).
La construction d’intervalles de confiance `a partir des estimateurs de
mo-ment des F-statistiques se fait le plus souvent grˆace `a des techniques de
r´e-´echantillonnage.Weir (1996) recommande l’utilisation dubootstrap
14sur
les locus. L’hypoth`ese sous-jacente est que chaque locus apporte une
infor-mation ind´ependante de tous les autres ce qui, en toute rigueur, implique
l’absence de liaison g´en´etique et un r´egime de reproduction panmictique.
Au cours de ce travail (voir, par exemple, les annexes G et H), j’ai plus
particuli`erement utilis´e la m´ethode analytique ABC
15deDiCiccioetEfron
(1996). Cette m´ethode est une approximation analytique d’un algorithme
16qui permet de calculer un intervalle de confiance `a partir d’une distribution
bootstrap. L’avantage de la technique ABC est que l’on calcule
analytique-ment, par une approximation, les bornes de l’intervalle de confiance. Par
cons´equent, aucun r´e-´echantillonnage n’est n´ecessaire, ce qui permet de r´
e-duire de fa¸con importante le temps de calcul.
14La technique du bootstrap consiste `a r´ealiser beaucoup de nouveaux ´echantillons `a
partir du jeu de donn´ees de d´epart, en r´ealisant, pour chaque nouvel ´echantillon, un tirage
avec remise dans le jeu de donn´ees initial.
15Terme traduit de l’anglais,approximate bootstrap confidence interval.
Valeurs `a l’´equilibre
On peut calculer les valeurs `a l’´equilibre des F-statistiques d´efinies en
(2.11) dans le mod`ele en ˆıles fini (§ 2.1.2). A partir des solutions du syst`eme
d’´equations (2.6), on obtient
FIS = σaγ
2−σaγ (2.14)
et
F
ST= γd
γd+N(2−σaγ)(1−γd) (2.15)
o`u σ=s−1/N,d =a−b et, comme pr´ec´edemment,γ = (1−µ)
2. (voir, par
exemple, Rousset 1996). Il faut bien garder `a l’esprit que le mod`ele d´ecrit
dans le § 2.1.2 donne les probabilit´es d’identit´e par descendance (mod`ele `a
nombre infini d’all`eles). Toutefois, les valeurs `a l’´equilibre desF-statistiques
ne d´ependent pas du mod`ele de mutation, tant que les taux de mutation sont
faibles (Rousset1996). Pour des taux de mutation faibles, l’´equation (2.15)
se r´eduit `a
F
ST≈ 1
1 + 4N m[n/(n−1)]
2(2.16)
(Crow etAoki 1984; Slatkin 1991).
Les F-statistiques ont fait et font encore l’objet d’une litt´erature tr`es
abondante. Il existe deux raisons `a cela. La premi`ere est que certains
pa-ram`etres « d´emographiques» des populations (comme par exemple leur
taille, le nombre d’immigrants moyen par g´en´eration) peuvent ˆetre
expri-m´es en fonction de F
ST(voir, par exemple, Slatkin 1987; Waples 1989).
D’apr`es l’´equation (2.16) en effet, et si l’on consid`ere que le nombre de
sous-populations est grand, on peut ´ecrireN m= (1/F
ST−1)/4. L’estimation du
« nombre efficace d’immigrants par g´en´eration»N ma ´et´e largement utilis´ee
pour d´ecrire la structure des populations naturelles, bien que les conditions
d’application de cette formule (li´ees aux hypoth`eses peu r´ealistes du mod`ele
`
Mc-Cauley1999). La seconde raison est que lesF-statistiques apparaissent ´
ega-lement dans des mod`eles d’adaptation des populations structur´ees, comme
la th´eorie des paysages adaptatifs
17de Wright (1931, 1977) (voir aussi
Hartl et Clark 1989, p. 323-326). Enfin, les F-statistiques apparaissent
dans les mod`eles de s´election de parent`ele en populations subdivis´es (voir,
par exemple, Gandonet Rousset 1999; Rousset etBilliard 2000).
F-statistiques et temps de coalescence
D’apr`es la d´efinition des probabilit´es d’identit´e donn´ee par l’´equation (2.7)
et la d´efinition des F-statistiques (´equation 2.11) on peut exprimer les F
IJen fonction des temps moyens de coalescence pour diff´erentes paires de g`enes
lim
µ→0
F
IJ= TJ −TI
T
J(2.17)
(Slatkin1991;SlatkinetVoelm1991) o`uT
I=P
∞t=1
t·C
I(t) est le temps
moyen de coalescence de paires de g`enes dans la classe I
18. On peut donc
comprendre les propri´et´es desF-statistiques `a travers l’´etude des probabilit´es
de coalescence de paires de g`enes ´echantillonn´ees dans diff´erentes classes. On
se souvient que la figure 2.2 montrait que la distribution des probabilit´es de
coalescence dans une classe de g`enes [par exemple C
1(t)] ´etait proportionnelle
`
a la distribution des probabilit´es de coalescence dans une classe de g`enes
moins apparent´es [par exempleC
2(t)] pour des temps anciens. En revanche,
dans la p´eriode des temps tr`es r´ecents les deux distributions n’´etaient pas
proportionnelles l’une `a l’autre. Cela signifie que la surface couverte par la
distribution C
0(t) peut ˆetre d´ecompos´ee en la somme de la surface couverte
par la distribution C
1(t) et d’une surface initiale (repr´esent´ee par la r´egion
gris-clair dans la figure 2.3). Cette surface initiale repr´esente une« masse de
probabilit´e», queRousset(1996, 2001b) a montr´e ˆetre ´equivalente `aF
IS. De
17Cette th´eorie est connue an anglais sous le nom deshifting balance theory.
18On note que l’´equation (2.7) implique queQI = 1−2µTI+O(µ2). Par cons´equent,
lim µ→0 QI−QJ 1−QJ = limµ→0 1−2µTI −(1−2µTJ) 1−(1−2µTJ) = TJ−TI TJ