Les F -statistiques

1.3 L’œuf et la poule

2.1.3 Les F -statistiques

Nous avons vu précédemment que pour décrire un modèle de population

structurée en sous-populations, il fallait définir des probabilités d’identités

de paires de gènes pris à différents niveaux hiérarchiques. Ceci est vrai pour

n’importe quel type de structure (voir, par exemple, _Ronfort et al. 1998;

Rousset 1999b; _Slatkin et _Voelm 1991). Il est en effet toujours possible

de définir des classes de gènes de telle sorte que le modèle est entièrement

décrit par les probabilités d’identité de paires de gènes tirés à l’intérieur de

ces classes et par les probabilités d’identité de paires de gènes tirés dans

des classes distinctes. Dans l’exemple précédent, c’est-à-dire dans le modèle

défini par le système d’équations (2.3), j’ai distingué les paires de gènes prises

`

a l’intérieur des individus, des paires de gènes prises dans une même

sous-population et des paires de g`enes prises dans des sous-populations distinctes.

Ces trois catégories de paires de gènes définissent donc les différentes classes

dans le modèle précédent.

Dans ce contexte, on peut définir des corrélations des états alléliques pour

les gènes pris à l’intérieur d’une classe par rapport aux gènes pris dans des

classes distinctes, c’est-à-dire des corrélations génétiques intra-classes (

Co-ckerhamet_Weir1987;_Rousset1996). Si les probabilit´es d’identit´e

consi-dérées sont des probabilités d’identité par état, ces corrélations sont mieux

connues sous le nom deF-statistiques (_Wright1951). Ainsi, les fameux

pa-ram`etres F

_IS

, F

_ST

et F

_IT

introduits dans la litt´erature par _Wright (1951)

sont-ils d´efinis par

F

_IS

= ^Q

⁰

−Q

₁

1−Q

₁

F

_ST

= ^Q

−Q

₂

1−Q

₂

^(2.11)

F

_IT

= ^Q

⁰

−Q

₂

1−Q

₂

fa¸con plus« g´en´erique», on note

FIJ = (QI−QJ)/(1−QJ) (2.12)

la corrélation des gènes dans la classe I (identiques par état avec la

proba-bilit´e Q

), relativement aux g`enes de la classeJ (identiques par ´etat avec la

probabilit´e QJ).

Depuis _Wright (1943, 1951) la d´efinition, et donc l’estimation, des F

-statistiques ont fait l’objet d’un vaste d´ebat dans la litt´erature (

Chakra-bortyet _Danker-Hopfe1991;_Excoffier 2001; _Rousset 2001b;_Weir

et _Cockerham 1984). _Wright (1951) a d´efini les F-statistiques comme

des corrélations génétiques

¹¹

. Les d´efinitions de _Wright (1951) ne sont

va-lables que pour des locus bi-alléliques (c’est à dire des locus dont les gènes ne

peuvent être que dans deux états alléliques). _Nei (1973, 1977, 1986) et _Nei

et _Chesser (1983) ont étendu ces définitions au cas, plus général, où l’on

trouve plus de deux allèles à un locus. Le problème inhérent aux définitions

de_Nei(1973, 1977) tient essentiellement au fait qu’il ne consid`ere pas

expli-citement un modèle d’évolution des fréquences alléliques (_Nagylaki 1998).

Ceci a pour conséquence que si l’on considère que les fréquences alléliques

va-rient al´eatoirement dans une population sous l’effet de forces ´evolutives telles

que la mutation, la dérive génétique ou bien la migration, les indices de _Nei

(1973, 1977) sont des variables al´eatoires

. Du point de vue des inf´erences

que l’on peut faire à partir de ces indices, ou bien de l’étude de modèles th´

eo-riques de diff´erenciation des populations, les d´efinitions de _Nei(1973, 1977)

souffrent donc de leur dépendance aux fréquences des allèles et des génotypes

dans la population consid´er´ee (voir, par exemple, _Nagylaki1989, 1998).

Une toute autre approche a été développée par_Cockerham(1969, 1973).

Elle repose sur l’analyse d’un modèle linéaire dans lequel la fréquence d’un

gène est déterminée par son espérance dans la population totale ainsi que par

des effets aléatoires (d’espérances nulles) inhérents aux processus de

muta-11« The correlation between gametes that unite to form an individual relative to the

gametes of the total population will be represented byF_IT [. . .]»(_Wright1969, p. 294).

12C’est-à-dire des quantités qui prennent différentes valeurs selon une loi de probabilité

tion, de dérive et de dispersion. Ces effets aléatoires se décomposent en

com-posantes intra-individuelles, inter-individuelles au sein des sous-populations,

et inter-individuelles entre sous-populations distinctes (_Cockerham 1969,

1973). Dans ce cadre th´eorique (celui de l’ANOVA), les F-statistiques de

Wright(1943, 1951) s’expriment en fonction de composantes de la variance,

et sont donc bien définis comme des paramètres d’un modèle statistique

.

S’il permet d’exprimer les F-statistiques dans le cadre d’un mod`ele o`u

les fréquences alléliques observées (desvariables aléatoires) sont des r´

ealisa-tions d’un processus stochastique dont on cherche `a estimer les param`etres,

ce formalisme souffre toutefois d’un probl`eme de construction. Comme le

reconnaissait en effet d´ej`a _Cockerham (1969), les « composantes de la

variance» ainsi d´efinies peuvent prendre des valeurs n´egatives (voir

Cha-kraborty et _Danker-Hopfe 1991; _Excoffier 2001; _Rousset 2001b).

Cockerhamet_Weir(1987) ont tent´e de surmonter cette difficult´e en

ajou-tant un niveau hiérarchique supplémentaire à leur analyse (_Cockerham et

Weir 1987, 1993). R´ecemment, _Rousset (2001b) a montr´e que la d´

ecom-position de la variance totale dans le modèle linéaire considéré par

Cocke-rham(1969, 1973) n’´etait pas une somme de variances classique, si bien que

les « composantes de la variance » d´evelopp´ees dans _Cockerham (1969,

1973),_Weir et_Cockerham(1984) et_Cockerham et_Weir(1987, 1993)

sont en réalité des fonctions de covariances des fréquences génétiques (voir

´egalement _Excoffier 2001). Cette confusion a pour origine l’hypoth`ese

faite a priori par _Cockerham (1969, 1973) que les effets al´eatoires

intra-individuels, inter-individuels au sein des sous-populations et inter-individuels

entre sous-populations distinctes ne sont pas corr´el´es entre sous-populations,

entre individus au sein des sous-populations ou entre g`enes au sein des

indi-vidus.

Le point important de ces d´eveloppements est qu’une d´ecomposition de la

variance totale du modèle linéaire considéré par _Cockerham (1969, 1973)

conduit naturellement `a l’expression des F-statistiques en termes de

proba-bilités d’identités par état, c’est-à-dire dans les termes de l’équation (2.12)

Long ^{(1986) a propos´}^{e un d´}^{eveloppement multivari´}^{e de ce mod`}^{ele pour le cas}

(_Ronfort et al.1998; _Rousset 2001b).

Estimation

´

Ecrire les F-statistiques en termes de probabilités d’identité par état,

c’est-à-dire dans les termes de l’équation (2.12) permet également de proposer

une statistique de la forme

b

F

_IJ

= (Qb

−Qb

)/(1−Qb

) (2.13)

pour estimer le param`etre F

_IJ

._Rousset(2001b) montre que les estimateurs

de la forme (2.13) sont exactement identiques `a ceux de _Weir et

Cocke-rham (1984) (voir ´egalement _Weir 1996).

La construction d’intervalles de confiance `a partir des estimateurs de

mo-ment des F-statistiques se fait le plus souvent grˆace `a des techniques de

r´e-´echantillonnage._Weir (1996) recommande l’utilisation dubootstrap

sur

les locus. L’hypoth`ese sous-jacente est que chaque locus apporte une

infor-mation ind´ependante de tous les autres ce qui, en toute rigueur, implique

l’absence de liaison génétique et un régime de reproduction panmictique.

Au cours de ce travail (voir, par exemple, les annexes G et H), j’ai plus

particulièrement utilisé la méthode analytique ABC

de_DiCiccioet_Efron

(1996). Cette m´ethode est une approximation analytique d’un algorithme

¹⁶

qui permet de calculer un intervalle de confiance `a partir d’une distribution

bootstrap. L’avantage de la technique ABC est que l’on calcule

analytique-ment, par une approximation, les bornes de l’intervalle de confiance. Par

conséquent, aucun ré-échantillonnage n’est nécessaire, ce qui permet de r´

e-duire de fa¸con importante le temps de calcul.

14La technique du bootstrap consiste à réaliser beaucoup de nouveaux échantillons à

partir du jeu de données de départ, en réalisant, pour chaque nouvel échantillon, un tirage

avec remise dans le jeu de donn´ees initial.

15Terme traduit de l’anglais,approximate bootstrap confidence interval.

Valeurs `a l’´equilibre

On peut calculer les valeurs à l’équilibre des F-statistiques définies en

(2.11) dans le mod`ele en ˆıles fini (§ 2.1.2). A partir des solutions du syst`eme

d’´equations (2.6), on obtient

FIS = ^σaγ

2−σaγ ^(2.14)

et

F

_ST

= ^γd

γd+N(2−σaγ)(1−γd) ^(2.15)

où σ=s−1/N,d =a−b et, comme précédemment,γ = (1−µ)

. (voir, par

exemple, _Rousset 1996). Il faut bien garder à l’esprit que le modèle décrit

dans le § 2.1.2 donne les probabilités d’identité par descendance (modèle à

nombre infini d’allèles). Toutefois, les valeurs à l’équilibre desF-statistiques

ne d´ependent pas du mod`ele de mutation, tant que les taux de mutation sont

faibles (_Rousset1996). Pour des taux de mutation faibles, l’´equation (2.15)

se r´eduit `a

F

_ST

≈ ¹

1 + 4N m[n/(n−1)]

^(2.16)

(_Crow et_Aoki 1984; _Slatkin 1991).