NOTE SUR UNE ESTIMATION DE FRÉQUENCE GÉNIQUE
DANS UNE ÉTUDE DE GROUPES SANGUINS
F. GROSCLAUDE L. OLLIVIER Sialion ceizirale de
Gén,Itique
animale,Centre rtztion2l de Retherches
zootahniques, Jouv-en-Josas (Seine-et-Oise)
SOMMAIRE
Dans leur étude des groupes sanguins de la race bovine Jlorctbéliarde, GROSCLAUIJEet 3IILLO’I’
( 19 6 2
) ont été amenés
à poser,
entre autres, leproblème
suivant : soit, dans unepopulation,
repré-sentée par un échantillon de N femelles, un locus A. caractérisé par deux allèles :1&dquo; et A&dquo;, le
premier
étant dominant, de sorte que le
phénotype [ _ 1j
représente les deuxcatégories génotypiques
.!A/AAet .iÀ/:Y&dquo; ; on se propose d’estimer la fréquence qa du
gène
:la dans la population, et lavariance de cette estimation, sans poser
l’hypothèse
depanmixie
mais sachant quechaque
femelle,croisée avec un mâle hétérozygote, a donné un
produit
de phénotype connu.La présente note a pour but de
justifier
la solutionqu’ont
donnée de ceproblème
GROSCLAt’DEet MiLLOTsws démonstration.
Le
principe
d! la méthode d résolution est d’utiliser à la fois l’information fournie par le nombre de mères homozygotes récessives, et cellequ’apporte
le nombre de mères dephénotype !:1J
ayant donné unproduit homozygote
récessif.Si n et y sont les nombres
respectifs
de mères formant ce; deuxcatégories, l’application
de laméthode du maximum de vraisemblance conduit aux résultats suivants :
L’hypothèse
depanmixie
est ensuite testée, en comparant les nombres observés de mères des troiscatégories,
n, r, N-r-îi, aux valeursthéoriques correspondantes :
INTRODUCTION
Sauf dans certains cas comme celui du
locus F!’,
l’estimation de lafréquence
desgènes
de groupessanguins
dans unepopulation
bovine nepeut
se faire parsimple
comptage
desgènes,
car ceux-ci ne sont pasrégulièrement identifiables,
un mêmephénotype pouvant
résulter de diverses combinaisonsgénotypiques.
Les auteurs
qui
selimitent,
pour résoudre leproblème,
à l’échantillon de réfé-rence, sont amenés à poser
l’hypothèse
depanmixie.
Aucontraire,
dans leur étude des groupessanguins
de la raceMovztbéliavde,
GROSCLAUI)E et MILLOT(ig62)
utilisentl’information
supplémentaire apportée
par lesproduits
des mèrescomposant
l’échan-tillon.
En
pratique,
la méthode suivante a été utilisée : l’échantillon étudié est constitué par un certain nombre de vaches pourlesquelles
il a étépossible
de trouver un des-cendant issu d’un taureau
homozygote
récessif pour le maximum de loci et enparti-
culier pour le locus B.
Cependant,
le taureau retenu n’était pashomozygote
récessif à tous lesloci,
il était enparticulier hétérozygote
à trois loci peucomplexes ;
dans ces trois cas, leproblème
d’estimation se pose en termesidentiques ;
dans le cas du locusA,
il s’énoncecomme suit :
Soit un échantillon de N femelles
prises
au hasard dans lapopulation.
Les tech-niques sérologiques permettent
de les classer en deuxcatégories :
celles dont lephé- notype est A],
et dont legénotype
est alors soitA A /A A ,
soitA A IA 2 ,
et celles dontle
phénotype est l’a],
donc legénotype
Aa,’A,,. Soit n le nombre de femellesa].
LesN
femelles,
croisées avec un mâlehétérozygote,
ont donné chacune unproduit ;
on connait le
phénotype
de cesproduits.
Soit r le nombre de mèreslA] ayant
donnéun
produit !a].
On se propose d’estimer la
fréquence q,,
dugène
Aa dans lapopulation d’origine
et d’estimer la variance de cette estimation.
On veut ensuite tester
l’hypothèse
depanmixie.
SOLUTION DU
PROBLÈME a)
Estimation de lafréquence
q!,,L’échantillon observé est
composé
de troiscatégories
d’anitnaux :- M femelles AalAd
- femelles
[A] qui, accouplées
à un mâleAAIA!
ont donné unproduit A!!/A!6
- N-n-r femelles
lA] qui, accouplées
à un mâle AA !Al ont donné unproduit [A].
Si l’on
désigne
par R,4 O
et P lesprobabilités respectives
destrois génotypes A&dquo;/A&dquo;, A
A
!
A
etA^;’A!’,
on voit que les troiscatégories
observées ont desprobabilités théoriques d’apparition
deR, Q, r-C!-R. Remarquons
que l’échantillon obéit en fait à une loi trinomiale. Laprobabilité
pour ungamète
de lapopulation
deporter
Aa est :q
= R +
2Q
L’estimation
optimum conjointe
de R etQ
est cellequi
rend maximuml’équa-
tion de vraisemblance. Le
logarithme
de cetteéquation
s’écrit dans le casprésent : log
L = 11log
R -!r log Q
+(N-n-r) log (i-R-0).
I,es deux
équations
d’estimation de R etQ
sont :qui peuvent
s’écrire :L’estimation
optimum
de cl est :Remarquons
que l’on retrouve ce résultat en faisant le raisonnement suivant : lafréquence
dugène
A!4 estégale
à la somme,rapportée
à l’effectiftotal,
du nombre deshomozygotes A&dquo;/A&dquo;
et de la moitié du nombre deshétérozygotes ;
or,puisqu’une
mère
hétérozygote
donne unproduit homozygote
récessif avec laprobabilité i/ 4 ,
t t. ’l b d ’ l&dquo; l ! Il + 2r
on
peut
estimer à 4r le nombre de mèreshétérozygotes ;
doncif = - N -
b)
Variance de l’estimation de q&dquo;La variance
de q se
déduit de celles deQ
etR,
et de leur covariance :Dans la méthode du maximum de
vraisemblance,
les variances et covariances s’obtiennent àpartir
des dérivées secondes del’équation
de vraisemblance.Dans le cas d’un seul
paramètre
estimé0,
la variance de l’estimation est donnée parl’expression
suivante(le symbole
Edésignant l’espérance mathématique) :
Dans le cas
présent,
avec deuxparamètres,
nous avons 4 dérivéessecondes, qui peuvent
sedisposer
en une matrice de 2 X 2. Les variances et les covariances sont lesespérances mathématiques
des éléments de la matrice inversechangés
designe.
L!--s calculs
A
R(I-R) Q (i-Q) A A OR
Les calculs donnent : Var.
(R) = N -
Var.(()) = N -
Cov.(Q, R) --- N ’
Ces variances et covariances
peuvent
aussi se déduireplus simplement
despropriétés
bien connues de la loi multinomiale(K EMPTHORNE , 1957 ).
En
remplacant Q
et R dans lesexpressions
des variances et des covariances part! et R,
on obtient une valeurapprochée
de l’estimationde
q : .-c)
Test del’laypothèse
depanmixie
La connaissance de q
permet
maintenant de testerl’hypothèse
depanmixie.
Pour cela il faut déterminer si les
probabilités
P,4Q
et Rpeuvent
êtreregardées
comme étant de la forme
P 2 , 2 pq @ y z ,
cequi exige
que l’on compare par un test deZ 2
Le nombre de
degrés
de liberté est ipuisque
l’on observe 3catégories
d’individus et que 2 relations doivent êtrevérifiées,
à savoir :-11 !-1 ! ! ! 1 -1
Les valeurs
numériques
obtenues par CROSCLAUDEet MiiioT sont les suivantes : On trouve :1 /
hypothèse
depanmixie
est doncparfaitement
recevable.DISCUSSION
Une méthode
fréquemment
utilisée pour les estimations defréquences géniques
consiste à
prendre
la racine carrée de lafréquence
deshomozygotes
récessifs. C’est le deuxième casenvisagé
par COTTFRMAN( I o5 4 )
dans sa revue des diversproblèmes
d’estimation que pose l’étude des
populations
soumises àéchantillonnage.
Dans le cas
présent,
cette estimation conduirait à :avec
Cependant l’emploi
de cette méthode estcritiquable
dans leproblème qui
nousintéresse. D’une
part,
elle n’utilise pas l’information dont nousdisposons
sur lesproduits
des mères. D’autrepart,
elle pose, apriori, l’hypothèse
depanmixie.
Sicette
hypothèse
n’est pasvérifiée,
l’estimation de lafréquence
sera biaisée. Nousprésentons,
en annexe, une solution valable dansl’hypothèse
depanmixie, qui
tientcompte
de toute l’informationdisponible.
Dans
beaucoup
d’études de groupessanguins,
les auteurs testent d’abordl’hy- pothèse
depanmixie
au locusF’V,
où lesfréquences géniques peuvent
être déter- minées parsimple comptage ; l’hypothèse
étant vérifiée à celocus,
on sup- posequ’elle
l’estégalement
à tous les autres.Cependant,
ce moded’extrapolation
est
purement
arbitraire et il semblepréférable,
dès que cela estpossible,
d’titilise.1 d’autresméthodes,
dont celle que nous venons dedévelopper
est unexemple.
Notons que si nous avons raisonné dans le cas d’un locus de groupes
sanguins,
cette méthode est naturellement
applicable
à toutes les situations où l’on considèreun locus
biallélique
avec dominance d’unallèle ;
elles’applique aussi,
que les unités de l’échantillon soient croisées avec un individuunique (le
taureau dans le caspré- sent)
ou avec des individusdifférents,
mais toushétérozygotes.
ANNEXE
Cas d’une
population panmictique
Si on
peut admettre,
apriori,
que lapopulation
échantillonnée estpanmictique, l’application
de la méthode du maximum de vraisemblance donne les résultats sui- vants :Soient
(i
-q) 2 ,
2q(r
-q), q 2 les probabilités respectives
dans lapopulation
des3
génotypes A Â /A A , AA!Aa, A a /A a .
Les 3catégories
observées ont alorsles probabilités d’apparition :
q
2
pour les individusAa/A l
―――
2 pour les individus[A]
ayant donné unproduit A a/ A a
(r
-q) 2
-[!3q ( 2 q )
pour les individusA]
ayant donné unproduit [A]
1,’équation a
log L _
o est du seconddegré.
La racinepositive
constitue la solution cherchée :La variance
de est
donnée parlog Len
fonction de q.I!a variance de
y
est donnée par!)q2
en fonction de !.Le calcul
numérique donne =o,!6o;!/Var (!)
= 0,020. Il est intéressant de comparer l’emcaeité de cette estimation à celle def/ ’ )lt
de comparer l’efficacité de cette estimation à celle de
q’
=111JJJ / N yi !N
I,’estimation que donne cette dernière méthode est très voisine
( g ’
=0 ,557),
mais son
écart-type
est double( B!Var (!’ )
=0 , 042 ).
!(’M!OM)’!’M!/!’f!<:<!;fMO!n!fI()6!.
RE MERCIEMENTS
Nous tenons à remercier le 1?r(r. àÎ.flI.É<;oT, de l’aide
qu’il
a bien voulu nous apporter dans l’élo- boration de cette note.SUMMARY
NOTE ON AN ESTIMATION OF GENE FREQUENCY IN A STUDY OF BLOOD GROUPS
In the course of their
study
of theblood-groups
in the ll7antbeliayd cattle breed, (!t2oscLAUI»:and ntILLOT (1962) encountered among others, the following
problem :
take, in a population repre- sented by a sample of N females, a locus A, with two alleles AAand tla, the formerbeing
dominant,so that the
phenotype IAI
represents the two genotypes A^/AAandA’!/A&dquo; ;
it isproposed
to esti-mate the frequency q« of the gene .4a in the
population,
and the variance of this estimation withoutassuming the
hypothesis
of random mating, but knowing that each female crossed with a hetero- z_y
gous mate gave an
offspring
of a knownphenotype.
This note is to
justifv
the solution,previously
offered without a demonstration bv <rR()SCLAt’))E and MILLOT, of thisproblem.
’
The
principle
of the method of resolution is to use both the informationprovided
by the numberof homoxygous recessive mothers and that furnished by the number of mothers of 1>henotype
!:1!
having
given a homozygous recessiveoffspring.
’
If n and y are the
respective
numbers of mothers forming these twocategories,
theapplication
ofthe maximum likelihood method
gives
thefollowing
results :The hypothesis of random mating is then tested bv comparing the observed numbers of mothers of the three categories, 11, 1’. N-r!-n, with the
corresponding
theoretical values :RÉFÉRENCES BIBLIOGRAPHIQUES
COTTFR!,IANC,BV.,1954, Kstitnation of!ene frequencies il] nonexperimenta) p0))utations. In KEMPTHOR!EO.,
13A,NCROFT’I’. A., GOBŒ:-< J. W&dquo; LesH J. 1,., Sialisiies aK! .’)7n</;f<Mo<!’<:.’; in 1#1<J10gl’, -149-46.!, Iowa State
College l’ress, Ames.
1&dquo;ISIIEP, R. A., 19!8..S’<n;;.t/!’c;)/ .llàli<0<1.%’jor Re5earrh Workers, 29()-,33,!, ’3eédition, Oliver and lioyd, Eclin- burgh, London.
(jROSCLAUDE F., MiLLOT 1’., if)62. Contribution li l’étude des groupes sanguins de la rare boville Ilonlbée-
harde..1nn. Biol.
!K7!/. 8ioeh.7!!!Ay!.,
2, 185-208.KE B IPTHOR
!
Œ 0., 19!7.. fK 7n<ra</;;<’<!0tt 10Geneiic .N1a1i.<.lics, 21-22, ’()4-ISI, John Wiley and Sons, !’ori!.