J.-L. FOULLEY E. MANFREDI
INRA Station de
Génétique quantitative
etappliquée
78352Jouy-en-Josas
CedexL’évaluation des reproducteurs
L’évaluation génétique
des reproducteurs pour des caractères à seuil
Résumé.
Cet articlerappelle
lesprincipales caractéristiques
du modèle à seuils de SewallWright
applicable
aux variables discrètes binaires etpolytomiques
ordonnées ainsi que sesprincipaux
domaines
d’application
notamment engénétique
et sélection animale. Enprenant l’exemple
d’uncaractère
dichotomique,
on montre quel’analyse statistique
de ces caractères rentre dans le cadre de la théorie du modèlelinéaire généralisé
de McCullagh
et Nelder. On mentionne ensuitel’approche bayésienne
de Gianola etFoulley
d’évaluation desreproducteurs.
Diverses extensions sontenfin
discutées.
L’évaluation
génétique
desreproducteurs
repose actuellement sur le BLUP ("Best linear unbiased pre-diction",
Henderson 1984) pour lesparamètres
deposition
et le REML ("Restricted maximum likeli-hood,
Patterson etThompson
1971) pour les para- mètres dedispersion.
Ces méthodesstatistiques
sejustifient pleinement
dans le cadre du modèle linéai-re
gaussien.
Dans le cas de variables discrètes (tableau
1), l’application
directe ouaprès aménagement
du BLUPpose de sérieuses difficultés
conceptuelles
liées à ladépendance
entre lafréquence
et la variance descaractéristiques
discrètes étudiées(Foulley
1987).Quant
auxalgorithmes
de calcul duREML, l’applica-
tion de ceux-ci aux variables discrètes ne
répond qu’à
des motifs
d’opportunité
calculatoire. Dansl’esprit
del’analyse
de variancefigurent
les méthodes inféren- tielles deTaguchi qui
sont très usitées dans l’indus- trie mais peu connues en sélection etqui
s’avèrent entout état de cause très
critiquables
d’unpoint
de vuethéorique.
Parailleurs, l’analyse
des données fournit tout une gamme d’outils intéressants pour le traite- mentstatistique
des donnéescatégorielles qui
sontparticulièrement adaptés
à uneapproche statistique descriptive
etexploratoire
maisqui
se révèlentplus
difficiles à
exploiter
dans uneoptique
inférentiellecomme c’est le cas en
génétique
et sélection.Le modèle "béta-binomial" des données ou son pen- dant "Dirichlet-multinomial" pour
plusieurs catégo- ries,
offre un cadreconceptuel plus rigoureux
et inté-ressant vis-à-vis de l’inférence
statistique ;
il autoriseen
particulier
ledéveloppement
d’estimateurs du maximum de vraisemblancequi
sont étroitementapparentés
au BLUP(Foulley
1987).Malheureusement,
ce modèle n’est pasgénéralisable
à une situation
plus complexe
que celle d’un modèle aléatoire à un seul facteur.L’analyse génétique
des caractères discontinus n’aeu de cesse de
préoccuper
les chercheursdepuis
lesorigines
de lagénétique. L’expression
discrète desphénotypes
incline naturellement à uneapproche
fac-torielle du déterminisme
génétique
avec,toutefois,
desérieuses difficultés
d’ajustement
du modèle auxobservations à moins d’un recours à des
concepts
"ad hoc" tels que celui depénétrance
etd’expressivité
variable par
exemple.
De même, l’étude de la trans- mission du caractère d’unegénération
à la suivantene peut
plus s’appréhender simplement
comme enprésence
d’un caractèrecontinu,
par lestechniques classiques
derégression
et de corrélation. Il faut alorsanalyser
des tables decontingence
par des indices d’associationspécifiques
de telles structures.1 / Le modèle à seuils
L’idée d’une
susceptibilité
normalesous-jacente
àl’expression
du caractère s’est faitjour
et s’est déve-loppée
peu à peu dansl’esprit
des chercheurs pourpallier
toutes ces difficultés. Pearsonapparaît
commeun
pionnier
dans cedomaine ;
fort de sa maîtrise dela distribution
multinormale,
il introduit leconcept
de corrélation
tétrachorique
entre variables discrètes pourquantifier
les ressemblances entreapparentés
en terme
classique
de corrélation.Wright
(1934)introduit le modèle à seuils pour rendre
compte
de l’écart à desproportions
mendéliennes monofacto- rielles dansl’analyse
de l’hérédité du nombre dedoigts
du membrepostérieur
lors de croisements entrelignées
decobaye
(tableau 2).Le formalisme du modèle à seuils est en fait très
simple,
notamment pour un caractère tout-ou-riencomme le
rappelle
ledéveloppement
suivant. Pour des raisons desimplicité d’exposition,
nous limiteronscette
présentation
au modèle à seuils relatif à desréponses dichotomiques
dit &dquo;thresholddichotomy
dis-tribution&dquo; dans la
terminologie
dugénéticien Wright
ou
&dquo;probit
normal binomial distribution&dquo; dans celle des statisticiens sachant que ce modèle s’étend très aisément au caspolytomique
ordinal.Désignons
par X la variable aléatoire relative auphénotype
sous-jacent
d’un individu d’unepopulation donnée;
on sup- pose que X est distribuée sur une échelle continuesous-jacente
munie d’un seuil i, suivant une loi nor-male
N(¡.t,cr 2 ),
de moyenne !et
devariance 6 2 ;
dansces
conditions,
laprobabilité qu’un
individu tiré auhasard dans la
population présente
un desphéno- types
tout-ou-rien (Y = 1 parexemple)
est donnéepar :
Après
lechangement
de variable t* _ = (t -j)
/ 6,cette
probabilité s’exprime
àpartir
de la fonction derépartition
V( . ) de la loi normale par :n=<
p [(
I
1-1:)/cr]
(2)avec pour
argument,
l’écart standardisé de la moyen-ne de la
population
au seuil.La non linéarité de la relation entre
expressions
binaire et
sous-jacente
se manifesteégalement
auniveau des valeurs
génétiques
définies sur ces deuxéchelles . En
effet,
si l’on suppose un déterminismegénétique sous-jacent purement additif,
onpeut
écri-re
X = Il + a +
où a-N(O,
cr,2) et e -N(O,
cr,,2) dési- gnent les effetsgénétiques
et de milieurespective-
ment; la valeurgénétique
sur l’échelle binaire(g)
cor-respond
par définition auphénotype
moyen des indi-vidus ayant tous la même valeur
génétique
(sous-jacente)
soit g = Pr(X21:I p,
a). Si l’onplace l’origine
auseuil (i =
0),
gs’exprime
par g =<1>[(11
+ a) / oj. On peut alors calculer aisément les moments de cette variablealéatoire,
cequi
permetd’expliciter
les rela-tions entre
paramètres génétiques
sur les deuxéchelles. Comme l’ont montré
Foulley
et Im(1989),
cette variable a pour espérance :
et pour variance :
est l’héritabilité du caractère sur l’échelle
sous-jacen-
te et
4$!(a,$;p)
est la fonction derépartition
de la loibinormale réduite
d’arguments (X,!
et de corrélation p.L’expression classique
donnée par Robertson (1950) et
Dempster
et Lerner (1950) où Cl>(.) est la densité de la loi normaleréduite, correspond
en fait à uneapproximation
aupremier
ordre de la formule
précédente
auvoisinage
de h2 = 0(Foulley
et Im 1989).D’un
point
de vuegénétique, l’hypothèse
de norma-lité sur un continuum
sous-jacent
s’accorde bien aveccelle d’un déterminisme
polygénique classiquement adoptée
dans l’étude des caractèresquantitatifs.
L’analyse génétique
des caractères discrets à seuilss’intègre
donc naturellement dans le cadre habituel de lagénétique quantitative
et de sesconcepts.
Il enrésulte une cohérence de
l’analyse,
enparticulier
dans l’étude d’un
mélange
de caractères discrets et continus(Foulley
et al 1983) et dans celle de carac-tères à hérédité mixte
impliquant
ungène majeur
etdes
polygènes (Foulley
et Elsen 1988). Le caractère attractif de ce modèle s’est concrétisé par de nom-breuses
applications
dans divers secteurs tels que parexemple
les suivants :- sensibilité aux maladies et anomalies
congéni-
tales chez l’homme
(Falconer, 1965;
Curnow etSmith,
1975) comme chez l’animal (cf. parexemple
lesyndrome
dit &dquo;des pattes écartées&dquo; chez leporc) ;
- déterminisme
génétique
et environnemental dusexe (cf. une
application
chez certainspoissons
et latortue) ;
-
caractéristiques
dereproduction
etd’adaptation
en zootechnie telles que la
fertilité,
les difficultés devêlage
desbovins,
la taille deportée
et la survie desagneaux, la
gémellité
desbovins,
lamorphologie
despieds
et laqualité
de la laine chez le mouton.2 / Le modèle statistique
D’un
point
de vuestatistique,
le modèle à seuils est un casparticulier
de la théorie des modèles linéairesgénéralisés
(MeCullagh
et Nelder 1989)puisque
dans sondéveloppement
leplus simple
d’unevariable
binaire,
ils’explicite grâce
à une fonction de lien&dquo;probit&dquo;
Cl>1(n). De cefait,
le modèle à seuilspeut
être abordé dans un cadre
statistique
très richequi
ouvre sur des
applications dépassant largement
ledomaine de la
génétique
humaine et de la sélection animale pour s’étendre parexemple
à laneurophysio-
logie
et laséismologie,
à la théorie dessondages,
à lapsychologie,
aux sciences sociales et à l’économétrie(Foulley
et Manfredi 1991). ).Les modèles utilisés en sélection animale sont clas-
siquement
des modèles mixtes des facteurs de varia- tion (Henderson 1984)impliquant
d’unepart
des effets fixes relatifs à des facteurs environnementaux(année, saison, élevage, type
de conduite) et de niveaugénétique
despopulations
(effet&dquo;groupe&dquo;)
et, d’autrepart,
des effets aléatoirescorrespondant
auxindividus candidats à la sélection et retenus (effet
&dquo;père&dquo;
ou effet &dquo;animal&dquo; par
exemple).
Deplus,
à desfins de
sélection,
l’inférencestatistique porte
à la foissur l’estimation de certains effets fixes et sur la
pré-
diction d’effets aléatoires. Il y a là une
originalité qui
n’a pastoujours
étéprise
en compte par lastatistique générale
etqui
a motivé un intérêt et desdéveloppe-
ments
statistiques spécifiques
de lapart
desgénéti-
ciens
quantitatifs.
Soit y,, la variable aléatoire binaire
(0,1)
relative à la rème observation de la classe(j
=1,2,...,J).
Conformément à la théorie du modèle linéaire
géné-
ralisé
(McCullagh
et Nelder1989),
laprobabilité
deréponse II ;
=Pr(y,,
= 1 I 6) d’une observation de la clas-se j est
transformée par la fonction de lienprobit
defaçon
à obtenir unprédicteur
linéaire des variablesexplicatives
où 0 =
(!’,u’)’
est un vecteurregroupant
les vecteursdes effets fixes
((3)
et aléatoires[u - N(O,Lu)] et
tj
=(!ilzi)
est le vecteur
ligne
d’incidencecorrespondant.
Différentes méthodes
statistiques
sont envisa-geables
pour estimer lesparamètres
deposition
(0) etde
dispersion
(Eu) de ce modèle.Foulley
et Manfredi (1991)distinguent
les troisgrandes
méthodes sui- vantes : 1)l’approche
linéaire deGrizzle,
Starmer etKoch et son extension
bayésienne
au modèle mixtepar
Foulley
et Im(1989) ;
2)l’approche
du modèlelinéaire
généralisé
et de laquasi-vraisemblance
deGilmour,
Anderson et Rae (1985-87) et enfin 3) laméthode
bayésienne
du modeconjoint
aposteriori
(MAP) de Gianola etFoulley
(1983) et Harville et Mee (1984).De nombreuses
applications
de laméthodologie
GF-HM ont vu le
jour
en sélection animale. Un des domainespriviligiés
de celles-ci concernent l’évalua- tiongénétique
des taureaux sur les difficultés devêlage (expérience pilote
&dquo;MaineAnjou&dquo;,
cf tableau 3).3 / Extension à d’autres situations
La méthode GF-HM se
généralise
très bien à despolytomies
ordonnées (Gianola etFoulley
1983). Pourles C
catégories
ordonnées délimitées par les seuils(’1:1,’1:2,...,’1:&dquo;...,’1:,1),
onpeut
écrire sachant leparamètre
(0) et avec la conventionMaintes extensions ont été effectuées dans le cadre de
l’approche bayésienne,
notamment dans les situa- tions suivantes :réponses
binairesmultiples
com-plètes
ou avec informationmanquante (Foulley 1987) ; mélange
de variables binaires et continues(Foulley
et al1983) ; mélanges
de variables binaires et de Poisson(Foulley
et al 1987).L’approche
a étéégalement
étendue à des situationsd’assignation
incertaine des observations à certains facteurs de variation tels que le
génotype majeur (Foulley
etElsen 1988) ou la
paternité (Foulley
1987).Cette
approche
du modèle linéairegénéralisé peut
être étendue à d’autres distributions de variables dis- crètes intervenant en sélection animale telle que la distribution de Poisson (taux
d’ovulation, prolificité)
comme l’ont montré
Foulley
et al (1987).Références bibliographiques
Curnow R, Smith C.,1975. Multifactorial models for familial diseases in man. J R Statist Soc A 138, 131-169.
Dempster E. R.Lerner LM., 1950. Heritability of threshold characters. Genetics 35: 212-236.
Falconer DS.,1965. The inheritance of liability to certain
diseases estimated from the incidence among relatives. Ann.
Hum. Genet ., 29, 51-76.
Foulley J. L., 1987. Méthodes d’évaluation des
reproducteurs pour des caractères discrets à déterminisme
polygénique en sélection animale. Thèse d’Etat, Université
de
Paris-Sud-Orsay.
Foulley J.L., Elsen J.M., 1988. Posterior probability of the
sire’s genotype at a major locus based on progeny test results for discrete characters. Génét. Sél. Evol., 20, 227-
238.
Foulley J.L., Manfredi E., 1991.
Approaches
statistiques del’évaluation génétique des reproducteurs pour des caractères binaires à seuils. Genet. Sel. Evol., 23, 309-338.
Foulley J. L., Im S., 1989. Probability statements about the
transmitting ability of progeny-tested sires for an all-or-
none trait with an application to twinning in cattle. Genet.
Sel. Evol., 21, 247-267.
Foulley J.L., Gianola D.,
Thompson
R., 1983. Prédiction ofgenetic merit from data on binary and quantitative variates
with an application to calving difficulty birth weight and