L'évaluation génétique des reproducteurs pour des caractères à seuil

(1)

HAL Id: hal-00896017

https://hal.archives-ouvertes.fr/hal-00896017

Submitted on 1 Jan 1992

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

L’évaluation génétique des reproducteurs pour des

caractères à seuil

J.-L. Foulley, E. Manfredi

To cite this version:

(2)

J.-L. FOULLEY E. MANFREDI

INRA Station de

_Génétique

_quantitative

et

appliquée

78352

_{Jouy-en-Josas}

Cedex

L’évaluation des

_{reproducteurs}

L’évaluation

_génétique

des

_{reproducteurs}

_pour

des caractères à seuil

Résumé.

Cet article

_rappelle

les

_principales

_{caractéristiques}

du modèle à seuils de Sewall

_Wright

applicable

aux variables discrètes binaires et

_polytomiques

ordonnées ainsi _queses

principaux

domaines

_{d’application}

notamment en

génétique

et sélection animale. En

_prenant

_l’exemple

d’un

caractère

_{dichotomique,}

on montre _que

_l’analyse

_statistique

de ces caractères rentre dans le cadre de la théorie du modèle

linéaire

_{généralisé}

de Mc

Cullagh

et Nelder. On mentionne ensuite

l’approche

bayésienne

de Gianola et

_Foulley

d’évaluation des

_{reproducteurs.}

Diverses extensions sont

_enfin

discutées.

L’évaluation

_génétique

des

_{reproducteurs}

_repose actuellement sur le BLUP _("Bestlinear unbiased

pre-diction",

Henderson 1984) pour les

paramètres

de

position

et le REML ("Restricted maximum

likeli-hood,

Patterson et

_Thompson

1971) pour les para-mètres de

_dispersion.

Ces méthodes

_statistiques

se

justifient pleinement

dans le cadre du modèle

linéai-re

_gaussien.

Dans le cas de variables discrètes (tableau

1),

l’application

directe ou

_{après aménagement}

du BLUP

pose de sérieuses difficultés

conceptuelles

liées à la

dépendance

entre la

_fréquence

et la variance des

caractéristiques

discrètes étudiées

_(Foulley

1987).

Quant

aux

algorithmes

de calcul du

REML,

l’applica-tion de ceux-ci aux variables discrètes ne

répond qu’à

des motifs

_{d’opportunité}

calculatoire. Dans

_l’esprit

de

l’analyse

de variance

_figurent

les méthodes

inféren-tielles de

_{Taguchi qui}

sont très usitées dans

l’indus-trie mais peu connues en sélection et

_qui

s’avèrent en

tout état de cause très

critiquables

d’un

_point

de vue

théorique.

Par

ailleurs,

l’analyse

des données fournit

tout une _gammed’outils intéressants _pourle

traite-ment

_statistique

des données

_{catégorielles qui}

sont

particulièrement adaptés

à une

_{approche statistique}

descriptive

et

_exploratoire

mais

_qui

se révèlent

_plus

difficiles à

_exploiter

dans une

optique

inférentielle comme c’est le cas en

_génétique

et sélection.

Le modèle "béta-binomial" des données ou son

pen-dant "Dirichlet-multinomial" pour

plusieurs

catégo-ries,

offre un cadre

_{conceptuel plus rigoureux}

et inté-ressant vis-à-vis de l’inférence

_{statistique ;}

il autorise

en

particulier

le

développement

d’estimateurs du

maximum de vraisemblance

_qui

sont étroitement

apparentés

au BLUP

_(Foulley

1987).

Malheureusement,

ce modèle n’est _pas

généralisable

à une situation

_{plus complexe}

_quecelle d’un modèle

aléatoire à un seul facteur.

L’analyse génétique

des caractères discontinus n’a

eu de cesse de

_préoccuper

les chercheurs

_depuis

les

origines

de la

_{génétique. L’expression}

discrète des

phénotypes

incline naturellement à une

approche

fac-torielle du déterminisme

_génétique

_avec,

_toutefois,

de sérieuses difficultés

_{d’ajustement}

du modèle aux

observations à moins d’un recours à des

_concepts

"ad

hoc" tels que celui de

pénétrance

et

d’expressivité

variable _par

_exemple.

De _même,l’étude de la trans-mission du caractère d’une

_génération

à la suivante

ne _peut

_{plus s’appréhender simplement}

comme en

présence

d’un caractère

_continu,

_parles

_techniques

classiques

de

_régression

et de corrélation. Il faut alors

_analyser

des tables de

_contingence

_pardes indices d’association

_spécifiques

de telles structures.

1 / Le modèle à

_seuils

L’idée d’une

_{susceptibilité}

normale

_sous-jacente

à

l’expression

du caractère s’est fait

_jour

et s’est

déve-loppée

peu à peu dans

l’esprit

des chercheurs pour

pallier

toutes ces difficultés. Pearson

_apparaît

comme un

_pionnier

dans ce

domaine ;

fort de sa maîtrise de

la distribution

multinormale,

il introduit le

_concept

de corrélation

_{tétrachorique}

entre variables discrètes

pour

quantifier

les ressemblances entre

apparentés

(3)

introduit le modèle à seuils pour rendre

compte

de l’écart à des

_proportions

mendéliennes monofacto-rielles dans

_l’analyse

de l’hérédité du nombre de

doigts

du membre

_postérieur

lors de croisements entre

_lignées

de

_cobaye

_{(tableau 2).}

Le formalisme du modèle à seuils est en fait très

simple,

notamment pour un caractère tout-ou-rien comme le

rappelle

le

développement

suivant. Pour

des raisons de

_simplicité

_{d’exposition,}

nous limiterons

cette

_{présentation}

au modèle à seuils relatif à des

réponses

dichotomiques

dit &dquo;threshold

_dichotomy

dis-tribution&dquo; dans la

_terminologie

du

_{généticien Wright}

ou

_&dquo;probit

normal binomial distribution&dquo; dans celle

des statisticiens sachant _quece modèle s’étend très

aisément au cas

_polytomique

ordinal.

_Désignons

par X la variable aléatoire relative au

_phénotype

sous-jacent

d’un individu d’une

_{population donnée;}

on

sup-pose que X est distribuée sur une échelle continue

sous-jacente

munie d’un seuil i, suivant une loi

nor-male

_N(¡.t,cr

₂

_),

_{de moyenne !}

_et

de

_{variance 6}

₂

_;

dans

ces

_conditions,

la

_{probabilité qu’un}

individu tiré au

hasard dans la

_{population présente}

un des

phéno-types

tout-ou-rien (Y = 1 par exemple) _estdonnée

par :

Après

le

_changement

de variable t* _ = (t -

_j)

/ 6, cette

_{probabilité s’exprime}

à

_partir

de la fonction de

répartition

V( . ) de la loi normale _{par :}

n=<

p

[(

I

1-1:)/cr]

(2)

avec _pour

_argument,

l’écart standardisé de la moyen-ne de la

_population

au seuil.

La non linéarité de la relation entre

_expressions

binaire et

_sous-jacente

se manifeste

_également

au

niveau des valeurs

_génétiques

définies sur ces deux

échelles . En

_effet,

si l’on _supposeun déterminisme

génétique sous-jacent

purement

additif,

on

_peut

écri-re

_{X = Il + a +}

où a-

_N(O,

_cr,₂₎et e -

_N(O,

_cr,,₂₎

dési-gnent les effets

_génétiques

et de milieu

respective-ment; la valeur

_génétique

sur l’échelle binaire

_(g)

cor-respond

par définition au

_{phénotype moyen}

des

indi-vidus _ayanttous la même valeur

_génétique

(sous-jacente) soit g

= Pr(X21:

I p,

a). Si l’on

place

l’origine

_au

seuil (i =

0),

_g

s’exprime

par g =

<1>[(11

₊a) / oj. On

peut alors calculer aisément les moments de cette variable

_aléatoire,

ce

_qui

_permet

_{d’expliciter}

les

rela-tions entre

_paramètres

_génétiques

sur les deux

échelles. Comme l’ont montré

_Foulley

et Im

_(1989),

cette variable a pour espérance :

et pour variance :

est l’héritabilité du caractère sur l’échelle

sous-jacen-te et

_4$!(a,$;p)

est la fonction de

_répartition

de la loi binormale réduite

_{d’arguments (X,!}

et de corrélation

p. L’expression classique

donnée _parRobertson ₍₁₉₅₀₎et

_Dempster

et Lerner

(1950) où Cl>(.) est la densité de la loi normale

_réduite,

correspond

en fait à une

_{approximation}

au

premier

ordre de la formule

_précédente

au

voisinage

de h2 = 0

(Foulley

et Im 1989).

D’un

_point

de vue

génétique,

l’hypothèse

de

norma-lité sur un continuum

_sous-jacent

s’accorde bien avec

celle d’un déterminisme

_{polygénique classiquement}

adoptée

dans l’étude des caractères

_{quantitatifs.}

L’analyse génétique

des caractères discrets à seuils

s’intègre

donc naturellement dans le cadre habituel de la

_{génétique quantitative}

et de ses

_concepts.

Il en

résulte une cohérence de

_l’analyse,

en

_particulier

dans l’étude d’un

_mélange

de caractères discrets et continus

_(Foulley

et al 1983) et dans celle de

carac-tères à hérédité mixte

_impliquant

un

_gène

majeur

et des

_{polygènes (Foulley}

et Elsen 1988). Le caractère

attractif de ce modèle s’est concrétisé _parde

nom-breuses

_applications

dans divers secteurs tels _{que par}

exemple

les suivants :

- sensibilité

aux maladies et anomalies

congéni-tales chez l’homme

_{(Falconer, 1965;}

Curnow et

Smith,

1975) comme chez l’animal (cf. par

exemple

le

syndrome

dit &dquo;des _pattesécartées&dquo; chez le

_{porc) ;}

- déterminisme

génétique

et environnemental du

sexe (cf. une

_application

chez certains

_poissons

et la

tortue) ;

-

caractéristiques

de

_reproduction

et

_{d’adaptation}

en zootechnie telles que la

fertilité,

les difficultés de

vêlage

des

_bovins,

la taille de

_portée

et la survie des

agneaux, la

gémellité

des

bovins,

la

morphologie

des

pieds

et la

_qualité

de la laine chez le mouton.

2 / Le modèle

_statistique

D’un

_point

de vue

_statistique,

le modèle à seuils

est un cas

particulier

de la théorie des modèles

linéaires

_{généralisés}

(Me

_Cullagh

et Nelder 1989)

puisque

dans son

_{développement}

le

_{plus simple}

d’une variable

_binaire,

il

_{s’explicite}

_grâce

à une fonction de

lien

_{&dquo;probit&dquo;}

Cl>1(n). De ce

fait,

le modèle à seuils

_peut

être abordé dans un cadre

_statistique

très riche

_qui

ouvre sur des

_{applications dépassant largement}

le

(4)

neurophysio-logie

et la

_{séismologie,}

à la théorie des

_sondages,

à la

psychologie,

aux sciences sociales et à l’économétrie

(Foulley

et Manfredi 1991). ).

Les modèles utilisés en sélection animale sont

clas-siquement

des modèles mixtes des facteurs de varia-tion (Henderson 1984)

impliquant

d’une

_part

des effets fixes relatifs à des facteurs environnementaux

(année, saison,

élevage,

type

de conduite) et de niveau

_génétique

des

_populations

(effet

&dquo;groupe&dquo;)

et,

d’autre

_part,

des effets aléatoires

_{correspondant}

aux

individus candidats à la sélection et retenus (effet

&dquo;père&dquo;

ou effet &dquo; animal&dquo; _par

_exemple).

De

_plus,

à des

fins de

_sélection,

l’inférence

_statistique

_porte

à la fois

sur l’estimation de certains effets fixes et sur la

pré-diction d’effets aléatoires. Il _ya là une

originalité

_qui

n’a pas

toujours

été

_prise

en _compte_parla

_statistique

générale

et

_qui

a motivé un intérêt et des

développe-ments

_{statistiques spécifiques}

de la

_part

des

généti-ciens

_{quantitatifs.}

Soit y,, la variable aléatoire binaire

(0,1)

relative à

la rème observation de la classe

_(j

=

1,2,...,J).

Conformément à la théorie du modèle linéaire

géné-ralisé

_(McCullagh

et Nelder

_1989),

la

_probabilité

de

réponse

II

;

=

Pr(y,,

= 1 I 6) d’une observation de la

clas-se j

est

transformée _parla fonction de lien

_probit

de

façon

à obtenir un

prédicteur

linéaire des variables

explicatives

où 0 =

(!’,u’)’

est un vecteur

_regroupant

les vecteurs des effets fixes

₍₍₃₎

et aléatoires

[u - N(O,Lu)] et

_tj

=

(!ilzi)

est le vecteur

_ligne

d’incidence

_{correspondant.}

Différentes méthodes

_statistiques

sont

envisa-geables

pour estimer les

paramètres

de

_position

(0) et

de

_dispersion

(Eu) de ce modèle.

Foulley

et Manfredi

(1991)

distinguent

les trois

_grandes

méthodes sui-vantes : 1)

l’approche

linéaire de

_Grizzle,

Starmer et

Koch et son extension

_bayésienne

au modèle mixte

par

Foulley

et Im

(1989) ;

2)

l’approche

du modèle

linéaire

_{généralisé}

et de la

_{quasi-vraisemblance}

de

Gilmour,

Anderson et Rae (1985-87) et enfin 3) la méthode

_bayésienne

du mode

_conjoint

a

_posteriori

(MAP) de Gianola et

_Foulley

₍₁₉₈₃₎et Harville et

Mee (1984).

De nombreuses

_applications

de la

_{méthodologie}

GF-HM ont vu le

jour

en sélection animale. Un des

domaines

_priviligiés

de celles-ci concernent

l’évalua-tion

_génétique

des taureaux sur les difficultés de

vêlage (expérience pilote

&dquo;Maine

_Anjou&dquo;,

cf tableau 3).

3 / Extension à d’autres situations

La méthode GF-HM se

généralise

très bien à des

polytomies

ordonnées _(Gianolaet

_Foulley

1983). Pour les C

_catégories

ordonnées délimitées par les seuils

(’1:1,’1:2,...,’1:&dquo;...,’1:,1),

on

_peut

écrire sachant le

paramètre

(0) et avec la convention

Maintes extensions ont été effectuées dans le cadre de

_{l’approche bayésienne,}

notamment dans les situa-tions suivantes :

_réponses

binaires

_multiples

com-plètes

ou avec information

_manquante

(Foulley

1987) ;

mélange

de variables binaires et continues

(Foulley

et al

_{1983) ;}

_mélanges

de variables binaires

et de Poisson

_(Foulley

et al 1987).

L’approche

a été

également

étendue à des situations

_{d’assignation}

incertaine des observations à certains facteurs de variation tels _quele

_génotype

_{majeur (Foulley}

et

Elsen 1988) ou la

_paternité

(Foulley

1987).

Cette

_approche

du modèle linéaire

_{généralisé}

_peut

être étendue à d’autres distributions de variables

dis-crètes intervenant en sélection animale telle _quela

distribution de Poisson (taux

d’ovulation, prolificité)

(5)

Références

_{bibliographiques}

Curnow R, Smith C.,1975. Multifactorial models for familial

diseases in man. J R Statist Soc A _{138, 131-169.}

Dempster E. R.Lerner LM., 1950. _Heritabilityof threshold characters. Genetics 35: 212-236.

Falconer _DS.,1965.The inheritance of _liabilityto certain diseases estimated from the incidence among relatives. Ann.

Hum. Genet ., 29, 51-76.

Foulley J. _L., 1987. Méthodes d’évaluation des

reproducteurs pour des caractères discrets à déterminisme

polygénique en sélection animale. Thèse d’Etat, Université de

_{Paris-Sud-Orsay.}

Foulley J.L., Elsen J.M., 1988. Posterior _probabilityof the sire’s genotype at a _majorlocus based on _{progeny test}

results for discrete characters. Génét. Sél. _Evol.,20, 227-238.

Foulley J.L., Manfredi _E.,1991.

_Approaches

_statistiquesde l’évaluation _génétiquedes _{reproducteurs}_pourdes caractères binaires à seuils. Genet. Sel. Evol., 23, 309-338.

Foulley J. _L.,Im _S.,1989. _Probabilitystatements about the

transmitting ability of _{progeny-tested}sires for an all-or-none trait with an application to _twinningin cattle. Genet. Sel. Evol., 21, 247-267.

Foulley J.L., Gianola D.,

Thompson

R., 1983. Prédiction of

genetic merit from data on _binaryand _quantitativevariates with an _applicationto _{calving difficulty}birth _weightand