Approches statistiques de l'évaluation génétique des reproducteurs pour des caractères binaires à seuils

(1)

HAL Id: hal-00893884

https://hal.archives-ouvertes.fr/hal-00893884

Submitted on 1 Jan 1991

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Approches statistiques de l’évaluation génétique des

reproducteurs pour des caractères binaires à seuils

Jl Foulley, E Manfredi

To cite this version:

(2)

Article

_original

Approches statistiques

de l’évaluation

_génétique

des

_{reproducteurs}

_pour

des caractères

binaires à seuils

JL

_Foulley,

E

Manfredi

Institut national de la recherche

_agronomique,

station de

_{génétique quantitative}

et

_{appliquée, équipe}

de

_{génétique statistique,}

78352

Jouy-en-Josas cedex,

France

(Reçu

le 7 novembre 1990;

accepté

le 29 mai

₁₉₉₁₎

Résumé - Cet article

_présente

3 méthodes

statistiques

d’estimation des

_paramètres

de

position

et de

dispersion

relatifs au modèle à seuils

_applicable

à des caractères à variation

phénotypique

binaire en structure de modèle mixte des facteurs de variation. Ces méthodes

concernent :

_l’approche

linéaire de

_Grizzle,

Starmer et Koch

₍₁₉₆₉₎

et son extension

bayésienne

au modèle

_{mixte; l’approche}

du modèle linéaire

_{généralisé}

et de la

quasi-vraisemblance de

Gilmour,

Anderson et Rae

_(1985-87)

et enfin la méthode

_bayésienne

du mode

_conjoint

a

_posteriori

(MAP)

de Gianola et

_Foulley

_(1983).

Différents _aspects

comparatifs

de ces 3 méthodes sont abordés en discussion.

évaluation des reproducteurs / variables discrètes

_/

caractères à seuils

_/

théorie

asymptotique

/

modèle linéaire _{généralisé}

_/

quasi vraisemblance

_/

inférence

bayé-sienne

_/

modèle mixte

Summary - Statistical approaches to _geneticevaluation for threshold binary traits

This article describes 3 statistical methods

_{of inference}

about location and

dispersion

parameters

of

the threshold model

_applied

to

_binary

traits under a mixed model structure

of

variation. These methods are :

1),

the linear

_{approach of Grizzle,}

Starmer and Koch

(1969)

and its

_Bayesian

extension to a mixed

model;

l),

the

_{quasi-likelihood approach}

to the

_generalized

linear model as

_{proposed by}

Gilmour et al

_(1985-1987),

and

_3),

the

Bayesian

method

_(joint

mode a

_{posteriori-MAP) of Gianola}

and

_Foulley

_(1983).

_Di,!j"erent

aspects

of comparison

among these

procedures

are discussed.

genetic evaluation

_/

discrete variables

_/

threshold traits

_/

_asymptotic_theory

_/

generalized linear model

_/

_{quasi-likelihood}

_/

_Bayesianinference

_/

mixed model

POSITION DU

PROBLÈME

(3)

paramètres

de

_dispersion.

Ces méthodes

_statistiques

se

_{justifient pleinement}

dans le cadre du modèle linéaire

_gaussien.

Dans le cas de variables

_{discrètes, l’application}

directe ou

_{après aménagement}

du BLUP pose de sérieuses difficultés

conceptuelles

liées à la

dépendance

entre la

_fréquence

et la variance des

_{caractéristiques}

discrètes étudiées

_(Gianola,

_1982;

Foulley, 1987;

Im et

_{al, 1987;}

_Foulley

et

_al,

_1990a).

_Quant

aux

_algorithmes

de calcul du

_REML,

_{l’application}

de ceux-ci aux variables discrètes ne

_répond

_qu’à

des motifs

d’opportunité

calculatoire. Pour

_plus

de

_rigueur,

on en est réduit à des estimateurs

quadratiques

tels _queceux

_proposés

ou discutés notamment _parRobertson et Lerner

(1949),

Landis et Koch

_(1977),

_Lavergne

₍₁₉₈₄₎

et

_Freycon

₍₁₉₈₉₎

_pourun modèle à un seul facteur aléatoire ou _parBeitler et Landis

₍₁₉₈₅₎

et

_Foulley

₍₁₉₈₇₎

_pourun modèle mixte à 2 facteurs. Dans le même

_esprit

de

_l’analyse

de variance

_figurent

les méthodes inférentielles de

_Taguchi

_qui

sont très usitées dans l’industrie mais _peu connues en sélection et

_qui

s’avèrent en tout état de cause très

critiquables

d’un

point

de vue

théorique

(Hamada

et

_Wu,

_1990).

Par

ailleurs,

l’analyse

des données

(Tukey,

1962; Benzecri,

1973),

fournit toute une _{gamme d’outils intéressants}_pourle traitement

_statistique

des données

_{catégorielles,}

_qui

sont

_{particulièrement adaptés}

à une

_{approche statistique descriptive}

et

_exploratoire

mais

qui

se révèlent

_plus

difficiles à

_exploiter

dans une

_optique

inférentielle comme c’est le cas en

génétique

et sélection.

Le modèle «béta-binomial» des données ou son

_pendant

«Dirichlet-multinomial» »

pour

plusieurs catégories,

offre un cadre

_{conceptuel plus rigoureux}

et intéressant vis-à-vis de l’inférence

_statistique;

il autorise en

_particulier

le

développement

d’estimateurs du maximum de vraisemblance

_(Williams,

₁₉₇₅₎

ou

_bayésiens

(Im,

1982;

Foulley

et

_Im,

₁₉₈₉₎

_qui

sont étroitement

_apparentés

au BLUP

_(Quaas

et Van

Vleck, 1980;

Foulley

et

al,

1990a).

Malheureusement,

ce modèle n’est pas

généralisable

à une situation

_plus

_complexe

_quecelle d’un modèle aléatoire à un seul facteur

_{(Im, 1982).}

L’analyse génétique

de tels caractères n’a eu de cesse de

préoccuper

les chercheurs

depuis

les

_origines

de la

_génétique.

L’expression

discrète des

phénotypes

incline

na-turellement à une

approche

factorielle du déterminisme

_génétique

_avec,

toutefois,

de sérieuses difficultés

d’ajustement

du modèle aux observations

(Manfredi, 1990)

à moins d’un recours à des

_concepts

ad hoc tels que celui de

pénétrance

et

d’expressi-vité variable _par

_exemple.

De

_même,

l’étude de la transmission du caractère d’une

génération

à la suivante ne

_peut

plus s’appréhender

simplement

comme en

présence

d’un caractère

_continu,

_parles

_techniques

classiques

de

_régression

et de corréla-tion. Il faut alors

_analyser

des tables de

_contingence

_pardes indices d’association

spécifiques

de telles structures

_(Haberman,

_1982;

Kendall et

_Stuart,

_1961).

L’idée d’une

_{susceptibilité}

normale

_sous-jacente

à

_{l’expression}

du caractère s’est fait

_jour

et s’est

développée

peu à peu dans

l’esprit

des chercheurs pour

pallier

toutes ces difficultés. Pearson

_{(1900, 1904)}

_apparaît

comme un

_pionnier

dans

ce

_domaine;

fort de sa maîtrise de la distribution

_{multinormale,}

il introduit le

concept

de corrélation

_{tétrachorique}

entre variables discrètes pour

quantifier

les ressemblances entre

_apparentés

en terme

_classique

de corrélation

_{(Fraser, 1980).}

Wright

(1943a,b)

introduit le modèle à seuils pour rendre

compte

de l’écart à des

(4)

Le formalisme du modèle à seuils est en fait très

simple,

notamment pour un caractère tout-ou-rien comme le

_rappelle

le

_{développement}

suivant.

Désignons

par x la variable aléatoire relative au

_{phénotype sous-jacent}

d’un individu d’une

population

donnée;

on _{suppose que}x est distribuée sur une échelle continue

sous-jacente

munie d’un seuil T, suivant une loi normale

_-

_),

₂

_JL

₀

_,

_N(

de moyenne p et de variance

_u

₂

_;

dans ces

conditions,

la

probabilité qu’un

individu tiré au hasard dans la

_{population présente}

un des

phénotypes

tout-ou-rien

(y

= 1 _par

exemple)

+oc

est donnée par ! =

J

f+! T (2!r)-l!2exp !-(t -

JL

)2 /20-

2 ]dt;

après

le

_changement

de variable t* _

(t -

!,)/!,

_cette

_{probabilité s’exprime}

à

_partir

de la fonction de

répartition

4l(.)

de la loi normale _{par 7r =}

_{4) [(IL - T}

_)/o-]

avec _pour

_argument,

l’écart standardisé de la moyenne de la

population

au seuil.

La non linéarité de la relation entre

_expressions

binaire et

_sous-jacente

se manifeste

_également

au niveau des valeurs

_génétiques

définies sur ces 2 échelles. En

_effet,

si l’on suppose un déterminisme

génétique

sous-jacent

_purement

additif,

on

_peut

écrire

x =

JL

+ a + e où a ,...,

N(0,o-!)

et e -

N(O, ué)

désignent

les effets

génétiques

et de milieu

respectivement ;

la valeur

_génétique

sur l’échelle binaire

(g)

correspond

par définition au

_phénotype

_moyendes individus

ayant

tous la même valeur

_génétique

_{(sous-jacente)}

_{soit g}

=

Pr(x >_

7 -

1 ,u,

a).

Si l’on

place l’origine

_au

seuil

₍

_T

=

0),

_{g s’exprime}

par g =

<I>[(

JL

₊

a)/o

’e]

-

On

peut

alors calculer aisément les moments de cette variable

_aléatoire,

ce

_qui

_permet

_{d’expliciter}

les relations entre

_{paramètres génétiques}

sur les 2 échelles. Cette variable a _pour

_espérance

!r =

E(g) =

<I>[JL/(O-! +0-;)1/2]

et

pour variance

Q9

₌

4l2 (À, À

i

h2) - <I>2(¡i)

(Foulley et

Im,

1989) où ji

= JL/( o-! +0-;)1/2, h2

=

_{o-!/ (o-! +0-;)}

est l’héritabilité du caractère sur l’échelle

sous-jacente

et

_4l

₂

_(a,

_(3;

_p)

est la fonction de

_répartition

de la loi binormale réduite

_{d’arguments a, 0}

et de corrélation _p.

_{L’expression}

_classique

_!9

=

_h2cfJ2(¡i)

donnée par Robertson

(1950)

et

_Dempster

et Lerner

₍₁₉₅₀₎

où

_0(.)

est la densité de la loi normale

_{réduite, correspond}

en fait à une

_{approximation}

au

premier

ordre de la formule

_précédente

au

_voisinage

de

h

2

= 0

(Foulley

_et

Im,

1989).

L’utilisation

de la formule de

_{Robertson, Dempster}

et Lerner a été discutée _{notamment par}Van Vleck

_(1972),

_Razungles

₍₁₉₇₇₎

et Hill et Smith

_(1977).

D’un

_point

de vue

_{génétique, l’hypothèse}

de normalité sur un continuum

sous-jacent

s’accorde bien avec celle d’un déterminisme

_{polygénique classiquement}

adoptée

dans l’étude des caractères

_{quantitatifs. L’analyse génétique}

des caractères discrets à seuils

_s’intègre

donc naturellement dans le cadre habituel de la

_génétique

quantitative

et de ses concepts. Il en résulte une cohérence de

l’analyse,

en

particulier

dans l’étude d’un

_mélange

de caractères discrets et continus

_(Foulley

et

_al,

_1983;

Siminianer et

_Schaeffer,

₁₉₉₀₎

et dans celle de caractères à hérédité mixte

_impliquant

un

_gène

_majeur

et des

_polygènes

_(Lalouel

et al

1983; Foulley

et

_{Elsen, 1988;}

Eisen et Le

_Roy,

_1990).

Le caractère attractif de ce modèle s’est concrétisé par de nombreuses

applications

dans divers secteurs tels que par

exemple

les suivants :

- sensibilité

aux maladies et anomalies

_{congénitales}

chez l’homme

_(Falconer,

_1965;

Curnow et

_Smith,

₁₉₇₅₎

comme chez l’animal

(cf par

exemple

Sellier et

_Ollivier,

1982 pour le

syndrome

dit «des

_pattes

écartées» chez le

_porc);

(5)

- déterminisme

génétique

et environnemental du sexe

(cf Bulmer

et

_Bull,

1982 et Bull et

_al,

1982 _pourune

application

chez certains

poissons

et la

tortue) ;

-

caractéristiques

de

_reproduction

et

_{d’adaptation}

en zootechnie telles _quela fertilité

(H

d

schele

et

_al,

_1987),

les difficultés de

_vêlage

des bovins

_(Meijering,

1984, 1986;

Djemali

et

_{al, 1987; Quaas}

et

_al,

_1988;

_Hagger

et

_{Hoffer, 1990;}

Manfredi et

_al,

1991a,

1991b),

la taille de

_portée

et la survie des agneaux

(Petersson

et

_Danell,

1985;

Bodin et

_Elsen,

_1989),

La

_gémellité

des bovins

_(Manfredi

et

_{al, 1990,}

_1991c;

Ron et

_al,

_1990),

la

_morphologie

des

pieds

(Gilmour

et

_al,

₁₉₈₇₎

et la

_qualité

de la laine

_(Thompson

et

al,

1985)

chez le mouton.

D’un

_point

de vue

_statistique,

le modèle à seuils est un cas

particulier

de la théorie des modèles linéaires

_{généralisés}

_(Nelder

et

_Wedderburn,

_{1972 ;}

Mc

_Cullagh

et

_Nelder,

₁₉₈₉₎

_puisque

dans son

développement

le

plus simple

d’une variable

binaire,

il

_{s’explicite}

_grâce

à une

_fonction,

de lien

« probit

$&dquo;!(7r).

De ce

_fait,

le modèle à seuils pourra être abordé dans un cadre

_statistique

très riche

(Ducrocq,

1990)

qui

ouvre sur des

applications

dépassant

largement

le domaine de la

génétique

humaine et de la sélection animale pour s’étendre par

exemple

à la

neurophysiologie

et la

_séismologie

_(Brillinger,

_1985),

à la théorie des

_sondages

_(Grosbas,

_1987),

à la

psychologie,

aux sciences sociales

(Hammerle, 1990)

et à l’économétrie

(Maddala,

1983;

Judge

et

_al,

_1985).

Les modèles utilisés en sélection animale sont

classiquement

des modèles mixtes des facteurs de variation

_{(Henderson, 1984)}

impliquant

d’une

_part

des effets fixes relatifs à des facteurs environnementaux

_(année,

saison,

élevage,

type

de

_conduite)

et de niveau

_génétique

des

_populations

_{(effet «groupe»)}

et, d’autre

part,

des effets aléatoires

correspondant

aux individus candidats à la sélection et retenus

_(effet

«père»

ou «animal» _par

exemple).

De

plus,

à des fins de

sélection,

l’inférence

statistique

porte

à la fois sur l’estimation de certains effets fixes et sur la

prédiction

d’effets aléatoires. Il y a là une

originalité

qui

n’a pas

toujours

été

prise

en

compte

par la

statistique

générale

et

qui

a motivé un intérêt et des

développements

statistiques

de la

_part

des

_{généticiens quantitatifs.}

Aussi cette revue a-t-elle _pourbut de faire le

point

sur les

_principales

méthodes d’estimation

_statistique

des

_paramètres

de

position

et de

dispersion

intéressant le sélectionneur dans le cadre du modèle à seuils et d’une structure mixte des facteurs de variation.

À

cette

_fin,

nous considérerons successivement :

_l’approche

linéaire de

_Grizzle,

Starmer et Koch

₍₁₉₆₉₎

et son extension

_bayésienne

au modèle

_mixte;

celle du modèle linéaire

_{généralisé}

et de la

_{quasi-vraisemblance}

telle

_{que définie}

_par Gilmour et al

₍₁₉₈₅₎

et

_{enfin, l’approche bayésienne}

du mode

_conjoint

a

_posteriori

(MAP)

développée

notamment par Gianola et

_Foulley

_(1983).

Pour des raisons de

_{simplicité d’exposition,}

nous limiterons cette

_{présentation}

au modèle à seuils relatif à des

réponses dichotomiques

dit «threshold

dichotomy

distribution» dans la

_terminologie

du

_{généticien Wright}

₍₁₉₆₈₎

ou

_«probit

normal

binomial distribution» dans celle du statisticien Williams

_(1988).

Les facilités _ou,

(6)

MÉTHODE

DE

_GRIZZLE,

STARMER ET KOCH ET EXTENSION AU

MODÈLE

MIXTE

_(GSK-FI)

Estimation des

_paramètres

de

_position

Estimation des

_paramètres

en modèle à effets fixes

Si ₇_r_i_,_p_j et _n!

_désignent

la

probabilité,

la

fréquence

de

_réponse

/! B

pj

=

(&dquo;1 Yi 1)

/

n

j

=

y!+/n!! et

le nombre d’observations _pourla

sous-popula-r=1 /

tion j

=

_{l, 2, ... , J,}

la méthode de

_Grizzle,

Starmer _etKoch

(1969)

_estbasée sur le

_{développement}

limité suivant d’une fonction

quelconque

g des observations

(fonction

« logit

» ou

_{« probit}

_{» par}

_exemple

dans le cas de variables

_binaires)

En _posantun modèle linéaire sur

g(!r! ),

soit

g(

7r

j)

=

x’

où P

est le vecteur des effets fixes et

_x’

est

_{la j}

_e

_ligne

de la matrice d’incidence X

=

_(x

_l

_{, x}

₂

_{, ... ,}

_{xj, ... ,}

_{Xj )l}

des effets

_p,

_{l’expression}

_[la]

s’écrit sous la forme

ou, en notation matricielle

_complète

avec

Soit V =

Var(p)

la matrice de covariance des observations

_(ici

la

_fréquence

_par

classe).

En modèle à effets

_fixes,

on a :

et, en

_posant

(7)

où

_Q

_*

₌

_Q(p)

est un estimateur

_{asymptotiquement}

sans biais de

_Q.

De

_[4],

découle l’estimateur

_(dit

«minimum _g

_x

₂

_»)

_{de fi}

minimisant

soit

et le test de

_{l’hypothèse}

H

o

:

k’p

= m à

_partir

de la

_{statistique :}

distribuée

_{asymptotiquement}

sous

_H

_o

comme un

_x2!k!.

L’estimateur e

défini en

[5b]

est

_{asymptotiquement}

sans biais et

_{asymptotiquement}

normal

(encore désigné

par BAN : «Best

Asymptotic

Normal»).

Dans le cas du modèle à

_seuils,

la transformation

_g(.)

est la fonction inverse de la fonction de

_répartition

de la loi normale

_appelée

habituellement

_{« probit}

ou

_quelquefois

«normit»

_{» (Kotz}

et

Jonhson,

1985)

soit :

-d’où

où

0

est la densité de la loi normale réduite. La matrice des

_{pondérations}

_Q

_*

_-’

de

[5ab]

s’écrit donc

_compte

tenu des

_expressions

_[2b]

et

_(3a),

Extension au modèle mixte

Au

_{vecteur p}

des effets

fixes,

on substitue un vecteur

comportant

un

_{vecteur p}

d’effets fixes et un vecteur u d’effets aléatoires

_(valeurs

génétiques

notamment).

Le résultat

_précédent

_[4]

_s’applique

à la distribution conditionnelle de

_g(plO),

soit

où T =

(X, Z)

rassemble la matrice d’incidence X _des

effets p

et celle Z des effets u.

(8)

la distribution a

_posteriori

de 8 résultant de

[10]

et

_[11]

est donc aussi normale

où

_0,

_espérance

et

_C,

variance a

_posteriori

sont données _par

Dans le cas du modèle mixte considéré en

[9]

et

_[10]

E-

1

a _pourlimite

et

_[13]

se réduit à

L’expression

[15b]

revient à écrire les

_équations

BLUP sur les données g =

{<1>-1 (pj)}

en

_prenant

_pourmatrice de covariance résiduelle

_Q

_*

_{= Diag (pj}

(1 - p

j

)/n

J

4>2 [<1>

-1 (p

j

)]}

1

Ce raisonnement

_bayésien

formulé _par

_Foulley

et Im

₍₁₉₈₉₎

conduit à une

généralisation

de la méthode de Grizzle et al

₍₁₉₆₉₎

au modèle mixte. Une telle extension avait été

_suggérée

pour les

logits

par Gianola

(1980a)

en

utilisant,

non

pas une

_{approche bayésienne}

comme

_ici,

mais des

_arguments

_{asymptotiques}

sur les solutions du modèle mixte.

Une des difficultés avec cette méthode réside dans le traitement des cellules

_j,

pour

lesquelles

la

fréquence

de la

réponse

est extrême

(p

j

= 0 ou

1).

Dans ce _cas,

l’élément

_diagonal

de

_Q

_*

_-’

tend vers 0

_puisque

!2/p(1 -

p)

tend vers 0

_quand

p tend vers 0 ou 1. De

_plus

_g(p)

tend vers

_plus

ou moins l’infini. Pour éviter

cela,

on

_peut

_suggérer

de

_remplacer

les

_fréquences

_p_j _pourles valeurs extrêmes

par

(y

j+

+

_1/2)/(n!

+

_{1) (Mc}

_Cullagh

et

_Nelder,

₁₉₈₉₎

ou _par

_(y

_j+

+

_1)/(n!

+

_2).

Une autre

_approche

de

_type

_«bayésien

_empirique»

consiste dans le calcul d’un estimateur

_py

de ce

_type

de cellules

remplaçant

la’ fréquence,

basé sur les cellules où

_{p! !}

0 et 1 et

_qu’on

utilisera dans g et

_Q

_*

du

_système

_(15b!.

_Judge

et al

₍₁₉₈₅₎

suggèrent

un estimateur des moindres carrés non

_{pondérés, basé,}

soit sur un modèle

linéaire,

soit sur un modèle «normit» des

_{probabilités.}

Estimation des

_paramètres

de

_dispersion

Considérons le vecteur u des effets aléatoires en

[9]

distribué suivant une loi normale

N(O, S.)

et

_désignons

_{par Yu} le vecteur des

_paramètres

dont

_dépend

la matrice de covariance

_Eu.

Par

_exemple,

dans le cas d’un modèle à un seul facteur aléatoire tel le

_père,

_£

_u

s’écrit

_Au2

où A est une matrice

_égale

à 2 fois la matrice de

_parenté

(selon Malécot)

entre les

pères

et _Yu =

0&dquo;;,

est la

(9)

Foulley

et al

_(1987a,

_1989a)

ont _{montré que}le maximum de vraisemblance

marginale

(REML

dans le cas de normalité des

_{observations)}

_pouvait

être obtenu par

l’algorithme

itératif suivant

(de

l’itération r à r +

_{1) :}

où

E

1r

]

(.)

_indique

une

_{espérance prise}

_par

_rapport

à la distribution de

u!y,

y

j

l

donc conditionnement au vecteur des données y et

r

u

représente l’espace paramétrique

du vecteur Yu,

Nous considérerons un modèle

_{type comportant}

un vecteur u =

(u!, u[ , ... , u!,

1 ufl

,)’

formé de K sous-vecteurs Uk

indépendants

et de dimensions différentes tels que uk -

N(0,

A!.o-! )

où

A!

est une matrice

_(q

_k

x

_q

_k

₎

_connue,

_{définie-positive}

et

₀

_-

_21.

est la _composantede variance relative au ke facteur aléatoire. Pour une telle structure, la densité de u s’écrit :

Il découle de

_[17]

_quela maximisation en

_[16]

revient à résoudre les K

équations

suivantes :

-où

E1r)(.)

_indique

une

_{espérance prise}

_par

_rapport

à la distribution de

u

k[

y, y

§1 avec y(§’

1 - { 2[1&dquo;]} .

:&=1,2,...,!

Or,

compte-tenu

de

_[18],

Cette fonction admet pour dérivée :

(—1/2(7! )[! —

Ee(u!.A!.!u!.)/o’!

et

est maximum _par_rapportà

_(T!k

pour

(T!k

= Ee(u!.A!!u!)/!,

d’où

l’algorithme

itératif :

On a vu en

_[12]

_quela distribution de Uk

Iy,

!,u était normale avec une

_espérance

et variance données en

[13], [14]

et

_[15b].

_{L’algorithme}

_présenté

en

[20]

_peutdonc

s’expliciter

en :

où

Ce raisonnement est très

_général

et peut être étendu aisément au cas de 2 vecteurs

corrélés Uk et ul de même

dimension q

k

= _{qi =}

q tels

(10)

L’algorithme

à

_appliquer

_pourobtenir le maximum de vraisemblance

_marginale

de ₍_Tu_&dquo;,est une

_simple

extension de

_{(21a ! (cf démonstration}

dans

_Foulley

et

_al,

1987a)

et s’écrit :

où

_{û! ,}

û

i

ont la même définition

_qu’en

_[21b]

et

Ce

_type

de situation se rencontre par

exemple

en sélection animale avec le modèle

« père

(s),

grand-père

maternel

_{(t) ».}

On a alors :

où A est une matrice

_égale

à 2 fois la matrice de

_parenté

_{(selon Malécot)}

entre les

mâles;

!s, at,

usi sont les

_composantes

de variance et de covariance

_«père»

et

« grand-père

maternel

_{» interprétables}

en termes de variances et covariances d’effets

génétiques

directs et maternels. On rencontre

_également

cette

_{paramétrisation}

dans une structure de modèle multicaractères

_impliquant

des variances et covariances

génétiques

entre caractères.

Cet

_algorithme

_{correspond précisément}

à

_{l’algorithme}

EM

_(initiales

de

_«

Expecta-tion-Maximization », cf Dempster

et

_al,

₁₉₇₇₎

_appliqué

à l’estimation des

com-posantes de la variance et de la covariance. On

_peut,

selon les mêmes

principes

(Foulley

et

_al,

_1989ab),

_développer

un

algorithme

au second ordre de

_type

Newton-Raphson

ne faisant aussi intervenir que les éléments des

_équations

d’Henderson

[15b]

(cf Annexe A).

MÉTHODE

DE LA

_{QUASI-VRAISEMBLANCE}

ET

MODÈLE

LINÉAIRE GÉNÉRALISÉ

_(GAR)

L’approche

_{généralisé}

_{(Me Cullagh}

et

_Nelder,

₁₉₈₉₎

_pour

l’analyse

de données tout ou rien a été utilisée dans le cadre du modèle mixte

par

plusieurs

auteurs dont Williams

_(1982),

Gilmour et al

_(1985),

_Zeger

et

_Liang

(1986)

Zeger

et al

_(1988).

Des revues

_critiques

de ce

_type

_{d’application}

_{généralisé}

ont été

_également

effectées _par

_Thompson

_(1990),

Knuiman et Laird

₍₁₉₉₀₎

et

_Ducrocq

_(1990).

Nous nous restreindrons ici à la

présentation

de la méthode de

_Gilmour,

Anderson et Rae

_{(1985) (en abrégé}

_«GAR»)

telle

qu’elle

fut

proposée

par ces auteurs

_puis

réexaminée _par

_Foulley

_(1987),

H5schele et Gianola

(1989)

et

_Foulley

et al

_(1990a).

Estimation des

_paramètres

de

_position

Conformément à la théorie du modèle linéaire

_{généralisé}

_(Mc

_Cullagh

et

_Nelder,

(11)

par une fonction de lien

(normit

dans le modèle à

seuil)

qui

rend le

«prédicteur»

linéaire vis-à-vis des variables

_{explicatives.}

On écrit

donc,

sachant u :

où p

et u -

N(0,o!)

sont des vecteurs d’effets fixes et aléatoires comme

précédem-ment.

La formulation donnée en

[23]

est une extension au modèle mixte de la version

originale

restreinte au

départ

aux seuls effets fixés. Estimation des effets fixes

Si la distribution conditionnelle des

_réponses

binaires

₍

_Yjr

=

0,1) sachant p

et u

est bien un _processusde

_Bernouilli,

Yjr

1 fi, u &dquo;&dquo;

B(1,

11 &dquo;j),

la distribution

marginale

des

_y

_j

_{, 1 P}

_(après

_intégration

de

_u)

n’est

_plus

accessible

_simplement

eu

égard

aux corrélations induites par le vecteur u. On a alors affaire à un _processusà variation

extrabinomiale _ou,de

_{façon plus}

_générale

et selon la

_{terminologie anglo-saxonne}

(Williams, 1988),

à un modèle

_{«surdispersé».}

Dans une telle

situation,

il s’avère commode d’avoir recours à la théorie de la

quasi-vraisemblance

(Wedderburn,

1974)

pour estimer les effets fixes. La mise en

_application

de cette théorie est

particulièrement simple puisqu’elle

ne

_requiert

_queles

_expressions

de

_{l’espérance}

(IL)

et de la variance

_{(matrice V)}

des observations

_(y)

en fonction des variables

explicatives

(fi).

Si l’on définit par commodité les observations comme les

_fréquences

de

réponses

nj J

observées dans la

classe j :

pj =

(L y!T)

/nj

=

yj

+

/nj,

on a :

_-1

En utilisant la formule de Curnow

(1984),

cette

_espérance

_s’exprime

alors par

3 j

=

${x’p/[l

+

ojj1/2}

_avec

_u§

=

Z! FyZ! .

En

_général,

les modèles utilisés en sélection animale

_conduisent,

en l’absence de

consanguinité,

à des variances

homogènes

_{(‘dj, !! _}

(T

2 ).

Ainsi,

par

exemple,

dans un modèle

_comportant

le seul

facteur aléatoire

_père

_(s),

on a

(T

2

=

(T;,

variance _entre

pères.

Dès

lors,

il est

commode de

_changer

la

_{paramétrisation}

sur les effets

fixés,

en

_{posant :}

d’où la formulation

_simple

_suivante,

_identique

à la

_{présentation}

classique

du modèle

généralisé

à effets

purement

fixés :

(12)

où

_<1>

₂

_(a,

b; ,

r)

est la fonction de

répartition

de la loi binormale réduite de corrélation

r et

_{d’arguments}

a, b. et t =

fI

2 /(1

₊

fI2).

Dans

_l’exemple

du seul facteur aléatoire

«père!=!/(l+!)=/!/4.

La fonction de

quasi-vraisemblance

LQ3; p)

est définie par

l’équation

différen-tielle : où

V<

j

x

j

>

=

Var(p)

_estla matrice de covariance des

fréquences

observées dont les

éléments sont donnés en

!26a,b!.

La maximisation de

_L(f};p)

_par

_{rapport p}

s’effectue _parrésolution d’un

algo-rithme itératif de second ordre

_(scores

_par

_exemple)

_qui

_s’écrit,

de l’itération r à

l’itération r + 1 : -

-où

_W

_[j

_{>< j,}

est une matrice de

_pondération

définie _par

!!! x 1!

est une variable de travail telle _que

D

[JxJ]

est une matrice

diagonale

de

[29a,b]

définie _parD=

Diag{87rj/8r¡j}

_soit,

compte-tenu

de

_[25a]

En

_fait,

Gilmour et al

₍₁₉₈₅₎

ne résolvent _pasle

_système

!28!.

Ils

_proposent

une

approximation

des éléments de V basée sur un

_{développement}

limité de

_(P

₂

_(a,

_b;

_r)

au

_voisinage

de r =

0, qui

s’écrit

(a,

2 4)

b; r)

=

4l(a)4l(b)

₊

r</l(a)</l(b)

(Tallis, 1962)

d’où,

l’écriture suivante des éléments de v :

(13)

avec

On retrouve aussi

_[32b]

en faisant sur u le même

changement

de variable

û =

u/(1

₊

0 -

2 )

1/2

que celui fait

sur?

en

!24).

L’inverse de W en

[28]

s’écrit alors :

ou _encore,en

_posant

On reconnaît en

_[33b]

la forme

classique

d’une matrice de covariance d’observa-tions de modèle linéaire

_{qui permet}

à Gilmour ei al

₍₁₉₈₅₎

de résoudre de

_façon

approchée

le

_système

_[28]

en b

à

_partir

des

équations

du modèle mixte

_{d’Henderson,}

ici : ..

ou, en posant

où E=

!0

0

est un cas

_particulier

de

_!15a).

10 G-11

En

_!34ab),

la variable de

_{travail !}

définie en

_[29b]

_peut

aussi se mettre sous la

forme :

-où

Prédiction des variables aléatoires

(14)

Il est difficile de trouver une

_{justification}

à cette méthode de

_prédiction

des u

(Knuimann

et

_Laird,

₁₉₉₀₎

hormis celle de

_calquer

la

_procédure

du

_système

des

équations

du modèle mixte d’Henderson. Estimation des

_paramètres

de

_dispersion

Pour une structure

_comportant

un vecteur u formé de K sous-vecteurs

_U

_k

indépen-dants tels _que

_ù

_k

_-

_N[0,A!o!

_]

avec, compte-tenu du

_changement

d’échelle en

y.

[24]

et

_[34a]

!? _

_(J!)(1

+

(J2).

Gilmour et ad

₍₁₉₈₅₎

_arguent

de l’utilisation de

uk A.

u

E(u!AklUd

pour

justifier

un estimateur de

(

J

&dquo;l.-

obtenu

par une formule itérative de type

EM,

similaire à

_!22aJ,

où

_Îik

et

_C

_uu

_,

_kk

sont

_{respectivement}

la solution en

Î

ik

et le bloc relatif à ce même

vecteur dans l’inverse de la matrice des coefficients du

_système

_[34a].

Une autre

_{approche préconisée}

notamment _parKnuimann et Laird

₍₁₉₉₀₎

réside dans l’estimation des

_composantes

de la variance par le maximum de vraisemblance. La vraisemblance

_{L(13, o-! ,}

_{o,2- , .... u2- ... , !2 ;}

_p)

nécessite

_{l’intégration}

des

_Û,

_ &dquo;1

M

2 Uk!., u h

soit :

,

Thompson

(1990)

préconise

une

_{approximation}

de cette

_intégrale

_parune qua-drature de Gauss. Dans un cadre

_similaire,

mais avec des variables discrètes de

Poisson,

Im et

_Foulley

₍₁₉₉₀₎

proposent une méthode

_approchée

de maximisation de

_[37]

_qui

évite

_{l’intégration explicite}

des il.

MÉTHODE

DU MODE CONJOINT A POSTERIORI -MAP

_(GF-HM)

Cette méthode a été

_développée

à

_l’origine

_parGianola et

_Foulley

_(1983).

Des résultats

_identiques

ont été obtenus simultanément _parHarville et Mee

_(1984),

ces derniers utilisant toutefois un raisonnement

_classique

de modèle mixte. Elle sera

désignée

en

_abrégé

_parles initiales « GF-H1VI ». Des

_procédures

similaires ont été

développées

par Stiratelli et al

(1984)

ainsi que par Zellner et Rossi

(1984)

avec

pour ce dernier une fonction de lien

logistique.

Le modèle est le même au

_départ

_quecelui

_présenté

en

[1b]

et en

[23]

à la différence

_près

_qued’un

point

de vue

_bayésien,

une distinction entre effets fixés et aléatoires n’a pas lieu d’être. On écrit donc :

L’intérêt des

techniques bayésiennes

en sélection animale a été mis en avant au

cours des deux dernières décennies _par

_plusieurs

auteurs dont

_Rônningen

(1971),

(15)

Estimation des

_paramètres

de

_position

L’inférence sur 0 en

_statistique

_bayésienne

_{passe par}l’obtention de la distribution a

_{posteriori, qui}

s’écrit

_compte-tenu

du théorème de

_{Bayes :}

L’expression

[39]

est le

_produit

de la distribution a

_priori

de

_0,

_{p(Ol&oelig;,E)}

sachant les

_{hyperparamètres}

_(&oelig;,E)

_parla distribution conditionnelle des données

_(ici

y =

{

YH

})

sachant 0 ou vraisemblance en 0. Sachant

_0,

les données YH sont

indépendantes

entre elles et ont une distribution binomiale

B(n!, !r!)

de

_paramètres

n!

(effectif

de la classe

j)

et 7rj. La vraisemblance s’écrit donc :

Le choix du modèle à seuils de

_Wright

conduit à supposer que les distributions

marginale

et conditionnelle sachant 0

_[z

_jr

_{[0 -}

_N(t’.0;

_1)]

de la variable

phénotypi-que xj, associée à la reobservation de la

population j

sont normales sur une échelle

sous-jacente.

Cette

_{hypothèse implique}

donc le choix d’une distribution a

priori

de 0

_qui

soit aussi

_normale,

d’où

et

Gianola et

_Foulley

₍₁₉₈₃₎

ont

_proposé

comme estimateur

_ponctuel

de 0 le mode a

_posteriori

(MAP)

de

[42].

Celui-ci

_peut

s’obtenir _parrésolution d’un

_système

itératif du second ordre tel que :

où

avec

(16)

On sera amené à

_appréhender

la distribution a

_posteriori

_parsa forme

_asymptotique

normale

_(Berger,

_1985;

_Fouley,

_{1987) :}

où

0 *

est la solution MAP de

_[43]

et

Si l’on s’intéresse à une structure de modèle mixte avec des effets

fixes p

et aléatoires u -

N(0, E! ),

celle-ci _pourraêtre traitée comme un cas

bayésien

dégénéré

en

_faisant,

dans les formules

[43), [44]

et

_{[45ab] :}

Un autre

_algorithme

du MAP

_qui

mérite

attention,

a été

proposé

_parMee

(1982)

et Zhao

₍₁₉₈₇₎

en utilisant le raisonnement de

l’algorithme

EM

(Dempster

et

al,

1977).

Supposons qu’on

puisse

observer les variables continues

sous-jacentes

x =

lx

j

}

( j

indice d’une cellule élémentaire d’effectif

_unité).

Dans le modèle à

seuils,

on a les distributions suivantes :

où r

_représente

la variance

_{phénotypique}

résiduelle sur la

_sous-jacente

sachant le vecteur de

_paramètres

0. Pour un modèle binaire

_univariate,

r est la matrice

_la;.

L’espérance

de la distribution conditionnelle de _x,soit T9 a la même

_{signification}

qu’en

(38J ;

de même la distribution en

_[48b]

est

_identique

à celle en

_(41J,

d’où Dans l’EM

_{généralisé}

_applicable

au mode a

_posteriori

(Dempster

et

al,

1977),

on considère la fonction :

où _y=

fy

jl

est

le _vecteurdes données binaires observées.

En

_[50a],

tout se _passecomme si l’ensemble

« complet

des données

(selon

la

terminologie

de

_Dempster

et

al,

1977)

se

restreignait

aux seules variables

sous-jacentes

x

_puisque

l’information

en x contient celle sur les données binaires y, autrement dit :

L(O;

x, y,

r,ot,s)

=

L(O;

x,

r,a,E)

(17)

En

_fait,

dans la

_{phase E,}

on

_remplace

E(x!y,8)

_{par :}

puis,

dans la

phase M,

on maximise

[50b]

_par

_rapport

à 9 soit :

d’où le

_système

itétatif

L’écriture en

[52]

offre une bonne illustration de la

façon

dont

procède

l’algorithme

EM. Si x était

observable,

le

_système

en 0 serait le

_système

linéaire

classique

des

équations généralisées

du modèle mixte

_(T’r-

₁

_T

+

E-’)Ô

=

T’r-

l

x

₊

E-

l

a

.

Comme x n’est _pas

observable,

tout se passe en

[52]

comme si on le

remplaçait

dans ce

_système

_parson

_espérance

conditionnelle x* sachant les données discrètes observées _yet la valeur du

_paramètre

inconnu 0 à l’itération

_{précédente.}

Dans le cas d’un modèle binaire

_univariate,

_{l’égalité}

r =

Iu

/

entraîne

_une

importante

simplification

en

[52].

Comme

pour j #

j’,

p(.r_,[!’,8)

=

p(.

Ej[

8),

z

j et yj, étant conditionnellement

indépendants

sachant

0,

les éléments

x!

de x*

correspondent

_{à x!}

=

E(!!,8)

ce

_qui

s’écrit aussi

_(Im

et

_Gianola,

_{1988) :}

et, on montre aisément que :

Les

_expressions

en

[54ab]

_{correspondent}

aux scores normaux tels _que

_présentés

par Gianola et

_Foulley

_{(1983). Compte-tenu}

de

_{l’expression}

_{de v}

_j

en

_[45a]

_appliquée

au cas d’une cellule élémentaire n_j =

_1,

il

apparaît

que x*

peut

se mettre aussi sous la forme

_xi

=

t’O

+ _v_j_{. Si}de

_plus,

comme

_[47],

on _pose

9’ - (!’,

_u’);

S

-1

--->

s-

=

1

0

()

:E!l

i

; E&dquo;!a —!

0 le

_système

_[52]

se réduit alors à

avec

La matrice des coefficients est

_identique

à celle des

_équations

du modèle mixte

d’Henderson ;

les itérations ne modifient que le second membre. Cet

algorithme

rappelle

la

_suggestion

faite par Aisbett

(1983)

visant à

simplifier

les calculs.

(18)

premier

ordre comme le montre bien l’écriture de

[55a]

_pour

0 = 0

*

,

valeur de

convergence

soit

Cette dernière

_expression

_[56]

_représente

la condition d’annulation de la dérivée

première

du

_logarithme

de la densité a

_posteriori

définie en

[42]

_pourun a

priori

uniforme sur la

_{composante p (cf Gianola}

et

_Foulley,

_1983).

_S’agissant

d’un

algorithme

de

_{premier ordre,}

il faut donc s’attendre à ce _quecet

_algorithme

_converge

plus

lentement _que

_{l’algorithme}

des scores donné en

(43).

Estimation des

_paramètres

de

_dispersion

Partant d’une distribution normale a

_priori

des u telle _queu -

N[0,Et;(Y!)],

les

résultats

_{généraux présentés}

en

(16], [21 ab]

et

_{[22 ab]}

_{s’appliquent}

ici. La difficulté réside alors dans l’obtention de

_{l’espérance}

et de la variance de la distribution a

posteriori

de u. La

plupart

des auteurs

(Harville

et

_{Mee, 1984;}

Stiratelli et

_{al, 1984;}

Foulley

et

al,

1987a)

ont

_proposé

de les

approcher

par les

paramètres homologues

de la distribution

_asymptotique

définis en

[46 ab],

d’où _pourla même structure

_qu’en

(17],

l’algorithme :

Sur la base de cette même

_{approximation asymptotique,}

on

_peut

développer

un

algorithme

de second ordre

_{(cf Annexe A)}

formellement similaire à celui décrit dans la

_{première partie}

_pourla méthode GSK-FI. Par

_ailleurs,

on

_peut

avoir recours à

une méthode

_approchée

_(Van

Raden et

_Yung,

₁₉₈₈₎

_adaptée

aux caractères à seuils

par Manfredi

(1990)

lorsque

la taille des fichiers rend les méthodes

précédentes

difficilement

_applicables.

DISCUSSION

Les 3 méthodes

_statistiques

ainsi _queles

_{algorithmes correspondants}

décrits dans ce

chapitre

soit en

_abrégé

(GSK-FI;

GAR;

GF-HM)

_permettent

de traiter le modèle à seuil de

_Wright

à des fins d’évaluation

_{génétique. L’objet}

de cette discussion est d’effectuer une

appréciation critique comparative

de ces

_procédures.

Comparaison

des

_algorithmes

Foulley

(1987)

a

souligné

les similitudes et les différences existant entre

l’algorithme

de calcul

_{des p}

et u décrit en

[43]

_pourla méthode GF-HM et celui

_proposé

par GAR. En

_particulier,

la matrice des

pondérations

S et la variable de travail ! de GF-HM bien _quede formes très similaires à leurs

_homologues

R

_{(cf [33 ab!; [35c])}

et !

(cf

[35 abc])

en différent parce

qu’elles

font intervenir

explicitement p

et u et

(19)

Quant

aux méthodes GSK-FI et

_GF-HM,

leurs matrices de

pondération Q

*

(cf

[8])

et S

_(cf

_[45b])

ont exactement la même forme : elles ne diffèrent _{que par}

l’argument

utilisé dans la fonction : pj pour GSK-FI et _x_j _pourGF-HM.

_Quant

aux variables de travail du second membre _get W

_{respectivement}

_pourGSK-FI et

_GF-H1!!I,

la seconde

_{s’interprète}

en fait comme un

développement

limité au le’’ ordre de la

_première

au

_voisinage

de p_j₌₇_r_j_.

_En

_.

effet :

Enfin,

il faut noter _que

_{l’algorithme}

de l’estimateur MAP est itératif contraire-ment à celui de GSK-FI.

Estimation

_{de p}

et u avec des variances inconnues

Les 3 méthodes d’estimation

_{de fi}

et u

_{développées}

ici

_supposent

la connaissance de la matrice de covariance

_Eu

de u connue donc celle du vecteur _y_. des

_paramètres

dont elle

_dépend.

_Quand

_y_. n’est pas connu on

_peut

adopter,

à l’instar de

Foulley

et al

_(1987a,

_1989b)

et Gianola et al

_(1986),

une

_{approche bayésienne empirique}

fondée sur la distribution a

_posteriori

conditionnellement à _y_.

égalé

au mode

de la distribution

_marginale

a

posteriori

de 0

qui

se réduit au maximum de vraisemblance

_marginale

avec une distribution a

priori

uniforme sur _{y!. C’est}

précisément

l’estimateur de _y_.

développé

en

[21 ab]

[22 ab]

et

_[57].

L’extension

bayésienne empirique

des méthodes GSK-FI et GF-HM est donc immédiate. Au

contraire,

si l’on _peut,dans

_{l’algorithme}

_[34a],

_remplacer

les

_composantes

de _y_._u par leurs estimations telles que

proposées

par GAR en

(36!,

ce

procédé

ne résulte

pas d’une

justification

théorique

claire. Choix de l’estimateur

ponctuel

0

Du

_point

de vue de l’efficacité de la sélection en une

génération,

le critère

qui

maximise

_{l’espérance}

de la valeur

_génétique

des individus sélectionnées à nombres de candidats et retenus

_fixes,

est

_{l’espérance}

de la distribution a

_posteriori

des

valeurs

_génétiques

_(Goffinet

et

_{Elsen, 1984;}

Fernando et

_Gianola,

_1986).

L’estimateur

Ô

défini en

_[13]

_pourla méthode GSK-FI est bien une

_espérance

mais la distribution considérée en

[12]

est une

_{approximation}

fondée sur un résultat

asymptotique

de la loi conditionnelle du normit des observations. L’estimateur 0

*

_proposé

en

_[43]

_pourla méthode GF-HM est le mode de la distribution a

posteriori, qui

se

distinguera

d’autant

plus

de

l’espérance

_quela distribution sera

plus asymétrique

(cas

d’un faible effectif _parniveau de

_facteur).

L’estimateur modal n’en reste pas moins

potentiellement

intéressant eu

_égard

à sa

justification

en

théorie de la décision et il a

_l’avantage

sur

_{l’espérance}

d’être moins sensible aux

(20)

d’intérêt et

_paramètres

de

nuisance,

on

_peut

l’améliorer en considérant le mode de la distribution

_marginale

_{après intégration}

des

_paramètres

de nuisance tels que les effets

parasites

de milieu en

_génétique

animale. Cette

_opération

n’est malheureusement pas

possible analytiquement

dans le cas des données binaires

analysées

selon GF-HM. Cette idée de

_{marginalisation}

est en fait

_sous-jacente

à la

procédure

GAR en vue de l’estimation des effets fixes

_fi.

Comparaison

des estimateurs

À

notre

_{connaissance,}

l’estimateur de 0 en modèle mixte selon GSK-FI n’a fait

l’objet

d’aucune

application excepté

celle mentionnée _par

_Foulley

et Im

₍₁₉₈₉₎

à propos de la

précision

d’une évaluation

génétique

sur descendance.

Par

_{construction,}

on s’attend à de meilleures

propriétés

de l’estimateur

_{de fi}

ob-tenu par la méthode GAR que par celle de GF-HM. Une

comparaison

rigoureuse

de ces méthodes a été effectuée _parH5schele et Gianola

(1989)

_grâce

aux

tech-niques

de simulation. Celle-ci concerne une variable binaire suivant un modèle de

susceptibilité sous-jacente

comportant

les facteurs

_{« troupeau}

x année x saison » et « groupe de

pères

» analysés

comme fixes et le facteur

_{« pères}

» intra _groupeconsidéré

comme aléatoire. Le

dispositif comprenait

les descendants de 50

_pères

_originaires

de 4 groupes. En une

première

étape,

2000 descendants étaient ainsi simulés

répartis

en 135 cellules

_{« troupeau}

x année x saison ». En un deuxième

stade,

1000 descendants

étaient

_répartis

entre 10

_pères

_ayant

obtenu les meilleurs évaluations

_génétiques

au 1

er

stade selon l’une ou l’autre méthode.

Les méthodes ont été

comparées

pour l’estimation de l’héritabilité et des effets «groupe» sur la base de

_statistiques

d’échantillonnage

(biais,

_variance,

erreur

quadratique

moyenne)

empiriques

observées sur 45

répétitions.

Les estimateurs de

GF-HM

_surpassent

ceux de GAR en termes de biais et d’erreur

_quadratique

aussi bien pour l’héritabilité que pour les effets «groupe» et cela sur les échantillons du stade 1 comme sur ceux du stade 2 avec sélection.

Quand

on considère la valeur

génétique

transmise vraie de taureaux sélectionnés à des

_pressions

de sélection de

10,

20 et

40%

à

_{chaque stade,}

la différence est

_négligeable

entre les 2 méthodes. Cette étude conforte donc le bien fondé de

_l’approche

GF-HM en matière d’évaluation

génétique,

y

compris

vis-à-vis de l’estimation

génétique

de certaines

composantes

fixes pour

lesquelles

on aurait pu

espérer

une

_{supériorité}

de la méthode GAR. Cette étude met par ailleurs clairement en évidence un biais non

négligeable

dans l’estimation de l’héritabilité

_(moyenne

de

_0,30

et

_0,34

avec les méthodes

GF-HM et GAR

_{respectivement}

pour une valeur vraie de

_0,25),

ce

_qui,

dans le cas de la méthode

_bayésienne,

_posela

_question

de la validité de

_{l’approximation}

de

l’espérance

par le mode.

Estimation des

probabilités

de

_réponse

Un des

_problèmes

délicats avec les modèles

_opérant

des transformations de données ou de

_paramètres

est le retour à une estimation des

paramètres

d’origine.

Avec le modèle linéaire

_{généralisé}

et les méthodes basées sur la vraisemblance

(et

la

(21)

homologue

de la

_probabilité

de

_réponse

₇_r_j_,dans la

_{cellule j}

_parla fonction inverse de la fonction de lien

_soit,

avec les notations de

[25

ab] T

Tj

=

4 l(x

j

p).

En

_fait,

cette

_propriété

ne

répond

_pasau besoin du sélectionneur

qui

est intéressé

par la

probabilité

de

_réponse

dans une

_{sous-population}

définie _par

combinaison,

non seulement des niveaux des facteurs

fixes,

mais aussi de niveaux de facteurs considérés comme aléatoires. Par

exemple,

dans une étude sur les difficultés de

vêlage,

on se demandera

_quelle

est la

probabilité

d’un

vêlage dystocique

_pourune fille née du

_père

X

_{(effet aléatoire)}

mettant bas dans la saison Y

_{(effet fixe).}

La méthode GAR ne nous

_permet

_pasde

_{répondre simplement}

à ce

_problème.

Il faudrait la

_{généraliser}

en faisant

appel,

par

exemple,

au

_concept

de vraisemblance

prédictive

(Bjornstad, 1990).

Au

_contraire,

le

_concept

de densité

prédictive

(Zellner, 1971)

qui apparaît

tout naturellement en

_statistique

_bayésienne,

_permet

de bien

_répondre

au

problème

concret _quese _posele sélectionneur.

Ainsi, Foulley

et al

_(1989b)

considèrent la

probabilité

de

_réponse

_pourune future observation

_f

de la

_{sous-population j}

sachant les données observées

_{(vecteur y}

_o

_).

Celle-ci s’écrit :

Cette

_{probabilité apparaît}

comme une _moyenne

pondérée

de

4l(

q

j )

_parla densité

a

_posteriori

de ri!, donc _parun indicateur du

_degré

de connaissance

qu’on

a sur ce

paramètre.

Cette densité a

_posteriori

est décrite _pardes

_{approximations}

normales

données en

_[12]

et

_{[46 ab]}

_pourles méthodes GSK-FI et GF-HM

_{respectivement.}

Nous écrirons donc :

Partant de

_[60],

_{l’intégrale}

de

_[59]

se calcule aisément à la formule de Curnow

( 1984) ;

on obtient alors :

La formule

_[61]

_indique

bien l’incidence de l’incertitude sur l’estimation

_de

₁

_]j

qui tend,

par réduction de la valeur absolue de

l’argument

de

l’intégrale

[59]

à

«régressera

la

prédiction

de la

probabilité

de

réponse

sur

_1/2.

Il convient toutefois de noter la difficulté

_importante

_qu’il

_yaura à calculer

u Iij

2

l y o

Cette

_approche

_permet

d’aborder ensuite

_{rigoureusement}

le

_problème

de l’éva-luation

_génétique

des

_pères

sur l’échelle des

probabilités.

Soit _q_ik le

paramètre

de

Approches statistiques de l'évaluation génétique des reproducteurs pour des caractères binaires à seuils

HAL Id: hal-00893884

https://hal.archives-ouvertes.fr/hal-00893884

Submitted on 1 Jan 1991

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Approches statistiques de l’évaluation génétique des

reproducteurs pour des caractères binaires à seuils

Jl Foulley, E Manfredi

To cite this version:

Article

original

Approches statistiques

de l’évaluation

génétique

des

reproducteurs

pour

des caractères

binaires à seuils

JL

Foulley,

E

Manfredi

agronomique,

génétique quantitative

appliquée, équipe

génétique statistique,

Jouy-en-Josas cedex,

(Reçu

accepté

1991)

présente

statistiques

paramètres

position

dispersion

applicable

phénotypique

l’approche

Grizzle,

(1969)

bayésienne

mixte; l’approche

généralisé

Gilmour,

(1985-87)

bayésienne

conjoint

posteriori

(MAP)

Foulley

(1983).

comparatifs

/

/

/

/

/

/

of inference

dispersion

of

applied

binary

of

1),

approach of Grizzle,

(1969)

Bayesian

_original

_génétique

_{reproducteurs}

_pour

_Foulley,

_agronomique,

_{génétique quantitative}

_{appliquée, équipe}

_{génétique statistique,}

₁₉₉₁₎

_présente

_paramètres

_applicable

_l’approche

_Grizzle,

₍₁₉₆₉₎

_{mixte; l’approche}

_{généralisé}

_(1985-87)

_bayésienne

_conjoint

_posteriori

_Foulley

_(1983).

_/

_/

_/

_/

_/

_{of inference}

_applied

_binary

_{approach of Grizzle,}

_Bayesian

_{quasi-likelihood approach}

_generalized

_{proposed by}

_(1985-1987),

_3),

_(joint

_{posteriori-MAP) of Gianola}

_Foulley

_(1983).

_Di,!j"erent

_/

_/

_/

_/

_/

_/

_/

_dispersion.

_statistiques

_{justifient pleinement}

_gaussien.

_{discrètes, l’application}

_{après aménagement}

_fréquence

_{caractéristiques}

_(Gianola,

_1982;

_{al, 1987;}

_Foulley

_al,

_1990a).

_Quant

_algorithmes

_REML,

_{l’application}

_répond

_qu’à

_plus

_rigueur,

_proposés

_(1977),

_Lavergne

₍₁₉₈₄₎

_Freycon

₍₁₉₈₉₎

₍₁₉₈₅₎