Pascale LE ROY
INRA Station de
Génétique Quantitative
etAppliquée
78352Jouy-en-Josas
CedexLes bases de la génétique quantitative
Les méthodes de mise en
évidence des gènes majeurs
Résumé.
S’il existe ungène
àeffet majeur
sur uncaractère,
la distribution desphénotypes
est unmélange
de distributions élémentaires dans desproportions
obéissant aux lois deMendel. Différents
tests
statistiques
basés sur ceprincipe
sontprésentés.
Les donnéesexploitées peuvent rovenir d’expériences
de croisementsspécialement
conçues pour détecter ungène majeur,
mais ausside fichiers
de contrôle des
performances
de structurequelconque.
Les méthodes utilisées sont des testsd’hypothèses permettant
de choisir entre l’absence et laprésence
d’un locusmajeur
àpartir
desinformations disponibles. Il s’agit
soit d’indicateursnumériquement
trèssimples
àobtenir,
soit deméthodes
plus complexes faisant appel
auxtechniques
du maximum de vraisemblance. Dans l’un et l’autre cas, les tests construitsprennent plus
ou moins encompte
la structuregénéalogique
de lapopulation.
La méthode laplus
élaborée estl’analyse
deségrégation qui permet
desynthétiser
toutel’information disponible
pour comparerdifférentes hypothèses
de transmission du caractère etqui fournit
des estimations desparamètres
du modèlegénétique
retenu.Cep endant,
elle estnumériquement
très coûteuse et nécessite des
simplifications
pour êtreapplicable
auxpopulations
d’animauxdomestiques.
Des critères moinspuissants
maisplus simples
ont donc un intérêt nonnégligeable
enpermettant
enpremière approche
une recherchesystématique
desgènes
àeffet majeur.
La détection d’un
gène
à effetmajeur
sur uncaractère est un
sujet qui,
bien queclassique
engéné- tique quantitative,
apris
uneimportance grandissan-
te au cours des 15 dernières années. Ce
regain
d’inté-rêt est tout d’abord à
rapprocher
de ladécouverte, plus
ou moinsfortuite,
deplusieurs gènes
influantsur des caractères
quantitatifs économiquement importants
chez différentesespèces domestiques :
legène
de nanisme chez lapoule,
legène
de la sensibili- té à l’halothane chez le porc, legène
culard chez les bovins ou legène
deprolificité
Booroola chez le mou-ton en sont
quelques exemples
célèbres. Parailleurs,
la mise enévidence, déjà ancienne,
de très nombreux locusmajeurs
chez la souris a conduit à la recherche de telsgènes
chez les animauxdomestiques,
certainsgènes
connusagissant
sur des caractères dont l’amé- lioration est unepréoccupation
enproductions
ani-males : résistance aux
maladies, croissance,
viabilitéembryonnaire,
taux de muscle... Maisl’élément,
sansconteste le
plus
déterminant de cetteévolution,
est ledéveloppement
desbiotechnologies qui permet d’espé-
rer une efficacité
grandissante
dans l’utilisation desgènes majeurs
pour l’améliorationgénétique
des ani-maux
domestiques.
Si dans les
exemples qui
viennent d’être cités lequalificatif
de&dquo;majeur&dquo;
est facilementjustifiable,
iln’en va pas
toujours
ainsi. Il est en effetdifficile,
faceà la continuité des
phénomènes biologiques
en cause, de donner une définition exacte de la notion d’effetmajeur
d’ungène,
la limite arbitraire souventposée
étant l’existence d’une différence de 1
écart-type phé-
notypique
entre les valeurs moyennes associées auxgénotypes
extrêmes.Cependant,
de meilleures défini- tionspeuvent
être données en terme depourcentage
de la variancegénétique
du caractère dû au locusconsidéré ou, de
façon plus synthétique,
en terme degain
consécutif à laprise
en considération d’un déter- minismesimple
dans unestratégie générale
d’amélio-ration
génétique.
L’avantage
essentiel de l’existence d’ungène majeur
estqu’une
valeurgénétique
élevéepeut
être obtenue defaçon
immédiate et stable par la fixation d’ungénotype
favorable au locusmajeur.
Parrapport
à une sélection
classique,
augain
detemps potentiel s’ajoute
éventuellement un affranchissement vis-à-visd’antagonismes génétiques
entravant la réalisation d’unobjectif global.
L’introduction dans unepopula-
tion d’accueil d’un allèle
particulièrement
intéres-sant, tout en conservant le reste du
génome
receveuren
l’état,
constituel’étape
suivanteaujourd’hui
réali-sée par croisements en retour successifs.
Toutefois,
siles
premières applications envisagées
du transfert degènes
ont essentiellement une finalitépharmaceu- tique,
l’utilisation de cettetechnique
pourl’élevage
est d’ores et
déjà
d’actualité et, dans la mesure où leur(s) allèle(s) à effet favorable ne sont pas totale- mentrécessifs,
lesgènes majeurs
identifiés sont bien sûr lespremiers
candidats au transfert.Toutes ces considérations ont donc stimulé la mise
au
point
de nombreuses méthodes pour la mise enévidence de
l’effet,
que nousappellerons majeur,
d’ungène
sur un caractèrequantitatif.
Ils’agit
de testsd’hypothèses qui consistent,
àpartir
d’un ensemble de mesures d’uncaractère,
à effectuer un choix par destechniques statistiques
entre 2hypothèses géné- tiques, l’une postulant
l’absence degène majeur
affec-tant le caractère
étudié,
l’autresupposant
saprésen-
ce. L’idée de base est que, s’il existe une
ségrégation
au locus
majeur,
la distribution des observations estun
mélange
de distributions élémentaires dans desproportions prévisibles d’après
les lois de Mendel (tableau 1). Aucontraire,
s’iln’y
a pas degène majeur,
bien que cesproportions
soient valables pourn’importe quel gène,
iln’y
a pas demélange
visible dela distribution des données du fait des effets très
faibles,
et donc nonindividualisables,
despolygènes.
De
plus,
legène majeur
étant entouré sur le chromo-some par d’autres
gènes,
l’étude de la liaison entre la distribution du caractère et laségrégation
d’allèles àdes locus marqueurs
répartis
sur legénome peut
venir
compléter
les donnéesphénotypiques
afind’identifier
plus
aisément laségrégation
au locusmajeur.
Trois
grands
groupes de méthodes de mise en évi- dence d’ungène majeur,
respectant cette démarchegénérale, peuvent
être arbitrairement définis selon letype
de donnéesprises
encompte.
Unpremier
groupe est constitué des méthodes utilisant des données issuesd’expérimentations spécialement
conçues pour la mise en évidence d’ungène majeur ;
ces méthodesont été essentiellement
développées
chez lesvégétaux
et les animaux de laboratoire. Un second groupe ras-
semble les méthodes tirant
profit
d’informations recueillies sur despopulations
nonexpérimentales ;
ces méthodes ont été surtout mises en oeuvre sur des
populations
humaines. Un troisième groupe enfin est constitué par les méthodes utilisant des marqueursgénétiques
dont la liaison avec d’éventuelsgènes
ayant un effet identifiable sur un caractèrequantita-
tif (de tels
gènes majeurs
sontappelés Quantitative
Trait Loci) est recherchée. Cet article
portera
sur des méthodesappartenant
aux 2premiers
groupes, la recherche deQTL
à l’aide de marqueursgénétiques
étant abordée dans l’article de Chevalet et Boichard (1992).
1 / Les données
1.1 / Populations expérimentales
L’analyse
de résultatsprovenant d’expériences
decroisements entre
lignées homozygotes
différant en 1locus est la méthode de référence pour mettre en évi- dence l’effet d’un
gène
sur un caractère (Elston et Stewart 1973). Eneffet,
enthéorie,
cedispositif expérimental
estoptimal
pour démontrer uneségré- gation
mendélienne. Leprotocole classique prévoit
dedisposer
de mesures sur les 2lignées parentales
(P,et
P 2 ),
sur les croisements Fi (PlxP2) et F, (F,xF,) etsur les croisements en retour BC, (F1XPJ et BC, (F,xP,). Les 2
lignées
Pi et P, étantsupposées
fixéesaux 2 états
homozygotes
AA et aa, la FI est alorshomogène hétérozygote
Aa et laségrégation
dugène peut
être mise en évidence par le caractèrecomposite
des distributions des croisements
F 2 ,
BC, etBC 2 ,
lesdistributions élémentaires étant celles des
popula-
tions
parentales,
P, etP 2 ,
et de la Fi(figure
1).Chez les animaux
domestiques,
ce schémaexpéri-
mental est
réalisé,
non pas avec deslignées
consan-guines,
mais avec des lots d’animaux deperformances extrêmes,
animaux sensibles et résistants à unemaladie par
exemple.
Si le raisonnement sur laségré- gation
au locusmajeur
demeure tout à fait valable dans ce cas, certains écarts auxhypothèses
duproto-
colethéorique peuvent
mener à une conclusion erro-née.
Ainsi,
leplus
souvent, les 2 lotsparentaux
cor-respondent
en fait à deux races différentes et lesparamètres
du croisement entre ces races, notam- ment les effets directs des races etl’hétérosis,
inter-viennent sur les moyennes des
types génétiques
croi-sés. La référence aux distributions des
performances
dans les races
parentales
et dans la F, n’est alorsplus
correcte pour rechercher les
proportions
d’unmélange
en seconde
génération
de croisement.Par
exemple,
en cequi
concerne l’effetd’hétérosis,
sous
l’hypothèse
deprésence
d’ungène majeur,
lesmoyennes des distributions intra
génotype
en F2 sontdécalées par
rapport
aux moyennes de référence (des AA enP i ,
aa en P2et Aa enF i ),
d’où des erreurs éven- tuelles de tri des animaux de la F2 et par suite uneperte
depuissance
de la méthode de détection. Al’inverse,
un effet direct de la race peut avoir sur la moyenne des distributions intratype génétique
desconséquences équivalentes
à celles de laségrégation
de 2 allèles à un locus
majeur.
Enconsidérant,
parexemple,
que les 2 racesparentales
Pi et P2 ont desperformances
moyennesrespectivement égales
à 0 età
2,
en l’absence d’effetd’hétérosis, l’espérance
de ladistribution des
performances
en FI est de 1 et elleest de
1/2,
1 et 3/2 enBC I ,
F2 et BC2.L’hypothèse
d’absence de
gène majeur
est malreprésentée
si ceseffets race ne sont pas
pris
encompte
dansl’analyse,
et la confusion entre une différence entre races et une
ségrégation
à un locusmajeur peut
alors seproduire.
En
effet,
unrapide
calculpermet
de voir que les mêmesespérances
des distributionsintra-type géné- tique
sont attendues dans le cas de laségrégation
de2 allèles codominants à un locus
majeur
tel que l’effetdu
génotype
AA est 0 et l’effet dugénotype
aa est 2.Cependant,
ces déviations parrapport
auxhypo-
thèses du modèle
théorique
ontl’avantage
d’être toutà fait
prévisibles
et modélisables : lesméthodes,
pourconserver leur
puissance
et leurrobustesse,
doiventsimplement
tenir compte desparamètres
du croise-ment entre les races utilisées.
Moins
prévisible,
mais sans doute trèsfréquente,
la non fixation des
populations parentales
Pi et P2aux 2 états
homozygotes
est un autretype
de dévia-tion par
rapport
auxhypothèses posées
dans le proto- colethéorique.
Laconséquence
directe est l’existence d’un biais entre les distributions desperformances
enP
i
,
P2 et FIet les distributions réelles intragénotype AA,
Aa et aa. Lesproportions
dumélange
destypes P
i
,
P2 et F, attendues en secondegénération
dans cecas ne sont
plus
connues apriori.
Laperte
d’efficacité est ici inévitable maispeut
varier d’une méthode àl’autre,
les différents tests étantplus
ou moinsrobustes à cet écart aux
hypothèses.
Cependant, malgré
cesquelques complications
parrapport
au schémaidéal,
cedispositif
reste lemeilleur pour tester l’existence d’un
gène majeur
etpour la prouver si la mise en évidence a eu lieu sur
des données &dquo;tout venant&dquo;. Dans ce cas, des animaux
ayant
une forteprobabilité
d’êtrehomozygotes
AA etaa sont
repérés
dans lapopulation
où legène
a été mis en évidence pour constituer les 2 lotsparentaux
Pl et P2.
1.2
/ Populations
nonexpérimentales
Lorsqu’il
n’est paspossible
dedisposer
de donnéesissues d’un
protocole expérimental,
la mise en éviden-ce d’un
gène majeur peut
tout de même être envisa-gée
dans unepopulation quelconque,
notammentdans une
population panmictique.
La démarcheadop-
tée est similaire à celle
qui
vient d’êtredécrite,
laségrégation
de 2 allèles A et a au locusmajeur
étantcette fois observée intra famille.
Chaque
famille del’échantillon,
parexemple
les 2parents
et leurs des- cendants (famillenucléaire),
est alorsl’équivalent
d’un
protocole expérimental
où lestypes parentaux pourraient
être des 3génotypes AA,
Aa ou aa.Connaissant les
génotypes
des parents, il est en effetpossible
deprévoir
lesproportions
attendues des 3génotypes
chez les descendantsd’après
les lois de Mendel (tableau 1).La taille
obligatoirement
réduite de chacun des miniprotocoles
quereprésentent
les familles nucléaires est unpremier
inconvénient parrapport
à l’utilisation de donnéesexpérimentales. Cependant,
celui-ci est souvent atténué chez les animaux domes-
tiques
parl’adoption
d’un modèled’analyse
hiérar-chique, père,
mèreintra-père, qui permet
de considé-rer des familles de demi-frères de
père qui
sontd’effectif
beaucoup plus important.
Un second incon-vénient est de devoir raisonner avec des
probabilités
de
génotypes parentaux
et nonplus
avec une structu-re
génotypique
initialeparfaitement
connue.Toutefois,
des effectifs trèsimportants, comparative-
ment à ce
qui
est réalisable enexpérimentation,
per- mettent de compenser enpartie
ces incertitudes lors de l’étude de données tout venant.Ainsi,
la notion de variabilité entre famillespeut
êtreexploitée :
l’exis-tence d’une
ségrégation
au locusmajeur
s’accom-pagne en effet d’une
hétérogénéité
des types de distri- butions intra famille liée à l’existence de combinai-sons différentes des
génotypes parentaux
(tableau 2).Il faut par ailleurs
signaler
que cespopulations
non
expérimentales
sont très souvent, dans le cas des animauxd’élevage,
despopulations
soumises à sélec-tion. Si un
gène majeur
influence le caractère sélec-tionné,
lafréquence
du ou des allèles favorables aug- mente alors au cours desgénérations.
Deplus,
s’ilexiste des
gènes
marqueurs endéséquilibre
de liaisonavec ce
locus,
les allèles marqueurs liéspréférentiel-
lement aux allèles favorables du
gène majeur
sontégalement
entraînés par la sélection. Un tel effet est ditd’auto-stop (hitch-hicking effect),
l’observation au cours de la sélection d’une évolution de lafréquence
d’un allèle marqueur, non
explicable
par la seule dérivegénétique,
révélant l’éventuelleprésence
d’un locusmajeur.
L’augmentation
de lafréquence
des allèles favo- rables au locusmajeur peut
ainsi être trèsmarquée
dans le cas de la sélection delignées
dites&dquo;hyper&dquo;.
Leprincipe
de ceslignées
est d’utiliser une base de sélection extrêmementlarge,
lapopulation
nationalepar
exemple,
afin depouvoir appliquer
une intensitéde sélection
importante,
souvent inférieure à 1p.mille,
en rassemblant dans unpetit
noyau lesmeilleurs
reproducteurs
mâles ou/et femelles. Avecune telle
procédure,
il estpossible
de retenir des ani-maux rares
porteurs,
à un locusmajeur,
d’allèlesfavorables
qui
ne seraient pas détectés par l’observa-tion de l’évolution de la moyenne du caractère dans la
population.
Ils’agit
donc là d’un schéma trèspuissant
pour la mise en évidence de l’effet
majeur
d’ungène, qui
adéjà permis
de révéler l’existence de 2gènes d’hyperovulation
chez les ovins : legène
Booroola (rassemblement en 1953 d’animaux extrêmes dansune
lignée
de sélection du CSIRO en Australie) et récemment legène
Inverdale lié au sexe(criblage
d’animaux
hyperprolifiques
par le MAF en Nouvelle Zélande). Bienentendu,
la sélection d’unelignée
&dquo;hyper&dquo;
ne prouve en rien l’existence d’ungène
à effetmajeur.
Seuls desaccouplements
raisonnés entre desanimaux extrêmes et des animaux de niveau moyen, éventuellement suivis par des
accouplements
enretour vers les extrêmes ou la moyenne, permettent de tester cette
hypothèse : l’équivalent
duprotocole classique
décritplus
haut est alors réalisé.2 / Les méthodes
2.1 / Principe
Les données consistent en un ensemble d’observa- tions
(y,,y,,
...y,,)=y qui
sont considérées comme les réalisations d’une variable aléatoire Y. Leproblème posé
est de tester unehypothèse portant
sur la distri- bution de Y sachant y. Pourcela,
la démarchegéné-
rale est celleappliquée
dans tout teststatistique.
Lapremière étape
est de choisir unefonction,
1(Y) ditestatistique
de test,qui
permet de résumer l’informa- tiondisponible
par une valeurnumérique.
Il fautensuite
connaître,
ou éventuellementétablir,
la loi deprobabilité
suivie par 1 sousl’hypothèse particulière
à tester, c’est à dire savoir pour toute valeur de la sta-tistique
1quelle
est saprobabilité
de réalisation si cettehypothèse
est vraie. L’utilisateur du test, s’étant fixé lerisque
depremière espèce
aqu’il
accep- te deprendre (risque
de conclure quel’hypothèse
tes-tée est fausse alors
qu’elle
estvraie), peut
déduire decette loi le domaine de
rejet
del’hypothèse.
Dans lecas des tests que nous allons
envisager ici,
celarevient à connaître la valeur de 1(Y) à
partir
delaquelle
ilrejettera l’hypothèse,
c’est à dire le seuil À tel que Prob(1(Y)>7!)=a. La dernièreétape
consiste à calculer la valeurprise
par 1 àpartir
des données et à confronter le résultatnumérique
obtenu à cetensemble de
rejet :
si1(y)>!, l’hypothèse
estrejetée,
si1(y)<7! l’hypothèse
estacceptée.
Dans laplupart
descas, les méthodes
employées
pour la mise en évidence d’ungène majeur
relèvent de la théorie des testsd’hypothèses emboîtées,
c’est à dire quel’hypothèse particulière
à tester, ditehypothèse
nulle et notéeH&dquo;,
est testée contre une
hypothèse générale
(Hi)qui
lacontient. En
pratique, l’hypothèse
nulle Ho que nous voulons tester est presquetoujours
celle d’un déter- minismepolygénique
ducaractère, classiquement
caractérisée par la valeur du coefficient d’héritabilité.
Cette
hypothèse particulière
est emboîtée dansl’hypothèse générale
H, d’un déterminismemixte,
où l’effet d’ungène majeur s’ajoute
à l’héréditépolygé- nique &dquo;classique&dquo;
du caractère(figure
2). ).Dans ces
conditions,
lerisque
de conclure à l’exis- tence d’ungène majeur
alors que cela est faux est lerisque
depremière espèce qui
est fixé par l’utilisa- teur. Par contre, lerisque
de conclure à l’absence degène majeur
alorsqu’il
en existe un,risque
de secon-de
espèce
etcomplément
à 1 de lapuissance
du test(figure 2),
n’est pas contrôlable par l’utilisateur maisvarie avec les
paramètres
caractérisant le détermi- nismegénétique
du caractère (valeurs moyennes desgénotypes
au locusmajeur,
variances intragénotype, fréquences alléliques,
héritabilité ...), le nombre,
la taille et la structure des familles constituant l’échan- tillon dedonnées, l’adéquation
entre le modèlegéné- tique posé
pour écrire le test et la réalitébiologique.
La
qualité statistique
d’une méthode donnée peut êtreappréhendée
au travers de 3caractéristiques :
son
niveau,
sa robustesse et sapuissance.
Leplus
souvent, seule la loi
asymptotique
de lastatistique
detest est connue; en dehors de ces
conditions,
parexemple
pour des nombres ou des tailles de familleslimités,
utiliser le seuil derejet
donné dans les tablesnumériques peut impliquer
que lerisque
a’ réelle-ment
accepté
estsupérieur
aurisque
a choisi. La pre- mièrequalité
d’une méthode est donc d’avoir unniveau que l’utilisateur du test
peut
contrôler à dis-tance finie. Par
ailleurs,
les tests construitsreposent
presque
toujours
surl’hypothèse
de normalité des distributions des variables aléatoires étudiées : la secondequalité
d’une méthode est d’être robuste lors-qu’il
existe un écart à la normalité de ces distribu-tions,
c’est à dire notamment d’avoir des seuils derejet
de Hoqui
restent corrects dans ce cas.Enfin,
àniveau
donné,
les différentes méthodes peuvent être évaluées en terme depuissance,
c’est à dire sur leurscapacités respectives
à détecter tel ou teltype
degène majeur lorsqu’il
estprésent.
2.2 / Diversité des méthodes
Les nombreuses méthodes
qui
ont étéproposées
pour détecter un
gène majeur
peuvent être classéesen fonction du critère
statistique qu’elles
utilisent.a / Indicateurs
simples
Un
premier
groupe rassemble des méthodes intui- tives reposant sur la valeurprise
par diverses statis-tiques
élémentaireslorsqu’il
existe uneségrégation
àun locus
majeur.
Ces indicateurssimples
sont soitdes critères
classiques
pour étudier la forme de la dis- tribution desperformances,
soit des critèresspécifi- quement
construits pour la mise en évidence d’uneségrégation
mendélienne. Ilsprennent plus
ou moinsen considération la structure
génétique
des données.Ainsi,
la détection d’ungène majeur
affectant uncaractère à variation continue est traditionnellement associée à la recherche d’écarts à la normalité de la distribution des
phénotypes
dans lapopulation,
notamment d’une
asymétrie
ou d’unaplatissement,
révélateurs de l’existence d’un
mélange
de lois sous-jacent
à la distribution totale observée. Des testsclassiques
denormalité,
test D deKolmogorov- Smirnov,
tests sur les coefficients de skewness(asy-
métrie) ou de kurtosis(aplatissement)
notamment,sont alors utilisés.
Cependant,
ils nepeuvent
être considérés que comme unepremière approche
carleur manque de robustesse est
évident,
la distribu- tion desphénotypes pouvant
s’écarter de la normalité pour bien d’autres raisons que laprésence
d’ungène
à effet fort.
La
prise
encompte
d’une informationgénéalogique peut
êtreenvisagée
si des données concernant unensemble d’individus
répartis
enfamilles,
depleins-
frères ou de
demi-frères,
sontdisponibles.
Le but desdifférents tests
proposés
est de testerl’hétérogénéité, évoquée précédemment
(tableau2),
destypes
de dis- tribution intra-famille afin de révéler l’existence de 2 groupes de familles : les familles où des allèles sont enségrégation
augène majeur (plusieurs génotypes
existent dans la même famille) et les familles où le
gène
est fixé à un étathomozygote
(tous les membres de la famille ont le mêmegénotype).
Divers critèresexistent pour tester soit
l’hétérogénéité
des variancesintra-famille (Bartlett
1937),
soitl’hétérogénéité
desformes de distribution intra-famille
(asymétrie
ouaplatissement)
(Mérat1968),
soit la curvilinéarité de la relation entre moyenne et variance de la famille (Fain 1978).La
possession
d’informations sur lesperformances
propres des parents est à
l’origine
d’un dernier ensemble de méthodessimples.
L’idéegénérale
estqu’un
descendant ressemble moins à la moyenne deses parents
qu’à
l’un d’entre euxlorsqu’un gène majeur
estprésent.
Ceprincipe
est utilisé par des tests derégression
entre lesperformances
desparents
et des descendants (Hanset et Michaux 1985)et par
l’analyse exploratoire
structurée des données (SEDA=StructuredExploratory
DataAnalysis)
(Karlin et al 1979). Cette dernière utilise 3 critères destinés à testerl’hypothèse spécifique
d’un détermi- nisme mendélien : l’index MGI(Major
GeneIndex),
lafonction OBP
(Offspring
Between Parents) et la cor-rélation MPCC
(Midparental
Pairwise Correlation Coefficient).Parmi toutes ces
propositions,
les testsd’hétérogé-
néité des variances
intra-familles,
surlesquels
nousreviendrons,
ou de curvilinéarité de larégression
moyenne variance intra-famille sont souvent les
plus puissants.
En cequi
concerne letype
degène majeur présent,
lapuissance
des tests est d’autant meilleure que lesfréquences alléliques
sontproches
et l’écartentre effets moyens des
génotypes important,
ces 2tests étant
particulièrement adaptés
pour la mise enévidence de
gènes
caractérisés par une dominancecomplète
ou par une distribution du caractèreplus
variable chez les
homozygotes
de moyenne élevée.Ces 2 critères
présentent
par ailleursl’avantage important
d’avoir des distributionsasymptotiques,
sous
H o ,
connues et des seuils derejet
tabulés.Cependant,
leur robustesse demeure très faible carils sont très
dépendants
del’hypothèse
de normalité de la distribution desphénotypes intra-génotype.
Ceci limite
beaucoup
leurportée,
et ce d’autantplus qu’ils
sontplutôt
utilisés pour l’étude de la transmis- sion de caractères dont la distribution dévie de la nor-malité (ce
qui
est observélorsqu’il
existe effective-ment un
gène majeur) (Le Roy
et Elsen 1992).b / Tests du maximum de vraisemblance
Un second groupe est constitué par des
méthodes, numériquement plus complexes, qui
sont des testsdits du maximum de vraisemblance. Etant donnée
une
hypothèse,
l’informationdisponible
estintégrée
dans une fonction de
vraisemblance,
notéeM, qui
estla
probabilité
d’observer les données sous cettehypo-
thèse : en
reprenant
les notationsprécédentes, M o ( Y )
est la
probabilité
d’observer y sous Ho etM,(y)
la pro- babilité d’observer y sous Hi. Leprincipe
du test estde retenir
l’hypothèse
souslaquelle
la vraisemblance des données est laplus grande,
c’est-à-dire le modèlegénétique expliquant
le mieux les distributions obser- vées. Les fonctions de vraisemblancedépendent
d’uncertain nombre de
paramètres
inconnus utiles à la définition del’hypothèse (moyennes, variances,
fré-quences
alléliques,
héritabilité ...) :6!=(eo,,6&dquo;z
... 6&dquo;&dquo;)sous Ho et 6,=(6&dquo;,6,2 ... 81&dquo;) sous H,. La démarche
adoptée
consiste à rechercher les valeurs6&dquo;
et8 1 appelées
estimations du maximum devraisemblance, qui
rendent maximales les fonctionsM o ( Y )
etM,(y)
età déclarer que H, est vraie si
1VI!(y)
estsignificative-
ment
plus grande
que1VI,(y).
Lastatistique
de testemployée
pourprendre
cette décision est lerapport
des maximums de vraisemblance
I(y)=-2Log(Mo(y)/M)(y))
dont la distributionasympto- tique
est une loi deX 2
avec un nombre dedegrés
deliberté
égal
au nombre deparamètres
de H,qu’il
fautfixer pour revenir sous Ho.
De nombreux tests de mise en évidence d’un
gène majeur appartiennent
à cettecatégorie
de statis-tiques, depuis
les tests de multimodalité de la distri- bution desphénotypes
dans lapopulation jusqu’aux
méthodes très
complexes
utilisées engénétique épidé- miologique
et connues sous le nomd’analyse
deségré- gation.
Parrapport
aux indicateurssimples présentés plus haut,
ces méthodes sont enprincipe plus puis-
santes et il existe diverses
techniques
pour leur assu- rer une bonne robustesse. Deplus,
ellesprésentent
legros avantage de fournir des estimations des diffé- rents
paramètres qui permettent, lorsqu’un gène majeur
estdétecté,
de lecaractériser, première étape indispensable
à son utilisation.Enfin,
elles sontapplicables quelles
que soient lesdonnées, expéri-
mentales ou non, et
peuvent prendre
encompte
defaçon
très fidèle la structuregénétique
de lapopula-
tion.
Les méthodes les
plus simples
serapprochent
dansleur
conception
des indicateursprésentés précédem-
ment car elles
reposent
sur la mise en évidence d’un écart à la normale d’un critère caractérisant la distri- bution desphénotypes. Ainsi, l’hétérogénéité
desvariances intra-famille est le
plus
souvent testée parun test du maximum de
vraisemblance,
le test deBartlett (1937). La recherche d’une bimodalité de la distribution des données est
généralement entreprise
en comparant les vraisemblances de l’échantillon
sous les modèles d’unimodalité (Ho) et de bimodalité (H
l
)
(Titterington et al 1985) :
où
f,(y i )
est une loi normale de moyenne pk et de variance (j2.L’analyse
deségrégation
(Elston 1980) reposequant
à elle sur l’élaboration de modèlesplus
com-plets,
incluant des facteursgénétiques
et environne- mentaux,qui permettent
de tester différenteshypo-
thèses de transmission du caractère : modèle spora-
dique (pas
degène agissant
sur lecaractère),
mono-génique
(1 seulgène
à effetfort), oligogénique (quelques gènes
à effetsindividualisables), polygé- nique
(une infinité degènes
à effetsfaibles),
mixte (1gène majeur
et despolygènes)...
La fonction de vrai- semblancepermet
dedécrire,
enthéorie, n’importe quelle
structure depopulation
bien que dessimplifi-
cations
numériques
soient souventindispensables
pour rendre la méthode
opérationnelle.
Troistypes
deparamètres
interviennent dans l’écriture de la vrai-semblance,
décrivant 3 distributions : (1) la distribu- tion desgénotypes
dans lapopulation,
(2) la distribu- tion desgénotypes
des descendants conditionnelle- ment auxgénotypes
desparents,
(3) la distribution desphénotypes
conditionnellement auxgénotypes.
Laprobabilité
duphénotype
dechaque
individu dupedi-
gree est
décomposée
en utilisant le théorème des pro- babilités conditionnelles selon :Prob(phénotype)
=E!e!!,yPe Prob(génotype)Prob(phénoty- pe/génotype)
La
probabilité
dugénotype
est accessible par l’esti- mation desparamètres
des distributions (1) et(2),
selon que l’individu est un fondateur (individu deparents
inconnus) ou un non fondateur dupedigree.
La
probabilité
d’observer lephénotype
sachant legénotype,
encoreappelée pénétrance
dugénotype,
est donnée par la distribution (3).Par
exemple,
dans le cassimple
du test del’hypo-
thèse d’un déterminisme
sporadique
contre celle d’undéterminisme
monogénique,
avec des données issues d’unprotocole
de croisement entre 2lignées
P, etP l ,
les vraisemblances s’écrivent :sous Ho(déterminisme
sporadique) :
sous H, (déterminisme
monogénique) :
où
n, est le nombre d’animaux de
type génétique j,
n estle nombre total
d’animaux, f,(y
i
)
est la distribution desperformances
des ani-maux de
génotype k,
parexemple
une loi normale de moyenne p, et devariance,
commune à tous lesgéno- types,
a2.L’approche, présentée
ici dans une situation trèssimple,
segénéralise
sans difficultéthéorique
au casd’un
pedigree quelconque. Cependant,
l’existence de relations deparenté complexes
dans lespedigree
ani-maux, notamment de boucles de
consanguinité
et demariage,
rend le calcul exact de la vraisemblance des observationsnumériquement
très coûteux. Sousl’hypothèse
d’une hérédité mixte du caractère, ce cal- cul devientrapidement impossible
du fait de l’accu- mulation des sommations sur lesgénotypes
au locusmajeur
et desintégrations
sur les valeurspolygé- niques
des animaux. Plusieurssimplifications
numé-riques
ont donc étéproposées
pouradapter
cesméthodes à l’étude de
populations
d’animaux domes-tiques
(LeRoy
et al 1989).Conclusion
L’analyse
deségrégation
est la méthode de réfé-rence pour la mise en évidence d’un
gène
à effetmajeur
sur un caractère. Ellepermet
desynthétiser
toute l’information
disponible,
ycompris
les données relatives à desgènes
marqueurs, pour comparer diffé- rents modèles de transmission du caractère. Enplus
d’une méthode de test d’une
hypothèse particulière d’hérédité,
elle estégalement
une méthode d’estima- tion desparamètres
caractérisant un déterminismegénétique. Cependant,
elle nécessite de gros moyens de calculs d’où l’intérêt nonnégligeable
de certainscritères
simples
dans unelogique
de recherchesysté- matique,
parexemple
àpartir
des fichiers nationaux du contrôle desperformances,
d’éventuelsgènes
àeffet
majeur.
La détection d’un
gène
à effetmajeur
par des tech-niques statistiques
telles quel’analyse
deségrégation
ne constitue
qu’une première étape.
Eneffet,
tous cestests
acceptent,
pardéfinition,
unrisque
non nul decommettre une erreur en acceptant
l’hypothèse
del’existence d’un
gène majeur.
Ils nécessitent donc tou-jours
une confirmationexpérimentale
car aucuneméthode
statistique,
même trèsévoluée,
nepeut
rem-placer
undispositif
&dquo;bien fait&dquo; pour l’obtention des données. Deplus,
avant d’utiliser ungène majeur
pour l’amélioration d’un caractère, il faut vérifier ses
effets sur les autres caractères
économiquement importants. Enfin,
l’utilisation d’un telgène
est facili-tée par l’existence de
gènes
marqueursproches qui permettent
d’identifier individuellement lesgéno- types
desreproducteurs.
La mise enplace
d’un proto- coleexpérimental peut
donc êtreégalement
l’occasionde rechercher ces marqueurs.
Références bibliographiques
Bartlett M.S., 1937. Some examples of statistical methods of research in agriculture and applied
biology.
J. R. Soc.(suppl),
4, 137-170.Chevalet C., Boichard D., 1991. Utilisation de marqueurs pour localiser les gènes responsables de la variabilité des caractères quantitatifs (&dquo;(aTL&dquo;). Séminaire, &dquo;Eléments de
génétique quantitative et application aux populations animales&dquo;, Port d’Albret, 14-18 Octobre 1991, II : Les bases de la génétique quantitative, - , Département de Génétique Animale, INRA.
Elston R.C., 1980.
Segregation
analysis. In : Mielke J.H., Crawford M.H. (ed.), Currentdevelopments
inanthropological
genetics, 1, 327-354, Plenum Publishing Corporation, New York.Elston R.C., Stewart J., 1973. The analysis of quantitative
traits for simple genetic models from parental, FI and
backcross data. Genetics, 73, 695-711.
Fain P.R., 1978. Characteristics of
simple sibship
variancetests for the détection of major loci and
application
to height, weight and spatial performance. Ann. Hum. Genet., 42, 109-120.Hanset R., Michaux C., 1985. On the genetic determinism of muscular hypertrophy in the Belgian White and Blue cattle breed. II. Population data. Génét. Sel. Evol., 17, 369-386.
Karlin S., Carmelli D., Williams R., 1979. Index measures
for assessing the mode of inheritance of continuously
distributed traits. I. Theory and justifications. Theor. Pop.
Biol., 16, 81-106.
Le Roy P., 1989. Méthodes de détection de gènes majeurs.
Application aux animaux domestiques. Thèse de Doctorat,
Université Paris Sud-Orsay, 229pp.
Le Roy P., Elsen J.M., 1992. Simple test statistics for major
gene détection : a numerical comparison. Theor.
Appl.
Genet., 83, 635-644.
Le
Roy
P., Elsen J.M., Knott S., 1989. Comparison of fourstatistical methods for détection of a major gene in a progeny test design. Genet. Sel. Evol., 21, 341-357.
Mérat P., 1968. Distributions de
fréquences,
interprétationdu déterminisme génétique des caractères
quantitatifs
etrecherche de &dquo;gènes majeurs&dquo;. Biometrics, 24, 277-293.
Titterington D.M., Smith A.F.M., Makov U.E., 1985.
Statistical analysis of finite mixture distributions, John Wiley and Sons, New York.