Les bases de la génétique quantitative. Les méthodes d’estimation de l’héritabilité et des corrélations génétiques

(1)

HAL Id: hal-02701515

https://hal.inrae.fr/hal-02701515

Submitted on 1 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Les bases de la génétique quantitative. Les méthodes d’estimation de l’héritabilité et des corrélations

génétiques

B. Poujardieu, J. Mallard

To cite this version:

B. Poujardieu, J. Mallard. Les bases de la génétique quantitative. Les méthodes d’estimation de l’héritabilité et des corrélations génétiques. Productions animales, Institut National de la Recherche Agronomique, 1992, 1992, pp.87-92. �hal-02701515�

(2)

B. PO UJARDIE U J. MALLARD

INRA Station d Amélioration génétique des animaux BP 27 31326 Castanet Tolosan Cedex

*

INRA-ENSA Laboratoire de Génétique ^Animale

65 rue de Saint Brieuc 35000 Rennes

Les bases de la génétique quantitative

Les méthodes d’estimation de l’héritabilité

et

des

corrélations génétiques

Résumé. Pour sélectionner, il ^estnécessaire de connaître les valeurs de certains paramètres énétiques ^telsque les héritabilités et les corrélations génétiques. Leur estimation directe ne peut ^se

!aire puisque

le déterminisme

génétique

des caractères d’importance économique êstinfiniment trop complexe pour que l’on puisse ôbserverles valeurs génétiques âdditives.

Il ^est_par^contre

possible

d’observer les covariances entre des individus apparentés, ^dues^aux^fractions

de génome qu’ils possèdent en commun. On peut alors calculer à partir ^de^cesparamètres statistiques

les paramètres génétiques recherchés.

Les estimateurs utilisés _pourobtenir ces covariances entre apparentés ^sontcomplexes. Ils doivent porter

sur des populations ^de^trèsgrande ^taille,^et^doncréparties ^{sur une}^aire^{vaste et}hétérogène. ^Deplus, ^les dispositifs ainsi réalisés ne peuvent ^êtreorthogonaux. Les méthodes employées ^n’ontpas de

propriétés

statistiques permettant de conclure à l’absolue suprématie ^{de l’une}par rapport ^aux^autres.^{Leur mise}

en oeuvre nécessite des procédures numériques compliquées, gourmandes ^deressources informatiques.

Mais, ^au^{bout du}_compte,les valeurs estimées donnent satisfaction ^ausélectionneur.

Pourquoi ^estimer^cesparamètres

Nous sommes placés êntredeux mondes bien diffé- rents. Celui, imaginaire êtconceptuel, ^{de la}géné- tique quantitative permet de décrire la transmission héréditaire de caractères dont le déterminisme, géné- tique êtenvironnemental, â^été^décrit.Celui, ^bien réel, ^despopulations animales chez lesquelles ^{on sou-}

haite améliorer la _moyennede certains caractères que l’on sait présenter ^uneimportance économique,

mais dont on est loin de connaître le déterminisme

génétique.

C’est dans le premier que l’on peut ^définir^sans équivoque ^{la valeur}génétique additive d’un individu pour ^uncaractère donné. Rappelons que ^cettevaleur est ainsi construite _quela descendance d’un individu

aura en espérance ⁽⁼^enmoyenne ^surtous les descen- dants possibles ^issus^de^tous^lesaccouplements possibles _{pour cet}individu et répartis ^dans^toutes^les

conditions possibles ^du^milieu)la moitié de cette valeur additive.

On conçoit aisément que c’est dans le second _que

ce paramètre ^{a un}^intérêtopérationnel considérable.

Retenir comme reproducteur ^celuiqui ^a^laplus grande valeur génétique additive rend maximales les chances d’avoir une descendance la plus productive possible.

Malheureusement, ^lescaractères économiquement

intéressants sont extrêmement synthétiques : ^la croissance, la viabilité embryonnaire, ^laqualité ^de^la viande, ^etc.Les métabolismes qui ^assurent^leur

expression ^sontextraordinairement complexes, ^inter-

connectés et globalement régulés, ^mettant^enjeu ^un

nombre de gènes înconnus,^mais^sans^doute^très grand, interagissant êntreêux.La belle modélisation du fonctionnement du petit opéron lactose de E. Coli,

réalisée _parChevalet, illustre bien la complexité ^du problème. ^{Il faut}^doncrenoncer au rêve d’observer les valeurs génétiques ^additivesvraies dans ^unepopula-

tion réelle, ^{faute de}pouvoir ^ne^serait-cequ’écrire ^le

déterminisme génétique ^sousjacent. ^Neparlons pas de son éventuel traitement.

Faute de pouvoir les calculer exactement, ^nous

sommes contraints d’en rechercher des valeurs _appro- chées, que ^nousappellerons des index de sélection. Il

s’agit d’utiliser des mesures effectuées sur les individus constituant la population pour réaliser une pré-

diction de cette valeur. Nous avons vu dans l’article de Mallard qu’il ^étaitpossible ^deprédire ^une^valeur

A inconnue, par une mesure C statistiquement liée, ^à condition _quel’on connaisse les différents moments d’ordre 2 de la distribution conjointe ^de^ces^deux

variables (pour ^lacompréhension ^de^cettephrase, ^se reporter ^au^texte^deMallard).

La mise en oeuvre de l’indexation _supposeainsi que l’on connaisse toute une série de variances et de covariances, ^et^enparticulier ^lesparamètres géné- tiques évoqués dans les articles de Minvielle et Ollivier. Les plus importants ^sontles héritabilités des caractères et les corrélations génétiques qui ^les lient, ^mais^les^variancesde dominance et d’épistasie

sont également nécessaires, ^surtoutquand ^on^s’inté-

resse au résultat du croisement entre populations.

(3)

Ces statistiques ^sontbien évidemment inconnues, de sorte qu’il ^faut^sedébrouiller _pouren obtenir un

ordre de grandeur aussi &dquo;ressemblant&dquo; _quepossible.

En termes plus orthodoxes, il faut les estimer.

Nous prendrons l’exemple ^de<JA2, ^variancegéné- tique additive, qui constitue le numérateur de l’héri- tabilité (h2⁼<JA2/( <JA2 + <JD2 ⁺<J,2⁺<JE2) )pour exploiter ^la

démarche conceptuelle qui ^conduit^à^sonestimation.

1 / Principe ^del’estimation

1.1 / Paramètres génétiques

et covariances entre apparentés

Les valeurs génétiques ^A^ontété créées dans l’uni-

vers théorique ^{de la}génétique quantitative. ^Personne

ne peut ^setarguer d’en avoir observé une dans la réa- lité : l’estimation directe de sa variance n’est _{pas pos-} sible. Par contre, ^Minvielle^a^démontréque, ^{sous cer-} taines hypothèses génétiques, ^lescovariances entre certains types d’apparentés ^étaientdes fonctions

simples - linéaires - des diverses variances géné- tiques. Rappelons ^enparticulier que :

La notation CovPF, condensé de covariance entre

un père ^et^un^fils,représentant ^lacovariance entre la

mesure d’un caractère chez un individu et la mesure

du même caractère réalisé chez son fils. DF, F, ^MF représentent respectivement ^descouples ^{de demi-} frères, ^{de frères}^etmère-fille.

Il est donc équivalent d’estimer les variances géné- tiques ^ou^lescovariances entre apparentés :

0! ⁼²^CovPF⁼²^CovMF⁼⁴^CovDF 6D

2²2 (CovF - CovDF) (1)

1.2 / Principe de l’estimation

Les populations animales réelles sont structurées par ^unréseau très dense d’apparentements. ^Tout

individu a un père, îlêst^bien^rarequ’il ^n’aitpas - surtout chez les espèces polytoques - ^desfrères, ^des demi-frères, êtc.Ônpeut ^donc^sanspeine extraire de la population ûngrand ^nombre^decouples d’apparen-

tés d’un type donné. Sur la figure 1, ^onpeut ^voir^le

nuage des points représentant ^les^valeursconjointes

des mesures des couples père-fils ^dans^unepopula-

tion. CovPF exprime l’aplatissement ^dunuage de

points ^(voirl’article de Mallard). Ces données renferment donc toute l’information suffisante _pourréaliser

une estimation de ce paramètre ^(nousdiscuterons dans la partie ^suivante^desproblèmes statistiques posés).

Admettons _quenous disposions de l’estimation de diverses covariances entre apparentés ^dansûne population réelle. Si nous supposons que le détermi- nisme génétique ^du^caractère^considéréest exactement celui dont le développement â^conduitâux^for-

mules (1), ^{nous en}déduisons les estimations des

paramètres génétiques ^dont^nous^avonsbesoin. C’est à ce niveau _quese réalise la jonction ^entre^les

modèles théoriques ^etla réalité des populations ^ani-

males.

1.3 / Retour sur les hypothèses sousjacentes

Il reste bien sûr en suspens le Si. Nous avons sou-

ligné dans l’introduction qu’il ^est^bienpeu réaliste,

tant les modèles les plus complexes ^degénétique quantitative paraissent simplistes ^face^à^{la réalité} biologique. ^Mais^ces^formules⁽¹⁾^vont^de^surcroît

nous permettre ^deporter ^unjugement ^sur^{le bien}

fondé de cette hypothèse. ^Ony lit _parexemple que CovPF ⁼CovMF ⁼2 CovDF

Si les estimations de ces quatre termes sont

proches, ^{on en}^concluraque cette hypothèse, pour aussi irréaliste qu’elle soit, ^rendcompte ^defaçon

satisfaisante de la réalité observée. La première éga-

lité par exemple indique que le fait de n’avoir inclus que des gènes autosomaux dans le modèle est a poste-

riori acceptable. ^Demême, ^lacomparaison ^{de CovF}^et

2CovDF permettra ^deporter ^un^certainjugement ^sur l’importance des effets de dominance (a&dquo;z, ^DFrepré-

sente des demi-frères ayant ^une^mère^en^commun).

En définitive, ^lapratique de la sélection a depuis longtemps tranché. Toute la sélection est basée sur

l’acceptation ^deshypothèses ^{de la}génétique quanti-

tative. Or, ^cette^sélectionêstêfficaceêtles simula- tions montrent qu’il y aurait _peuà gagner - êneffica- cité de la sélection - à utiliser des modèles plus ^complexes, conduisant à des développements êxtrême-

ment lourds.

Cela ne veut bien _{sûr pas}dire _que,dans la réalité, les 105 gènes ^d’unorganisme additionnent des effets infinitésimaux, ^lesphénomènes d’interaction entre loci restant négligeables. ^On^{sait bien}que c’est faux.

Mais globalement, ^{sur un}plan statistique, ^{la résul-}

tante de l’extrême complexité biologique est peu diffé- rente - à l’intérieur d’une population donnée - des conséquences ^{du modèle}polygénique.

Cette approximation êstûnpeu de même nature que l’assimilation d’une courbe quelconque ^à^sa^tan- gente âuvoisinage ^dupoint ^detangence. Ênûnâutre point, ûneapproximation ^linéairepourra également

être définie, ^mais^latangente ^seradifférente. De

même, ^onretrouvera des phénomènes d’interaction - dominance et épistasie - quand ^ons’intéressera à plu-

sieurs populations, ^notamment^au^travers^{du croise-}

ment (voir l’article de Brun). )..

2 / Les problèmes statistiques posés

Nous venons de démontrer qu’il &dquo;suffit&dquo; d’estimer des covariances entre apparentés. Prenons le cas

d’une covariance père-fils. ^Troisproblèmes ^d’ordre statistique ^seconjuguent pour rendre inextricable ce

&dquo;il suffit&dquo; : la précision ^desestimations, ^la^non^indé- pendance ^desdonnées, ^ledéséquilibre.

2.1 / Précision des estimateurs

Appelons ^Nle nombre d’objets utilisables _pour estimer dans la population ^leparamètre statistique

recherché. Ce sera par exemple le nombre de mesures

réalisées si l’on désire connaître la variance ou le nombre de couples représentés ^sur^lafigure 1 pour estimer CovPF.

N est forcément fini, ^desorte que l’estimation tirée de cet échantillon limité est imparfaite. ^Si^nous jouons ^àpile ^ou^{face -}^{avec une}pièce ^nontruquée - ^la

(4)

probabilité ^depile ^est^de1/2 ; ^{mais si}^nous^effectuons

seulement N ⁼9 lancers, ^lepourcentage ^de^cas^où pile apparaît ^n’estpas de 1/2 exactement. Nous

savons bien _parcontre que si N devient très grand,

une valeur différente de 1/2 nous fera suspecter ^l’hon-

nêteté de la pièce ^oudu lanceur.

De même, imaginons que, ^surla figure 1, ^nous

ayons retrouvé ^uncouple père-fils - ^noté^{A - oublié}

dans la population. ^Sonreport ^va^diminuerl’aplatis-

sement du _nuageet donc l’estimation de la covarian-

ce. B aurait eu l’effet inverse.

Cette incertitude sur l’estimation, ^liée^à^un^échan-

tillon de taille limitée, ^est^bien^connuequand ^ils’agit

de l’estimation d’une _moyenne.Nous allons la maté- rialiser _parl’exemple suivant. Nous disposons ^d’une population infinie dans laquelle l’histogramme ^d’une

mesure est centrée sur 10 et a un écart type ^de¹⁰ (elle êst^deplus supposée normale dans ce cas). Nous extrayons ûnéchantillon de taille limitée (N ⁼40) d’individus indépendants êtêstimonsmoyenne et variance. Nous trouverons des valeurs différentes de 10. Recommençons ^{avec un}âutreéchantillon de même taille : le hasard dans la constitution de ce

nouvel échantillon donnera des valeurs différentes.

Sur la figure ²^ont^étéreportés ^deuxpetits segments qui renferment toutes les valeurs trouvées comme

estimation de la moyenne et de la variance. Plus exactement, ^cesegment ^renferme^{95 %}^de^toutes^ces

estimations : on a continué de considérer _que5 % constituent ^unequantité ^de^casnégligeable ^en^statistique, ^de^sortequ’on assimile 95 % et &dquo;toutes les valeurs&dquo;. La longueur ^de^cessegments porte ^le^nom d’intervalle de confiance des estimations de la _moyen-

ne et de la variance. Plus N est grand, plus ^ils^sont petits.

L’intervalle de confiance d’une moyenne est ^une notion qui ^nous^estfamilière. On voit sur cet exemple

que pour N ⁼40 il est raisonnablement réduit (tout expérimentateur raisonnable s’estimera bien doté si

chaque ^caseélémentaire de son dispositif ^atteint^cet effectif). ^Parcontre cet exemple montre que les moments d’ordre 2 sont beaucoup plus difficiles à estimer. Il faudrait plus ^de⁴⁰⁰^donnéespour que l’intervalle de confiance de 6atteigne la taille de celui de la _moyennede 40 données.

Cela se comprend intuitivement : créons le _nuage de la figure ¹^enaccumulant un à un des points sup-

plémentaires : ^on^voitrapidement ^se^dessiner^une

masse centrale, ^où^laplupart ^des^nouveauxpoints

s’accumule. Il est aisé de déterminer &dquo;à l’oeil&dquo; une

valeur centrale qui ^trèsrapidement ^se^stabilise.

Quelques points éloignés ^de^ce^centreapparaissent ^de temps ^entemps, constituant un halo. Les moments d’ordre 2 chiffrent l’étendue de ce halo. On conçoit qu’il ^faudradisposer ^d’un^contourprécis ^pourcela,

donc de beaucoup ^depoints ^dans^cette^zone^{floue. Or} justement, ^ce^sont^des^{cas rares}qui ^amènent^des points ^dans^cesparages.

En résumé, pour obtenir des estimations _pastrop imprécises ^des^variances^etdes covariances entre

apparentés, ^il^faudradisposer ^d’un^{nombre de}répéti-

tions considérable. Par exemple, il faudra ^surla figu-

re 1 plusieurs ^centaines^decouples père-fils pour obtenir une valeur acceptable de CovPF. Et en fait,

on recherche des effectifs de plusieurs ^milliers.

Rappelons ^enfinque héritabilités et corrélations

génétiques ^sont^desrapports, les incertitudes d’estimation sur les numérateurs et dénominateurs se

cumulant _pourrendre leurs estimations encore plus imprécises.

L’estimation des paramètres génétiques ^nécessite

donc l’accumulation d’un jeu ^trèsimportant ^{de don-}

nées donc de _grosfichiers et une grosse puissance ^de

calcul.

(5)

2.2 / La non indépendance des données Pour estimer la variance dans le cas illustré _parla

figure 2, nous avons utilisé un estimateur, c’est-à-dire

une formule, ^encorerelativement bien connue où Y,

représente ^une^sommation^surl’ensemble de l’échan-

tillon, ^x^la^mesure^réalisée^surchaque ^individu.

Dans les cas très simples ^où^tous^lesobjets ^utilisés

pour l’estimation (individus ^siônêstimeûne^varian-

ce, couples ^de^donnéespour les covariances) ^sont indépendants entre eux, cette formule s’impose

comme la meilleure possible parmi ^tous^les^estima-

teurs (quadratiques) imaginables. ^Elleprocure des estimations de variance minimum, c’est-à-dire une

longueur ^aussipetite ^quepossible ^àl’intervalle de confiance (le segment ^{cd de la}figure ^2).^Cet^estima-

teur est non biaisé, c’est-à-dire _quela vraie valeur se

situe exactement au milieu du segment. En d’autres termes, les incertitudes liées à l’échantillonnage ^d’un

groupe limité d’objets jouent également ^dans^les^deux

sens (remarque : ^cettepropriété ^de^non^biaisparaît

en général secondaire à l’utilisateur mais revêt une

grande importance ^auxyeux de la statistique ^clas- sique... peut ^êtreparce qu’elle ^est^lacontrainte la

plus ^facile^àprendre ^encompte ^{dans la}construction des estimateurs).

Malheureusement cette condition d’indépendance

des données n’est jamais respectée. N’avons-nous _pas dit _queles populations ânimalesétaient structurées par des liens de parenté ? ^Siûnîndividudispose ^d’un génome exceptionnel êt^doncexprime ûnniveau inté- ressant du caractère, ^sonfrère, qui possède ^la^moitié

de ses gènes, ^ade fortes chances d’être lui aussi doté de bonnes performances. ^Ces^mesures^de^ces^deux

individus apparentés ^nesont pas indépendantes puisque ^laconnaissance de la valeur de l’un donne

déjà ^une^{idée de}^ceque ^serala valeur de l’autre. N’a- t-on pas créé les formules &dquo;tel père ^telfils&dquo;, &dquo;se res-

sembler comme des frères&dquo; ou &dquo;comme des jumeaux&dquo; ?

Le milieu d’exploitation des animaux crée lui aussi

son petit ^réseau^dedépendance ^entreles données.

Reprenons l’exemple ^de^lafigure ²^etimaginons ^que

les 40 objets d’un échantillon soient divisés arbitrai- rement en 2 sous-groupes de 20. Chacun de ces lots est élevé dans deux bâtiments différents. Autant le

premier êstluxueux, âutantle second est froid, ^ven- teux, sale, placé ênbordure d’autoroute. Tout individu de ce deuxième lot aura des performances ^très

inférieures. La variance au sein de l’échantillon s’est

vue augmentée par l’application ^de^ces^deux^traite-

ments différents ; ^onparle d’un &dquo;effet bâtiment&dquo;.

Or, ^duparagraphe ^2.1nous avons retenu la néces- sité de disposer d’effectifs considérables, qu’il est par- ticulièrement utopique d’imaginer élever dans des milieux rigoureusement identiques. ^Les^bovins,^par exemple, ^sontrépartis ^dans^unepoussière d’élevages,

les poulets regroupés ^{en cases}différentes selon leur date de naissance, ^etc.

La formule (2) ^est^doncparticulièrement inadaptée

à son usage êngénétique quantitative. Illustrons cela par ûnexemple : pour estimer une variance géné- tique additive, ^nousdisposons ^{de deux}jumeaux (leur génome êstpratiquement identique). ^La^formule²

intégrera ^{les deux}informations indépendantes (deux degrés ^de^liberté).Ênfait, îln’y âqu’une seule valeur

génétique (répétée ^deux^{fois) :}le calcul d’une variance n’a aucun sens. La formule utilisée aurait dû tenir compte d’un coefficient de parenté ^{de 1/2}^entre^ces jumeaux pour ^neles considérer comme porteurs que d’une seule information (donc ^neleur donner qu’un degré de liberté collectivement).

Pour résoudre cette difficulté, ^nousallons décrire les données _parun modèle et utiliser les estimations

qui ^lui^sontadaptés.

Ecrire un modèle signifie exprimer ^toutes^les dépendances, qu’elles ^soient^duesâu^milieuôu^à^la génétique, ^dechaque îndividuâvec^tous^les^{autres :}

l’individu A est frère de B et C et non apparenté ^à^D.

Par contre, ^il^a^étéélevé dans le même bâtiment _que C et D mais pas B. Cette description par le menu

devient vite inextricable, ^desorte que l’on utilise une

sorte de langage codé nommé modèle linéaire.

On constitue des sous-populations d’individus _par- faitement homogènes quant ^aux^relations^existant

entre les individus. Nommons-les cases élémentaires.

A l’intérieur d’une _case,les individus ne sont pas

identiques, leur variation permettant de chiffrer la variance résiduelle. On réalise ensuite des _regroupe- ments de ces cases en ensembles plus ^vastes^homo- gènes quant ^àleurs relations entre eux. On continue

jusqu’à ^ceque toutes les relations aient été décrites.

Supposons par exemple qu’en aviculture, ^deux familles A et B issues de deux mères différentes soient réparties dans deux bâtiments différents X et Y. La partie de famille A élevée dans X (AX) est une case élémentaire. De même _queAY, ^BX^et^BY.^A

l’intérieur de AX tous les individus sont frères, ^élevés dans un même milieu. Les cases AX et AY sont reliées _parle fait _{que tous}les individus ont la même mère : on dit qu’ils partagent ^le^même^niveau^{du fac-}

teur mère. AX et BY partagent ^{le même}bâtiment,

c’est-à-dire ont le même niveau du facteur bâtiment.

On utilise enfin une équation symbolique pour décrire toutes ces relations. C’est le modèle stricto

sensu. On écrira : U

AX ^Jules⁼^Effet^{mère A}⁺Effet bâtiment X +

Résiduelle de Jules

On décrit ainsi la valeur U de l’individu Jules, ^des-

cendant de la mère A et placé ^dansle bâtiment X,

comme la somme des effets des facteurs _quenous avons identifié. Deux individus, ^Jules^et^Arthurpar-

tageant ^le^même^bâtiment^X^verrontapparaître ^dans

cette équation ^la^mêmevaleur de l’effet bâtiment X,

ce qui matérialise la dépendance ^de^ces^{deux don-}

nées. A l’opposé, les résiduelles de deux individus appartenant ^à^la^même^caseAX différeront partielle-

ment du fait _queleur résiduelle est différente.

Pour finir, ^on^écritplus prosaïquement l’équation

ci-dessus avec un jeu ^d’indices.

Il;

jk * m + M

; + B j + Z;

jk

où i et j ^nomment^les^niveauxdes différents facteurs, ^{mère et}bâtiment, ^et^k^numéroteles individus intra case. ijk ^{= 115}représenterait ^ainsiJules, ^le

5ème descendant de la 1ère mère (A) placé ^{dans le} premier ^bâtiment^(X).Êtôn^résume^cette^écritureên

disant _queles données sont organisées ^selon^un^dispositif factoriel croisant les effets des facteurs mère (2 niveaux) ^et^bâtiment(2 niveaux).

Ayant ainsi décrit la structuration des données, ^il