• Aucun résultat trouvé

Comment faire progresser la sélection génomique chez les bovins laitiers ?

A comparison of partial least squares (PLS) and sparse PLS regressions in genomic selection in French dairy cattle

Chapitre 6 Discussion générale et perspectives

6.1 Comment faire progresser la sélection génomique chez les bovins laitiers ?

Les résultats obtenus au cours de ma thèse, comme l’ensemble de la littérature sur le sujet, mettent en avant les avantages des méthodes d’évaluations génomiques sur les évaluations classiques. Cependant, de nombreux facteurs affectent la qualité des prédictions (Solbert et al., 2010). Au cours de mon travail de thèse, j’ai pu montrer que la taille et la structure de la population de référence avaient un impact important sur la précision des prédictions génomiques. Différentes études sur des données simulées montrent que les deux principaux facteurs sont la taille de la population de référence et la densité de marqueurs (Meuwissen et al., 2001 ; Calus et al., 2008 ; Goddard et Hayes, 2009 ; Daetwyler et al., 2008 ; de Roos, 2011).

6.1.1 En augmentant la taille de la population de référence…

Dans l’article conceptuel de la sélection génomique, Meuwissen et al. (2001) se sont interrogés sur l’influence de la taille de la population de référence sur la précision des estimations génomiques en termes de corrélation entre les valeurs génomiques observées et les valeurs génomiques prédites. Quand la taille de la population d’apprentissage est réduite de 2 200 individus à 500, la corrélation diminue de 60%, 21% et 17% pour la méthode des moindres carrés et les approches GBLUP et BayesB respectivement. La régression sur les moindres carrés est nettement plus affectée par la diminution de la taille de la population d’apprentissage que les autres méthodes car elle n’est pas adaptée aux études où le nombre d’observations est très inférieur au nombre de variables. La précision des estimations de la méthode des moindres carrés est en moyenne trois fois moins grande (ρ = 0,22) que la méthode GBLUP (ρ = 0,66) et BayesB (ρ = 0,78), sur les trois tailles de population testées (n = 500, 1 000 et 2 200). Le caractère étudié a une héritabilité simulée de 0,3. Une héritabilité plus élevée aurait nécessité moins d’observations pour obtenir une précision des prédictions génomiques égale (Hayes, 2011).

La taille de la population d’apprentissage joue donc un rôle prépondérant sur la qualité des prédictions. Cependant, au niveau des observations individuelles, on remarque que la précision n’est pas la même pour tous les individus de l’ensemble

de validation. Il a ainsi été montré (Legarra et al., 2008 ; Habier et al., 2010) que plus le candidat est apparenté aux individus de la population de référence et plus sa prédiction génomique est précise. En effet, les relations de parenté proches induisent de très forts déséquilibres de liaison entre QTL et marqueurs. Ces déséquilibres peuvent être rompus à chaque génération à cause des recombinaisons ce qui compromet l’efficacité d’une évaluation génomique sur un grand nombre de générations. D’un point de vue méthodologique, certaines approches (BayesB) semblent légèrement plus robustes que d’autres telles que le GBLUP (Habier et al., 2007, 2010). Dans le chapitre 4, en utilisant la méthode PLS, j’ai montré que lorsque l’ensemble d’apprentissage est exclusivement constitué de taureaux très diffusés, les

précisions des prédictions obtenues pour un ensemble de taureaux apparentés, sont dans certains cas, supérieures aux précisions de l’étude sur l’ensemble d’apprentissage complet. Tous ces résultats montrent la nécessité d’entretenir une population de référence relativement jeune et de ré-estimer régulièrement les effets des SNP.

Comme nous l’avons vu dans le chapitre 1, la population de référence ne peut pas être indéfiniment enrichie. Elle est, pour l’instant, limitée aux taureaux testés sur descendance au niveau national. Quand tous les taureaux testés seront génotypés, il deviendra nécessaire de s’intéresser à de nouvelles sources de données provenant par exemple, de collaborations internationales ou de la voie femelle.

Les collaborations internationales. L’enrichissement des ensembles de données

pour les populations de référence pour les grandes races internationales passe en premier lieu par les collaborations internationales. En effet, plusieurs pays se sont associés pour partager les génotypages de leurs taureaux et ainsi augmenter la précision de leurs évaluations génomiques nationales en augmentant la taille de leurs populations de référence. La race Holstein a été la première concernée. On distingue, pour cette race, deux grandes collaborations : l’Amérique du Nord (États Unis et Canada), avec une population de référence d’environ 14 000 taureaux, et EuroGenomics (France, Belgique, Danemark, Finlande, Suède, Allemagne et Pays Bas), dont la population de référence a atteint les 18 300 taureaux (David et al., 2010 ; Lund et al., 2010). Chaque pays utilise comme performances les index

Interbull pour les taureaux étrangers. Il a donc fallu développer un système permettant l’échange des données et leurs correspondances entre les génotypages issus de la puce 54k et de la puce customisée des Pays-Bas (Druet et al., 2010). La collaboration européenne réunit le plus grand nombre d’animaux Holstein mais des discussions sont en cours pour étendre les collaborations nord-américaines à d’autres pays. Afin d’établir des collaborations efficaces, il est indispensable d’impliquer des pays qui utilisent des mâles similaires afin de maintenir des connexions entre pays et une distance génétique faible entre les animaux de la population de référence et les animaux candidats.

L’exemple de la race Holstein est particulièrement intéressant car le nombre d’animaux disponibles pour construire les modèles de prédiction devient réellement important tout en répartissant entre les acteurs les coûts de constitution des populations de référence. Dans un tel système, tous les acteurs sont gagnants, et l’outil génomique devient un outil prédictif particulièrement efficace au service des éleveurs. Cet exemple de coopération internationale devrait faire des émules : à titre d’exemple, un accord international similaire, baptisé Intergenomics à récemment permis aux éleveurs de race Brune d’accéder à des prédictions génomiques en constituant une population de référence de plus de 5 000 taureaux génotypés.

L’évaluation génomique des femelles et l’analyse de nouveaux caractères.

L’évaluation génomique des femelles est un enjeu important des travaux de sélection génomique. Dans les pays où tous les taureaux avec phénotypes ont déjà été génotypés, comme par exemple, la Nouvelle-Zélande (Spelman et al., 2010), le génotypage des femelles est envisagé pour agrandir la population de référence. En effet, alors que le nombre de taureaux testés sur descendance reste limité, des performances sont contrôlées pour des millions de vaches au sein des troupeaux, et peuvent potentiellement alimenter les populations de référence. En France, depuis 2011, un outil commercial basé sur le génotypage 54k est proposé aux éleveurs afin d’évaluer précocement les caractéristiques d’intérêt des femelles. Si cet outil se développe et s’accompagne d’une diminution des coûts de génotypage, de nombreuses femelles pourront intégrer les populations de référence françaises. Le principal risque serait de ne génotyper que les animaux les plus performants et ainsi, d’introduire un biais dans les évaluations génomiques (Patry et Ducrocq, 2011).

La sélection génomique permet d’avoir des index aussi précis sur les jeunes femelles que sur les jeunes taureaux même pour des caractères faiblement héritables comme la fertilité. Ainsi, un enjeu majeur du génotypage des génisses est d’optimiser le renouvellement des troupeaux et d’augmenter l’intensité de sélection sur la voie femelle. Alors qu’elle est aujourd’hui délaissée au profit d’une sélection importante sur la voie mâle, notamment en raison de la diffusion massive des taureaux d’insémination, l’amélioration de la voie femelle va devenir, grâce aux prédictions génomiques, une source importante de progrès génétique dans les années à venir.

Enfin, l’utilisation de populations de référence femelles permettrait, en la couplant avec une organisation de la collecte de nouveaux phénotypes, de sélectionner les animaux sur de nouveaux caractères qui n’ont pas été enregistrés dans les schémas de testage sur descendance (par exemple, composition fine des laits, caractères de résistance aux mammites, etc.). Aujourd’hui, une quarantaine de caractères est recueilli, en routine, avec une grande fiabilité. L’introduction de nouveaux caractères se fera selon les demandes des éleveurs et des filières. Il sera bien sûr, indispensable de disposer de suffisamment d’observations pour une estimation précise des effets des SNP. La principale question est de savoir comment collecter les informations relatives à ces nouveaux caractères ou de récupérer des données existantes mais non utilisées. En France, le programme PhénoFinLait, démarré en 2008, s’intéresse aux composants fins du lait (acides gras et protéines) et sera une source importante de nouvelles données  qui pourront être utilisées

comme de futurs critères de sélection génomique. Dans le domaine de la santé, les données du carnet sanitaire ou de prophylaxie telle que la paratuberculose, peuvent être récupérées afin de sélectionner des caractères de résistance aux maladies, par exemple. Beaucoup d’autres caractères pourraient être évalués car facilement enregistrables comme par exemple, le comportement alimentaire ou la docilité. 

L’application des méthodologies de sélection génomique dans le domaine de la santé animale est un enjeu scientifique et industriel important : à terme, cela permettra de sélectionner des animaux plus résistants, et ainsi de réduire considérablement les frais d’élevages tout en maintenant une production efficace pour les éleveurs.

Les évaluations multiraciales. En pratique, les évaluations génomiques sont

appliquées sur une population de candidats distincte de la population de référence. Cependant, ces animaux candidats restent issus de la même race mais sont plus jeunes. Théoriquement, ils peuvent aussi provenir d’une lignée différente ou même d’une autre race. Harris et al. (2008) montrent que les estimations des effets des SNP calculées à partir d’une population Holstein ne donnent pas des prédictions génomiques précises sur des taureaux de race Jersiaise (corrélations inférieures à 0,3). Pour prédire les valeurs génétiques d’animaux candidats d’une autre race que celle utilisée dans l’établissement des équations de prédiction, le déséquilibre de liaison entre marqueurs et QTL doit être similaire dans la population de référence et dans la population des candidats. En effet, certains allèles aux QTL ne se comportent pas de façon totalement similaire dans des races différentes (Spelman et

al,. 2002 ; Kaupe et al., 2004 ; Dunner et al., 2003). Une solution est alors d’utiliser

une population de référence multiraciale composée d’individus de toutes les races visées. Une mutualisation des données des animaux génotypés et phénotypés est donc à privilégier pour des populations de taille réduite ou moyenne, ou pour des caractères difficiles à phénotyper sur un grand nombre d’animaux d’une même race. L’objectif premier est de maximiser l’efficacité de la sélection génomique et de diminuer le coût global (Hayes et al., 2009c ; Harris et Johnson, 2010 ; Kizilkaya et

al., 2010 ; de Roos et al., 2009).

En France, une approche multiraciale est appliquée dans le cadre du projet ANR GEMBAL («GEnomique Multi-race des Bovins Allaitants et Laitiers»), rassemblant l’INRA et les filières : la valeur génétique d’un candidat d’une race donnée est prédite non seulement à partir de la population de référence de sa race mais également des populations de référence de toutes les autres races étudiées. Si les travaux en cours sur l’évaluation multiraciale sont concluants, un individu d’une race donnée pourrait alors être évalué à partir des populations de référence de toutes les races bovines pour lesquelles le caractère est disponible. Cette approche est préconisée, chez les races à petits effectifs chez les bovins allaitants car l’insémination artificielle y est très peu développée donc les populations de référence devront être de grande taille pour compenser la distance génétique trop forte entre les animaux de l’ensemble de référence et les candidats à la sélection. Le développement des approches multiraciales sera bénéfique pour les races à petits effectifs mais aussi pour les plus grandes populations.

En pratique, les résultats observés sont en général décevants lorsque les génotypes sont issus d’une puce 54k car la densité de marqueurs utilisée est suffisante intra-races mais pas entre races (Hayes et al., 2009c). De Roos et al. (2008) analysent l’étendue du DL intra et entre races et concluent que pour des races très divergentes, 300 000 SNP sont nécessaires afin d’obtenir un nombre suffisant de marqueurs communs à deux races bovines différentes. Les études d’Ibánēz-Escriche et al. (2009) et Toosi et al. (2010) montrent que l’utilisation d’une population multiraciale n’est efficace que si la densité de marqueurs est suffisante pour compenser la divergence entre les populations. C’est pour cela qu’a été développée une puce à plus haute densité (« BovineHD® ») de plus de 777 000 marqueurs soit 259 SNP par Mb au lieu de 18 SNP par Mb pour la puce 54k (« BovineSNP50® »). Cette nouvelle puce doit permettre la constitution d’une population de référence multiraciale car la densité en marqueurs devrait être suffisante pour observer des déséquilibres de liaison inter-races et non plus seulement intra-races. Ainsi des évaluations génomiques pourront être développées dans chaque race de la population de référence multiraciale mais seulement sur des caractères mesurés de façon comparable dans les différentes races. Des premières évaluations génomiques, sous couvert d’efforts de génotypage dans les autres races laitières, devraient être disponibles fin 2012 grâce à ces travaux.

6.1.2 En utilisant des puces à SNP de densités différentes…

La puce HD d’Illumina (« BovineHD® », Illumina, 2010b) contient 777 962 SNP. Elle permet de mieux tracer les loci responsables des différences génétiques entre individus. Cependant, au sein d’une même race, les gains attendus, au niveau de la précision des évaluations génomiques, ne sont pas très importants (VanRaden et Tooker, 2010). Solberg et al. (2006) simulent une population de taille efficace égale à 100 pour l’étude de l’impact de la densité des marqueurs sur la précision des évaluations génomiques par la méthode BayesB. Ils montrent que, si les SNP sont espacés de 0,5 cM, la précision est 20 fois supérieure à un ensemble de marqueurs espacés de 4 cM. Cependant, les approches bayésiennes, déjà très couteuses en temps de calcul, peuvent devenir inapplicables à cause de la forte augmentation du nombre de paramètres à estimer. De ce fait, il est probable que les méthodes de sélection de variables soient les mieux adaptées au traitement de très gros ensembles de données.