• Aucun résultat trouvé

Comparaison de la méthode BayesCπ avec le BLUP sur pedigree et les autres méthodes génomiques

A comparison of partial least squares (PLS) and sparse PLS regressions in genomic selection in French dairy cattle

MATERIAL AND METHODS

5.2.3 Comparaison de la méthode BayesCπ avec le BLUP sur pedigree et les autres méthodes génomiques

Capacités prédictives des méthodes d’évaluation génomique et du BLUP sur pedigree. La capacité prédictive de la méthode BayesCπ a été comparée avec une

méthode classique d’évaluation génétique (le BLUP sur pedigree) et les méthodes GBLUP, PLS, sparse PLS, et LASSO bayésien selon le même schéma que le chapitre 4 : c’est pourquoi nous ne nous attarderons que sur les méthodes bayésiennes. La première observation est que les méthodes bayésiennes, tout comme les méthodes GBLUP, PLS et sparse PLS, ont de meilleures performances prédictives que le BLUP basé exclusivement sur l’information pedigree. Au vu de ces résultats et des résultats présentés précédemment sur l’intégration d’un effet polygénique estimé à partir de l’information pedigree dans le modèle BayesCπ, il semble que les marqueurs SNP soient capables de rendre compte de l’information relative aux relations de parenté entre individus (Habier et al., 2007). Ce gain de corrélation moyen des deux méthodes bayésiennes sur le BLUP, reste cependant

limité (pour la race Holstein +0,18, +0,35, et +0,06 et pour la race Montbéliarde +0,16, +0,17, et +0 pour les caractères lait, TB et fertilité respectivement), car les taureaux de nos ensembles d’apprentissage et de validation ont des liens de parenté très forts d’où une surestimation des résultats du BLUP (Habier et al., 2010). Les méthodes bayésiennes donnent des corrélations significativement supérieures aux autres méthodes, sur le caractère taux butyreux seulement, probablement de par la présence du gène DGAT1 (Grisart et al., 2004). En effet, nous verrons par la suite que les méthodes bayésiennes retiennent presque exclusivement des SNP autour de ce QTL qui explique une grande part de la variance génétique.

Estimation des effets des SNP par les méthodes BayesCπ, LASSO bayésien et sparse PLS. Les méthodes BayesCπ et LASSO bayésien sont deux méthodes de

sélection de variables permettant l’estimation des effets d’un nombre réduit de variables. Les SNP sélectionnés sont ceux ayant le plus fort impact sur le caractère étudié. Il est donc intéressant de voir où ils se positionnent, car ils pourraient correspondre à des QTL, et de vérifier s’ils sont retrouvés de manière récurrente entre les différentes méthodes. La régression sparse PLS permet de sélectionner un nombre réduit de SNP par la construction de variables latentes. Nous avons donc souhaité comparer la position des SNP sélectionnés par ces trois méthodes. Les figures 5 et 6 de l’article 2 représentent l’estimation des effets des SNP obtenus par les méthodes bayésiennes et les coefficients VIP pour la sparse PLS pour les deux races et les trois caractères étudiés. L’intérêt porte principalement sur la position des SNP ayant les plus gros effets et non sur la valeur des effets.

Entre les deux méthodes bayésiennes et pour un caractère et une race donnés, les positions des SNP « très significatifs » sont très similaires. Pour la race Holstein et le caractère quantité de lait (1ère colonne sur la figure 5), les régions du génome des chromosomes 1, 5, 16 et 21 sont bien identifiées et importantes par l’approche BayesCπ et la régression sparse PLS mais ne représentent que de petits « pics » pour le LASSO bayésien. Cependant, le chromosome 14 est pointé très fortement par les trois méthodes, et les mêmes SNP sont sélectionnés. Au contraire, deux SNP sur le chromosome 7 ont de gros effets estimés par l’approche BayesCπ (>35) mais n’ont aucun d’effet détecté par le LASSO bayésien. Pour le taux butyreux (2ème colonne de la figure 5), 4 pics sont détectés par les méthodes BayesCπ et

sparse PLS sur les chromosomes 5, 11, 14 et 20 tandis que le LASSO bayésien n’attribue un poids très fort qu’à un seul SNP. Pour le caractère de fertilité (3ème colonne de la figure 5), les graphes des trois méthodes révèlent la nature très polygénique de ce caractère car peu de SNP se distinguent des autres et de très nombreux SNP ont des effets faibles. La régression sparse PLS donne des résultats semblables à l’approche BayesCπ sur les trois caractères : les plus gros pics sont détectés au même endroit en incluant le SNP du chromosome 7 pour la quantité de lait, qui n’est pas repéré par le LASSO bayésien.

Pour la race Montbéliarde, les graphes sont très semblables entre les trois méthodes : la position des SNP à fort effet est similaire, pour le lait et la fertilité. Cependant, pour le taux butyreux, les différences sont plus marquées : le LASSO bayésien ne met en valeur que quelques SNP sur le chromosome 14 alors que l’approche BayesCπ et la régression sparse PLS pointent aussi des régions importantes sur d’autres chromosomes (4, 5, 19, 21 et 27). Pour l’ensemble des caractères, tous les pics détectés par l’approche BayesCπ le sont aussi par la régression sparse PLS mais avec des rangs d’importance différents. Si on s’intéresse à la quantité de lait, le chromosome 14, n’est pas la région la plus importante pour la régression sparse PLS comme elle peut l’être pour l’approche BayesCπ. On peut noter que la régression sparse PLS met en avant certaines régions non détectées par l’approche BayesCπ : les SNP ayant les plus forts effets pour la sparse PLS pour la quantité de lait, sont sur les chromosomes 7, 10, 15 et 19 (VIP autour de 8). Pour le taux butyreux, les mêmes zones sont révélées par la sparse PLS et le BayesCπ mais la sparse PLS sélectionne plus de SNP autour de ces zones que l’approche BayesCπ. Par exemple, sur le chromosome 5, un seul SNP est sélectionné par l’approche BayesCπ alors que la régression sparse PLS en sélectionne 4 avec des coefficients VIP très proches. Pour le caractère de fertilité, les pics qui apparaissent sont aux mêmes positions pour toutes les méthodes mais ils semblent plus accentués avec la régression sparse PLS.

Les graphes obtenus pour les caractères TB et fertilité sont très semblables d’une race à l’autre. Le taux butyreux semble être gouverné par un nombre très réduit de gros QTL, avec notamment une zone d’importance majeure sur le chromosome 14. Cette zone est connue pour avoir un très fort impact sur le TB : c’est le gène DGAT1 (Grisart et al., 2004). Au contraire, le caractère de fertilité

apparaît comme étant très polygénique dans les deux races, avec un nombre important de QTL à petits effets. Une différence majeure entre les deux races est relevée lors de l’étude du caractère lait : il semble être régi par peu de QTL à gros effets pour la race Holstein et par un plus grand nombre de QTL à effets moyens pour la race Montbéliarde ce qui laisse supposer de l’importance de la taille de la population de référence dans l’estimation fiable des effets des SNP.