• Aucun résultat trouvé

Chapitre 2 Modélisation et propriétés des approches statistiques

2.3 Les méthodes bayésiennes

Les méthodes bayésiennes reposent sur un modèle statistique où tous les effets sont considérés comme des effets aléatoires. Dans le cadre de la sélection génomique, on s’attend à obtenir une large majorité de marqueurs avec des effets faibles, voire négligeables et peu de marqueurs avec des effets de grand taille. En effet, la très grande majorité des SNP ne sont pas des mutations causales ou ne sont même pas en très fort déséquilibre de liaison avec elles. Les méthodes bayésiennes permettent d’introduire des distributions a priori des effets des SNP plus adaptées à cette idée. Elles sont très largement utilisées dans l’évaluation génomique bovine, comme méthodes de sélection de variables. Elles se distinguent des méthodes fréquentistes par l’utilisation d’une loi a priori qui exprime l’information « intuitive » qu’on peut avoir sur les données sans les avoir traitées. La loi a

posteriori, c'est-à-dire après l’étude des données, exprime la petite part d’incertitude

restante et sera à la base des prédictions des observations futures. Ce sont les lois a

priori, c'est-à-dire les hypothèses faites sur la distribution des SNP qui distinguent les

2.3.1 Le LASSO Bayésien

Le LASSO bayésien (Park et Casella, 2008) est l’équivalent bayésien du LASSO décrit au point 2.1.2. Il fait l’hypothèse que les effets des marqueurs suivent une loi de Laplace (ou « double exponentielle »). La loi de Laplace peut être vue comme l’association de deux lois exponentielles, accolées dos à dos : on suppose donc qu’un grand nombre de SNP a un effet pratiquement nul et que très peu ont un effet très important.

Tibshirani (1996) montre que la loi des estimateurs LASSO peut s’écrire :

, exp .

Il suggère que les estimateurs LASSO peuvent être interprétés comme un mode a

posteriori d’un modèle dans lequel les paramètres de régression seraient

indépendants et identiquement distribués selon une loi a priori de Laplace.

Park et Casella (2008) proposent d’utiliser une approche bayésienne complète en faisant l’hypothèse d’une distribution a priori des coefficients de régression tels que :

, exp .

σ² représente la variance des effets résiduels du modèle et la variance du vecteur des effets SNP g est ². Ils démontrent qu’il est important de conditionner la loi des estimateurs par σ afin de garantir une loi a posteriori unique. Les applications du LASSO bayésien à la sélection génomique proposées par de los Campos et al. (2009) et Weigel et al. (2009) utilisent la même variance σ² pour modéliser à la fois la distribution des effets des SNP et les résidus.

Au cours de ce travail, j’ai choisi d’utiliser le LASSO bayésien général développé par Legarra et al. (2011) pour la sélection génomique et qui se rapproche du LASSO classique en divisant la variance σ² en un terme purement résiduel ( ) et une variance due aux marqueurs ( ). La loi a priori des effets des marqueurs est la même que pour le LASSO classique où les résidus suivent une loi normale multivariée :

| ~ 0, .

Comme dans le LASSO classique, le paramètre λ est un paramètre d’échelle : il est utilisé pour définir l’intensité de sélection des SNP. On suppose que la distribution a priori de λ est une loi uniforme entre 0 et un très grand nombre. Le

LASSO bayésien traite ce paramètre d’intensité comme un hyperparamètre inconnu et génère son échantillonnage en même temps que les autres paramètres du modèle. Dans l’article de Legarra et al. (2011) est présentée la méthode pour estimer les paramètres de ce modèle. De los Campos et al. (2009) montrent que le LASSO bayésien est proche en termes de précision des prédictions, de la méthode BayesB mais avec une réduction importante de la complexité des calculs. C’est aussi un bon compromis entre le LASSO classique et la régression Ridge. Cependant, le LASSO bayésien régresse les coefficients des marqueurs à effets faibles vers 0 plus rapidement que la régression Ridge ce qui porte à croire que la distribution de Laplace est avantageuse sur la loi Gaussienne. De plus, le nombre de marqueurs pouvant avoir un effet nul n’est pas limité au nombre d’observations comme pour le LASSO classique. Le LASSO bayésien fait donc partie des méthodes qui seront appliquées aux données bovines laitières françaises.

2.3.2 La méthode BayesC

Comme montré dans le chapitre précédent, les méthodes bayésiennes telles que BayesA et BayesB (Meuwissen et al., 2001) ont été largement utilisées pour réaliser des évaluations génomiques. Des méthodes apparentées existent, avec des performances similaires, développées dans le but de réduire les temps de calcul et de simplifier les modélisations statistiques.

La méthode BayesC (Kizilkaya et al., 2010) diffère du BayesB en supposant la variance associée aux SNP commune à tous les marqueurs. En BayesC, tout comme en BayesB, la probabilité π qu’un SNP ait un effet non nul, est supposée connue. Le modèle est semblable au modèle BayesB mais pour une variance des effets homogène sur tous les loci :

σ 0 é 1

σ ~ , é

2.3.3 La méthode BayesCπ

Le principal problème de la méthode BayesC est que la part de SNP ayant un effet non nul, est supposée connue. Avec la méthode BayesA, le paramètre π est égal à 1 ce qui implique que tous les marqueurs ont un effet. Pour la méthode

BayesB, π est strictement inférieur à 1 afin de prendre en compte l’hypothèse que certains SNP peuvent avoir un effet nul mais est fixé de façon arbitraire alors que l’intensité de la sélection de variables est contrôlée par ce paramètre : il devrait donc être estimé à partir des données. Habier et al. (2011) proposent de modifier la méthode BayesC en estimant le paramètre π : le paramètre π est supposé inconnu. Ainsi, la distribution a priori de π devient uniforme sur [0,1]. La modélisation des effets SNP est la même qu’avec BayesC :

| , 0 é 1

| , ~ 0, ù ~ , é

Les différents paramètres de ce modèle sont estimés par des méthodes

MCMC, Markov Chain Monte Carlo (Metropolis et al., 1953 ; Robert, 1996) comme

proposé par Habier et al. (2011). La valeur initiale assignée à la variance des effets des marqueurs est décrite par VanRaden et al. (2009). Elle s’écrit en fonction de la variance génétique additive :

où pj est la fréquence

allélique du SNP j.