DISTANCES G ´
ENOMIQUES
Cl´ement Carr´e 1 & Eduardo Manfredi 2 & Fabrice Gamboa3
1 INRA, UR 631 SAGA, F-31326 Castanet-Tolosan, France. [email protected] 2 INRA, UR 631 SAGA, F-31326 Castanet-Tolosan, France. [email protected]
3 IMT - Universit´e Paul Sabatier, Toulouse, France.
R´esum´e. Ce travail rentre dans le cadre de la pr´ediction de ph´enotypes `a partir de donn´ees g´enomiques des animaux de rente. Pour des raisons li´ees au nombre croissant de donn´ees accessibles par individu, ainsi que la combinatoire explosive des possibles interactions g´en´etiques, nous avons choisi d’explorer un mod`ele non param´etrique : la r´egression `a noyaux. Pour le calcul de cette r´egression, il est n´ecessaire de d´efinir une distance (au sens math´ematique) g´enomique entre individus. Cette ´etude porte sur la d´efinition de 8 distances, et de leur comparaison en termes d’efficacit´e `a pr´edire des jeux de donn´ees simul´ees. Une semi-distance (corr´elation) produit les meilleurs r´esultats et laisse esp´erer des am´eliorations par l’´etude future de distances de la mˆeme famille.
Mots-cl´es. Non-param´etrique, R´egression `a Noyaux, Distance G´enomique
Abstract. In the context of phenotype prediction using genomic data, and because of the increase in quantity of available data by individual, and the explosive combinatory of possible interactions, we decided to explore a nonparametric model: the kernel regression. In order to compute this regression, we need to define (from a mathematical point of view) genomic distances amongst individuals. This study focuses on the definition of 8 genomic distances and it compares their efficiency in predicting simulated data. One of the studied distances (correlation) yields the best predictions and let us hopes of improvements in the future by the study of distances of the same family.
Keywords. Nonparametric, kernel regression, genomic distances
1
Le Contexte G´
enomique
1.1
Les donn´
ees de la g´
enomique
Les r´egions g´enomiques (QTL) influen¸cant les ph´enotypes complexes sont nombreuses et souvent inconnues. Pour la pr´ediction g´enomique, on utilise alors des marqueurs (des Polymorphismes Nucl´eotidiques ou SNP) choisis pour leur variabilit´e importante au sein d’une mˆeme esp`ece.
Espac´es `a intervalles r´eguliers sur le g´enome, ces SNPs ne portent pas l’information g´en´etique directement, mais sont en corr´elation (”d´es´equilibre de liaison” ou LD) avec les loci g´en´erateurs du trait (QTL).
Parmi les particularit´es des SNP, on retrouve notamment: • D´ependance des variables (LD).
• Grande dimension : De 4000 `a 1 million de SNPs par individu.
• Parcimonie : a priori, seul un nombre restreint de QTLs (quelques centaines) ont un effet sur le caract`ere observ´e.
La mol´ecule d’ADN est compos´ee d’une s´erie de nucl´eotides (les lettres ) nomm´es A, C, T et G. Ces nucl´eotides allant toujours par paire A-C et T-G on n’observe `a un locus donn´e que deux variants (all`eles) not´es 1 et 2. Les chromosomes allant par paires (pour les individus diplo¨ıdes, comme les mammif`eres par exemple) chaque SNP peut prendre une de ces 4 combinaisons : 11, 12, 21 ou 22. En pratique, nous ne nous int´eresserons pas `a l’ordre (ou phase) des chromosomes, les ´etats 12 et 21 seront, pour nous, indiscernables et not´es indiff´eremment 12. Ces ´etats pourront ˆetre ensuite recod´es en 0, 1 et 2, en comptant simplement le nombre d’all`eles ”2”. Ce dernier codage peut laisser penser que les all`eles ont un effet additif, alors que dans la pratique toutes les interactions imaginables entre all`eles existent (dominance, ´epistasie, etc.).
La donn´ee g´enomique est donc une suite de plusieurs milliers de valeurs ternaires (0, 1 et 2) par individu.
1.2
Le mod`
ele g´
en´
etique
Le mod`ele standard de la g´en´etique est le suivant : Y = G + e, avec Y le ph´enotype, G les effets g´en´etique et e un bruit (environnement, mesure, etc.) ind´ependant de G. On mesure l’h´eritabilit´e d’un ph´enotype par le rapport entre la variance des effets g´en´etiques et la variance du ph´enotype : h2 = σ2G
σ2 Y
. Elle mesure la part de la g´en´etique `a la variance ob-serv´ee d’un trait d’int´erˆet. La pr´ediction de ph´enotypes correspond donc, principalement, `
a la pr´ediction de ces effets g´en´etiques.
Une particularit´e de la mod´elisation g´en´etique est de ne consid´erer, souvent, que des mod`eles `a effets g´en´etiques additifs. En effet, la (tr`es) grande quantit´e de donn´ees par individu nous am`ene `a se mesurer `a une combinatoire immense d`es que l’on souhaite observer les interactions, ne serait-ce qu’`a l’ordre 2.
Enfin, le grand nombre de variables vis-`a-vis du nombre d’individus et la parcimonie des donn´ees placent le probl`eme dans la ”Ultra Haute Dimension” o`u l’inf´erence par r´egression param´etrique devient probl´ematique (Verzelen 2012).
Pour toutes ces raisons, dans le cadre de la pr´ediction de ph´enotypes, nous souhaitons tester des mod`eles semi ou non param´etriques afin de prendre en compte les interactions
et neutraliser le ”fl´eau de la dimension”. Un candidat prometteur (parmi d’autres) est la r´egression `a noyaux.
2
Mat´
eriels et m´
ethodes
2.1
R´
egression `
a noyaux
Le principe de la r´egression `a noyaux est de partir du mod`ele de r´egression Y = r(X) + e, puis de fixer r = E(Y |X), que l’on estime par
ˆ r(x) = P iyiK(h−1d(x, xi)) P jK(h−1d(x, xj))
C’est une moyenne pond´er´ee des observations, les poids ´etant calcul´es en fonction de la distance du g´enotype de l’individu `a pr´edire avec celui d’autres individus d´ej`a connus. Le noyau utilis´e dans la suite du document sera le noyau exponentiel :
K(h−1d(x1, x2)) = h−1e−d(x1,x2)h
−1
Une autre quantit´e que l’on peut vouloir pr´edire est le quantile conditionnel, nous permettant de construire des intervalles conditionnels des pr´edictions.
Dans tous les cas, on constate la n´ecessit´e de d´efinir une distance g´enomique entre individus.
2.2
Distances G´
enomiques
La premi`ere id´ee est de reprendre les d´efinitions standard de distance dans les espaces Lp (Distances de Minkowski):
dp(x, y) = (
X
i
|xi− yi|p)1/p
On s’int´eressera plus particuli`erement aux distances 0, 1 et 2. Une particularit´e impor-tante de la distance L0, ou distance de Hamming, qui compte le nombre de composantes diff´erentes entre les deux vecteurs, est de ne pas ˆetre trop d´ependante du codage utilis´e.
Une deuxi`eme approche est l’id´ee de vouloir accentuer la s´eparation des individus afin d’affiner le calcul du poids. Une m´ethode pour y parvenir est de faire une projection des individus dans un espace qui les ´ecarte plus les uns des autres et de calculer les distances sur ce nouvel espace. Nous avons test´e la projection ACP qui projette sur les sous-espaces de variance maximale (s´eparation par la variabilit´e). La distance L0 perd son sens dans le cas continu, mais on ajoutera `a l’´etude la distance L∞. Les 3 premi`eres distances correspondent au cas de la projection Identit´e (not´ee ID).
Une troisi`eme approche bas´ee sur la corr´elation est propos´ee : on repr´esente les ob-servations d’une s´erie de SNP pour chaque individu comme la r´ealisation d’une vari-able al´eatoire quantitative, en consid´erant le codage des SNPs comme lin´eaire additif, et on choisit comme distance la corr´elation entre les SNPs de deux individus (calcul stan-dard de la corr´elation). Si deux individus sont ”ind´ependants” la corr´elation est nulle, et elle est ´egale `a 1 s’ils sont ´egaux. Pour d´efinir une (semi)distance, on en prend le compl´ementaire `a 1. Cette mesure est proche des coefficients de similarit´e g´en´etique utilis´ee par les g´en´eticiens bas´e sur des covariances entre les g´enotypes des marqueurs SNP (Meuwissen et al. 2011).
On ´etudiera donc 8 distances, 3 distances Lp sans projections, 3 Lp avec projection
ACP et une distance bas´ee sur la corr´elation avec et sans projection.
2.3
Simulations
Les ´etudes ont ´et´e faites sur des donn´ees simul´ees. Le g´en´erateur de donn´ees utilis´e est QMSim (Sargolzaei et Schenkel 2009) qui nous fournit pour chaque jeu de donn´ees les valeurs ph´enotypiques, les g´enotypes mais aussi les r´ealisations du bruit, ce qui nous per-met de comparer notre pr´ediction aux valeurs vraies simul´ees. Deux h´eritabilit´es ont ´et´e simul´ees (0.3 et 0.7). 900 individus ont ´et´e g´en´er´es pour le jeu de donn´ees d’entrainement et 450 descendants ont ´et´e utilis´es pour les donn´ees de test dont le ph´enotype est masqu´e et est `a pr´edire. 2000 SNPs et 50 QTLs (non observ´es) sont simul´es par chromosome. Dans chaque chromosome, la corr´elation entre SNP contigus est de 0.22 en moyenne.
La mesure d’ad´equation aux donn´ees que nous utiliserons est la corr´elation entre valeurs pr´edites et variable d’int´erˆet (ph´enotypes ou valeurs g´en´etiques). Les r´esultats sont les moyennes de ces corr´elations sur 100 r´ep´etitions ainsi que les intervalles de con-fiance 95% (les quantiles etim´es 0.025 et 0.975). La th´eorie de la g´en´etique quantita-tive (Lynch and Walsh, 1998) nous permet d’anticiper une valeur th´eorique attendue de la corr´elation entre les valeurs pr´edites et les ph´enotypes ou valeurs g´en´etiques vraies simul´ees, dans le cadre lin´eaire et additif et qui ne souffre pas des impr´ecisions dues `a l’estimation de param`etres (ils sont ici simul´es, donc connus). Ce dernier point apporte `a notre r´eflexion une explication plausible au biais syst´ematique des m´ethodes par rapport `
a cette valeur th´eorique.
3
R´
esultats et Discussion
Dans le tableau 1 figurent les corr´elations entre les valeurs pr´edites et les cibles de la pr´ediction (ph´enotypes et valeurs g´en´etiques des individus du test), pour la situation moins favorable o`u l’h´eritabilit´e est de 0.3 (la variance r´esiduelle repr´esente 70 % de la variabilit´e totale). La semi-distance bas´ee sur les corr´elations se d´emarque des autres distances et se rapproche de la borne th´eorique. Ces remarques nous font penser que
Entrainement: Test: Entrainement: Test: Pr´ediction Pr´ediction Pr´ediction Pr´ediction
contre contre contre contre Valeurs G´en´etique Valeurs G´en´etique Ph´enotype Ph´enotype
ID ACP ID ACP ID ACP ID ACP
L0 39(34;44) 43(37;48) 20(14;26) 22(14;28)
L1 47(42;52) 43(37;48) 48(44;53) 44(39;49) 25(19;30) 22(16;28) 25(20;31) 26(20;32)
L2 50(45;54) 50(45;54) 50(46;54) 50(45;55) 26(20;32) 26(20;32) 27(21;32) 26(21;32)
L∞ 42(35;49) 42(35;50) 23(14;31) 23(15;31)
Corr´elation 51(47;56) 51(47;56) 52(48;57) 52(48;55) 28(21;33) 28(21;33) 28(21;34) 28(22;34)
Table 1: R´esultats (en %) pour h2=0.3; corr´elations th´eoriques attendues r=0.57 (pr´ediction de valeurs g´en´etiques) et r=0.31 (pr´ediction de ph´enotypes). Intervalles de confiance `a 95% entre parenth`eses.
Entrainement: Test: Entrainement: Test: Pr´ediction Pr´ediction Pr´ediction Pr´ediction
contre contre contre contre Valeurs G´en´etique Valeurs G´en´etique Ph´enotype Ph´enotype
ID ACP ID ACP ID ACP ID ACP
L0 55(50;59) 56(51;60) 45(39;49) 46(40;49)
L1 61(57;65) 61(56;65) 64(60;65) 63(59;65) 50(46;54) 53(49;58) 56(50;62) 56(50;62)
L2 64(60;68) 64(60;68) 67(62;71) 67(62;71) 53(46;58) 53(46;58) 56(51;62) 56(51;62)
L∞ 49(42;55) 46(39;54) 40(35;45) 39(35;44) Corr´elation 63(59;66) 63(59;66) 67(63;70) 66(63;70) 53(48;57) 53(48;57) 56(52;62) 56(52;62)
Table 2: R´esultats (en %) pour h2 = 0.7; corr´elations th´eoriques attendues r = 0.75
(pr´ediction de valeurs g´en´etiques) et r = 0.63 (pr´ediction de ph´enotypes). Intervalles de confiance `a 95% entre parenth`eses.
d’autres mesures de distances, bas´ees elles aussi sur des id´ees de corr´elations (ou de rangs) seraient les plus adapt´ees au probl`eme. Deux distances ”brownian distance correlation” (Bickel et Xu 2009) et ”Random permutations” (Chapuy 2007, Xinan et al. 2006) sont actuellement `a l’´etude.
On remarque aussi que la projection ACP n’am´eliore pas les r´esultats, en comparai-son avec les distances sans projections, et que la distance L∞, qui n’a de sens qu’apr`es projection, fait `a peine mieux que la distance L0.
Dans le cas des fortes h´eritabilit´es (tableau 2) les r´esultats sont plus ´eloign´es des valeurs th´eoriques que dans le cas des faibles h´eritabilit´es. La semi-distance des corr´elations et la distance L2 (quel que soit sa projection) sont toujours les plus ´elev´ees des distances
´etudi´ees. La projection ACP n’am´eliore toujours pas les r´esultats, et la distance L∞ ne fait pas beaucoup mieux que dans le cas des faibles h´eritabilit´es. Les semi-distances de corr´elation produisent des pr´edictions acceptables (90% de la valeur th´eorique attendue). De cette ´etude, ressort que la distance L2 (Euclidienne, naturelle ) est une bonne d´efinition de distance g´enomique entre individus. La semi-distance des corr´elations semble ˆetre la distance la plus efficace (parmi celles test´ees) et nous ouvre une piste int´eressante de
recherche. La projection ACP, en plus de son coˆut algorithmique en temps non n´egligeable, n’am´eliore pas les r´esultats.
En perspective, il faut ´elargir le choix de distances (brownian distance correlation, random permutations, distances locales, etc.) pour ´etudier les interactions g´en´etiques.
Bibliographie
[1] Guillaume Chapuy (2007), Random permutations and their discrepancy process, Con-ference on Analysis of Algorithms, AofA 07, 415-426.
[2] Yang, Xinan ; Bentink, Stefan; Scheid, Stefanie; Spang, Rainer (2006), Similarities of ordered gene lists, Journal of bioinformatics and computational biology, Volume 4, Issue 3, 693-708.
[3] Sargolzaei, M. and F. S. Schenkel. (2009), QMSim: a large-scale genome simulator for livestock, Bioinformatics, 25: 680-681. First published January 28, 2009, doi:10.1093 /bioinformatics/btp045.
[4] Michael Lynch; Bruce Walsh (1998), Genetics and Analysis of Quantitative Traits, Sinauer Associates Inc.,U.S.
[5] Verzelen, N. (2012), Minimax risks for sparse regressions: Ultra-high dimensional phenomenons, Electronic Journal of Statistics, 6, p.38?90.
[6] Bickel, P.J. and Xu, Y. (2009), Discussion of: Brownian distance covariance, Annals of Applied Statistics, 3 (4), 1266?1269.
[7] Meuwissen, T. H. E.; Luan, T.; Woolliams, J. A., The unified approach to the use of genomic and pedigree information in genomic evaluations revisited, Journal of Animal Breeding and Genetics, Volume: 128, Issue: 6, Pages: 429-439, DEC 2011