Distances Génomiques

(1)

DISTANCES G ´

ENOMIQUES

Cl´ement Carr´e 1 _{& Eduardo Manfredi} 2 _{& Fabrice Gamboa}3

1 _{INRA, UR 631 SAGA, F-31326 Castanet-Tolosan, France. [email protected]} 2 _{INRA, UR 631 SAGA, F-31326 Castanet-Tolosan, France. [email protected]}

3 _{IMT - Universit´}_{e Paul Sabatier, Toulouse, France.}

[email protected]

Résumé. Ce travail rentre dans le cadre de la prédiction de phénotypes à partir de données génomiques des animaux de rente. Pour des raisons liées au nombre croissant de données accessibles par individu, ainsi que la combinatoire explosive des possibles interactions génétiques, nous avons choisi d’explorer un modèle non paramétrique : la régression à noyaux. Pour le calcul de cette régression, il est nécessaire de définir une distance (au sens mathématique) génomique entre individus. Cette étude porte sur la définition de 8 distances, et de leur comparaison en termes d’efficacité à prédire des jeux de données simulées. Une semi-distance (corrélation) produit les meilleurs résultats et laisse espérer des améliorations par l’étude future de distances de la même famille.

Mots-clés. Non-paramétrique, Régression à Noyaux, Distance Génomique

Abstract. In the context of phenotype prediction using genomic data, and because of the increase in quantity of available data by individual, and the explosive combinatory of possible interactions, we decided to explore a nonparametric model: the kernel regression. In order to compute this regression, we need to define (from a mathematical point of view) genomic distances amongst individuals. This study focuses on the definition of 8 genomic distances and it compares their efficiency in predicting simulated data. One of the studied distances (correlation) yields the best predictions and let us hopes of improvements in the future by the study of distances of the same family.

Keywords. Nonparametric, kernel regression, genomic distances

1 Le Contexte G´

enomique

1.1 Les donn´

ees de la g´

enomique

Les régions génomiques (QTL) influen¸cant les phénotypes complexes sont nombreuses et souvent inconnues. Pour la prédiction génomique, on utilise alors des marqueurs (des Polymorphismes Nucléotidiques ou SNP) choisis pour leur variabilité importante au sein d’une même espèce.

(2)

Espacés à intervalles réguliers sur le génome, ces SNPs ne portent pas l’information génétique directement, mais sont en corrélation (”déséquilibre de liaison” ou LD) avec les loci générateurs du trait (QTL).

Parmi les particularit´es des SNP, on retrouve notamment: • D´ependance des variables (LD).

• Grande dimension : De 4000 `a 1 million de SNPs par individu.

• Parcimonie : a priori, seul un nombre restreint de QTLs (quelques centaines) ont un effet sur le caract`ere observ´e.

La molécule d’ADN est composée d’une série de nucléotides (les lettres ) nommés A, C, T et G. Ces nucléotides allant toujours par paire A-C et T-G on n’observe à un locus donné que deux variants (allèles) notés 1 et 2. Les chromosomes allant par paires (pour les individus diplo¨ıdes, comme les mammifères par exemple) chaque SNP peut prendre une de ces 4 combinaisons : 11, 12, 21 ou 22. En pratique, nous ne nous intéresserons pas à l’ordre (ou phase) des chromosomes, les états 12 et 21 seront, pour nous, indiscernables et notés indifféremment 12. Ces états pourront être ensuite recodés en 0, 1 et 2, en comptant simplement le nombre d’allèles ”2”. Ce dernier codage peut laisser penser que les allèles ont un effet additif, alors que dans la pratique toutes les interactions imaginables entre allèles existent (dominance, épistasie, etc.).

La donn´ee g´enomique est donc une suite de plusieurs milliers de valeurs ternaires (0, 1 et 2) par individu.

1.2 Le mod`

ele g´

en´

etique

Le modèle standard de la génétique est le suivant : Y = G + e, avec Y le phénotype, G les effets génétique et e un bruit (environnement, mesure, etc.) indépendant de G. On mesure l’héritabilité d’un phénotype par le rapport entre la variance des effets génétiques et la variance du phénotype : h2 = σ2G

σ2 Y

. Elle mesure la part de la génétique à la variance ob-servée d’un trait d’intérêt. La prédiction de phénotypes correspond donc, principalement, `

a la prédiction de ces effets génétiques.

Une particularité de la modélisation génétique est de ne considérer, souvent, que des modèles à effets génétiques additifs. En effet, la (très) grande quantité de données par individu nous amène à se mesurer à une combinatoire immense dès que l’on souhaite observer les interactions, ne serait-ce qu’à l’ordre 2.

Enfin, le grand nombre de variables vis-à-vis du nombre d’individus et la parcimonie des données placent le problème dans la ”Ultra Haute Dimension” où l’inférence par régression paramétrique devient problématique (Verzelen 2012).

Pour toutes ces raisons, dans le cadre de la prédiction de phénotypes, nous souhaitons tester des modèles semi ou non paramétriques afin de prendre en compte les interactions

(3)

et neutraliser le ”fléau de la dimension”. Un candidat prometteur (parmi d’autres) est la régression à noyaux.

2 Mat´

eriels et m´

ethodes

2.1 R´

egression `

a noyaux

Le principe de la régression à noyaux est de partir du modèle de régression Y = r(X) + e, puis de fixer r = E(Y |X), que l’on estime par

ˆ r(x) = P iyiK(h−1d(x, xi)) P jK(h−1d(x, xj))

C’est une moyenne pondérée des observations, les poids étant calculés en fonction de la distance du génotype de l’individu à prédire avec celui d’autres individus déjà connus. Le noyau utilisé dans la suite du document sera le noyau exponentiel :

K(h−1d(x1, x2)) = h−1e−d(x1,x2)h

−1

Une autre quantité que l’on peut vouloir prédire est le quantile conditionnel, nous permettant de construire des intervalles conditionnels des prédictions.

Dans tous les cas, on constate la nécessité de définir une distance génomique entre individus.

2.2 Distances G´

enomiques

La première idée est de reprendre les définitions standard de distance dans les espaces Lp (Distances de Minkowski):

dp(x, y) = (

X

i

|xi− yi|p)1/p

On s’intéressera plus particulièrement aux distances 0, 1 et 2. Une particularité impor-tante de la distance L0, ou distance de Hamming, qui compte le nombre de composantes différentes entre les deux vecteurs, est de ne pas être trop dépendante du codage utilisé.

Une deuxième approche est l’idée de vouloir accentuer la séparation des individus afin d’affiner le calcul du poids. Une méthode pour y parvenir est de faire une projection des individus dans un espace qui les écarte plus les uns des autres et de calculer les distances sur ce nouvel espace. Nous avons testé la projection ACP qui projette sur les sous-espaces de variance maximale (séparation par la variabilité). La distance L0 perd son sens dans le cas continu, mais on ajoutera à l’étude la distance L∞. Les 3 premières distances correspondent au cas de la projection Identité (notée ID).

(4)

Une troisième approche basée sur la corrélation est proposée : on représente les ob-servations d’une série de SNP pour chaque individu comme la réalisation d’une vari-able aléatoire quantitative, en considérant le codage des SNPs comme linéaire additif, et on choisit comme distance la corrélation entre les SNPs de deux individus (calcul stan-dard de la corrélation). Si deux individus sont ”indépendants” la corrélation est nulle, et elle est égale à 1 s’ils sont égaux. Pour définir une (semi)distance, on en prend le complémentaire à 1. Cette mesure est proche des coefficients de similarité génétique utilisée par les généticiens basé sur des covariances entre les génotypes des marqueurs SNP (Meuwissen et al. 2011).

On ´etudiera donc 8 distances, 3 distances Lp _{sans projections, 3 L}p _{avec projection}

ACP et une distance bas´ee sur la corr´elation avec et sans projection.

2.3 Simulations

Les études ont été faites sur des données simulées. Le générateur de données utilisé est QMSim (Sargolzaei et Schenkel 2009) qui nous fournit pour chaque jeu de données les valeurs phénotypiques, les génotypes mais aussi les réalisations du bruit, ce qui nous per-met de comparer notre prédiction aux valeurs vraies simulées. Deux héritabilités ont été simulées (0.3 et 0.7). 900 individus ont été générés pour le jeu de données d’entrainement et 450 descendants ont été utilisés pour les données de test dont le phénotype est masqué et est à prédire. 2000 SNPs et 50 QTLs (non observés) sont simulés par chromosome. Dans chaque chromosome, la corrélation entre SNP contigus est de 0.22 en moyenne.

La mesure d’adéquation aux données que nous utiliserons est la corrélation entre valeurs prédites et variable d’intérêt (phénotypes ou valeurs génétiques). Les résultats sont les moyennes de ces corrélations sur 100 répétitions ainsi que les intervalles de con-fiance 95% (les quantiles etimés 0.025 et 0.975). La théorie de la génétique quantita-tive (Lynch and Walsh, 1998) nous permet d’anticiper une valeur théorique attendue de la corrélation entre les valeurs prédites et les phénotypes ou valeurs génétiques vraies simulées, dans le cadre linéaire et additif et qui ne souffre pas des imprécisions dues à l’estimation de paramètres (ils sont ici simulés, donc connus). Ce dernier point apporte à notre réflexion une explication plausible au biais systématique des méthodes par rapport `

a cette valeur th´eorique.

3 R´

esultats et Discussion

Dans le tableau 1 figurent les corrélations entre les valeurs prédites et les cibles de la prédiction (phénotypes et valeurs génétiques des individus du test), pour la situation moins favorable où l’héritabilité est de 0.3 (la variance résiduelle représente 70 % de la variabilité totale). La semi-distance basée sur les corrélations se démarque des autres distances et se rapproche de la borne théorique. Ces remarques nous font penser que

(5)

Entrainement: Test: Entrainement: Test: Prédiction Prédiction Prédiction Prédiction

contre contre contre contre Valeurs Génétique Valeurs Génétique Phénotype Phénotype

ID ACP ID ACP ID ACP ID ACP

L0 39(34;44) 43(37;48) 20(14;26) 22(14;28)

L1 _47(42;52) _43(37;48) _48(44;53) _44(39;49) _25(19;30) _22(16;28) _25(20;31) _26(20;32)

L2 _50(45;54) _50(45;54) _50(46;54) _50(45;55) _26(20;32) _26(20;32) _27(21;32) _26(21;32)

L∞ _42(35;49) _42(35;50) _23(14;31) _23(15;31)

Corr´elation 51(47;56) 51(47;56) 52(48;57) 52(48;55) 28(21;33) 28(21;33) 28(21;34) 28(22;34)

Table 1: Résultats (en %) pour h2=0.3; corrélations théoriques attendues r=0.57 (prédiction de valeurs génétiques) et r=0.31 (prédiction de phénotypes). Intervalles de confiance à 95% entre parenthèses.

Entrainement: Test: Entrainement: Test: Prédiction Prédiction Prédiction Prédiction

contre contre contre contre Valeurs Génétique Valeurs Génétique Phénotype Phénotype

ID ACP ID ACP ID ACP ID ACP

L0 _55(50;59) _56(51;60) _45(39;49) _46(40;49)

L1 _61(57;65) _61(56;65) _64(60;65) _63(59;65) _50(46;54) _53(49;58) _56(50;62) _56(50;62)

L2 _64(60;68) _64(60;68) _67(62;71) _67(62;71) _53(46;58) _53(46;58) _56(51;62) _56(51;62)

L∞ 49(42;55) 46(39;54) 40(35;45) 39(35;44) Corr´elation 63(59;66) 63(59;66) 67(63;70) 66(63;70) 53(48;57) 53(48;57) 56(52;62) 56(52;62)

Table 2: R´esultats (en %) pour h2 _{= 0.7; corr´}_{elations th´}_{eoriques attendues r = 0.75}

(prédiction de valeurs génétiques) et r = 0.63 (prédiction de phénotypes). Intervalles de confiance à 95% entre parenthèses.

d’autres mesures de distances, basées elles aussi sur des idées de corrélations (ou de rangs) seraient les plus adaptées au problème. Deux distances ”brownian distance correlation” (Bickel et Xu 2009) et ”Random permutations” (Chapuy 2007, Xinan et al. 2006) sont actuellement à l’étude.

On remarque aussi que la projection ACP n’améliore pas les résultats, en comparai-son avec les distances sans projections, et que la distance L∞, qui n’a de sens qu’après projection, fait à peine mieux que la distance L0_.

Dans le cas des fortes héritabilités (tableau 2) les résultats sont plus éloignés des valeurs théoriques que dans le cas des faibles héritabilités. La semi-distance des corrélations et la distance L2 _{(quel que soit sa projection) sont toujours les plus ´}_elev´_{ees des distances}

étudiées. La projection ACP n’améliore toujours pas les résultats, et la distance L∞ ne fait pas beaucoup mieux que dans le cas des faibles héritabilités. Les semi-distances de corrélation produisent des prédictions acceptables (90% de la valeur théorique attendue). De cette étude, ressort que la distance L2 (Euclidienne, naturelle ) est une bonne définition de distance génomique entre individus. La semi-distance des corrélations semble être la distance la plus efficace (parmi celles testées) et nous ouvre une piste intéressante de

(6)

recherche. La projection ACP, en plus de son coût algorithmique en temps non négligeable, n’améliore pas les résultats.

En perspective, il faut élargir le choix de distances (brownian distance correlation, random permutations, distances locales, etc.) pour étudier les interactions génétiques.

Bibliographie

[1] Guillaume Chapuy (2007), Random permutations and their discrepancy process, Con-ference on Analysis of Algorithms, AofA 07, 415-426.

[2] Yang, Xinan ; Bentink, Stefan; Scheid, Stefanie; Spang, Rainer (2006), Similarities of ordered gene lists, Journal of bioinformatics and computational biology, Volume 4, Issue 3, 693-708.

[3] Sargolzaei, M. and F. S. Schenkel. (2009), QMSim: a large-scale genome simulator for livestock, Bioinformatics, 25: 680-681. First published January 28, 2009, doi:10.1093 /bioinformatics/btp045.

[4] Michael Lynch; Bruce Walsh (1998), Genetics and Analysis of Quantitative Traits, Sinauer Associates Inc.,U.S.

[5] Verzelen, N. (2012), Minimax risks for sparse regressions: Ultra-high dimensional phenomenons, Electronic Journal of Statistics, 6, p.38?90.

[6] Bickel, P.J. and Xu, Y. (2009), Discussion of: Brownian distance covariance, Annals of Applied Statistics, 3 (4), 1266?1269.

[7] Meuwissen, T. H. E.; Luan, T.; Woolliams, J. A., The unified approach to the use of genomic and pedigree information in genomic evaluations revisited, Journal of Animal Breeding and Genetics, Volume: 128, Issue: 6, Pages: 429-439, DEC 2011