• Aucun résultat trouvé

1 Résumé des différentes stratégies étudiées . . . 24 2 Les deux premiers coefficients de corrélation obtenus en

moyenne sur les échantillons de “test” et les échantillons d’“apprentissage”. . . 29 6.1 Summary of the different strategies investigated . . . 124 6.2 The two first average correlation coefficients found on left-

out “test” samples and on “training” samples. . . 129 6.3 Out-of-sample correlation coefficient on the first component

pair as a function of k and sλ1X. Empirical p-values still

significant (p<.05) after correction are shown here as: *. . . 130

6.4 SNPs selected by fsPLS. . . 135 6.5 Genes selected by fsPLS. . . 136

Titre Méthodes multivariées pour l’analyse jointe de données de neu- roimagerie et de génétique

Résumé L’imagerie cérébrale connaît un intérêt grandissant, en tant que phénotype in- termédiaire, dans la compréhension du chemin complexe qui relie les gènes à un phéno- type comportemental ou clinique. Dans ce contexte, un premier objectif est de proposer des méthodes capables d’identifier la part de variabilité génétique qui explique une cer- taine part de la variabilité observée en neuroimagerie. Les approches univariées clas- siques ignorent les effets conjoints qui peuvent exister entre plusieurs gènes ou les covari- ations potentielles entre régions cérébrales. Notre première contribution est de chercher à améliorer la sensibilité de l’approche univariée en tirant avantage de la nature multivariée des données génétiques, au niveau local. En effet, nous adaptons l’inférence au niveau du cluster en neuroimagerie à des données de polymorphismes d’un seul nucléotide (SNP), en cherchant des clusters 1D de SNPs adjacents associés à un même phénotype d’imagerie. Ensuite, nous prolongeons cette idée et combinons les clusters de voxels avec les clusters de SNPs, en utilisant un test simple au niveau du "cluster 4D", qui détecte conjointement des régions cérébrale et génomique fortement associées. Nous obtenons des résultats préliminaires prometteurs, tant sur données simulées que sur données réelles. Notre deux- ième contribution est d’utiliser des méthodes multivariées exploratoires pour améliorer la puissance de détection des études d’imagerie génétique, en modélisant la nature multivar- iée potentielle des associations, à plus longue échelle, tant du point de vue de l’imagerie que de la génétique. La régression Partial Least Squares et l’analyse canonique ont été récemment proposées pour l’analyse de données génétiques et transcriptomiques. Nous proposons ici de transposer cette idée à l’analyse de données de génétique et d’imagerie. De plus, nous étudions différentes stratégies de régularisation et de réduction de dimen- sion, combinées avec la PLS ou l’analyse canonique, afin de faire face au phénomène de sur-apprentissage dû aux très grandes dimensions des données. Nous proposons une étude comparative de ces différentes stratégies, sur des données simulées et des données réelles d’IRM fonctionnelle et de SNPs. Le filtrage univarié semble nécessaire. Cependant, c’est la combinaison du filtrage univarié et de la PLS régularisée L1 qui permet de détecter une association généralisable et significative sur les données réelles, ce qui suggère que la découverte d’associations en imagerie génétique nécessite une approche multivariée.

Mots-clés Imagerie Génétique, Analyse multivariée, Inférence au niveau du cluster, Régression Partial Least Squares, Analyse Canonique, Sélection d’attributs, Régularisation

Title Multivariate methods for the joint analysis of neuroimaging and genetic data

Abstract Brain imaging is increasingly recognised as an interesting intermediate phe- notype to understand the complex path between genetics and behavioural or clinical phe- notypes. In this context, a first goal is to propose methods to identify the part of genetic variability that explains some neuroimaging variability. Classical univariate approaches often ignore the potential joint effects that may exist between genes or the potential co- variations between brain regions. Our first contribution is to improve the sensitivity of the univariate approach by taking advantage of the multivariate nature of the genetic data in a local way. Indeed, we adapt cluster-inference techniques from neuroimaging to Single Nucleotide Polymorphism (SNP) data, by looking for 1D clusters of adjacent SNPs asso- ciated with the same imaging phenotype. Then, we push further the concept of clusters and we combined voxel clusters and SNP clusters, by using a simple 4D cluster test that detects conjointly brain and genome regions with high associations. We obtain promising preliminary results on both simulated and real datasets . Our second contribution is to investigate exploratory multivariate methods to increase the detection power of imaging genetics studies, by accounting for the potential multivariate nature of the associations, at a longer range, on both the imaging and the genetics sides. Recently, Partial Least Squares (PLS) regression or Canonical Correlation Analysis (CCA) have been proposed to analyse genetic and transcriptomic data. Here, we propose to transpose this idea to the genetics vs. imaging context. Moreover, we investigate the use of different strategies of regularisation and dimension reduction techniques combined with PLS or CCA, to face the overfitting issues due to the very high dimensionality of the data. We propose a comparison study of the different strategies on both a simulated dataset and a real fMRI and SNP dataset. Univariate selection appears to be necessary to reduce the dimensionality. However, the generalisable and significant association uncovered on the real dataset by the two-step approach combining univariate filtering and L1-regularised PLS suggests that discovering meaningful imaging genetics associations calls for a multivariate approach.

Keywords Imaging Genetics, Multivariate analysis, Cluster-level inference, Partial Least Squares, Canonical Correlation Analysis, Feature selection, Regularisation

Documents relatifs