• Aucun résultat trouvé

CHAPITRE 7 : DISCUSSION ET CONCLUSION

7.1.2 iBMQ : notre nouvel outil bio-informatique

Jusqu’à maintenant, plusieurs stratégies ont été proposées pour effectuer des analyses de eQTLs. Leurs caractéristiques respectives et la manière par laquelle ils se comparent à notre outil iBMQ sont résumées ci-dessous.

Tel que discuté dans le chapitre 2, iBMQ offre plusieurs avantages de performance et/ou d’utilisation par rapport aux méthodes qui étaient disponibles jusqu’ici. Ceci inclut R/qtl [103] (l’analyse univariée de QTLs la plus fréquemment utilisée), QTLBIM [109] et BAYES [110] (deux méthodes bayésiennes), et Sparse Partial Least (SPLS) [70] (une technique de régression regroupant les gènes en fonction de leurs profils d’expression.

Pendant que le manuscrit décrivant notre travail était en processus de révision, une autre équipe a également publié un modèle hiérarchique bayésien, HESS, pour la détec- tion des eQTLs [107]. Ce modèle se distingue par sa façon de décomposer la sélection de probabilités d’inclusion d’un marqueur qui incorpore à la fois une composante hié- rarchique (comme notre modèle), mais aussi une composante qui permet de prendre en compte d’autres structures et/ou différents types d’informations (par exemple des informations biologiques sur la nature des gènes, comme les régions codantes vs non codantes, la localisation des gènes, etc.). Cette deuxième composante a l’avantage d’in-

clure des informations biologiques pour aider à trouver des régulateurs clés dans le cas de détection de «hotspots» de trans-eQTLs. De façon semblable à notre travail, les concep- teurs de HESS ont comparé les performances de leur modèle aux logiciels BAYES [110], MOM [100] et (SPLS) [70], et ont montré que HESS détectait mieux les «hotspots » de trans-eQTLs que les autres méthodes. Pour des raisons chronologiques évidentes, nous n’avons pas pu comparer iBMQ à HESS. Par ailleurs, HESS est un logiciel qui n’est pas encore disponible publiquement, et est programmé pour une plateforme d’utilisation non publique. Ces mêmes problèmes existent pour d’autres logiciels qui proposent des solutions pour la haute dimensionnalité, incluant MOM [100], SBR [102] et VBQTL [101]) . Pour notre part, nous avons programmé l’outil iBMQ en langage R, et l’avons rendu disponible à la communauté scientifique par le biais de la plate-forme Bioconduc- tor. Pour l’efficacité des calculs, le code source de iBMQ a été écrit en langage C, mais l’enveloppe en code R rend son utilisation plus conviviale. Un des avantages du langage R est que les résultats obtenus peuvent ensuite être intégrés à d’autres outils disponibles en langage R, incluant des outils pour la visualisation graphique, la gestion de bases de données et/ou des requêtes d’annotations.

Plusieurs extensions techniques permettraient d’améliorer notre modèle d’analyse. Tel qu’illustré dans le chapitre 2, une des faiblesses de notre modèle est son incapacité à détecter des eQTLs lorsque la corrélation non génétique entre l’expression des gènes est plus grande que celle due à des effets génétiques. Une solution à ce problème serait de détendre l’hypothèse d’indépendance des erreurs dans notre modèle. Dans la pratique, il s’agit d’un défi irréalisable en terme de temps de calcul. Une solution envisageable serait de modéliser cette co-expression avec une distribution de type «Wishart inverse»(une généralisation de Gamma inverse), tel que décrit par Bottolo et al.[107] et Petretto et al. [73]. Cette approche fonctionne bien dans les modèles où un indicateur d’association est commun à tous les gènes. Cependant, comme il y a dans notre modèle beaucoup de variables à calculer, cette approche risque de demander des temps de calculs trop grands. Comme alternative, nos travaux futurs consisteront à intégrer les corrélations entre les gènes en tenant compte des blocs de gènes et d’avoir une variable indicateur d’association pour le bloc de gènes. Ces blocs de gènes pourraient par exemple être des

gènes appartenant tous à des voies particulières de régulation. Ceci pourrait améliorer la détection des associations faibles masquées par de fortes corrélations fonctionnelles, tout en réduisant le nombre de variables à gérer.

Les simulations au chapitre 2 ont également montré que la corrélation entre les SNPs pouvait affecter la détection des eQTLs, mais dans une moins grande mesure que la corrélation entre les gènes. Au niveau biologique, cette corrélation entre les SNPs est due au déséquilibre de liaison c’est-à-dire l’association non aléatoire entre des SNPs. Dans nos travaux futurs, deux directions seront envisagées : 1) seulement calculer une probabilité d’inclusion pour les blocs de SNPs qui sont en déséquilibre de liaison et ainsi réduire le nombre de variables à gérer et donc réduire le temps de calcul. 2) Au contraire, prendre en compte la structure de corrélation entre les SNPs pour pouvoir mieux détecter le vrai SNP causal.

Ultimement, notre but est de développer une approche plus globale et unifiée pour l’analyse des traits complexes. L’idéal serait donc d’avoir un modèle qui incorpore les données génétiques, transcriptomiques (expression de gènes) et phénotypiques (ou cli- niques). Ce type d’approche pourrait permettre, entre autres, la détection de «hotspots» de trans-eQTLs liés à des traits complexes. Avec notre modèle actuel, le plus simple serait d’analyser les phénotypes cliniques et les expressions de gènes ensemble. Comme en règle générale le nombre de phénotypes à l’étude est petit par rapport au nombre de gènes, cette approche ne serait pas idéale. Les données d’expressions de gènes étant plus nombreuses, ceux-ci auraient plus de poids que les phénotypes cliniques pour affecter les probabilités d’inclusions. Le mieux serait de faire un modèle avec deux niveaux de hiérarchie, un premier niveau pour détecter les marqueurs liés aux phénotypes et un deuxième pour trouver les marqueurs liés aux expressions de gènes.

Documents relatifs