• Aucun résultat trouvé

Nous avons choisi d'illustrer l'utilisation de VEXOR dans le contexte de l'exploration fonction- nelle d'un locus de susceptibilité au cancer du sein identié par l'étude d'association présentée dans le chapitre 1 du présent manuscrit (1p36).

La liste des variants d'intérêt a été extraite des tableaux supplémentaires 8 et 13 de l'article original (Michailidou et al., 2017). Après l'extraction des données, la procédure d'analyse a été la suivante: 1) charger les variants d'intérêt dans l'interface Web, 2) cartographier les annotations fonctionnelles mises à disposition dans l'outil, 3) utiliser les fonctionnalités tels que le système de score manuel ou la visualisation d'annotations et d'expériences pour sélectionner les meilleurs candidats et enn 4) conclure.

Le chier d'entrée contient 24 variants et les annotations suivantes : "CADD consequence" (cadd.consequence), "CADD consequence score" (cadd.consscore), "tCons score" (cadd.tcons), "Percent GC in a window of +/- 75bp" (cadd.gc) et "Percent CpG in a window of +/- 75bp" (cadd.cpg).

3.6.1 Mapping des annotations basiques

Une fois le chier chargé, nous avons cartographié les annotations fonctionnelles an de visu- aliser le chevauchement des variants candidats avec des régions d'intérêt tels que les sites de xation de facteurs de transcription ou les sites d'hypersensibilité à la DNAse. Le chevauche- ment observé est illustré en Figure 3.2.

Figure 3.2: Visualisation du chevauchement entre annotations génomiques et variants candidats. Les cellules vert foncé représente un chevauchement entre une annotation et un variant.

3.6.2 Score manuel

Les paramètres de conguration du système de score manuel (Figure3.3) :

ˆ Être présent dans une région (+/- 75 pb) contenant un pourcentage de GC supérieur à 0.6 donne 2 points ;

ˆ Être situé dans une région "microsatellite" ou une région répétée retire 1 point ; ˆ Être situé dans une région de sensibilité à la DNAse ou une région de xation de facteurs

de transcription ou enhancer donne 2 points ;

Figure 3.3: Interface de conguration du scorage manuel.

La visualisation du score pondéré, illustrée Figure 3.4, permet d'identier rapidement quatre variants arborant des scores élevés (e. g. rs3007718, rs2992757, rs2992756, rs2992745) dont deux situés dans des exons.

Figure 3.4: Visualisation du chevauchement entre les annotations d'intérêt et les variants candidats après l'application du système de score pondéré.

3.6.3 Sélection des variants d'intérêt

Les variants présentant les scores les plus élevés sont sélectionnés via le panel Rene by variants en entrant leurs identiants dans l'espace prévu à cet eet (Figure 3.5).

Figure 3.5: Interface de selection des variants d'interet.

3.6.4 Approfondissement des annotations

Selon l'outil VEP (McLaren et al., 2016), le variant rs2992756 est prédit comme ayant des conséquences sur la régulation du gène KLHDC7A de part sa présence dans le promoteur de ce dernier. Les variants rs2992745 et rs2992757 sont prédit comme des modicateurs de l'expression de KLHDC7A. Bien que situé dans un exon du gène KLHDC7A, le variant rs3007718 est prédit comme ayant un impact faible.

Nous avons ensuite interrogé la base de connaissances RegulomeDB (Boyle et al.,2012) pour évaluer la probabilité, pour chacun des variants candidats, d'impacter l'expression de gènes cibles. Le score de RegulomeDB va de 1 à 6. La colonne Complementary infos permet d'accéder directement à l'entrée du variant d'intérêt dans l'interface de RegulomeDB. Le Tableau 3.2 présente la signication des diérentes valeurs de ce score.

Les variants rs2992757 et rs2992756 réunissent de nombreuses données pour appuyer leurs impacts fonctionnels. Selon RegulomeDB, rs2992757 est classé comme "susceptible d'aecter la liaison et lié à l'expression d'un gène cible" et rs2992756 est classé comme "susceptible

Score Données

1a eQTL + TF binding + matched TF motif + matched DNase Footprint + DNase peak 1b eQTL + TF binding + any motif + DNase Footprint + DNase peak

1c eQTL + TF binding + matched TF motif + DNase peak 1d eQTL + TF binding + any motif + DNase peak

1e eQTL + TF binding + matched TF motif 1f eQTL + TF binding / DNase peak

2a TF binding + matched TF motif + matched DNase Footprint + DNase peak 2b TF binding + any motif + DNase Footprint + DNase peak

2c TF binding + matched TF motif + DNase peak 3a TF binding + any motif + DNase peak

3b TF binding + matched TF motif 4 TF binding + DNase peak 5 TF binding or DNase peak

6 other

Tableau 3.2: Interprétation des scores produits par RegulomeDB

d'aecter la liaison" de facteurs de transcription (Figure 3.6).

Figure 3.6: Scores RegulomeDB pour les variants d'intérêt.

Le panel Experiments permet la visualisation des expériences et annotations fonctionnelles disponibles pour la région génomique dans laquelle se situent les variants d'intérêt. Pour la présente analyse, nous avons circonscrit la recherche aux expériences réalisées dans les cellules mammaires (Figure 3.7).

Figure 3.7: Interface de requête des expériences dans les lignées mammaires dans la région chr1:18805136-18811897.

La gure3.8présente les résultats d'expériences de type ChromHMM dans 3 lignées cellulaires mammaires donnant une prédiction de l'état de l'état de la chromatine dans la région d'interet, ainsi que ceux d'une expérience d'immonuprécipitation de la chromatine (ChIA-PET) visant à identier les points de repliement de la chromatine dans les cellules MCF-7.

Figure 3.8: Visualisation des expériences disponibles dans les lignées mammaires dans la région chr1:18805136-18811897.

On constate que les variants rs2992757 et rs2992756 sont situés dans une région de type enhancer, probablement promotrice de l'expression du gène voisin, KLHDC7A, dans les cellules

HMEC et myoépithéliales primaires mammaires. Alors que, dans les cellules vHMEC souvent considérées comme représentant le sous-type de cancer du sein basal (Locke et al., 2012), la région complète semble réprimée. Cette diérence observée avec les cellules saines pourrait être indice concernant le mécanisme d'action des variants rs2992757 et rs2992756.

Finalement, nous avons recueilli les données issues du projet GTEx an d'évaluer l'impact de nos variants d'intérêt sur l'expression tissue-spécique des gènes cibles. L'interface de VEXOR nous permet d'accéder aux données pour tous les tissus disponibles dans la base de données de GTEx. Pour cette analyse, nous avons ltré les résultats pour ne visualiser que les données d'expression dans le tissu mammaire et ordonnées selon leur p-value (Figure 3.9).

Figure 3.9: Résultats issus du projet GTEx.

Les eQTL les plus signicatifs portent sur le gène KLHDC7A. La Figure3.10illustre l'impact des variants avoisinant ce gène grâce au GTEx Gene-eQTL Visualizer.

Figure 3.10: Visualisation des eQTL situés en amont du gène KLHDC7A via l'outil GTEx Gene-eQTL Visualizer.

Les variants rs3007718, rs2992757 et rs2992745 démontrent des eets signicatifs sur le gène KLHDC7A dans les cellules mammaires. Ces trois variants semblent mener à une augmenta- tion assez modérée de l'expression du gène (représenté par la couleur des bulles).

3.6.5 Conclusion

Compte-tenu des diérents éléments réunis dans cette analyse, les variants rs2992757 et rs2992756 semblent être des candidats crédibles. Leur impact serait au niveau du gène KL- HDC7A par l'entremise de son promoteur. Dans (Michailidou et al.,2017), des essais fonction- nels ont été réalisés pour le variant rs2992756 uniquement. Un eet répresseur a été observé sur l'activité du promoteur de KLHDC7A. Néanmoins, l'eet de ce dernier sur l'expression du gène n'a pas été évalué.

Chapitre 3  DSNetwork: An integra-

tive approach to visualize predictions of

variant' deleteriousness.

Lors de sa publication, VEXOR intégrait une seule approche de prédiction des impacts délétères des variants, CADD (Kircher et al., 2014). Néanmoins, l'approfondissement des problématiques liées à ce type de méthodes, m'a conduit à la mise au point d'un outil d'aide à la décision consacré aux approches de prédiction des impacts délétères des variants, nommé DSNetwork pour Decision Support Network. En eet, plusieurs méthodes populaires four- nissent un score reétant leur évaluation du caractère délétère des variants génétiques. Mal- heureusement, chacun de ces outils possède son propre système d'évaluation ce qui oblige les utilisateurs à se familiariser avec chaque approche pour interpréter leurs résultats. J'ai donc créé une méthode d'intégration et de visualisation exible conçue pour aider à prioriser les variants, codants et non-codants, en agrégeant les prédictions d'impacts fonctionnels de près de 60 prédicteurs de référence.

Journal

Cet article a été soumis dans la revue PLoS One dans la section Methods le 28 décembre 2018 et a mis à disposion en pré-impression sur la plateforme BioRxiv.

Accessibilité

DSNetwork: An integrative approach to visualize predictions of variants' deleteriousness. A Lemaçon, MP Scott-Boyer, P Soucy, R Ongaro-Carcy, J Simard, A Droit BioRxiv, doi: https: //doi.org/10.1101/526335

Liste des auteurs

Audrey Lemaçon1, Marie-Pier Scott-Boyer1, Penny Soucy1, Régis Ongaro-Carcy1, Jacques

Simard1 and Arnaud Droit1

1Genomics Center, Centre Hospitalier Universitaire de Québec - Université Laval Research

Center, Quebec, Quebec, Canada.

Contribution

Je suis responsable du développement et de la maintenance de l'outil. Je suis également responsable de la rédaction de l'article. Penny Soucy et Marie-Pier Scott-Boyer ont apporté leur expertise à la conception ergonomique de l'outil et au choix des fonctionnalités à intégrer. Régis Ongaro-Carcy a réalisé l'intégration de SNPNexus à l'outil. Penny Soucy, Marie-Pier Scott-Boyer et Jacques Simard ont participé à l'élaboration du manuscrit. Arnaud Droit a supervisé le développement de l'outil et la soumission de l'article.

4.1 Résumé

L'une des tâches les plus diciles suivant une étude d'association pangénomique (GWAS) est l'identication de variants réellement fonctionnels parmi ceux identiés comme associés à un trait. Plusieurs méthodes populaires fournissent un score censé reéter l'ampleur de l'impact délétère des variants génétiques sur l'organisme. Malheureusement, chacun de ces outils possède son propre système d'évaluation ce qui oblige les utilisateurs à se familiariser avec chaque approche pour interpréter leurs résultats. Nous avons donc créé une méth- ode d'intégration et de visualisation exible conçue pour aider à prioriser les variants, co- dants et non-codants, en agrégeant les prédictions d'impacts fonctionnels de près de 60 pré- dicteurs de référence. La méthode accessible via une interface Shiny appelée DSNetwork (http://romix.genome.ulaval.ca/dsnetwork), a été utilisée pour valider l'utilité de notre méthodologie en permettant l'identication avec succès de variants fonctionnels dans quatre loci de susceptibilité au cancer du sein, préalablement validés par des essais fonctionnels.

4.2 Abstract

One of the most challenging tasks of the post-genome-wide association studies (GWAS) re- search era is the identication of functional variants among those associated with a trait for an observed GWAS signal. Several methods have been developed to evaluate the potential functional implications of genetic variants. Each of these tools has its own scoring system

which forces users to become acquainted with each approach to interpret their results. From an awareness of the amount of work needed to analyze and integrate results for a single locus, we proposed a exible and versatile approach designed to help the prioritization of variants by aggregating the predictions of their potential functional implications. This approach has been made available through a web interface called DSNetwork which acts as a single-point of entry to almost 60 reference predictors for both coding and non-coding variants and displays predictions in an easy-to-interpret visualization. We conrmed the usefulness of our method- ology by successfully identifying functional variants in four breast cancer susceptibility loci. DSNetwork is an integrative web application implemented through the Shiny framework and available at: http://romix.genome.ulaval.ca/dsnetwork.

Documents relatifs