• Aucun résultat trouvé

Développement d'outils bioinformatiques et de méthodologies d'apprentissage machine pour une meilleure compréhension des éléments génétiques sous-jacents à la susceptibilité au cancer du sein

N/A
N/A
Protected

Academic year: 2021

Partager "Développement d'outils bioinformatiques et de méthodologies d'apprentissage machine pour une meilleure compréhension des éléments génétiques sous-jacents à la susceptibilité au cancer du sein"

Copied!
195
0
0

Texte intégral

(1)

Développement d'outils bioinformatiques et de

méthodologies d'apprentissage machine pour une

meilleure compréhension des éléments génétiques

sous-jacents à la susceptibilité au cancer du sein

Thèse

Audrey Lemaçon

Doctorat en médecine moléculaire

Philosophiæ doctor (Ph. D.)

(2)

Développement d’outils bioinformatiques et de

méthodologies d’apprentissage machine pour une

meilleure compréhension des éléments génétiques

sous-jacents à la susceptibilité au cancer du sein

Thèse

Audrey Lemaçon

Sous la direction de:

Arnaud Droit, directeur de recherche Jacques Simard, codirecteur de recherche

(3)

Résumé

Le cancer du sein est l'une des principales causes de décès par cancer chez les Canadiennes (1 sur 8 le développera au cours de sa vie et 1 sur 31 en décédera). Les études suggèrent que la majorité des cancers du sein se développent dans une faible portion de femmes ayant une susceptibilité génétique à la maladie. L'évaluation personnalisée de ce risque étant basée sur la conviction que la population peut se diviser en plusieurs groupes selon le risque génétique individuel inhérent, il est indispensable d'identier les acteurs responsables de cette suscepti-bilité génétique pour pouvoir orir, à ces femmes à risque, des mesures préventives adaptées à leur risque.

Ainsi, depuis la découverte des gènes associés au cancer du sein, BRCA1 en 1994 et BRCA2 en 1995, d'énormes eorts ont été fournis an d'identier les éléments génétiques sous-jacents au risque du cancer du sein et de nombreuses autres mutations délétères ont été découvertes dans des gènes de susceptibilité tels que PTEN, PALB2 ou CHEK2. Malheureusement, mal-gré les eorts engagés dans cette recherche, les gènes/loci de susceptibilité connus à ce jour n'expliquent qu'environ la moitié du risque génétique liée à cette maladie. Conscients des enjeux, de nombreux groupes d'études internationaux se sont associés en consortiums tels que le Breast Cancer Association Consortium (BCAC) ou le Consortium of Investigators of Mod-iers of BRCA1/2 (CIMBA), an d'unir leur ressources pour l'identication de ce qu'on a appelé "l'héritabilité manquante" du cancer du sein.

Plusieurs hypothèses ont été formulées quant aux sources de cette héritabilité manquante et, parmi ces hypothèses, nous en avons exploré deux. Dans un premier temps, nous avons testé l'hypothèse selon laquelle il resterait de nombreux variants génétiques communs de faible pénétrance à découvrir à travers une vaste étude d'association pangénomique réalisée dans le cadre de l'OncoArray Network. Dans un second temps, nous avons testé l'hypothèse selon laquelle des variants, plus rares mais de pénétrance plus forte, seraient à découvrir dans les régions codantes du génome, à travers l'évaluation du potentiel prédictif de ces variants via une approche innovante d'analyse de données d'exomes. Ainsi, nous avons pu démontrer la véracité de la première hypothèse par la découverte de 65 nouveaux locus associés à la susceptibilité au cancer du sein global. De plus, ces travaux ayant mis en lumière des besoins en terme

(4)

d'assistance à l'analyse des signaux d'association, nous avons développé deux outils d'aide à la priorisation des variants génétiques humains. Enn, la seconde hypothèse a été testée à travers le développement d'une nouvelle méthodologie multi-étapes, combinant l'analyse de génotypes et d'haplotypes. Cette approche, mettant à prot la puissance de l'apprentissage machine, a permis d'identier des nouveaux marqueurs (variants individuels ou combinés dans des haplotypes) codants potentiellement associés au phénotype.

Pour les locus de susceptibilité comme pour les gènes candidats identiés lors de l'analyse des données d'exomes, il sera indispensable de conrmer leur implication ainsi que l'ampleur de leurs eets sur des cohortes externes de grande taille et puis procéder à leur caractérisation fonctionnelle. Si ces derniers sont validés, ils pourront alors être intégrés aux outils actuels de prédiction du risque du cancer du sein et favoriser ainsi une prise en charge précoce et la prescription d'interventions thérapeutiques mieux adaptées pour les femmes à risque.

(5)

Abstract

Breast cancer is one of the leading causes of death from cancer among Canadian women (about 1 in 8 Canadian women will develop breast cancer during her lifetime and 1 in 31 will die from the disease). Evidence suggests that most breast cancer cases develop in a small proportion of women with a genetic susceptibility to the disease. Since the personalized assessment of this risk is based on the certainty that women can be divided into several groups according to their inherent genetic risk, it is essential to identify the actors responsible for this genetic susceptibility to breast cancer in order to oer these at-risk women, personalized preventive measures. Thus, since the discovery of the associated genes BRCA1 in 1994 and BRCA2 in 1995, tremendous eorts have been made to identify the genetic components underlying breast cancer risk and many other deleterious mutations have been uncovered in susceptibility genes such as PTEN, PALB2 or CHEK2. Unfortunately, despite these eorts, the susceptibility genes/loci known to date only explain about half of the genetic risk associated with this disease. Acknowledging the challenges, many international groups have partnered in consortia such as the Breast Cancer Consortium (BCAC) or the Consortium of Investigators of Modiers of BRCA1/2 (CIMBA) to join their resources for the identication of what has been called breast cancer "missing heritability". Several hypotheses have been formulated as to the sources of this missing heritability and, among these hypotheses, we have explored two. First, we tested the hypothesis of many common low penetrance genetic variants still to be discovered through a large genome-wide association study conducted within the OncoArray Network. In a second step, we tested the hypothesis according to which rarer variants of higher penetrance, could be discovered in the coding regions of the genome, through the evaluation of the predictive power of these variants by an innovative approach of exomes data analysis. Thus, we were able to demonstrate the veracity of the rst hypothesis by the discovery of 65 new loci associated with overall breast cancer susceptibility. In addition, these studies having highlighted the need for assistance tools for prioritization analysis, we developed two softwares to help prioritize human genetic variants. Finally, we developed a new multi-step methodology, combining the analysis of genotypes and haplotypes in order to assess the predictive power of coding variants. This approach, taking advantage of the power of machine learning, enabled the identication of new credible coding markers (variants alone or combined into haplotypes), signicantly associated

(6)

with the phenotype. For susceptibility loci as well as for candidate genes identied during the analysis of exome data, it will be essential to conrm their involvement and eect size on large external sample sets and then perform their functional characterization. If they are validated, their integration into current risk prediction tools could help promote early management and well-calibrated therapeutic interventions for at-risk women.

(7)

Table des matières

Résumé iii

Abstract v

Table des matières vii

Liste des tableaux viii

Liste des gures ix

Remerciements xii

Avant-propos xiii

Projets principaux . . . xiii

Projets annexes . . . xv

Financements . . . xv

Introduction 1 1.1 Le cancer du sein, un éau. . . 2

1.2 L'étiologie du cancer du sein. . . 2

1.3 Le risque génétique du cancer du sein. . . 3

1.4 L'héritabilité manquante . . . 4

1.5 Les études d'association pangénomiques . . . 10

1.6 Les études d'exomes complets . . . 18

1.7 L'apprentissage machine . . . 25

1.8 Hypothèses et approches méthodologiques . . . 31

2 Chapitre 1  Association analysis identies 65 new breast cancer risk loci. 32 2.1 Résumé . . . 33

2.2 Abstract . . . 33

2.3 Main . . . 34

2.4 Relevant methods. . . 41

3 Chapitre 2  VEXOR: an integrative environment for prioritization of functional variants in ne-mapping analysis. 46 3.1 Résumé . . . 48

3.2 Abstract . . . 48

(8)

3.4 VEXOR software . . . 50

3.5 Conclusion . . . 52

3.6 Cas d'étude . . . 52

4 Chapitre 3  DSNetwork: An integrative approach to visualize predic-tions of variant' deleteriousness. 61 4.1 Résumé . . . 62

4.2 Abstract . . . 62

4.3 Author Summary . . . 63

4.4 Introduction. . . 63

4.5 Materials and methods . . . 64

4.6 Results and discussion . . . 69

4.7 Conclusion . . . 73

5 Chapitre 4  Exome-wide predictive study: An original method to discover new predictive coding markers 75 5.1 Résumé . . . 76

5.2 Abstract . . . 76

5.3 Introduction. . . 77

5.4 Material and Methods . . . 79

5.5 Results and discussion . . . 85

5.6 Conclusions . . . 94 Conclusion 95 Discussion 98 7.1 Pistes de poursuite . . . 98 7.2 Mise en perspective . . . 106 Bibliographie 113 A Annexes 158 A.1 Projets Annexes . . . 158

A.2 Chapitre 1. . . 158

A.3 Chapitre 2. . . 163

A.4 Chapitre 3. . . 163

(9)

Liste des tableaux

1.1 Une boîte à outils avec une URL pour les méthodes, les bases de données

d'annotation et les outils issus de (Spain and Barrett, 2015). . . 17 1.2 Illustration de la matrice de confusion obtenue suite à la classication de 200

courriels. . . 28 3.1 Features comparison between VEXOR, DisGeNET (Piñero et al., 2015),

Locu-sExplorer (Dadaev et al., 2015) and Enlight (Guo et al., 2015). . . 50 3.2 Interprétation des scores produits par RegulomeDB . . . 57 4.1 Deleterious scores generated by 5 dierent approaches. . . 65 7.1 Extrait d'un chier de type haplotype combiné pour six CCDSs et dix individus

(10)

Liste des gures

1.1 Gènes et loci de susceptibilité au cancer du sein par fréquence allélique et aug-mentation du risque conféré par l'allèle associé. Figure adaptée de Ghoussaini

et al. (2013) . . . 4 1.2 Proportion de l'héritabilité expliquée par les diérents gènes et loci identiés

en 2015. Près de la moitié des cas de cancers dits familiaux restent encore

inexpliquée par les marqueurs connus Chandler et al. (2016). . . 5 1.3 Illustration du concept d'héritabilité entre jumeaux homozygotes (adapté du

site KhanAcademy https://www.khanacademy.org/test-prep/mcat/behavior/ behavior-and-genetics/a/genes-environment-and-behavior) . . . 6 1.4 Illustration du concept d'héritabilité entre deux individus non-apparentés (adapté

du site KhanAcademy https://www.khanacademy.org/test-prep/mcat/behavior/ behavior-and-genetics/a/genes-environment-and-behavior) . . . 6 1.5 Diérents types d'architecture allélique (dans les ovales verts) pouvant être

ob-servés dans diérentes pathologies (Manolio et al., 2009) superposés aux allèles du risque identiés pour le cancer du sein (Ghoussaini et al., 2013). Diérents types d'architecture allélique sont répartis en fonction de la fréquence et de

l'eet de l'allèle associé au risque. . . 10 1.6 Position des loci connus de susceptibilité au cancer du sein. La couleur des

points correspond aux grandes phases de découverte : pré-COGS, COGS,

Anal-yses complémentaires. (données issues de la revue Lilyquist et al. (2018)). . . . 14 1.7 Proportion de l'héritabilité expliquée par les diérents gènes et loci identiés

en 2015. Près de la moitié des cas de cancers dits familiaux restent encore

inexpliquée par les marqueurs connus. . . 14 1.8 Illustration de l'analyse d'association conditionnellement au SNP le plus associé

(top SNP) indiqué par les cercles orange pour (A) un signal unique et (B) deux signaux indépendants au sein d'une même région. Les gures des panneaux supérieurs montrent les résultats de l'analyse d'association et les panneaux in-férieurs, le résultat après l'analyse conditionnelle pas à pas. Adaptée de Spain

and Barrett (2015) . . . 16 1.9 Niveaux de priorité créé à partir de deux critères de priorisation : la fréquence

allélique et l'eet du variant sur la traduction. Chaque critère est divisé en trois sous-catégories. Plus la couleur est sombre, plus la priorité est élevée. Figure

inspirée de Isakov et al. (2013) . . . 21 1.10 Processus de priorisation des variants dans le cadre de l'analyse de données

WES de familles nlandaises touchées par des cas de cancer du sein héréditaire.

(11)

1.11 Cette gure illustre la force de l'analyse d'haplotype comparativement à l'analyse de génotype. Soient six individus dont trois atteints et trois non-atteints. Si l'on se e uniquement aux données de génotypage, on ne constate aucune dissem-blance entre cas et contrôles ni aucune ressemdissem-blance entre les cas permettant de déduire une association avec le trait. Par contre, si l'on étudie les données d'haplotype, on constate que tous les cas partagent l'haplotype "CTTCTA" ce qui pourrait nous permettre de conclure à une association entre la maladie et

cet haplotype d'intérêt. Illustration adaptée de Lee and Shatkay (2009). . . 24 1.12 Illustration de l'utilisation des SVM avec noyau bayésien pour prédire la récidive

du cancer du sein. La ligne bleue représente la limite décisionnelle (decision boundary) sur laquelle s'appuie le modèle pour prédire la classe. Adaptée de

Coursera - Machine Learning de Stanford University. . . 27 1.13 Illustration de l'utilisation d'un arbre décisionnel basé sur 3 caractéristiques

(la taille de la tumeur, l'âge du patient et le taux d'hémoglobine) avec noyau bayésien pour prédire la récidive du cancer du sein. Les feuilles de l'arbre

indique la prédiction nale de l'arbre. Adaptée de Ibrahim et al. (2008) . . . . 28 1.14 Illustration de l'utilisation la méthode des k plus proches voisins avec k = 4

et basé sur 2 caractéristiques (la taille de la tumeur, l'âge de diagnostic) pour prédire la récidive du cancer du sein. La prédiction nale est basée sur la classe majoritairement représentée parmi les k voisins du nouvel échantillon. Adaptée

de http://www.detowardsdatascience.com. . . 29 1.15 Illustration de diérents prols de courbes récepteur-opérateur . . . 30 2.1 SNP associations with breast cancer risk. a) Manhattan plot showing

−log10P values for SNP associations with breast cancer risk. b) Manhattan plot

after excluding previously identied associated regions. The red line denotes

'genome-wide' signicance (P < 5 x 10−8); the blue line denotes P < 10−5. . . 35

2.2 Global mapping of biofeatures across novel loci associated with overall breast cancer risk. The overlaps between potential genomic predictors in relevant breast cell lines and credible risk variants (CRVs) within each locus. On the x axis, each column represents a CRV (see Denition of known hits). The most signicant SNPs are identied in each region. On the y axis, biofeatures are grouped into ve functional categories: genomic structure (red), enhancer markers (dark green), histone markers (blue), open chromatin markers (dark blue) and transcription factor binding sites (dark violet). Coloured elements indicate SNPs for which the feature is present. For data sources, see In silico

analysis of CRVs. . . 36 2.3 Pathway enrichment map for susceptibility loci based on summary association

statistics. . . 38 2.4 Heat map showing patterns of cell-type-specic enrichments for breast tissue

across three histone marks (H3K4me1, H3K4me3 and H3K9ac) for all breast cancer types, ER-positive breast cancer and ER-negative breast cancer as well

as 16 other traits.. . . 39 2.5 Functional assessment of regulatory variants at 1p36, 11p15 and 1p34 risk loci. 40 2.6 Functional assessment of regulatory variants at the 7q22 risk locus. . . 42

(12)

3.1 VEXOR architecture, inputs and outputs. Blue rectangles and cylinders represent respectively tools and data sources ; lled shapes stand for linked

resources whereas empty shapes stand for integrated resources. . . 51 3.2 Visualisation du chevauchement entre annotations génomiques et variants

can-didats. Les cellules vert foncé représente un chevauchement entre une

annota-tion et un variant. . . 54 3.3 Interface de conguration du scorage manuel. . . 55 3.4 Visualisation du chevauchement entre les annotations d'intérêt et les variants

candidats après l'application du système de score pondéré. . . 55 3.5 Interface de selection des variants d'interet. . . 56 3.6 Scores RegulomeDB pour les variants d'intérêt. . . 57 3.7 Interface de requête des expériences dans les lignées mammaires dans la région

chr1:18805136-18811897. . . 58 3.8 Visualisation des expériences disponibles dans les lignées mammaires dans la

région chr1:18805136-18811897. . . 58 3.9 Résultats issus du projet GTEx. . . 59 3.10 Visualisation des eQTL situés en amont du gène KLHDC7A via l'outil GTEx

Gene-eQTL Visualizer.. . . 59 4.1 DSNetwork visual approach. A) Representation of predictors referentials

illustrating each approach boundaries and direction; B) Representation of intra-predictors ranking based on the intra-predictors referential; C) Representation of intra-predictors absolute score intervals based on the predictors referential; D) Representation of the global mean rank. E) The edges between the nodes can

be used to map Linkage Disequilibrium (LD) levels between two variants. . . . 66 4.2 Architecture overview. The rst section is dedicated to user input and

parameters for data retrieval. The middle panel presents a relevant subset of annotations for each submitted variant and enables the selection of variants to be integrated in the nal visualization. The bottom part on the interface is dedicated to the integrated visualization of the deleteriousness predictions

displayed as a network.. . . 69 4.3 Networks representing the 30 most signicantly variants associated

with breast cancer at the 1p36 locus. A) All available predictions sented under the form of relative rank group by color ; B) global ranking repre-senting the mean relative ranks with missing values substituted by the median value. Based on the deleteriousness scores available for this subset of variants, a quick overview of variant nodes has allowed to easily identify rs2992756 as

the best candidate. . . 70 4.4 Networks representing for the 4 CRVs associated variants with breast

cancer at the 1p34 locus. A) all available predictions represented under the form of relative rank ordered by predictors ; B) all available predictions represented under the form of relative rank group by color ; C) global ranking representing the mean relative ranks with missing values substituted by the median value. Based on the deleteriousness scores available for this subset of variants, a quick overview of variant nodes has allowed to easily identify two

(13)

4.5 Networks representing for the 6 CRVs associated variants with breast cancer at the 7q22 locus. A) All available predictions represented under the form of relative rank group by color ; B) global ranking representing the mean relative ranks with missing values substituted by the median value. Based on the deleteriousness scores available for this subset of variants, a quick overview of variant nodes has allowed to easily identify two variants, rs6961094 and

rs71559437 as the best candidates. . . 72 4.6 Networks representing for the 19 CRVs associated variants with breast

cancer at the 11p15 locus. A) Global ranking representing the mean relative ranks with missing values substituted by the median value. The purple arrows highlight the ve credible causal variants identied by Michailidou et al; B) The absolute intervals show rs7484123 and rs11246314 as the best candidates with regard to deleteriousness predictions. The best candidate variant rs7484123 sports a high level of linkage disequilibrium (depicted by the red links emanat-ing from rs7484123's node) with the other candidate variants in the european

population. . . 73 5.1 Pipeline overview. The prioritization method is a machine learning pipeline,

which takes a quality controlled VCF le as its input and a prioritized genes list as its output. It is composed of 7 main steps : 1) Datasets creation, 2) Variants trimming, 3) Features extraction, 4) Features selection, 5) Validation,

6) Iteration and nally 7) Integration. . . 79 5.2 Haplotype encoding process. . . 80 5.3 Result integration process. . . 82 5.4 Prioritization pipeline applied to a large case/control association study in breast

cancer (BC) using WES. . . 85 5.5 Enrichment for relevant gene sets in genes exclusively found by our multi-step

approach, AP-SKAT method, single-SNP analysis and the union the predic-tions of AP-SKAT and single-SNP analysis. N.S for non-signicant after FDR

adjustment. . . 86 5.6 Visualization of molecular concepts generated by the ConsensusPathDB

plat-form depicting the over-representation results. "Each node represents a sep-arate concept whose member list size (i.e., number of genes/metabolites con-tained) and P-value are encoded as node size and node color, respectively. Two nodes are connected by an edge if they share members. The edge width re-ects the relative overlap (corresponding to the Fowlkes-Mallows index) be-tween the nodes, while the edge color encodes the number of shared mem-bers that are also found in the user's input (denoted shared

candidates)"-http://cpdb.molgen.mpg.de/CPDB/tutorial#pathwaya.visconcepts. . . 88 5.7 Network representing the interactions between the prioritized genes and

vali-dated BCS genes. BCS genes are depicted in pink and the prioritized genes are depicted according to their nal ranking in the prioritization process. The rank scale go from red (best) to lemon green (worse). Shapes code is circle for

(14)

5.8 Using diLogo package (Nettling et al., 2015) we assessed the dierences be-tween cases and controls haplotypes (deployed representation) for each gene and compared between prioritized genes and remaining genes. The prioritized genes are depicted according to their nal ranking in the prioritization process.

The rank scale go from red (best) to lemon green (worse) . . . 91 5.9 Using diLogo package (Nettling et al., 2015) we assessed the dierences

be-tween cases and controls haplotypes (combined representation) for each gene and compared between prioritized genes and remaining genes. The prioritized genes are depicted according to their nal ranking in the prioritization process.

The rank scale go from red (best) to lemon green (worse) . . . 92 5.10 DiLogo visualization for ve genes (A) ADAMTSL3, (B)CCNJ, (C) ELF2, (D)

ATP23, and (E) WARS2 representing dierent detection patterns. Each panel depicts the dierences between cases and controls haplotype representations for

a single functional unit, at each position.. . . 93 6.1 Architecture allélique des SNP associés au cancer du sein global.

Rapport de cotes (OR) en ordonnées et fréquence allélique mineure (FAM) dans la population européenne pour tous les SNP associés au cancer du sein

suite à l'OncoArray (P < 5 Ö 10−8). En rouge, les nouveaux loci identiés. . . 96

6.2 Proportion de l'héritabilité expliquée par les diérents gènes et loci identiés à

ce jour ainsi que les potentiels SNPs restant encore à identier (23%) . . . 96 7.1 Schéma de l'architecture génétique dans deux populations diérentes.

Cette gure illustre l'intérêt d'utiliser des populations d'autres ethnies pour aner le signal d'association. Ainsi pour une même région génomique, on ob-serve un unique haplotype dans la population 1 mais 3 haplotypes indépendants dans la population 2. Prenons un SNP causal, identique entre les deux pop-ulations. Si on réalise un GWAS dans la population 1, le variant causal et le tag SNP sont tous deux dans le même bloc d'haplotype, fortement corrélés l'un avec l'autre et sont donc associés à la maladie de manière indistinguable. Alors que si l'on réalise un GWAS dans la population 2, du fait de la structure du LD, nous sommes contraints de séquencer les deux SNPs. Le variant causal restera

associé à la maladie, mais pas le tag SNP. Inspiré de (Ghoussaini et al., 2013). 100 7.2 Comparaison de la puissance statistique détection des associations selon la taille

eective de la cohorte, en abscisse, et la taille d'eet (odds ratio, OR) pour des variants communs (Fréquence allélique mineure (FAM) = 0.2) et les variants

rares (FAM = 0.01). Adaptée de (de Lange and Barrett, 2015). . . 101 7.3 Illustration de la transformation des haplotypes en matrice de présence/absence

(panel A) puis en matrice de cooccurrences (panel B). La matrice de présence absence est calculée à partir de la représentation "déployée" des haplotypes (détaillée dans le chapitre 4). Elle reète la présence et l'absence de chaque variant à l'intérieur d'un haplotype donné pour chaque individu de la cohorte. Cette matrice est ensuite convertie en matrice de cooccurrence qui représente le nombre d'individus où chaque paire de SNPs se retrouve. Ainsi la paire

(15)

7.4 Cette gure représente la visualisation de l'analyse diLogo (décrite dans chapitre 4) couplée aux résultats d'une analyse de cooccurrences pour l'haplotype du gène OR13D1. Le panel D représente les cooccurrences signicatives observées : en rouge, les cooccurrences positives et en bleu les cooccurrences négatives. Le niveau d'opacité représente la spécicité des cooccurrences vis-à-vis des dif-férents groupes phénotypiques. Le panel E représente le déséquilibre de liaison entre les variants d'intérêt. L'encadré en pointillé met en évidence une cooccur-rence positive spécique des cas et qui ne semble pas s'expliquer par le LD. Les

cooccurrences ont été calculées via le package R cooccur (Grith et al., 2016). 103 7.5 Projection des CCDS sur les quatre premiers axes de l'analyse des

correspon-dances multiples. Générée via le package R FactoMineR (Lê et al., 2008). . . . 104 7.6 Inférence fonctionnelle à partir des motifs extraits des haplotypes. 1

Local-Fold (Lange et al., 2012) ;2 PFscan (https://web.expasy.org/pftools/) ;3

ActiveDriver (Reimand and Bader, 2013) . . . 106 7.7 Associations signicatives (P <= 5 Ö 10−8) publiées depuis janvier 2006 pour

17 catégories de trait tels que le cancer, les maladies métaboliques ou les mesures

physiques. Source https://www.ebi.ac.uk/gwas/ . . . 107 7.8 Le modèle omnigénique des traits complexes. Pour chaque trait phénotypique,

un nombre limité de gènes a un eet direct sur la susceptibilité génétique. Néanmoins, compte-tenu du caractère hyper-connecté des réseaux cellulaires, la majorité des gènes exprimés se retrouvent à quelques pas du gène essentiel le plus proche. Par conséquent, ces gènes ont un eet non-nul sur le risque lié à la pathologie. Les gènes essentiels constituant une faible fraction de l'ensemble des gènes, une grande part de l'hérédité est expliquée par la contribution indirecte

des gènes périphériques. Adapté de Boyle et al. (2017) . . . 108 7.9 Illustration de la variabilité de la part de génome partagée entre enfants issus

des deux mêmes parents. Les enfants héritant en réalité de longs segments d'ADN de la part de leurs parents, on observe un écart par rapport aux 50%

attendus . . . 112 A.1 Heat map showing patterns of cell-type-specic enrichments for histone mark

H3K27ac in all breast cancer types, ER-positive and ER-negative breast cancer

as well as 16 other traits. . . 159 A.2 Heat map showing patterns of cell-type-specic enrichments for histone mark

H3K4me1 in all breast cancer types, ER-positive and ER-negative breast cancer

as well as 16 other traits. . . 160 A.3 Heat map showing patterns of cell-type-specic enrichments for histone mark

H3K4me3 in breast cancer overall, ER+ and ER- breast cancer as well as 16

other traits. . . 161 A.4 Heat map showing patterns of cell-type-specic enrichments for histone marker

H3K9ac in all breast cancer types, ER-positive and ER-negative breast cancer

as well as 16 other traits. . . 162 A.5 Diagram depicting Friedman-Nemenyi post hoc test results. Learners that are

not connected by a bar are signicantly dierent, and the learner(s) with the

(16)

A.6 Tuning results. This plots depicts the performances of six best classiers for each representation. Thus, the best algorithm-representation combinations are GLMNET for haplotype binary representations and Random Forest for the

remaining presentations. . . 166 A.7 Filtration-based prioritisation workow. . . 167 A.8 Network representing the interactions between the prioritized genes and

vali-dated BCS genes. BSC genes are depicted in pink, the prioritized genes are depicted according to their nal ranking in the prioritization process and inter-mediary molecules are depicted in gray. The rank scale go from red (best) to lemon green (worse). Shapes code is circle for protein, scare for RNA, triangle

for protein complex, ox for group and diamond for gene. . . 169 A.9 Assessment of divergence magnitude between cases and controls at the scale of

(17)

Dédicace à bébé chien du coeur aka Totos

(18)

Genome: Bought the book; hard to read. Said to have the answer to everything, absolutely

everything. The only problem is: there's no index!

Eric Lander, mathématicien et généticien

(19)

Remerciements

Je remercie mon directeur de thèse, le Professeur Arnaud Droit, de m'avoir oert l'opportunité d'intégrer son équipe pour y réaliser mes études doctorales.

Je tiens également à remercier mon codirecteur, le Professeur Jacques Simard, pour son en-cadrement plein de bienveillance.

J'aimerais exprimer ma profonde reconnaissance à Penny Soucy pour son soutien infaillible, Marie-Pier Scott-Boyer pour son expertise et sa lucidité, Maxime Vallée pour son humour et ses conseils et Julien Prunier pour son dynamisme et son amour de la belle science.

Merci à mes chers condisciples qui m'ont apporté le soutien dont j'ignorais avoir besoin. Je tiens également à exprimer ma gratitude à tous les membres des équipes des Professeurs Arnaud Droit et Jacques Simard pour leur patience et leur aide au quotidien.

Un grand merci aux membres de famille et à mes amis pour leur soutien et leur patience innie durant ce périple doctoral.

(20)

Avant-propos

Projets principaux

Ce document est une thèse avec insertion d'articles. Les chapitres 1 et 2 sont les retranscrip-tions de deux article publiés. Le chapitre 3 est constitué d'un article soumis, en cours de révision. Le chapitre 4 présente, sous forme d'article, des travaux en attente de soumission. Cette thèse présente mes travaux de doctorat dont le but principal était le développement d'outils bioinformatiques et de méthodologies d'apprentissage machine pour une meilleure compréhension des éléments sous-jacents au risque génétique du cancer du sein. Ces travaux se sont orientés selon deux axes : 1) l'identication de variants génétiques communs de faible pénétrance dont l'eet combiné contribuerait à l'augmentation du risque, et 2) l'identication de variants plus rares, mais de plus forte pénétrance, dans les régions codantes.

Les articles insérés sont les suivants :

ˆ Association analysis identies 65 new breast cancer risk loci publié dans la revue Nature le 23 octobre 2017 ;

ˆ VEXOR: an integrative environment for prioritization of functional variants in ne-mapping analysis publié dans la revue Bioinformatics le 05 janvier 2017 ;

ˆ DSNetwork: An integrative approach to visualize predictions of variants' deleteriousness soumis à la revue PLoS One le 28 décembre 2018.

Contributions à l'article "Association analysis identies 65 new breast cancer risk loci"

Kyriaki Michailidou, Sara Lindström, Joe Dennis, Jonathan Beesley, Shirley Hui et Siddhartha Kar sont les auteurs principaux de ce travail. Jacques Simard, Peter Kraft et Douglas F. Easton ont supervisé conjointement ce projet. Je suis second auteur dans cet article pour

(21)

ma contribution aux analyses in silico eectuées dans le cadre de la caractérisation fonc-tionnelle des nouveaux loci identiés par l'étude d'association pangénomique présentée. J'ai réalisé l'annotation fonctionnelle de l'ensemble des nouveaux loci an d'assister la sélection et l'analyse de loci d'intérêt pour l'analyse fonctionnelle.

Contributions à l'article "VEXOR"

Je suis responsable du développement et de la maintenance de l'outil. Je suis également responsable de la rédaction de l'article. Charles Joly Beauparlant a contribué à l'optimisation de l'outil. L'expertise de Penny Soucy a été importante pour la conception ergonomique de l'outil et le choix des fonctionnalités à intégrer. Peter Kraft a contribué par son expertise et son aide dans l'intégration de l'outil d'analyse PAINTOR. Penny Soucy, Jamie Allen et Douglas Easton ont participé à l'élaboration du manuscrit. Jacques Simard a supervisé la coordination du projet à l'international. Arnaud Droit a supervisé le développement de l'outil et la publication de l'article.

Contributions à l'article "DSNetwork"

Je suis responsable du développement et de la maintenance de l'outil. Je suis également responsable de la rédaction de l'article. Penny Soucy et Marie-Pier Scott-Boyer ont apporté leur expertise à la conception ergonomique de l'outil et au choix des fonctionnalités à intégrer. Régis Ongaro-Carcy a réalisé l'intégration de SNPNexus à l'outil. Penny Soucy, Marie-Pier Scott-Boyer et Jacques Simard ont participé à l'élaboration du manuscrit. Arnaud Droit a supervisé le développement de l'outil et la soumission de l'article.

Contributions au projet d'étude d'exomes complets

Je suis responsable du développement de la méthodologie. Je suis également responsable de la rédaction de l'article. Julien Prunier, Marie-Pier Scott Boyer, Maxime Vallée et Gary Bader ont apporté leur assistance dans la consolidation de la méthodologie et de sa validation. Douglas F. Easton, Marjanka K. Schmidt, David Goldgar, Rita K. Schmutzler, Eric Hahnen, Alfons Meindl ont fourni les données brutes analysées par Maxime Vallée pour produire les données traitées utilisées pour l'analyse de cas. Penny Soucy, Mickael Leclerc et Julien Prunier ont apporté une contribution signicative à l'élaboration du manuscrit. Jacques Simard a su-pervisé la coordination du projet à l'international. Arnaud Droit a susu-pervisé le développement de l'outil et la rédaction de l'article.

(22)

Projets annexes

Mon doctorat m'a également permis de prendre part à des projets connexes ayant donné lieu à la publication des articles suivants dans lesquels j'ai été co-auteure (la liste complète des auteurs est disponible en Annexe A.1.1) :

ˆ Fine-mapping of 150 breast cancer risk regions identies 178 high condence target genes soumis dans la revue Nature genetics le 09 janvier 2019 et disponible sur BioRxiv depuis le 15 janvier 2019;

ˆ Identication of ten variants associated with risk of estrogen-receptor-negative breast can-cer publié dans la revue Nature genetics le 23 octobre 2017 ;

ˆ Association of breast cancer risk in BRCA1 and BRCA2 mutation carriers with genetic variants showing dierential allelic expression: identication of a modier of breast can-cer risk at locus 11q22.3 publié dans la revue Breast Cancan-cer Research and Treatment le 28 octobre 2016 ;

ˆ Association of breast cancer risk with genetic variants showing dierential allelic expres-sion: Identication of a novel breast cancer susceptibility locus at 4q21 soumis dans la revue Oncotarget le 06 décembre 2016 ;

ˆ metagene Proles Analyses Reveal Regulatory Element's Factor-Specic Recruitment Patterns publié dans la revue PLoS Computational Biology le 18 août 2016.

Financements

Les travaux présentés dans cette thèse ont été nancés par les projets PERSPECTIVE (GPH-1293344) and PERSPECTIVE I&I (GP1-155865) subventionnés par le gouvernement du Canada via Génome Canada et les Instituts de recherche en santé au Canada ainsi que le Ministère de l'Économie, Science et Innovation du Québec via Génome Québec et de la Fondation du cancer du sein du Québec.

(23)

Introduction

Le National Cancer Institute des États-Unis dénit la médecine moléculaire comme un champ de la médecine développant des moyens de diagnostiquer et traiter les maladies par la com-préhension des mécanismes moléculaires sous-jacents. Parmi les entités étudiées, les gènes représentent une cible de choix dans l'étude des maladies telles que les cancers.

Ainsi, de nombreuses études ont été menées pour identier les gènes et les voies de régulation qui contrôlent les traits humains, prédire les maladies et établir des thérapies adaptées. La recherche sur le cancer du sein est une belle illustration des possibilités oertes par la médecine moléculaire. Cette introduction présente les concepts sous-jacents les travaux réalisés dans le cadre de l'obtention du diplôme de docteur en médecine moléculaire ainsi que le contexte scientique dans lequel ils ont été réalisés.

Dans un premier temps, quelques éléments de contexte concernant le cancer du sein, sa valence, son étiologie et ses facteurs de risque sont présentés. Je développe ensuite plus pré-cisément les facteurs de risque génétiques liés à cette pathologie. An de comprendre le dé que représente l'identication des diérents marqueurs de risque génétique du cancer du sein, je présente la notion d'héritabilité manquante ainsi que certaines des pistes d'élucidation pro-posées. Parmi les nombreuses hypothèses proposées, j'ai concentré mes travaux sur l'analyse de données issues de deux approches : la détection de variants génétiques communs de faible pénétrance via les études d'association pangénomiques, et la détection de variants codants via l'analyse de données issues de séquençage d'exomes complets.

Cette introduction est suivie de la présentation de mes diérents travaux de doctorat. Ces derniers ont donné lieu à la découverte de 65 nouveaux locus associés à un risque accru de développement du cancer du sein (présenté au chapitre 1), la création de deux outils d'aide à la priorisation de variants candidats au sein de ces-dits loci de susceptibilité (présentés au chapitre 2), et nalement la mise au point d'une nouvelle méthodologie d'apprentissage machine combinant données génotypiques et haplotypiques pour la priorisation de variants codants issus du séquençage d'exomes complets (présenté au chapitre 3). S'en suivent une conclusion générale et une discussion présentant la mise en perspective de mes travaux dans

(24)

le contexte scientique plus global.

1.1 Le cancer du sein, un éau

Selon l'American Cancer Society (ACS), le cancer du sein représente 25% de tous les nouveaux diagnostics de cancer chez les femmes dans le monde. En 2012, près de 1,7 million de nouveaux cas avaient été diagnostiqués dans le monde. Bien que la mortalité attribuée au cancer du sein ait diminué de 40% au cours des 25 dernières années, on estime, qu'en 2017, 26 300 Canadiennes ont reçu un diagnostic de cancer du sein et que 5 000 en sont mortes, soit 72 diagnostics et 14 décès en moyenne chaque jour. On estime qu'environ une Canadienne sur huit sera atteinte d'un cancer du sein au cours de sa vie et que une sur 31 en mourra (selon la Société canadienne du cancer, http://www.cancer.ca/fr-ca/cancer-information/cancer-type/ breast/statistics/).

C'est pourquoi, depuis près de 30 ans, un eort mondial constant est maintenu pour élucider l'étiologie de cette maladie dans le but d'orir une meilleure prévention, et possiblement de meilleurs traitements contre ce éau.

1.2 L'étiologie du cancer du sein

L'étiologie du cancer du sein est ardue à dénir car cette maladie est complexe et hétérogène. Le cancer du sein comprend des pathologies multiples arborant chacune un panel d'altérations génétiques distinctes et répondant diéremment aux traitements. Malgré cette hétérogénéité, plusieurs facteurs, pour la plupart liés à une exposition accrue aux oestrogènes ou à une fonction ovarienne cyclique (Stark,2018), ont été associés à l'augmentation ou à la diminution du risque de cancer du sein. En eet, les oestrogènes, hormones principalement produites par les ovaires chez les femmes avant la ménopause, sont connus depuis de nombreuses années pour leurs rôles majeurs dans la promotion de la prolifération des cellules mammaires (Beatson, 1896; Boyd, 1902). Ainsi, il existe une très forte association entre les doses et le temps d'exposition aux oestrogènes et le risque accru du cancer du sein. Le mécanisme le plus connu de carcinogénicité des oestrogènes est la stimulation de la prolifération cellulaire induite par leur xation au récepteur nucléaire spécique ER-α. Cette prolifération est la conséquence d'interaction directe et/ou indirectes conduisant à la production de facteurs de croissances (Russo et al., 1999; Russo and Russo, 2004). Dans leur article Russo et Russo conrme la capacité des oestrogènes, l'estradiol 17β (E2, la forme majoritaire d'oestrogène en circulation)

et ses métabolites, à induire la transformation, in vitro, de cellules mammaires en cellules possédant les caractéristiques de cellulaires mammaires cancéreuses. De plus, ils démontrent deux autres mécanismes d'action des oestrogènes promouvant la carcinogenèse : la génotoxicité

(25)

directe des métabolites de l'estradiol 17β qui augmente le taux de mutation de l'ADN et l'aneuploïdie qui entraîne la perte de portions de chromosomes contenant un ou plusieurs gènes suppresseurs de tumeur (Russo and Russo,2006).

Ainsi, on compte parmi les facteurs de risque connus : l'âge et le genre, la densité mam-maire déterminée par mammographie, les antécédents de reproduction, la localisation géo-graphique, l'histoire personnelle et familiale de cancer du sein, l'hérédité, l'ethnie, la consom-mation d'alcool, le poids, les radiations ionisantes et certains facteurs liés au style de vie (Maas et al.,2016). L'impact et l'importance de ces diérents facteurs de risque ont été estimés selon le rapport entre les risques mesurés sur le groupe à risque et le groupe contrôle. Rapport qu'on appelle le risque relatif noté RR (Easton et al.,2015).

Parmi ces nombreux facteurs de risque, la prédisposition génétique est particulièrement im-portante. En eet, les études épidémiologiques ont estimé que les femmes dont un parent au premier degré a eu un cancer du sein présentent le risque d'en développer un près de deux fois plus élevé que les femmes sans histoire familiale signicative, indiquant ainsi l'importance des facteurs génétiques dans le risque lié à cette maladie (Collaborative Group on Hormonal Factors in Breast Cancer,2001).

1.3 Le risque génétique du cancer du sein

Les études suggèrent que la majorité des cancers du sein se développent dans une faible pro-portion de femmes ayant une susceptibilité à la maladie (Pharoah et al.,2002). Contrairement à des troubles génétiques à hérédité mendélienne, où les variants génétiques responsables sont très rares dans la population et tendent à être hautement pénétrants, le cancer du sein est une maladie complexe reposant sur l'eet combiné de multiple variants génétiques de pénétrance variable.

Ces variants génétiques peuvent être classés en fonction de leur pénétrance, qui correspond à la probabilité pour un individu porteur de ces variations de développer la maladie. Jusqu'à maintenant, trois classes ont été identiées pour le cas du cancer du sein : des mutations à forte pénétrance qui sont rares mais associées à un fort niveau de risque (RR > 5), des variants à pénétrance modérée associés à un accroissement modéré du risque (1.5 < RR < 5) par rapport aux non-porteurs, et les polymorphismes à faible pénétrance qui sont communs dans la population et associés à une faible augmentation du risque (RR < 1.5) (Apostolou and Fostira,2013).

Ainsi, dans les années 90, deux gènes majeurs de la susceptibilité au cancer du sein, breast cancer 1 (BRCA1) et breast cancer 2 (BRCA2) sont découverts (Hall et al., 1990; Easton et al.,1993;Wooster et al.,1994). Les allèles délétères dans ces gènes sont rares (fréquences

(26)

cumulées de 0.125% pour BRCA1 et 0.2% pour BRCA2) et confèrent une augmentation du risque relatif maximum de 10 à 30 fois (Ghoussaini et al., 2013). De nombreuses femmes à risque élevé ont ainsi pu être identiées sur la base des antécédents familiaux de cancer et le dépistage des mutations des gènes BRCA1 et BRCA2. Ces applications démontrent l'intérêt indéniable de la recherche de facteurs de prédisposition génétiques au cancer du sein sur les pratiques médicales.

Fortes de ce succès et propulsées par les percées technologiques récentes en séquençage d'ADN, les recherches en génomique se sont intensiées en vue d'identier d'autres variations géné-tiques associées au cancer du sein. Ces eorts ont mené à la découverte de plusieurs autres mu-tations de pénétrance forte à modérée dans des gènes tels que TP53, PALB2, PTEN, CHEK2, ATM, ou STK11 (Easton et al., 2015; Decker et al., 2017) par exemple (Figure 1.1), ainsi que des variants communs de faible pénétrance dont l'eet combiné explique signicativement l'augmentation du risque. Mutations de forte pénétrance Mutations de pénétrance modérée Allèles de faible pénétrance RISQUE RELATIF FRÉQUENCE ALLÉLIQUE

Figure 1.1: Gènes et loci de susceptibilité au cancer du sein par fréquence allélique et augmentation du risque conféré par l'allèle associé. Figure adaptée de Ghoussaini et al.(2013)

Cependant, ces marqueurs génétiques n'expliquent qu'environ la moitié des cancers dit hérédi-taires ou familiaux. Au cours de la dernière décennie, des eorts intenses ont été déployés an d'expliquer cette héritabilité manquante (Figure 1.2).

(27)

Figure 1.2: Proportion de l'héritabilité expliquée par les diérents gènes et loci identiés en 2015. Près de la moitié des cas de cancers dits familiaux restent encore inexpliquée par les marqueurs connus

Chandler et al. (2016).

1.4 L'héritabilité manquante

Avant de dénir l'héritabilité manquante, il nous faut comprendre ce qu'est l'héritabilité et comment elle a été estimée pour le cancer du sein.

1.4.1 L'héritabilité

Le terme héritabilité fait souvent écho chez l'humain au débat "Nature or Nurture". Wray et coll. (Wray and Visscher,2008) décrivent l'héritabilité comme une estimation de la proportion de la variation d'un caractère phénotypique, mesurée au sein d'une population donnée, qui est expliquée par des facteurs génétiques. Estimer l'héritabilité permet de discriminer les contri-butions génétiques des contricontri-butions environnementales vis à vis de la variance phénotypique. La valeur d'héritabilité varie de 0 à 1.

Pour illustrer ce concept, prenons l'exemple de jumelles identiques, Jennifer et Karen, nées avec des gènes connus pour leur implication dans le métabolisme des lipides. L'expression de ces gènes a pour conséquence une assimilation des lipides deux fois plus élevée que la moyenne. Comme l'illustre la Figure 1.3, leur phénotype apparent (le poids par exemple) est diérent. Sachant que leur patrimoine génétique est identique, la totalité de la variance de poids est imputable au fait que Jennifer et Karen suivent un régime alimentaire diérent. L'héritabilité du poids pour ce cas de gure est de 0.00.

(28)

Jennifer et Karen

Karen

Jennifer

Karen Jennifer

Jumelles identiques nées avec des gènes qui induisent une absorption des lipides

deux fois plus élevée que la moyenne

A un régime alimentaire sain, faible en lipide A un régime alimentaire riche en lipide de mauvaise qualité Gènes de l’obésité non-induits Gènes de l’obésité induits

Figure 1.3: Illustration du concept d'héritabilité entre jumeaux homozygotes (adapté du site KhanAcademy https: // www. khanacademy. org/ test-prep/ mcat/ behavior/

behavior-and-genetics/ a/ genes-environment-and-behavior)

âge dont nous puissions contrôler totalement l'environnement (régime alimentaire, hygiène de vie). Au bout de 20 ans, on évalue leur poids (Figure 1.4). Sachant que l'environnement est totalement identique, la totalité la variance du poids serait imputable aux diérences génétiques. L'héritabilité du poids pour ce cas de gure est de 1.00.

Figure 1.4: Illustration du concept d'héritabilité entre deux individus non-apparentés (adapté du site KhanAcademy https: // www. khanacademy. org/ test-prep/ mcat/ behavior/

behavior-and-genetics/ a/ genes-environment-and-behavior)

Les sources de variance génétique peuvent être séparées en deux catégories : la composante additive (nommée A) qui représente la somme des eets de chaque allèle à tous les loci qui

(29)

inuencent le trait et la composante non-additive (nommée D) qui comprend les interactions entre allèles à un même locus (la dominance) et entre diérents loci (l'épistasie). Les sources de variance environnementale peuvent être séparées en deux catégories : l'environnement partagé (nommée C) qui est commun à tous les membres d'une famille tel que le statut socio-économique et l'environnement individuel (nommée E) qui inuencent chaque personne individuellement telles que les expériences de vie (Rijsdijk and Sham,2002;Boomsma et al., 2002). L'intégration de ces diérentes sources de variance mènent à la dénition des deux types d'héritabilité : l'héritabilité au sens large (broad heritability) notée H2 et l'héritabilité

au sens strict ou étroit (narrow heritability) notée h2. À la diérence de l'hérédité au sens

large qui prend en compte les deux sources de variance génétique, l'hérédité au sens stricte h2

ne prend en compte que l'eet additif (A) et représente la part du phénotype due aux allèles transmis par les parents à leur descendance.

En théorie, l'héritabilité pour un trait dans une population donnée ne permet pas de prédire l'héritabilité pour ce même trait dans une autre population. En eet, la variance génétique d'un trait dépend de la ségrégation des allèles qui l'inuencent, allèles dont la fréquence et la taille d'eet (eect size) peuvent varier d'une population à une autre. De même, la vari-ance environnementale peut varier d'une population à l'autre. Néanmoins, en pratique, les héritabilités sont relativement similaires d'une population humaine à une autre. L'héritabilité peut également varier selon le sexe et l'âge (Visscher et al.,2008).

L'héritabilité ne doit pas être confondue avec l'hérédité, qui est le mécanisme de transmission de l'information génétique d'une génération à la suivante.

1.4.2 Mesure de l'héritabilité dans les traits complexes

Les études classiques tels que les études de jumeaux et les études d'adoption permettent d'estimer H2 alors que les études familiales permettent d'évaluer h2. En eet, les analyses

basées sur l'étude des jumeaux s'appuient sur le degré d'identité génétique entre les jumeaux monozygotes (MZ) et dizygotes (DZ) pour évaluer la contribution génétique à la variance phénotypique. Les jumeaux MZ élevés ensemble partageant à la fois la variance génétique complète (A et D) et en théorie l'environnement partagé (C), toute divergence phénotyp-ique est imputable à E, l'environnement individuel. Pour les jumeaux DZ élevés ensemble, l'environnement partagé (C) est également commun mais seul 50% de leur patrimoine géné-tique, en moyenne, est partagé. Les divergences phénotypes entre jumeaux DZ sont alors imputables à l'environnement individuel (E) et à cette moitié de génome divergeant. Con-sidérant que E contribue dans la même proportion chez les deux types de jumeaux, on peut déduire la contribution du demi génome à la variance phénotypique (et du génome complet par extrapolation, i.e H2) grâce à la comparaison de la concordance du phénotype entre les

(30)

On s'attend à deux types de scénario. Dans un cas, la concordance phénotypique entre jumeaux MZ et DZ est la même, sous-entendant la contribution négligeable de la variance génétique (demi-génome diérent) à la variance phénotypique. Une diérence signicative dans la con-cordance phénotypique implique, quant à elle, une contribution mesurable de la variance génétique sur le trait d'intérêt. En résumé, si les vrais jumeaux se ressemblent plus que les faux jumeaux, on peut conclure que le trait étudié a une composante génétique forte.

Quant à elles, les études d'adoption sont basées sur la corrélation phénotypique entre jumeaux MZ élevés séparément. Dans ce cas, seule la variance génétique complète (A et D) est partagée et toute variance phénotypique est alors imputable aux deux composantes environnementales (C et E). Étant élevés séparément, on considère C comme étant nul. De même que pour les études de jumeaux, on suppose que la contribution de E est la même pour chaque membre de la paire de jumeaux ce qui l'élimine de l'équation. Les corrélations phénotypiques intra-paires deviennent lors le reet de H2, la variance expliquée par des facteurs génétiques.

Il existe également une approche permettant l'estimation de h2, l'héritabilité au sens strict : les

études de familles. Cette approche est basée sur la diérence entre la corrélation phénotypique observée et celle attendue compte-tenu de la parenté génétique (genetic relatedness, notée r) entre individus d'une même famille. On dénit r comme la probabilité que deux individus partagent un allèle en raison d'une ascendance commune récente. On considère que r est égal à 1 pour les jumeaux MZ, 0.5 pour les jumeaux DZ et les frères et soeurs, 0.125 pour les cousins au premier degré et 0 pour les individus non-apparentés (Visscher et al.,2008).

1.4.3 L'héritabilité du cancer du sein

Il a été constaté, au sein de certaines familles, une occurrence de cas de cancer du sein supérieure à celle observée dans la population générale. On parle d'ailleurs de cancer du sein héréditaire ou familial lorsqu'il survient (avec ou sans cancer des ovaires) chez plusieurs membres d'une même famille, ou dans des conditions particulières telles qu'exclusivement chez des individus mâles ou chez des femmes en début de quarantaine (Shiovitz and Korde,2015). Ainsi la question de l'héritabilité du cancer du sein a été soulevée. An d'estimer l'héritabilité du cancer du sein, de nombreuses études de familles et de jumeaux ont été réalisées au cours des trente dernières années dans les populations d'origine européenne (Brinton et al., 1982; Claus et al.,1990;Houlston et al.,1992;Tulinius et al.,1992; Easton et al.,1993;Eby et al., 1994;Olsen et al.,1999;Thompson,1994;Lichtenstein et al.,2000;Möller et al.,2016). Mack et al. ont démontré qu'un individu appartenant à une paire de faux jumeaux n'avait pas plus de risque qu'un autre membre de la famille au premier degré de développer un cancer du sein sachant que son co-jumeau en avait développé un. Démontrant ainsi la faible incidence d'un environnement utérin commun (Mack et al.,2002).

(31)

L'étude de jumeaux la plus récente fait état d'une héritabilité globale de 32% [intervalle de conance à 95% (IC), 10%-51%] avec une composante environnementale estimée à 16% [IC à 95%, 10%-32%]. Pour le cancer du sein avant la ménopause, ces estimations étaient respectivement de 27% et 12% et de 22% et 16% pour le cancer du sein post-ménopause. Ces valeurs étaient constantes entre 50 et 96 ans (Möller et al.,2016).

1.4.4 À la recherche de l'héritabilité manquante

On a estimé l'eet des gènes de susceptibilité et des polymorphismes identiés à ce jour sur la variation phénotypique dans le cancer du sein, mais le cumul de ces eets n'explique pas toute l'héritabilité estimée lors des études familiales. On parle alors d'héritabilité manquante. Cette notion, conceptualisée en 2009 (Manolio et al.,2009), décrit la diérence observée entre l'héritabilité totale estimée et la contribution des locus génétiques identiés.

Bien que l'héritabilité ne puisse pas se traduire par une estimation du risque personnalisé pour chaque individu, elle permet d'évaluer le risque de développer un cancer du sein pour un individu dont un parent au premier degré est atteint. De plus, l'existence de cette héritabilité manquante constitue un encouragement à poursuivre les recherches visant à identier d'autres facteurs génétiques de susceptibilité tout en connaissant la contribution maximale que ces derniers peuvent avoir.

Au commencement de mon doctorat, seule la moitié de l'héritabilité pouvait être expliquée par les gènes identiés, laissant ainsi une grande portion des acteurs génétiques de la susceptibilité inconnue. En même temps que l'introduction du concept d'héritabilité manquante, Manolio et coll. proposaient, en 2009, des pistes de recherche ainsi qu'une évaluation de notre capacité à identier de nouveaux variants causaux relativement à leur fréquence et l'ampleur de leurs eets (Figure 1.5).

Parmi celles-ci, on retrouve l'hypothèse selon laquelle il existerait un nombre beaucoup plus grand de variants impliqués dans la susceptibilité mais d'eets plus faibles, ainsi que des vari-ants à eets plus importvari-ants mais plus rares et donc diciles à détecter. D'autres proposent les variations structurales ou les interactions entre gènes (épistasie) comme source potentielle de l'héritabilité manquante. Finalement, une évaluation inadéquate des contributions envi-ronnementales et génétiques lors des études familiales pourrait être à l'origine d'une mauvaise estimation de l'héritabilité (Manolio et al.,2009). Ces diérentes théories ne font pas consensus mais ne sont pas mutuellement exclusives et l'héritabilité manquante pourrait être expliquée par une combinaison de ces diérentes sources.

Dans le cadre de ma thèse, je me suis intéressée à deux pistes potentielles pour l'identication de nouveaux facteurs génétiques de prédisposition au cancer du sein, soit l'utilisation d'études d'association pangénomiques pour l'identication de variants communs de faible pénétrance, et

(32)

Mutations de forte pénétrance Mutations de pénétrance modérée RISQUE RELA TIF FRÉQUENCE ALLÉLIQUE Variants rares de pénétrance faible Très difficile à détecter Allèles de faible pénétrance Variants communs de faible pénétrance associés à des maladies communes Détectables par GWAS

Mutations causant des maladies mendéliennes

Variants rares avec un effet modéré détectables par WES

Figure 1.5: Diérents types d'architecture allélique (dans les ovales verts) pouvant être observés dans diérentes pathologies (Manolio et al.,2009) superposés aux allèles du risque identiés pour le cancer du sein (Ghoussaini et al.,2013). Diérents types d'architecture allélique sont répartis en fonction de la fréquence et de l'eet de l'allèle associé au risque.

l'analyse de données issues du séquençage d'exomes complets pour l'identication de variants génétiques codants de pénétrance modérée à forte mais plus rares.

1.5 Les études d'association pangénomiques

L'étude d'association pangénomique aussi appelée GWAS pour Genome-Wide Association Study est un modèle expérimental utilisé pour détecter les associations entre variants géné-tiques et caractères phénotypiques à partir d'un échantillon de la population. L'objectif prin-cipal de ce type d'étude est de mieux comprendre les bases génétiques d'une maladie, en supposant qu'une meilleure compréhension permettra certainement une meilleure prévention et un meilleur traitement (Klein et al.,2005).

1.5.1 Principe général

De nos jours, les études d'association à l'échelle du génome (GWAS) utilisent le plus sou-vent des polymorphismes mononucléotidiques (SNP pour single nucleotide polymorphisms)

(33)

pour identier des associations génétiques avec des états cliniques et des traits phénotypiques (Welter et al.,2014).

Un SNP est un changement d'une paire de base dans la séquence d'ADN. Ce dernier peut être considéré comme l'unité de mesure moderne de la variation génétique. En pratique, les tech-nologies de génotypage de nouvelle génération permettent d'évaluer deux allèles par SNP, ce qui est le cas pour la majorité d'entre eux au sein d'une population. La fréquence d'un SNP est souvent exprimée par selon la fréquence de l'allèle le moins fréquent ou allèle mineur. Une large majorité d'entre eux ont un impact minimal, car non-codant, sur le système biologique, néan-moins certains peuvent avoir des conséquences fonctionnelles par le biais de changements dans la séquence et/ou la stabilité de l'ARN messager, ou encore dans la régulation de l'expression du gène en modiant l'anité de la séquence avec des facteurs de transcription.

Les SNPs, relativement communs, sont des variations génétiques qui se produisent à une cer-taine génération et qui se propagent ensuite dans la population humaine en fonction du hasard, de l'histoire démographique, et de la sélection naturelle. Lorsqu'un second SNP apparaît très près d'un autre (jusqu'à des dizaines de milliers de paires de bases), les deux allèles des vari-ants sont presque toujours transmis ensemble aux enfvari-ants dans les générations suivantes, ce qui donne lieu à une structure de corrélation, appelée déséquilibre de liaison (linkage disequi-librium - LD), entre les variants présents dans le génome humain. Ce LD évolue en fonction des forces évolutives telles que la taille nie de la population, le taux de mutation, le taux de recombinaison et la sélection naturelle. Il peut aussi être déni comme la diérence entre la fréquence de cooccurrence observée entre deux allèles et celle attendue de deux marqueurs indépendants (Bush et al.,2012;Zhang et al.,2015).

Les deux mesures de LD les plus courantes sont le D0

et le r2(Devlin and Risch,1995) dont les

équations sont les suivantes (https://en.wikipedia.org/wiki/Linkage_disequilibrium) :

D0 = D/Dmax (1.1)

- D, représente le coecient de déséquilibre de liaison calculé comme suit :

D = pAB− pApB (1.2)

où pA est la proportion de gamète possédant l'allèle A, pB est la proportion de gamètes

possédant l'allèle B et pAB est la proportion de gamètes possédant les allèles A et B qu'on

appelle également l'haplotype AB.

- Dmax représente la diérence théorique maximale entre les fréquences d'haplotype observée

et attendue : (

max(−pApB, −(1 − pA)(1 − pB)) when D<0

min( pA(1 − pB), (1 − pA)pB) when D>0

)

(34)

r2= D

2

(1 − pA)pA(1 − pB)pB (1.4)

D0 est une mesure qui varie entre 0 et 1 qui décrit les événements de recombinaisons. 0 indique l'indépendance entre les deux allèles alors qu'un D0

de 1 indique qu'il n'y aucun événement de recombinaison entre les deux allèles et donc en complet déséquilibre de liaison, i.e. toujours co-hérités dans la génération suivante. Le r2 est une mesure statistique de corrélation entre deux

allèles de deux SNPs diérents. Une forte valeur de r2 entre deux allèles, A et B, indique que

l'allèle A au SNP1 peut prédire avec une forte exactitude l'allèle B au SNP2 et inversement

(Slatkin et al.,2008).

Le déséquilibre de liaison a été mis à prot dans le design expérimental des GWAS (Ozaki et al., 2002). En eet, selon les statistiques de la base de données de référence des variants génétiques dbSNP, plus de 660 millions de SNPs ont été identiés à ce jour chez l'Homme (dont près de 114 millions validés, source https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi). Au début des années 2000, les coûts de séquençage étaient bien plus élevés qu'à ce jour, et séquencer l'ensemble des variants pour des dizaines de milliers d'individus était inenvisageable. C'est pour cela que les GWAS utilisent des puces à ADN sur mesure contenant des SNP-balises (tag SNPs). Le génotypage est eectué via des biopuces (array) qui contiennent des fragments d'ADN, ou oligos, spéciques permettant l'hybridation avec la région visée, et la uorescence spécique des allèles. Les SNP-balises sont représentatifs d'une région génomique avec laquelle ils sont en très fort déséquilibre de liaison, appelée un bloc haplotypique. Ainsi, en génotypant un SNP-balise, on peut déduire avec un certain degré de certitude le génotype des SNPs appartenant au même bloc sans avoir à les génotyper individuellement. Cela réduit les coûts et le temps de cartographie des régions génomiques associées à un trait phénotypique. L'utilisation du LD dans la conception des GWAS a des conséquences en terme d'interprétabilité des résultats d'association observés. En eet, un signal d'association peut être engendré par deux phénomènes :

ˆ Le variant responsable du phénomène biologique, appelé aussi variant fonctionnel, est directement génotypé et statistiquement associé au trait. On parle alors d'association directe ;

ˆ Le variant fonctionnel n'est pas directement génotypé mais un SNP-balise en fort déséquili-bre de liaison l'est et est statistiquement associé au trait. On parle alors d'association indirecte.

À cause de cette incertitude, on ne peut pas déduire une causalité fonctionnelle systématique à partir d'une association statistique d'un variant dans le cadre d'un GWAS.

(35)

De plus, la réussite de l'analyse d'association pangénomique dépend de plusieurs autres critères dont : 1) le nombre de loci aectant le caractère réparti dans la population, 2) la distribution conjointe de l'ampleur de l'eet (eect size) et de la fréquence allélique (appelée aussi archi-tecture génétique), 3) la taille de l'échantillon expérimental, 4) le design de la biopuce à ADN utilisée dans l'étude et 5) l'hétérogénéité du trait étudié. Le dernier point comprend à la fois la biologie du trait et la capacité à le diagnostiquer ou à le mesurer avec précision (Bush et al., 2012;Visscher et al.,2017).

1.5.2 Identication des variants communs dans le cancer du sein

Les premières investigations visant l'identication des variants communs associés à une aug-mentation du risque du cancer du sein, au début des années 2000, furent réalisées à partir de gènes ou variants candidats. Malheureusement, la réplicabilité des résultats fût très faible en raison d'un manque de puissance statistique dans la majorité des cas (Chandler et al.,2016). C'est à partir de 2005, avec la création de collaborations internationales de grandes envergures telles que le consortium Cancer Genetic Markers of Susceptibility (CGEM) et le Breast Cancer Association Consortium (BCAC) que les premiers GWAS pour le cancer du sein furent réal-isés. C'est ainsi qu'en 2007, Easton et collègues publièrent 5 nouveaux loci de susceptibilité au cancer du sein dont l'association fut conrmée dans les études suivantes (Easton et al., 2007). Conscients de la nécessité d'augmenter les tailles des cohortes en vue d'identier des loci additionnels, diérentes études furent combinées en méta-analyses et étendues à d'autres populations (Ahmed et al.,2009;Ghoussaini et al.,2012;Turnbull et al.,2010). Ces diérentes stratégies permirent, en quelques années, la découverte de 12 nouveaux loci de susceptibilité. La création du multi-consortium Collaborative Oncological Gene-environment Study (COGS) dont l'objectif était l'étude conjointe de trois cancers hormono-dépendants (prostate, sein, ovaires), a donné lieu à la mise au point d'une puce sur mesure (nommée iCOGS) contenant plus de 200 000 SNPs dont la moitié était constituée de SNPs candidats sélectionnés par les diérents consortiums. Ainsi, en 2013, Michailidou et collègues purent valider la majorité des loci connus et identier 41 nouveaux loci (Michailidou et al., 2013). En 2015, les données iCOGS en combinaison avec d'autres GWAS, permirent la découverte de nombreux loci, por-tant à 94 le nombre de loci de susceptibilité au cancer du sein connus (Michailidou et al., 2015).

En parallèle, d'autres études furent menées sur des populations plus homogènes (porteurs BRCA1/2, ER-négatif, etc...) ou d'autres ethnies, et permirent l'identication de nombreux autres loci de susceptibilité au cancer du sein dont certains pouvant s'appliquer à la population générale (Stacey et al.,2007;Garcia-Closas et al.,2013;Long et al., 2013b; Cai et al.,2014; Hall et al.,2009;Thomas et al., 2009; Cai et al.,2011;Long et al.,2012;Siddiq et al.,2012; Milne et al.,2014).

(36)

Ainsi, au début de mon doctorat, le nombre de loci connus associés au cancer du sein dans la population d'origine européenne, s'élevait à 102. La Figure 1.6 représente ces diérents loci sur le génome et la Figure 1.7présente la part d'héritabilité expliquée par les diérentes grandes études.

Pré-COGS COGS Autres études

Figure 1.6: Position des loci connus de susceptibilité au cancer du sein. La couleur des points cor-respond aux grandes phases de découverte : pré-COGS, COGS, Analyses complémentaires. (données issues de la revue Lilyquist et al.(2018)).

Figure 1.7: Proportion de l'héritabilité expliquée par les diérents gènes et loci identiés en 2015. Près de la moitié des cas de cancers dits familiaux restent encore inexpliquée par les marqueurs connus.

Figure

Figure 1.1: Gènes et loci de susceptibilité au cancer du sein par fréquence allélique et augmentation du risque conféré par l'allèle associé
Figure 1.4: Illustration du concept d'héritabilité entre deux individus non-apparentés (adapté du site KhanAcademy https: // www
Figure 1.6: Position des loci connus de susceptibilité au cancer du sein. La couleur des points cor- cor-respond aux grandes phases de découverte : pré-COGS, COGS, Analyses complémentaires
Figure 1.8: Illustration de l'analyse d'association conditionnellement au SNP le plus associé (top SNP) indiqué par les cercles orange pour (A) un signal unique et (B) deux signaux indépendants au sein d'une même région
+7

Références

Documents relatifs

Si l'on en croit Jesse Fox, auteur principal d'une étude et professeur assistante en communication à l'Université de l'Ohio, les hommes qui publient beaucoup de selfies sur

Deux équipes de huit personnes, dont le poids total ne doit pas excéder un poids décidé suivant la catégorie, s'alignent à chaque bout d'une corde. Deux lignes, espacées de huit

L’événement « manger une salade verte et une pizza aux quatre fromages » a une probabilité de 1/6. L’événement «manger une salade verte, une pizza végétarienne et une

L’extension de l’usage dérogatoire protégé par droits acquis par l’agrandissement du bâtiment principal ou par l’agrandissement de l’occupation à l’intérieur de

- Prévoir la construction de bâtiments résidentiels, de manière à ce que ce pôle constitue une zone de transition entre le pôle central (mixte de moyenne et

In addition, each diploma shall bear the following information: a reference to the discipline or area of specialization concerned, the title of the thesis or works presented

Quel que soit le lieu de la soutenance, l’Université Sorbonne Université procédera au remboursement des frais de séjour, ou à la prise en charge des frais de déplacement, dans la

Ils sont ensuite émis sans vitesse par la source S, puis accélérés par un champ électrostatique uniforme qui règne entre S et P tel que.. U sp