• Aucun résultat trouvé

L'étude d'association pangénomique aussi appelée GWAS pour Genome-Wide Association Study est un modèle expérimental utilisé pour détecter les associations entre variants géné- tiques et caractères phénotypiques à partir d'un échantillon de la population. L'objectif prin- cipal de ce type d'étude est de mieux comprendre les bases génétiques d'une maladie, en supposant qu'une meilleure compréhension permettra certainement une meilleure prévention et un meilleur traitement (Klein et al.,2005).

1.5.1 Principe général

De nos jours, les études d'association à l'échelle du génome (GWAS) utilisent le plus sou- vent des polymorphismes mononucléotidiques (SNP pour single nucleotide polymorphisms)

pour identier des associations génétiques avec des états cliniques et des traits phénotypiques (Welter et al.,2014).

Un SNP est un changement d'une paire de base dans la séquence d'ADN. Ce dernier peut être considéré comme l'unité de mesure moderne de la variation génétique. En pratique, les tech- nologies de génotypage de nouvelle génération permettent d'évaluer deux allèles par SNP, ce qui est le cas pour la majorité d'entre eux au sein d'une population. La fréquence d'un SNP est souvent exprimée par selon la fréquence de l'allèle le moins fréquent ou allèle mineur. Une large majorité d'entre eux ont un impact minimal, car non-codant, sur le système biologique, néan- moins certains peuvent avoir des conséquences fonctionnelles par le biais de changements dans la séquence et/ou la stabilité de l'ARN messager, ou encore dans la régulation de l'expression du gène en modiant l'anité de la séquence avec des facteurs de transcription.

Les SNPs, relativement communs, sont des variations génétiques qui se produisent à une cer- taine génération et qui se propagent ensuite dans la population humaine en fonction du hasard, de l'histoire démographique, et de la sélection naturelle. Lorsqu'un second SNP apparaît très près d'un autre (jusqu'à des dizaines de milliers de paires de bases), les deux allèles des vari- ants sont presque toujours transmis ensemble aux enfants dans les générations suivantes, ce qui donne lieu à une structure de corrélation, appelée déséquilibre de liaison (linkage disequi- librium - LD), entre les variants présents dans le génome humain. Ce LD évolue en fonction des forces évolutives telles que la taille nie de la population, le taux de mutation, le taux de recombinaison et la sélection naturelle. Il peut aussi être déni comme la diérence entre la fréquence de cooccurrence observée entre deux allèles et celle attendue de deux marqueurs indépendants (Bush et al.,2012;Zhang et al.,2015).

Les deux mesures de LD les plus courantes sont le D0

et le r2(Devlin and Risch,1995) dont les

équations sont les suivantes (https://en.wikipedia.org/wiki/Linkage_disequilibrium) :

D0 = D/Dmax (1.1)

- D, représente le coecient de déséquilibre de liaison calculé comme suit :

D = pAB− pApB (1.2)

où pA est la proportion de gamète possédant l'allèle A, pB est la proportion de gamètes

possédant l'allèle B et pAB est la proportion de gamètes possédant les allèles A et B qu'on

appelle également l'haplotype AB.

- Dmax représente la diérence théorique maximale entre les fréquences d'haplotype observée

et attendue : (

max(−pApB, −(1 − pA)(1 − pB)) when D<0

min( pA(1 − pB), (1 − pA)pB) when D>0

)

r2= D

2

(1 − pA)pA(1 − pB)pB (1.4)

D0 est une mesure qui varie entre 0 et 1 qui décrit les événements de recombinaisons. 0 indique l'indépendance entre les deux allèles alors qu'un D0

de 1 indique qu'il n'y aucun événement de recombinaison entre les deux allèles et donc en complet déséquilibre de liaison, i.e. toujours co- hérités dans la génération suivante. Le r2 est une mesure statistique de corrélation entre deux

allèles de deux SNPs diérents. Une forte valeur de r2 entre deux allèles, A et B, indique que

l'allèle A au SNP1 peut prédire avec une forte exactitude l'allèle B au SNP2 et inversement

(Slatkin et al.,2008).

Le déséquilibre de liaison a été mis à prot dans le design expérimental des GWAS (Ozaki et al., 2002). En eet, selon les statistiques de la base de données de référence des variants génétiques dbSNP, plus de 660 millions de SNPs ont été identiés à ce jour chez l'Homme (dont près de 114 millions validés, source https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi). Au début des années 2000, les coûts de séquençage étaient bien plus élevés qu'à ce jour, et séquencer l'ensemble des variants pour des dizaines de milliers d'individus était inenvisageable. C'est pour cela que les GWAS utilisent des puces à ADN sur mesure contenant des SNP- balises (tag SNPs). Le génotypage est eectué via des biopuces (array) qui contiennent des fragments d'ADN, ou oligos, spéciques permettant l'hybridation avec la région visée, et la uorescence spécique des allèles. Les SNP-balises sont représentatifs d'une région génomique avec laquelle ils sont en très fort déséquilibre de liaison, appelée un bloc haplotypique. Ainsi, en génotypant un SNP-balise, on peut déduire avec un certain degré de certitude le génotype des SNPs appartenant au même bloc sans avoir à les génotyper individuellement. Cela réduit les coûts et le temps de cartographie des régions génomiques associées à un trait phénotypique. L'utilisation du LD dans la conception des GWAS a des conséquences en terme d'interprétabilité des résultats d'association observés. En eet, un signal d'association peut être engendré par deux phénomènes :

ˆ Le variant responsable du phénomène biologique, appelé aussi variant fonctionnel, est directement génotypé et statistiquement associé au trait. On parle alors d'association directe ;

ˆ Le variant fonctionnel n'est pas directement génotypé mais un SNP-balise en fort déséquili- bre de liaison l'est et est statistiquement associé au trait. On parle alors d'association indirecte.

À cause de cette incertitude, on ne peut pas déduire une causalité fonctionnelle systématique à partir d'une association statistique d'un variant dans le cadre d'un GWAS.

De plus, la réussite de l'analyse d'association pangénomique dépend de plusieurs autres critères dont : 1) le nombre de loci aectant le caractère réparti dans la population, 2) la distribution conjointe de l'ampleur de l'eet (eect size) et de la fréquence allélique (appelée aussi archi- tecture génétique), 3) la taille de l'échantillon expérimental, 4) le design de la biopuce à ADN utilisée dans l'étude et 5) l'hétérogénéité du trait étudié. Le dernier point comprend à la fois la biologie du trait et la capacité à le diagnostiquer ou à le mesurer avec précision (Bush et al., 2012;Visscher et al.,2017).

1.5.2 Identication des variants communs dans le cancer du sein

Les premières investigations visant l'identication des variants communs associés à une aug- mentation du risque du cancer du sein, au début des années 2000, furent réalisées à partir de gènes ou variants candidats. Malheureusement, la réplicabilité des résultats fût très faible en raison d'un manque de puissance statistique dans la majorité des cas (Chandler et al.,2016). C'est à partir de 2005, avec la création de collaborations internationales de grandes envergures telles que le consortium Cancer Genetic Markers of Susceptibility (CGEM) et le Breast Cancer Association Consortium (BCAC) que les premiers GWAS pour le cancer du sein furent réal- isés. C'est ainsi qu'en 2007, Easton et collègues publièrent 5 nouveaux loci de susceptibilité au cancer du sein dont l'association fut conrmée dans les études suivantes (Easton et al., 2007). Conscients de la nécessité d'augmenter les tailles des cohortes en vue d'identier des loci additionnels, diérentes études furent combinées en méta-analyses et étendues à d'autres populations (Ahmed et al.,2009;Ghoussaini et al.,2012;Turnbull et al.,2010). Ces diérentes stratégies permirent, en quelques années, la découverte de 12 nouveaux loci de susceptibilité. La création du multi-consortium Collaborative Oncological Gene-environment Study (COGS) dont l'objectif était l'étude conjointe de trois cancers hormono-dépendants (prostate, sein, ovaires), a donné lieu à la mise au point d'une puce sur mesure (nommée iCOGS) contenant plus de 200 000 SNPs dont la moitié était constituée de SNPs candidats sélectionnés par les diérents consortiums. Ainsi, en 2013, Michailidou et collègues purent valider la majorité des loci connus et identier 41 nouveaux loci (Michailidou et al., 2013). En 2015, les données iCOGS en combinaison avec d'autres GWAS, permirent la découverte de nombreux loci, por- tant à 94 le nombre de loci de susceptibilité au cancer du sein connus (Michailidou et al., 2015).

En parallèle, d'autres études furent menées sur des populations plus homogènes (porteurs BRCA1/2, ER-négatif, etc...) ou d'autres ethnies, et permirent l'identication de nombreux autres loci de susceptibilité au cancer du sein dont certains pouvant s'appliquer à la population générale (Stacey et al.,2007;Garcia-Closas et al.,2013;Long et al., 2013b; Cai et al.,2014; Hall et al.,2009;Thomas et al., 2009; Cai et al.,2011;Long et al.,2012;Siddiq et al.,2012; Milne et al.,2014).

Ainsi, au début de mon doctorat, le nombre de loci connus associés au cancer du sein dans la population d'origine européenne, s'élevait à 102. La Figure 1.6 représente ces diérents loci sur le génome et la Figure 1.7présente la part d'héritabilité expliquée par les diérentes grandes études.

Pré-COGS COGS Autres études

Figure 1.6: Position des loci connus de susceptibilité au cancer du sein. La couleur des points cor- respond aux grandes phases de découverte : pré-COGS, COGS, Analyses complémentaires. (données issues de la revue Lilyquist et al.(2018)).

Figure 1.7: Proportion de l'héritabilité expliquée par les diérents gènes et loci identiés en 2015. Près de la moitié des cas de cancers dits familiaux restent encore inexpliquée par les marqueurs connus.

L'année 2015 a vu apparaître l'OncoArray Network dont le but était de développer et génotyper une biopuce de génotypage personnalisée appelé OncoArray. Le réseau OncoArray a réuni plusieurs consortia dédiés à l'étude de maladies complexes telles que les cancers du sein, de l'ovaire, de la prostate, colorectal et du poumon. L'objectif global du réseau était de mieux comprendre l'architecture génétique et les mécanismes sous-jacents à ces pathologies par la découverte de nouveaux variants de susceptibilité. De plus, grâce à la cartographie ne et au génotypage à haute densité, ce projet orait une occasion sans précédent de génotyper les variants situés dans des loci connus. L'OncoArray contient 500 000 SNPs dont une moitié de SNP-balises et une autre moitié de variants génétiques associés aux diérents cancers ainsi que des SNP couvrant l'ascendance, des caractères quantitatifs, la pharmacogénétique et la cartographie ne de loci de susceptibilité à des cancers courants (Amos et al.,2017).

Au cours de mon doctorat, j'ai pris part au volet "cancer du sein" de ce projet d'envergure mondiale. Les découvertes qui en découlent, ainsi que ma contribution, sont présentées dans le chapitre 1 de cette thèse.

1.5.3 Au-delà des études d'association pangénomiques

Les avancées technologiques ont permis la multiplication des études pangénomiques pour l'identication de variants communs dans de nombreux traits et maladies complexes (https: //www.ebi.ac.uk/gwas/). Malgré les milliers de loci identiés comme étant associés à divers phénotypes, seule une très faible proportion a conduit à l'identication des variants fonction- nels sous-tendants un signal d'association (Gallagher et al.,2018).

La présence d'associations indirectes ainsi que le fait que la majorité des loci se trouvent dans des régions non-codantes du génome, sont les principales causes de ce décalage. Pour pallier à cette limitation, un important eort a été porté à l'identication des variants fonctionnels par la cartographie ne (ne-mapping) des signaux d'association GWAS. La cartographie ne a pour objectif principal de prioriser les variants présents dans un signal en vue d'orienter l'analyse fonctionnelle poussée des meilleurs candidats et ainsi parvenir à convertir une asso- ciation statistique en une association biologique entre un gène cible et un phénotype.

Il existe deux approches de cartographie ne : une approche statistique qui regroupe les méth- odes dont l'objectif est d'assigner des probabilités de causalité aux variants, et une approche fonctionnelle qui vise à assigner aux variants candidats les gènes dont l'altération contribuerait au phénotype d'intérêt (Spain and Barrett,2015).

Le présent document se limitera à la mise en contexte des approches de priorisation basées sur les annotations fonctionnelles.

1.5.4 La cartographie ne par approche fonctionnelle

Un postulat très fort de la cartographie ne se trouve que le variant causal est parmi les candidats identiés dans le signal. C'est pourquoi la mise en oeuvre d'une analyse de car- tographie ne nécessite dans un premier temps le génotypage le plus complet possible de la région d'intérêt. Pour ce faire, on utilise des biopuces sur mesure destinées au génotypage dense telles que les puces iCOGS et l'OncoArray, conçues pour la cartographie de régions liées aux cancers du sein, de l'ovaire et de la prostate. Le génotype des variants non typés est déduit (imputed) grâce aux données de déséquilibre de liaison issues de panels de référence tels que ceux fournis par le projet 1000 Genomes (1KGP) (1000 Genomes Project Consortium et al., 2015) ou encore plus récemment le Haplotype Reference Consortium (HRC) (McCarthy et al., 2016).

Une fois l'imputation réalisée grâce à des logiciels spécialisés tels que IMPUTE (Howie et al., 2009) ou SHAPEIT (O'Connell et al., 2016), un contrôle qualité très stringent, basé sur la profondeur et le taux d'erreur de séquençage, est appliqué an d'éliminer les potentielles erreurs de génotypage et d'imputation.

L'étape indispensable suivant le contrôle qualité est l'étude d'association avec le phénotype combinée à une analyse conditionnelle pas à pas (stepwise conditional analysis). Cette analyse complémentaire est réalisée pour identier d'éventuels signaux indépendants au sein d'une même région (Figure 1.8). La poursuite du processus de priorisation s'eectue sur chaque signal indépendamment (Spain and Barrett,2015).

Au cours des dernières années, de nombreux outils et méthodologies basés sur les annotations fonctionnelles ont été développés dans le but d'assister les chercheurs dans la priorisation des variants candidats. Ces approches sont complémentaires aux approches statistiques et visent à apporter une estimation de l'impact des variants candidats sur l'organisme et ainsi d'inférer leur causalité vis-à-vis du phénotype d'intérêt. Il existe à la fois des outils d'intégration d'annotations tels que VEP (McLaren et al.,2016) ou ANNOVAR (Wang et al.,2010) et des outils de prédiction d'impact délétère tels que SIFT (Sim et al.,2012), CADD (Kircher et al., 2014) et Eigen (Liu et al.,2016).

En plus d'outils de qualité, un immense eort a été fait pour annoter les régions non-codantes du génome qui représentent la grande majorité des signaux GWAS. Parmi les grands pro- jets contribuant à l'eort de caractérisation de ces régions potentiellement régulatrices du génome, on compte le projet ENCODE (Encyclopedia of DNA Elements, ENCODE Project Consortium (2012)), les consortia FANTOM (Lizio and FANTOM consortium,2015) et NIH Roadmap Epigenomics (Bernstein et al., 2010). Les données produites dans le cadre de ces diérents projets constituent une ressources inestimable de connaissances variées tels que les sites de modication des histones, de xation de facteurs de transcription ou de méthylation de

Avant Après En présence d’un signal unique En présence de deux signaux

Analyse conditionnelle au top SNP

Figure 1.8: Illustration de l'analyse d'association conditionnellement au SNP le plus associé (top SNP) indiqué par les cercles orange pour (A) un signal unique et (B) deux signaux indépendants au sein d'une même région. Les gures des panneaux supérieurs montrent les résultats de l'analyse d'association et les panneaux inférieurs, le résultat après l'analyse conditionnelle pas à pas. Adaptée de Spain and Barrett (2015)

l'ADN par exemple. Combinées, ces informations dépeignent un paysage contrasté des régions régulatrices non-codantes et permettent ainsi d'estimer si et comment un variant peut aecter l'expression d'un gène par le biais d'éléments fonctionnels proximaux tels que les promoteurs ou distaux tels que les amplicateurs.

Ainsi, en 2015, on comptait des dizaines de méthodologies et outils, dont quelques uns sont listés dans le Tableau 1.1, pour la cartographie ne. Aux vues de la complexité que peut représenter l'intégration de toutes ces ressources, nous avons développé deux outils d'assistance à la priorisation de variants dans le cadre d'analyses de cartographie ne. Ces outils, basés sur les annotations fonctionnelles et les prédictions d'impacts délétères sont présentés dans les chapitres 2 et 3 de ma thèse.

En 2015, moins de 20 régions parmi les 102 connues pour leur association au risque du cancer du sein dans la population européenne avaient été étudiées en détail (Bojesen et al., 2013; French et al.,2013;Meyer et al.,2013;Guo et al.,2015;Ghoussaini et al.,2014;Glubb et al., 2015;Orr et al.,2015;Lin et al.,2015;Zeng et al.,2016;Darabi et al.,2016;Shi et al.,2016b;

Description Outil

Annotation fonctionnelle des variants VEPANNOVAR

Panels de références et estimation du LD 1000 Genomes Project

Méthode bayésienne pour identier des ensembles crédibles à l'aide de données de génotypage BIMBAM Méthodes bayésienne basées sur les récapitulatifs statistiques CAVIARBFPAINTOR

Méthodes bayésienne utilisant les annotations fonctionnelles fGWASPICS

Projets d'annotation du génome non-codant ENCODERoadmap

Fantom5 Bases de données utilisant des informations de régulation pour inférer une fonction RegulomeDBHaploREG

eQTLs GTEx

Analyses d'enrichissement Goshifter

Bases de données pharmacologiques ChEMBLDrugbank

Therapeutic target database

Exploration de la bibiographie GRAIL

Interactions protéiques DAPPLE

Priorisation basée sur les voies métaboliques MEAGA

Tableau 1.1: Une boîte à outils avec une URL pour les méthodes, les bases de données d'annotation et les outils issus de (Spain and Barrett,2015).

Horne et al.,2016;Lawrenson et al.,2016;Betts et al.,2017). Dans ce contexte, j'ai également eu la chance de participer à la cartographie ne des régions de susceptibilité au cancer du sein. Ce travail, en cours de réalisation, sera évoqué plus précisément dans la discussion du présent document.

Documents relatifs