• Aucun résultat trouvé

La diminution drastique du coût du séquençage de ces dernières années, combinée à l'automatisation de nombreuses étapes et à l'amélioration des méthodes de traitement, a rendu le séquençage de génomes complets (Whole Genome Sequencing - WGS) possible et abordable.

Néanmoins, il reste ardu et coûteux d'utiliser cette approche sur des cohortes de milliers d'individus pour détecter d'éventuels variants liés à la susceptibilité génétique, notamment en terme de capacité de stockage et d'analyse de la quantité astronomique de données générées par cette technologie. C'est pourquoi, les méthodes de séquençage ciblé sont préférées pour ce type de problématique. Parmi ces méthodes, nous nous intéresserons au séquençage d'exomes complets (Whole Exome Sequencing - WES) qui consiste à séquencer de manière ciblée la portion codante du génome.

1.6.1 Principe

L'exome est traditionnellement déni comme l'ensemble des séquences des exons appartenant à des gènes codant pour des protéines et représente, en fonction de l'organisme, 1 à 2% du génome total (Kiezun et al.,2012). Pour le séquencer, des amorces spéciques des séquences des gènes connus permettent d'initier le séquençage de seulement cette partie du génome. On peut cependant étendre la notion d'exome aux éléments fonctionnels non codant tels que les micro-ARN ou les ARNs long non-codants (Isakov et al.,2013).

Le séquençage d'exome complet possède de nombreux avantages dont celui de produire des données enrichies en variants potentiellement pertinents (Bamshad et al.,2011). En eet, les variants situés dans le codant ont un potentiel délétère supérieur à celui des variants situés dans les régions non-codantes et la majorité des variations connues pour leur implication dans des maladies génétiques sont des variations faux sens (Tabor et al.,2002).

De plus, l'eet de variants codants est bien plus prédictible que celui des variants non-codants. Un autre élément complexiant est le diérentiel de pression de sélection entre les régions co- dantes et non-codantes du génome. En eet, du fait de leur caractère souvent non-fonctionnel, les régions non-codantes, soumises à une pression de sélection moins forte, ont accumulé au cours de l'évolution une quantité de variations exponentiellement plus élevée que les régions codantes (1000 Genomes Project Consortium et al.,2010).

Au cours des dernières années, le séquençage d'exomes complets a permis d'identier avec succès plus de 30 nouveaux variants impliqués dans plusieurs maladies génétiques, dont le cancer du sein (Gilissen et al.,2011;Chandler et al.,2016).

1.6.2 Les analyses d'exomes complets pour l'étude de la susceptibilité au cancer du sein

En 2015, plus de 35 gènes avaient été identiés comme potentiels porteurs de variations de pénétrance modérée et/ou forte (Easton et al., 2015). Parmi ceux-là seulement 10 ont été conrmés et ensemble, ils représentent moins de 30% de cas de cancer du sein dit héréditaires ou familiaux.

En raison de l'importante portion du risque familial restant à expliquer, d'importants eorts ont été déployés pour découvrir de nouveaux facteurs du risque génétique. C'est pourquoi, par- allèlement aux nombreuses études portant sur les variants communs (décrits précédemment), des équipes de recherche se sont appliquées à identier des variants plus rares via l'analyse d'exomes complets.

approche consiste en l'analyse de données d'exomes complets d'individus aectés appartenant à la même famille. L'intérêt de cette approche est d'identier plus facilement des mutations récessives. En eet, il sut de ltrer les génotypes homozygotes et d'éliminer les variations bénignes propres à chaque famille en comparant individus sains et aectés. L'inconvénient de cette approche est principalement la faible taille de l'échantillon qui rend dicile l'identication de mutations de pénétrance partielle. Pour identier ce type de mutation, il est suggéré d'utiliser, seule ou en combinaison avec la première approche, l'analyse d'exomes d'individus sans lien de parenté. Il est important de sélectionner des individus sains et aectés appartenant à la même population an de réduire la variance allélique due aux diérences ethniques et par conséquent le nombre de gènes candidats (Ng et al., 2010). Ainsi, quand une similarité génétique est observée entre individus non-apparentés, des tests d'association sont réalisés pour déterminer la signicativité de l'association. La validation nale est eectuée sur une cohorte extérieure de plus grande taille (Gilissen et al.,2012).

La revue de Chandler et al.(2016) sur l'utilisation du WES pour la découverte de nouveaux gènes de susceptibilité au cancer du sein, donne une vue d'ensemble sur les études majeures réalisées ces dernières années. Ainsi, parmi les 12 études réalisées entre 2011 et 2015, 10 étaient des études familiales. Ces 10 études représentaient au moins 185 individus répartis en 108 familles, certaines études ne fournissant pas les comptes précis. Malheureusement, seul 10% (11/108) de ces familles ont permis de détecter des variants signicativement associés avec le risque du cancer du sein, et sans surprise, près de la moitié d'entre-elles (4/11) ont rapporté des mutations dans des gènes de susceptibilité connus. Parmi les nouvelles mutations identiées comme celles rapportées comme pathogéniques dans le gène XRCC2 par exemple, peu ont pu être conrmées dans des analyses indépendantes.

Ce manque de succès dans la réplication peut en partie s'expliquer par le fait que: 1) la majorité de ces études étaient des études familiales dans lesquelles un petit nombre de membres étaient disponibles pour le séquençage, ce qui a rendu dicile l'identication des variants de pénétrance incomplète et 2) les études de cas manquaient pour la plupart de puissance. Ces résultats mitigés illustrent les limitations d'analyse d'exomes complets. Néanmoins les succès observés dans d'autres pathologies complexes (Ng et al., 2010; Gilissen et al., 2011), laissent penser qu'il est important de poursuivre l'eort dans ce sens.

1.6.3 Les limitations du séquençage d'exomes complets

La limitation principale du WES est que les mutations causales ne peuvent être détectées que si elles appartiennent à une région codante connue. En eet, étant basé sur une initiation du séquençage à partir de petites séquences connues, toute variation génétique dans un gène encore à découvrir, dans l'ADN mitochondrial ou encore dans toute autre région régulatrice

ne pourra être découverte. Les variations de structure ou de nombre de copies sont également plus dicile à identier par ce biais même si des eorts de développement d'outils de détection sont en cours.

Comme pour les GWAS, les tests statistiques permettant d'évaluer l'association entre les variants et le phénotype sont soumis à la nécessité d'eectuer un ajustement sur le seuil de signicativité de manière à tenir compte des tests multiples. Cependant, aucun standard n'a été xé pour le seuil (Zuk et al., 2014) dans le cas des WES. Il est néanmoins admis que, si on accepte le gène comme unité fondamentale d'analyse, 1.7x10−6 peut être considéré comme

un seuil valide signicativité (MacArthur et al.,2014).

À supposer que les variants d'intérêt soient eectivement présents dans les régions exoniques, ils peuvent donc être manqués lors de phases de détection des variants. En eet, la tâche la plus ardue dans l'analyse de données issues du WES est l'identication de nouveaux marqueurs parmi des dizaines de milliers de candidats à partir d'une cohorte d'individus relativement restreinte.

1.6.4 Méthodes d'analyse

L'approche analytique des données de séquençage d'exomes complets peut être séparée en deux grandes phases : la détection et le génotypage des individus (production d'un chier Variant Calling Format (VCF) contenant les génotypes extraits des données brutes), et la détection des mutations associées au phénotype (analyse statistique permettant de relier les variants génétiques au cancer). Chacun de ces processus est lui-même composé de plusieurs étapes. Dans le présent document, nous nous concentrerons uniquement sur les méthodes de détection qui interviennent après la génération du chier VCF (Isakov et al.,2013).

La plupart des études procèdent à une sélection par ltrations successives pour prioriser les variants candidats. Il existe deux types de ltre : les ltres qui supposent que le groupe de variants ltrés n'est pas causal et les ltres dont l'objectif est la priorisation des variants. La fréquence allélique est couramment utilisée comme ltre discret et les variants communs (MAF > 1%) sont considérés comme fondamentalement non-causaux et éliminés des analyses. Les variants passant ce ltre peuvent ensuite être stratiés en plusieurs niveaux de priorité selon leurs propriétés et prédiction d'impact. Ainsi, on priorisera un variant exonique selon son eet sur le produit de sa traduction (séquence d'acides aminés) : les variants induisant un décalage dans le cadre de lecture ou la création/perte d'un codon stop vont avoir un niveau de priorité supérieur à celui des variants synonymes, par exemple. La Figure 1.9illustre les niveaux de priorités graduels créés à partir de deux critères de priorisation : la fréquence allélique et l'eet sur la traduction.

Conséquences Fréquence allélique (%) 0 (Nouveau) 1 5 non-sens faux-sens exonique Tous les variants

Figure 1.9: Niveaux de priorité créé à partir de deux critères de priorisation : la fréquence allélique et l'eet du variant sur la traduction. Chaque critère est divisé en trois sous-catégories. Plus la couleur est sombre, plus la priorité est élevée. Figure inspirée de Isakov et al. (2013)

Certains outils tels que GERP++ (Davydov et al.,2010) ou PhatCons (Siepel et al.,2005) sont basés sur la conservation de séquence. Ainsi, un variant dans une région fortement conservée d'un point de vue évolutif sera priorisé sur un variant situé dans une région soumise à une plus faible pression de sélection. D'autres outils tels que SIFT (Ng and Heniko,2001), LRT (Chun and Fay,2009) ou MutationTaster (Schwarz et al.,2010) vont au-delà de l'eet traductionnel et peuvent évaluer en quoi le changement de résidu peut impacter la fonctionnalité de la protéine résultante (excrétion, repliement, dégradation, anité, etc. . . ). Ils peuvent également prédire la sévérité des conséquences de variations synonymes, tels que la disparition/apparition d'un site d'épissage alternatif.

Une fois les variants priorisés selon leurs caractéristiques intrinsèques, il est d'usage d'intégrer la connaissance relative aux gènes qu'ils aectent. En eet, notre objectif étant ultimement d'expliquer un phénotype, il est pertinent d'intégrer les annotations géniques au processus de sélection de SNPs candidats.

Pour ce faire, il existe de nombreuses ressources qui référencent l'implication des gènes dans des complexes fonctionnels, des voies de signalisation (KEGG (Kanehisa and Goto, 2000),

REACTOME (Fabregat et al., 2016)), ainsi que leurs associations connues avec des traits phénotypiques (GWAS catalog (MacArthur et al., 2017), OMIM (Naylor and Benkendorf, 1996)) ou des cancers (COSMIC (Futreal et al.,2004)).

La priorisation nale va s'eectuer en intégrant les données du phénotype d'intérêt (e.g di- agnostic du cancer du sein) aux variants et gènes annotés de façon à identier d'éventuels marqueurs associés. La Figure 1.10 illustre un pipeline typique de priorisation de variants dans le cadre de l'analyse de séquençage d'exomes complets issus de familles nlandaises at- teintes de cancer du sein héréditaires (Määttä et al.,2016).

Identification des variants (variant calling) (N = 736,963)

Annotation des variants

- Sélection des variants exoniques

Variants exoniques fonctionnels (N = 40,990)

- Épissage alternatif / Indel - gain/perte codon stop - Décalage cadre de lecture

Criblage contre les BD publiques

- 1000 Genomes, ESP6500 and SISU - Sélection des variants rares (FAM <= 0.05)

Variants impliqués dans les voies de réparation de l’ADN

- BD IntPath (Biocyc, KEGG et Wikipathways)

Évaluation de la pathogénicité

- Sélection des variants prédits comme pathogènes par au moins un outil de prédiction (annovar lib26) - Exclusion des variants observés chez les

patients sains uniquement

Critères de sélection finale

- taux du calling fiable - partagé entre les membres affectés d’une

famille - partagé entre les familles

Variants fonctionnels rares (N = 21,531)

Variants prédits comme pathogénique + 2 indels présents chez les individus affectés (N = 98) Variants impliqués dans les voies de réparation de

l’ADN (N = 153)

Variants candidats (N = 18)

Figure 1.10: Processus de priorisation des variants dans le cadre de l'analyse de données WES de familles nlandaises touchées par des cas de cancer du sein héréditaire. Figure issue deMäättä et al.

(2016)

étapes de ltration peuvent mener à l'élimination des variants véritablement causaux. Cela peut être dû à diérentes causes telles que l'élimination lors du contrôle qualité (suite à une insusance de profondeur de séquençage, par exemple), le manque puissance de l'étude pour détecter l'association d'un variant de pénétrance incomplète ou une priorisation biaisée par des annotations et prédictions basées sur une compréhension partielle des certains phénomènes biologiques.

D'autres approches pourraient permettre de surmonter ces limitations. Il a été démontré, par exemple, que les méthodes basées sur les haplotypes peuvent utilisées les SNPs communs pour détecter les associations entre variants rares avec des maladies communes. Cela est dû au fait que des haplotype rares peuvent résulter de la combinaison de SNP communs (Wang and Lin, 2014, 2015). Ainsi, l'analyse d'haplotype a permis d'identier avec succès des variants impliqués dans des maladies complexes tels que la maladie d'Alzheimer, la schizophrénie ou le cancer tête-cou. (Fallin et al.,2001;Reif et al.,2006;Saeed et al.,2017).

1.6.5 Analyse d'haplotypes

L'analyse d'haplotypes consiste à étudier l'association entre l'haplotype à un locus particulier et un trait phénotypique. On dénit comme haplotype un ensemble de SNPs présents sur le même chromosome. Ainsi, un organisme diploïde comme l'humain, possède deux haplotypes pour un locus donné, l'un maternel et l'autre paternel.

Des méthodes expérimentales moléculaires permettent de caractériser les haplotypes, mais sont dicilement compatibles avec les études basées sur les nouvelles technologies de séquençage (WES, WGS) en raison de leur coût. C'est pourquoi ces études travaillent à partir d'une version combinée de l'information allélique : le génotype. Cependant, l'incapacité de ces approches à haut débit à distinguer le chromosome d'origine, ou phase, de chaque allèle est une véritable limitation pour les études d'association.

En eet, un avantage considérable de l'analyse d'haplotype sur les l'analyses classiques de génotype est sa capacité à identier une association nécessitant la combinaison de plusieurs variants sur même chromosome comme l'illustre la Figure 1.11.

Plusieurs méthodes ont donc été proposées pour 1) accéder aux haplotypes sans passer par l'expérimentation moléculaire et 2) associer les haplotypes à un trait phénotypique.

Ainsi, des outils tels que Beagle (Browning and Browning, 2007), IMPUTE (Howie et al., 2009) ou SHAPEIT (O'Connell et al., 2016) exploitent une caractéristique fondamentale des haplotypes : le déséquilibre de liaison. Plusieurs méthodes d'association ont également été développées pour exploiter l'information haplotypique. Certaines recherchent l'association globale d'un bloc d'haplotype avec le caractère étudié (tests globaux) alors que d'autres testent

C T A G T A C T A G T A Individus 1 SNP1 SNP2 SNP3 SNP4 SNP5 SNP6 C T A C T A G A T G A T Individus 2 C T A C T A C T T G T A Individus 3 C T T C T A C T T C T A Individus 5 C T A G T A C T T C T A Individus 6 Non Atteint Non Atteint Non Atteint Atteint Atteint Atteint C/C T/T A/A G/G T/T A/A

C/G A/T A/T C/G A/T A/T

C/C T/T A/T C/G T/T A/A

C/G A/C T/T C/G A/T A/T

C/C T/T T/T C/C T/T A/A C/C T/T A/T C/G T/T A/A G A T G A T C T C T A Individus 4 T Génotypes identiques

Génotypes tous différents SNP1 SNP2 SNP3 SNP4 SNP5 SNP6

(a) HAPLOTYPES (b) PHÉNOTYPES (c) GÉNOTYPES

Figure 1.11: Cette gure illustre la force de l'analyse d'haplotype comparativement à l'analyse de génotype. Soient six individus dont trois atteints et trois non-atteints. Si l'on se e uniquement aux données de génotypage, on ne constate aucune dissemblance entre cas et contrôles ni aucune ressemblance entre les cas permettant de déduire une association avec le trait. Par contre, si l'on étudie les données d'haplotype, on constate que tous les cas partagent l'haplotype "CTTCTA" ce qui pourrait nous permettre de conclure à une association entre la maladie et cet haplotype d'intérêt. Illustration adaptée deLee and Shatkay (2009).

l'association des diérentes versions d'un haplotype (par rapport à un haplotype de référence) (Datta and Biswas, 2016). Néanmoins, ces approches reposent pour la plupart sur la mod- élisation de la relation entre une variable réponse (le trait phénotypique) et des variables explicatives (les haplotypes) sans aucune forme de la validation si ce n'est une estimation du taux d'erreur ou du niveau de conance qu'on peut attribuer au modèle.

Conscients des problèmes de réplication et de puissance inhérents aux analyses d'association à partir de données issues de WES, nous avons décidé de nous intéresser à un champ d'expertise capable de nous fournir des outils d'analyse complémentaires : l'apprentissage machine (Ma- chine Learning - ML). Appliqué à la problématique d'analyse d'haplotypes issus d'exomes complets, l'apprentissage machine pourrait permettre de détecter d'une part les associations entre le cancer du sein et des haplotypes candidats, et d'évaluer d'autre part la pertinence du modèle généré et par conséquent la validité des associations identiées.

Documents relatifs