• Aucun résultat trouvé

3.2 L’algorithme des forêts aléatoires

5.1.2 Données experimentales de fonctionalité

Roadmap Epigenomics : états chromatiniens

Le projet Roadmap Epigenomics (Kundaje et al., 2015) a conduit à la localisation génomique de plusieurs modifications d’histone à travers 111 types cellulaires. Les auteurs ont réalisé une intégration de ces signaux biochimiques, et ont défini des états chroma- tiniens, découverts par application de chaînes de Markov cachées (Ernst et al., 2010, Ernst et al., 2012). Depuis le site internet dédié au projet, j’ai téléchargé les jeux de données correspondant à la découverte de 18 états chromatiniens différents, à travers 98 types cellulaires. Ces états ont été identifiés pour des régions de 200 paires de bases, à partir des signaux biochimiques suivants :

— signaux de ChIP-seq pour la modification d’histone H3K4me3 ; — signaux de ChIP-seq pour la modification d’histone H3K4me1 ; — signaux de ChIP-seq pour la modification d’histone H3K36me3 ; — signaux de ChIP-seq pour la modification d’histone H3K27me3 ; — signaux de ChIP-seq pour la modification d’histone H3K9me3 ; — signaux de ChIP-seq pour la modification d’histone H3K27ac.

Comme présenté sur la figure 1.3 (voir chapitre 1), les états sont associés à des combi- naisons particulières et distinctes de modifications d’histones. Par exemple les états trans- crits (”5_Tx” et ”6_TxWk”) sont associés à des probabilités élevées d’y trouver un signal H3K36me3, tandis que les états enhancers (”7_EnhA1” et ”8_EnhA2”) sont associés à des probabilités élevées d’y trouver des signaux H3K27ac et H3K4me1.

J’avais initialement extrait pour chacun des 98 types cellulaires les régions pour les- quels l’état chromatinien correspond à un état régulateur (par exemples : ”flankingTSS”, ”BivalentEnhancer”, ou encore ”Active Enhancer”). Dans le cadre de l’annotation de va- riants, ces régions étaient utilisées pour définir si un variant était situé ou non dans un état régulateur pour un type cellulaire donné ; cela conduisait donc à 98 annotations binaires

et creuses (pour chaque tissu, une minorité de variants étaient localisés dans une région régulatrice). La combinaison des caractères ”creux” et ”binaire” conduisait à une sous- exploitation de ces annotations par les modèles d’apprentissages utilisés dans ce projet ; j’ai donc choisi d’exploiter autrement ces annotations, en calculant pour chaque région du génome le nombre de types cellulaires où un état donné est identifié, et ce pour les différents états.

Par simplification, les 18 états ont été réduits à 7 états principaux :

— promoteur : regroupe les états ”Active TSS”, ”Flanking TSS”, ”Flanking TSS Ups- tream”, ”Flanking TSS Downstream”, et ”Bivalent/Poised TSS” ;

— transcrit : regroupe les états ”Strong transcription” et ”Weak transcription” ; — enhancer : regroupe les états ”Genic enhancer” 1 et 2, ”Active enhancer” 1 et 2,

”Weak enhancer” et ”Bivalent enhancer” ;

— ZNFRpts : correspond à l’état ”ZNF genes and repeats”, décrivant des régions gé- nomiques avec des propriétés d’hétérochromatines (marque H3K9me3), mais aussi marqué par des signaux associés à la transcription (H3K36me3), provenant d’une concentration élevés en gènes à doigt de zinc (”ZNF genes”) ;

— hétérochromatine : correspond à l’état ”Heterochromatin” ;

— réprimé : regroupe les états ”Repressed PolyComb” et ”Weak Repressed Poly- Comb” ;

— quiescent : correspond à l’état ”Quiescent/Low”.

Les états chromatiniens des différents types cellulaires ont donc été agglomérés dans un seul fichier, et une étape de re-segmentation des régions génomiques a été appliquée, pour définir des régions non-chevauchantes. Chaque région a été réannotée avec les comptages de chacun des états principaux, évalués sur les 98 types cellulaires ; chaque région est ainsi associée à 7 valeurs discrètes. Ces opérations ont été réalisée avec les outils Bedops et Bedtools.

Roadmap Epigenomics : marques d’histones

En plus des états chromatiniens, j’ai téléchargé les signaux de Fold Change obtenus sur les 98 types cellulaires du projet Roadmap Epigenomics, pour trois modifications d’histones d’intérêt, identifiant les régions régulatrices :

— H3K4me1 : plutôt associées aux enhancers ;

— H3K27ac : plutôt associées aux enhancers actifs.

Les fichiers ont été téléchargés le 25/11/2018. Pour chaque modification, et afin de résumer les informations provenant des 98 types cellulaires, les valeurs médianes à chaque position du génome ont été extraites avec l’outil WiggleTool. Les fichiers BED obtenus ont ensuite été filtrés (par exemples : calcul des scores moyens pour les régions chevauchantes, retrait de régions aberrantes), et convertis en fichiers BigWig.

Données de sites de fixation de facteurs de transcription

Trois jeux de données ont été sélectionnés pour explorer l’impact des variants sur des sites potentiels de fixation de facteur de transcription ; ils sont présentés ci-dessous. Ces fichiers ont été téléchargés le 26/11/2018. Dans le cadre de l’utilisation de ces jeux de données pour annoter des positions génomiques, deux informations peuvent être extraites de ces identifications de sites de fixation : le nombre de sites chevauchant une position donnée, et le score maximal parmi les scores d’identification des sites ; ce sont ces deux informations que j’utiliserai pour annoter les variants non-codants pour mes modèles de classification.

Sites de fixation dans des pics de ChIP-seq. Un ensemble de jeux de données

dédiés aux annotations de régions régulatrices a été compilé dans la base de données d’Ensembl (Zerbino, Wilder et al., 2015) ; les données proviennent des projets ENCODE et Roadmap Epigenomics, et ont été réutilisées pour définir cet ensemble d’annotations appelé ”Ensembl Regulatory Build”. Parmi les annotations disponibles, j’ai téléchargé une collection de régions correspondant à des sites de fixation de facteurs de transcription (48 facteurs au total), spécifiquement localisés dans des régions de pics de ChIP-seq associés à ces facteurs. Ces prédictions permettent donc d’avoir une identification de sites dans le génome, dont la pertinence biologique est appuyée par une observation expérimentale de fixation.

Sites de fixation conservés. Depuis le navigateur de génomes de l’UCSC, j’ai télé-

chargé un jeu de prédictions de sites de fixation de facteurs de transcription nommé ”HMR Conserved Transcription Factor Binding Sites”. Les motifs des facteurs de transcription de la base de données Transfac (v7) ont été utilisé pour prédire des sites de fixation dans les séquences alignées de trois espèces : l’humain, le rat, et la souris. Ces prédictions per-

mettent de calculer un score mesurant le degré de qualité d’identification et de conservation de cette identification chez les trois espèces ; ces sites correspondent donc à des sites de fixation potentiels qui ont été vraisemblablement conservés au cours de l’évolution.

Sites de fixation regroupés. Depuis le navigateur de génomes de l’UCSC, j’ai télé-

chargé un jeu de prédictions de sites de fixation de facteurs de transcription nommé ”Trans- cription Factor ChIP-seq Clusters” (http://genome.ucsc.edu/cgi-bin/hgTrackUi?db= hg19&g=wgEncodeRegTfbsClusteredV3). Ce jeu de données a été généré depuis l’identi- fication de sites de fixation pour 161 facteurs de transcriptions dans 91 types cellulaires, issus du projet ENCODE. Les différentes prédictions ont été agrégées depuis les types cellulaires, permettant pour chaque facteur le calcul d’un score de ”clustering” ou re- groupement, mesurant le degré d’identification systématique d’un site dans une région génomique donnée.

Régions chromatiniennes ouvertes agglomérées

Depuis le navigateur de génomes de l’UCSC, j’ai téléchargé un jeu de régions identifiés par des expériences de sensibilité à la DNase 1, appelé ”DNaseI Hypersensitivity Clusters”. Ces régions correspondent à une agglomération de régions sensibles à la DNase 1, identifiées dans le cadre du projet ENCODE sur 125 types cellulaires. Chaque région est associée à un score entre 100 et 1000, mesurant le niveau d’accessibilité de la chromatine, agrégé depuis les types cellulaires.

REMAP : nouvelles identifications de pics de ChIP-seq

La base de données REMAP (Chèneby et al., 2018) propose un catalogue de loca- lisations de pics de ChIP-seq pour des facteurs de transcriptions, par une ré-analyse de différents jeux de données publics (dont les données du projet ENCODE). Un total de 35.5 millions de sites de fixations non-redondants de facteurs de transcription sont disponibles dans le catalogue, pour un total de 485 facteurs de transcriptions.