• Aucun résultat trouvé

2. La régulation de l’expression génétique chez les eucaryotes

2.1 La régulation épigénétique

Le terme « épigénétique » a été défini par Conrad Waddington en 1942 comme « la branche de la biologie qui étudie les interactions causales entre les gènes et leurs produits qui induisent le phénotype » (Waddington 1942). Cette première définition n’inclut pas la notion d’héritabilité que défendra bien plus tard Robin Holliday en décrivant l’épigénétique comme « l’étude des changements de la fonction d’un gène qui sont héritables par mitose ou méiose sans entraîner de modification de la séquence d’ADN » (Holliday 1994). Le terme d’épigénétique est depuis utilisé pour décrire, d’une part, l’impact de l’environnement sur le génotype et le phénotype qui en résulte, donc plutôt associé à l’écologie, et, d’autre part, la persistance d’un patron d’expression entre les différentes cellules et à travers les générations, en relation avec la génétique (Deans & Maggert 2015). Il semble que le terme soit donc utilisé de façon dichotomique dans l’une ou l’autre de ces branches de la biologie. Je m’intéresserais ici à la définition ‘génétique’ en considérant la régulation épigénétique de l’expression des gènes eucaryotes. Je présenterai différents phénomènes épigénétiques comme la méthylation de l’ADN, le remodelage de la chromatine qui suit la fixation des facteurs pionniers, les modifications d’histones et les ARN longs non-codants.

2.1.1 La méthylation de l’ADN et les îlots CpGs

La méthylation de l’ADN est un des mécanismes épigénétiques majeurs chez les mammifères pour la régulation de l’expression génétique tissu-spécifique, l’inactivation du

chromosome X, l’empreinte génomique et la répression des éléments transposables. Elle consiste au transfert d’un groupement méthyl sur une cytosine formant une 5-méthylcytosine. La majorité des cytosines méthylées précède une guanine, ces dinucléotides sont référencés comme des sites CpGs. Chez les mammifères, les sites CpGs sont sous-représentés dans le génome à cause de la désamination des 5-méthylcytosines en thymine (pour revue : Moore et al. 2012). Une exception existe cependant pour les îlots CpGs : de grandes régions à forte densité de CpGs le plus souvent non méthylés. Les îlots CpGs couvrent le TSS des promoteurs des gènes de ménage et des gènes régulés au cours du développement. La méthylation des îlots CpGs est associée à la répression stable de l’expression des gènes. La méthylation de l’ADN peut contrôler l’expression des gènes de quatre façons :

- en empêchant la fixation d’un facteur de transcription sur sa séquence consensus méthylée

- en interférant avec des marques positives d’histones (cf 2.1.2) - en recrutant des répresseurs qui fixent les groupements méthyles - en affectant la disposition des nucléosomes.

Les méthyltransférases d’ADN (DNMTs) catalysent la réaction de méthylation. Deux types de DNMT assurent soit le maintien de la méthylation, soit la méthylation de novo. Le maintien de l’état de méthylation est perpétué par l’enzyme DNMT1 qui agit sur le brin non-méthylé après chaque réplication (Yoder & Bestor 1998). Les enzymes DNMT3A et DNMT3B (Okano et al. 1999), avec l’aide de DNMT3L (Bourc’his et al. 2001) ciblent des sites différents du génome et établissent un nouvel état de méthylation. Le retrait de la méthylation de l’ADN peut se faire de façon passive ou active. De manière passive, une inhibition de la DNMT1 conduit à la perte progressive de l’état de méthylation. Plusieurs mécanismes entraînant une déméthylation active sont encore débattus. Les deux stratégies consistent soit à la déamination active des méthylcytosines en thymine comme vu précédemment soit à la formation d’un intermédiaire par ajout d’un groupement hydroxyl menant à l’hydroxyméthylcytosine par les enzymes de la famille TET (Tahiliani et al. 2009). Ces deux composés sont ensuite pris en charge par d’autres enzymes pour la conversion en cytosine.

La méthylation est principalement identifiée par séquençage bisulfite qui consiste au traitement de l’ADN par du bisulfite qui convertit les cytosines en uraciles mais n’affecte pas les méthylcytosines. Le génome est d’abord fragmenté par digestion enzymatique pour la technique de RRBS (Reduced Representation Bisulfite Sequencing, Meissner et al. 2005) ou par sonication pour le WGBS (Whole Genome Bisulfite Sequencing, Lister et al. 2009) avant traitement au bisulfite et séquençage permettant une résolution au nucléotide près.

2.1.2 Le remodelage de la chromatine et les facteurs de transcription pionniers

La chromatine est l’organisation compacte et dynamique de l’ADN autour de protéines appelées histones, qui peut être divisée en euchromatine ouverte et en hétérochromatine condensée. L’unité de répétition de la chromatine est le nucléosome : un octamère d’histones (H2A, H2B, H3 et H4)2 entouré d’environ 200 pb d’ADN. Les nucléosomes peuvent être organisés en fibres de 30 nm grâce aux histones de liaison de types H1 ou H5. La présence de nucléosomes au niveau d’un promoteur inactif empêche les GTFs et l’ARN polymérase II de fixer l’ADN. La transition vers un état actif se fait par un remodelage de la chromatine qui va rendre l’ADN accessible. Ce remodelage peut se faire de différentes façons (fig. 3A) :

- Par glissement : les octamères d’histones peuvent glisser le long de l’ADN pour rendre accessible une séquence particulière.

- Par ajustement : la distance entre les octamères d’histones peut être modifiée.

- Par éviction : un octamère d’histones peut être complétement déplacé, créant alors une zone libre de nucléosome.

Plusieurs complexes de remodelage ATP-dépendants existent chez les mammifères. Les plus connus sont le complexe activateur SWI/SNF et le complexe répresseur ISWI (cf 1.3.2). Un autre complexe INO80/SWR est impliqué dans l’échange des histones et notamment de l’histone variant H2A.Z (Kobor et al. 2004). Les nucléosomes contenant H2A.Z et/ou H3.3 sont plus instables et le dépôt au niveau des promoteurs et des enhancers est associé à l’activation de la transcription (Jin et al. 2009 et fig. 3C). Les complexes de remodelage de la chromatine sont recrutés à l’ADN par des facteurs de transcription « pionniers » qui fixent l’ADN indépendamment de la position des nucléosomes, rendant accessible la chromatine aux autres facteurs de transcription pour l’expression génétique à un stade plus tardif au cours de la différenciation. Ils peuvent rester fixés tout au long de l’activation de l’enhancer ou peuvent être remplacés par d’autres facteurs de transcription formant une grande plateforme de recrutement. Certains facteurs comme FOXA possèdent un domaine de fixation ressemblant à celui des histones de liaison qui permettent cette fois la décompaction de la chromatine par l’altération de la structure des nucléosomes (Cirillo et al. 2002; Iwafuchi-Doi et al. 2016). Le facteur FOXA1 est en plus capable de favoriser un changement épigénétique lors de sa fixation avec une déméthylation de l’ADN et la déposition de la marque H3K4me1 sur les histones (Sérandour et al. 2011). Chez la drosophile, le facteur Zelda est requis pour l’activation des nombreux enhancers à la transition maternelle-zygotique (Liang et al. 2008). Ce facteur possède deux propriétés inhabituelles. D’une part, il occupe plus de la moitié de ses sites potentiels de fixation et d’autre part il est

Figure 3 : Le remodelage de la chromatine et les modiications d’histones

A. Trois mécanismes de remodelage de la chromatine existent : le glissement des nucléosomes le long de l’ADN pour découvrir une séquence d’intérêt, le réajustement des distances entre nucléosomes ainsi que l’éviction d’un ou plusieurs nucléosomes découvrent l’ADN.

B. Les queues d’histones, dépassant des régions globulaires des histones, peuvent être acétylées, méthylées, phosphorylées et ubiquitinilées sur différents sites.

C. Les modiications d’histones délimitent les éléments fonctionnels du génome : les promoteurs, les enhancers et les insulateurs. Les promoteurs actifs sont marqués par H3K4me2, H3K4me3, acétylation et l’histone variant H2A.Z. Les promoteurs inactifs sont décorés par H3K27me3, H3K9me3, H3K9me2. Les enhancers sont enrichis par les marques H3K4me1, H3K4me2, H3K27ac et l’acétyltransférase d’histone p300. Le facteur CTCF ixe les insulateurs.

B

C

A

Insula teur Gène actif Gène inactif ARN Pol II Acétylation

étroitement lié à un changement de l’expression des gènes (Nien et al. 2011; Harrison et al. 2011). Deux études récentes ont montré que Zelda promeut l’accessibilité des enhancers à d’autres facteurs de transcription, par éviction des nucléosomes en association avec le facteur GATA et conduisant à l’activation du génome zygotique (Sun et al. 2015; Schulz et al. 2015). Ces résultats confirment le rôle de Zelda comme facteur pionnier qui, de façon surprenante n’est pas conservé chez les Vertébrés.

Les zones de décompaction de l’ADN peuvent être observées par le test d’hypersensibilité à l’ADNase I suivi de séquençage (Boyle et al. 2008), le FAIRE-seq (Formaldehyde Assisted Isolation of Regulatory Elements following by sequencing, Giresi et al. 2007) et plus récemment par l’ATAC-seq (Assay for Transposase-Accessible Chromatin using sequencing, Buenrostro et al. 2013). Ces techniques se basent sur la sensibilité de la chromatine à la fragmentation, par une endonucléase (Dnase I), par sonication après fixation en paraformaldéhyde (FAIRE-seq), ou par insertion d’étiquettes par une transposase pour une amplification par PCR (ATAC-seq). Ces zones de décompaction de l’ADN correspondent aux promoteurs actifs mais aussi aux éléments cis-régulateurs pour lesquels ces techniques sont un moyen d’identification à l’échelle génomique.

2.1.3 Les modifications d’histones et l’activation séquentielle des enhancers

Les queues d’histones dépassent de chaque côté du nucléosome de façon désordonnée et sont sujettes à des interactions avec d’autres protéines et des modifications post-traductionnelles. Toutes les histones peuvent être modifiées de façon covalente à différentes positions par méthylation, acétylation, phosphorylation, sumoylation ou ubiquitination (fig. 3B). La lysine (K) est la cible la plus commune pour ces modifications. La méthylation des lysines ne change pas la charge positive de l’acide aminé alors que l’acétylation des lysines apporte une charge neutre qui déstabilise l’interaction avec l’ADN chargé négativement et favorise donc la décompaction de la chromatine. De plus, l’acétylation des lysines est reconnue par des facteurs à bromodomaine alors que la méthylation est fixée par les facteurs à chromodomaine, les domaines Tudor et MBT. L’acétylation des histones est un équilibre entre l’activité enzymatique des HATs et des HDACs. Les HATS sont réparties en deux groupes. Les HATs du groupe B acétylent les histones néosynthétisées dans le cytoplasme et participent à l’assemblage des nucléosomes. Celles du groupe A agissent directement sur les histones de la chromatine et sont impliquées dans le contrôle de la transcription comme co-activateurs (cf 1.3.2). Le co-activateur le mieux décrit est p300/CBP (CREB binding protein, fig. 3C) qui acétyle majoritairement les histones au niveau des

enhancers. L’analyse pangénomique de la fixation de p300/CBP par immunoprécipitation de chromatine suivie de séquençage (ChIP-seq) a été notamment utilisée pour l’identification des enhancers (Visel et al. 2009). Les HDACs sont des répresseurs transcriptionnels (cf 1.3.3). Les HATs et les HDACs sont généralement peu spécifiques (pour revue : Verdin & Ott 2014). La méthylation des histones est plus complexe car elle peut être associée à l’activation ou la répression de la transcription. Les histones méthyltransférases (HMTs) ciblant la lysine contiennent un domaine SET ou appartiennent aux protéines DOT1 (Disruptor Of Telomeric silencing 1), celles ciblant l’arginine possèdent un domaine PMRT. La méthylation a longtemps été considérée comme irréversible à cause de son extrême stabilité. Depuis une dizaine d’années, plusieurs histones déméthylases (HDMTs) ont été découvertes comme LSD1 (Lysine-Specific Demethylase 1) et les protéines à domaine Jumonjy C (pour revue : Greer & Shi 2012).

La combinaison de marques spécifiques d’histones détermine l’état transcriptionnel d’une région génomique ; ce concept est appelé le code histone (Jenuwein & Allis 2001). Des modifications associées aux promoteurs, aux éléments cis-régulateurs et au corps d'un gène caractérisent l'état actif ou inactif d'un locus. On distingue ainsi (pour revue : Zhou et al. 2011 et fig. 3C) :

- Les marques H3K36me3 et H3K79me2 au niveau du corps des gènes transcrits et en particulier des exons.

- Les marques H3K4me3 et H3K27ac au niveau des promoteurs actifs, H3K9me3 et H3K27me3 pour ceux inactifs et les promoteurs bivalents par H3K4me3 et H3K27me3. La marque H3K27me3 est déposée par le complexe PRC2 (Polycomb Repressive Complex) grâce à la protéine EZH2 (Enhancer of Zeste Homolog 2) qui permet ensuite le recrutement de PRC1 qui à son tour ubiquitine H2A119 grâce à RING1 (Ring Finger Protein 1). La fixation des complexes Polycomb au niveau des promoteurs chez les mammifères empêche le recrutement des complexes de remodelage de la chromatine induisant la compaction de la chromatine et réduisant l’accès aux facteurs de transcription (Grau et al. 2011). La marque H3K9me3 déposée par SUV38H1 est fixée par la protéine HP1 (Heterochromatin Protein 1) qui permet la formation et le maintien de l’hétérochromatine (Zeng et al. 2010).

- Les marques H3K4me1, H3K4me2 et H3K27ac décorent les enhancers actifs alors que ceux inactifs le sont par H3K9me2 et H3K9me3. Un troisième état « poised » (prêt à être activé) est associé aux enhancers dans le cas des cellules souches embryonnaires avec la présence de H3K4me1 et H3K27me3 et constitue un état intermédiaire qui faciliterait l’activation rapide des enhancers pour la différenciation.

H3K4me1 et H3K27ac sont les signatures chromatiniennes utilisées pour l’identification des enhancers notamment dans le cadre du projet ENCODE (cf 2.1.5). Le dépôt des marques de chromatine participe à l’activation séquentielle des enhancers et promoteurs. La fixation des facteurs pionniers est concomitante avec la fixation des complexes de remodelage de la chromatine et l’incorporation des histones variants formant des zones de déplétion des nucléosomes. Les nucléosomes flanquants sont alors marqués par H3K4me1 par les HMTs Mll3/4 recrutées par les facteurs pionniers. Les facteurs de transcription tissu-spécifique fixent ces zones libres et mènent au recrutement de p300/CBP pour l’acétylation de H3K27. Cette activation des enhancers précède celle des promoteurs et coïncide avec l’éviction des facteurs Polycomb, la perte d’H3K27me3 et le maintien d’H3K4me3 par le remplacement de Mll1/2 par SET1A/B et le recrutement de la machinerie de transcription. De plus, enhancers et promoteurs peuvent être fixés par les complexes Cohésine et Médiateur qui participent à la formation de boucles chromatiniennes (Kondo et al. 2016).

2.1.4 Les ARNs longs non-codants

Les ARNs longs non-codants (lncRNAs) sont des ARNs de plus de 200 nucléotides, souvent polyadénylés et épissés mais dépourvus de cadres ouverts de lecture (ORFs) évidents. Les promoteurs des lncRNAs sont marqués par H3K4me3 contrairement aux ARNs issus d’enhancers (eRNAs, cf 2.2.2). Les lncRNAs servent de ligands pour des protéines et fixent l’ADN par complémentarité entre acides nucléiques sur le site cible en apportant les complexes de régulation transcriptionnelle. Les lncRNAs peuvent contrôler les gènes proches de leur site de transcription sur le même chromosome, ils agissent en cis (fig. 4B), ou bien ils activent ou répriment des gènes situés en trans (fig. 4A). Un exemple bien connu de lncRNA agissant en cis est Xist (X-inactive specific transcript) impliqué dans l’inactivation d’un des chromosomes X chez les mammifères par la formation d’hétérochromatine notamment grâce au recrutement du complexe Polycomb PRC2. Un autre lncRNA HOTAIR (HOX transcript antisens RNA) est transcrit du cluster HOXC et réprime le cluster HOXD en trans, là encore par recrutement de complexes de modification de la chromatine (pour revue : Fatica & Bozzoni 2014). Cependant les mécanismes de ciblage de ces lncRNAs, aussi bien la rétention sur le lieu de transcription pour ceux agissant en cis que l’adressage à longue distance pour ceux agissant en trans, ne sont pas connus.

gène du lncRNA Complexe de

modification de la chromatine

IncRNAs agissant en cis

Figure 4 : Les modes d’action des ARNs longs non-codants et le projet ENCODE

A. Les lncRNAs peuvent agir en trans par le recrutement des complexes de modiication de la chromatine ou directement

des régulateurs transcriptionnels.

B. Les lncRNAs peuvent agir en cis par le recrutement des complexes de modiication de la chromatine.

C. Le consortium ENCODE regroupe un grand nombre de méthodes biochimiques associées à du séquençage pour l’identiication de gènes et d’éléments cis-régulateurs. Le 5C et le ChIA-PET pour capturer la conformation de l’ADN ; Dnase-seq et FAIRE-seq mettent en évidence les sites d’hypersensibilité correspondant aux zones de décompaction de l’ADN. La méthode de ChIP-seq permet d’identiier la position des marques d’histones ou des facteurs de transcription. Les sites de méthylation de l’ADN sont identiiés par WGBS ou RRBS. Les prédictions informatiques associées à des RT-PCR positionnent les gènes sur le génome. La technique de RNA-seq détermine le transcriptome de cellules ou tissus. Les méthodes de CLIP-seq et RIP-seq identiient les séquences de ixation de protéines associées au ARNs. 5C : Chromosome Conformation Capture Carbon Copy, ChIA-PET : Chromatin Interaction Analysis by Paired-End Tag Sequencing, ChIP/CLIP/RIP : Chromatin/Cross-Linking/RNA-binding protein ImmunoPrecipitation, FAIRE : Formaldehyde Assisted Isolation of Regulatory Elements, RRBS : Reduced Representation Bisulite Sequencing, RT-PCR : transcription inverse puis RT-PCR, WGBS : Whole Genome Bisulite Shotgun, -seq : séquençage.

C

gène du lncRNA IncRNA

IncRNA

IncRNAs agissant en trans Complexe de modification de la chromatine

Régulateur transcriptionnel

A

B

Modification d’histone repressive Modification d’histone activatrice

RNA-seq WGBS RRBS Prédictions informatiques et RT-PCR RNA-seq ChIP-seq DNase-seq FAIRE-seq

Eléments régulateurs à distance (enhancers, silencers, insulateurs)

Promoteurs Transcrits ARN polymérase CH3CO CH3 CH3 hypersensibles Sites 5C ChIA-PET CLIP-seq RIP-seq gènes

2.1.5 Le consortium ENCODE

Le séquençage du génome humain achevé en 2001 a permis de révéler que les cadres ouverts de lecture représentent seulement 1,2% du génome (Lander et al., 2001 & Venter et al., 2001). Le reste du génome sera alors référencé comme ‘junk DNA’ d’après le terme utilisé par Ohno (Ohno 1972). Le projet ENCODE (Encyclopedia of DNA Elements) lancé en 2003, vise à référencer tous les éléments fonctionnels du génome humain et murin, comprenant les gènes, les transcrits, les régions régulatrices et les marques épigénétiques (Dunham et al. 2012; Feingold et al. 2004; Birney et al. 2007), en utilisant un grand nombre de techniques biochimiques reposant sur du séquençage à haut-débit (fig. 4C). En 2012, 80% du génome humain est assigné à une fonction biochimique, dont un grand nombre de séquences régulatrices potentielles ou correspondantes à des ARNs non-codants. Ainsi, le degré de complexité d’un organisme peut être mieux évalué par la quantité de transcription en ARN non-codant que par le nombre de gènes codants des protéines, même lorsque l’épissage alternatif et les modifications post-traductionnelles sont pris en compte (Taft et al. 2007). Ce projet constitue un catalogue de nombreuses données disponibles et facilement visualisables sur les navigateurs UCSC et Ensembl.