• Aucun résultat trouvé

CHAPITRE I : INTRODUCTION

2 LES LONGS ARNs NON CODANTS

2.2 ARNs non codants

2.3.3 Caractéristiques des lncRNAs

2.3.3.2 Organisation structurale et fonctionnelle

Le génome possède une architecture modulaire composée de régions transcriptionnelles complexes, caractérisées par des liens étroits entre les séquences nucléotidiques organisées en

sens/antisens et des transcrits codants/non codants. Ainsi, plus de 50% des gènes codant pour des protéines sont associés à des transcrits complémentaires antisens non codants régulant en

cis la chromatine et l'expression des gènes adjacents. En outre, l'épissage alternatif et

l’initiation/terminaison transcriptionnelle utilisent cette architecture modulaire pour assurer une diversification transcriptionnelle aboutissant à un très grand nombre d'isoformes de lncRNAs (Yan et al., 2016).

L’organisation en domaines fonctionnels des lncRNAs semble provenir de 2 mécanismes distincts : (i) l’adoption d’une structures secondo-tertiaire médiant les interactions avec les partenaires protéiques garantissant la stabilité du génome et (ii) l’hybridation basée

sur la complémentarité des bases médiant les interactions avec les acides nucléiques (ARN et ADN). La plasticité et la flexibilité des lncRNAs permettent d’assurer des activités

organisationnelles, catalytiques, régulatrices et structurales. Ces propriétés semblent mieux expliquer la grande diversité de leurs mécanismes d'action que la composition de leur séquence nucléotidique. L’organisation des lncRNAs en structures secondaires et tertiaires contribue à la création de domaines fonctionnels interagissant avec des protéines (petits ligands, complexes multiprotéiques) ou s'hybridant avec des acides nucléiques (mRNA, miRNA, DNA) (Reuter and Mathews, 2010 ; Wan et al., 2011 ; Bida and Maher, 2012). Il semble exister des similitudes entre les lncRNAs et les régions 3’ non traduites (3’ UTRs) des ARNs codant pour les protéines en ce qui concerne leurs structures et leurs séquences (Niazi and Valadkhan, 2012). Leurs interactions conduisent à leur tour à des changements conformationnels allostériques des lncRNAs leur permettant de se lier à d'autres acteurs moléculaires impliqués dans l'expression des gènes et la traduction des mRNAs (Brown et al., 2012). Les structures tertiaires des lncRNAs qui résultent d’interactions entre diverses structures secondaires jouent d’importants rôles régulateurs et dans la stabilité du génome (Novikova et al., 2012). Ainsi, les lncRNAs initient et orchestrent des réseaux de régulation très complexes aux niveaux épigénétique, transcriptionnel, post-transcriptionnel et traductionnel, afin de transmettre et de coordonner le flux d’information au travers des voies de signalisation nécessaires au fonctionnement des cellules eucaryotes (Gong and Maquat, 2011 ; Carrieri et al., 2012 ; Hung et al., 2013 ; Kung et al., 2013 ; Schmitz et al., 2016) (Fig.

22).

Cette organisation modulaire pourrait être liée à l’existence d’éléments transposables (TEs) qui constitueraient des domaines régulateurs dont les combinaisons détermineraient les fonctions des lncRNAs (Guttman and Rinn, 2012 ; Johnson and Guigo,

2014). Les TEs représentent des séquences répétitives et mobiles d’origine et de stade évolutif variés, constituant entre 50% et 66% du génome humain, et jouent un rôle majeur dans l’évolution génétique. Le processus par lequel les TEs concourent à l’apparition de nouvelles fonctions exercées par le génome hôte est l’insertion de séquences transposables préformées, appelée exaptation ou co-option (de Souza et al., 2013). Les TEs peuvent être classés en 2 catégories : les transposons et les rétrotransposons (LTR, LINE, SINE). Ils pourraient constituer des structures fonctionnelles ou des séquences conférant une activité biologique aux lncRNAs. Selon cette hypothèse, appelée « RIDL hypothesis » (Repeat Insertion Domain

leurs structures et leurs interactions avec les protéines et en TEs de type II, via leur séquence et leurs interactions avec les acides nucléiques. Ces domaines pourraient être échangés entre lncRNAs et conduire à de nouvelles fonctions biologiques. Ainsi, les TEs représenteraient une source majeure et versatile de domaines fonctionnels favorisant l’apparition de nouveaux lncRNAs. Bien qu’initialement considérés comme non fonctionnels, les TEs semblent jouer un rôle déterminant dans de multiples processus biologiques, tels le développement embryonnaire précoce, le contrôle épigénétique des cellules souches et l’épissage alternatif. Ainsi, l’embryon est le siège d’une importante reprogrammation au cours de laquelle entrent en compétition les TEs libérés par la déméthylation globale et la machinerie épigénétique suppressive représentée par TRIM28, SETDB1, CoREST, PRC1, PRC2, HDACs et NuRD. Durant l’évolution, cette compétition a conduit à la co-option de TEs sous la forme de lncRNAs ou de domaines modulateurs des lncRNAs médiés par des TEs. Les lncRNAs comportant des TEs jouent un rôle majeur dans le maintien de la pluripotence. 127 lncRNAs contenant des éléments HERVH sont surexprimés dans les cellules pluripotentes. LINC-ROR est presque totalement constitué de TEs, LINC01108 contient 2 TEs et lncRNA-p21 comporte 7 TEs. Des TEs fonctionnels ont été identifiés dans certains lncRNAs (SINEB2 dans Uchl1as, Alu dans ANRIL, ERVB5 dans Xist, LINE1 dans Fendrr).

-w

Adressage nucléaire,

cytoplasmique ou exosom al

DNA génomique

Triplex

RNA/DNA /DNA

' Clivage par RNAse P

AAliA A,. :r.L.I,

IJ) dsU,w

liaison à des complexes

ribonucléoprotidiques

... N Interaction avec des petit s RNAs 5' du lncRNA Structure tertiair e du lncRNA

----.., 1

Fixation de

'---/

H ybridation RNA-RNA

Structur e secondaire

protéines

Figure 22 : Structure secondaire et tertiaire des lncRNAs et interactions des lncRNAs avec l'ADN, l'ARN et les protéines. (Adapté d'après Li and Chen, 2013)

2.3.3.3 Organisation topographique des lncRNAs

Cette classification repose sur la découverte d’une organisation générale du génome humain en « forêts transcriptionnelles » (Consortium FANTOM). Les lncRNAs intragéniques peuvent être subdivisés en fonction de la façon dont ils chevauchent les gènes codant pour les protéines ou de leur orientation par rapport à ceux-ci. La situation des lncRNAs par rapport aux mRNAs des gènes annotés codant pour des protéines les plus proches a servi de base à la classification GENCODE en lncRNAs intergéniques et intragéniques (Tisseur et al., 2011 ; Derrien et al., 2012b ; Harrow et al., 2012).

Groupe I : LncRNAs situés à proximité des gènes codant pour les protéines

Les lncRNAs peuvent ainsi être divisés en 5 groupes topographiques principaux :

Les lncRNAs intergéniques (lincRNAs) sont situés dans des régions génomiques où il n’existe aucun gène annoté sur une distance d’au moins 1kb (Orom et al., 2010). Les lincRNAs représentent la classe la mieux étudiée des lncRNAs (Khalil et al., 2009 ; Ulitsky and Bartel, 2013). Ils mesurent quelques centaines de pb à plusieurs kb. Ce sont des lncRNAs épissés et polyadénylés fonctionnels caractérisés par leur stabilité, un domaine transcriptionnel actif K4H36 et une expression cellulaire et tissulaire spécifiques. Les lincRNAs agissent à distance du lieu de synthèse au niveau de loci chromosomiques différents (mécanisme en trans) et sont principalement impliqués dans la régulation épigénétique de l'expression des gènes codant pour les protéines via leur interaction avec PRC2 ou d’autres complexes modifiant la chromatine (Fig. 23,

position 1).

Les lncRNAs introniques (linRNAs) peuvent être transcrits à partir des introns des gènes codant pour des proteines (Louro et al., 2009) (Fig. 23, position 2). Les linRNAs constituent la composante majeure du transcriptome des ncRNAs et représentent 70% de tous les ncRNAs nucléaires et 50% des ncRNAs cellulaires (St Laurent et al., 2012). Contrairement aux lincRNAs, des dizaines de milliers de linRNAs ont été identifiés, mais seulement quelques-uns ont été analysés sur le plan fonctionnel. Un sous-groupe de linRNAs a été récement découvert, les lncRNAs

introniques circulaires (ciRNAs), qui s’accumulent dans les cellules et régulent l’expression de leurs gènes parentaux (Zhang et al., 2013).

Les lncRNAs bidirectionnels ont leur séquence située sur le brin opposé au gène codant pour une protéine. De nombreux gènes transcrits en lncRNAs intergéniques possèdent un site d’initiation de la transcription proche de celui d’un gène codant, la transcription se faisant alors sur le brin opposé (transcription inverse). Ces gènes associés à ces transcrits divergents codent préférentiellement pour des régulateurs transcriptionnels impliqués dans le développement embryonnaire et la différenciation cellulaire (Lepoivre et al., 2013) (Fig. 23, position 3).

Les lncRNAs exoniques sens (sRNAs) sont transcrits à partir du brin sens et sont chevauchants avec un ou plusieurs exons de gènes codant pour des protéines (Denoeud et al., 2007 ; Djebali et al., 2008). Les sRNAs peuvent avoir un certain chevauchement avec des gènes codants ou couvrir toute la séquence d'un intron. Cette catégorie inclut des sRNAs non épissés partiellement introniques (Nakaya et al., 2007) et des transcrits épissés qui combinent des exons provenant de régions codantes et non codantes du gène (Makrythanasis et al., 2009). Si la plupart des sRNAs n’ont pas de potentiel codant pour des protéines, plusieurs sRNAs fonctionnent à la fois comme des ncRNAs et comme des gènes codant pour des protéines (SRA, ENOD40) (Fig. 23,

position 4).

Les lncRNAs exoniques antisens ou natural antisens transcripts (NATs) sont exprimés en antisens des gènes codant pour les protéines (Kunej et al., 2014). Ils sont transcrits à partir du brin d’ADN opposé à celui du gène codant pour des protéines (Fig. 23, position 5). Les NATs peuvent aussi présenter un chevauchement avec les régions exoniques ou introniques ou couvrir toute la séquence d'un intron. Ils sont très fréquents dans le génome et représentent 32% des lncRNAs chez l'homme. 20% des gènes humains forment des paires sens-antisens et 72% des gènes ont une activité transcriptionnelle présente sur le brin opposé. Certains NATs sont des gènes codant pour des protéines alors que d’autres sont des lncRNAs. Les NATs présentent une organisation génomique divergente (quand le promoteur génère une transcription bidirectionnelle) ou convergente (quand la transcription débute à partir d’un autre promoteur ou à partir de l’extrémité 3’ située sur l’autre brin). Ils sont observés dans

de nombreuses espèces animales, les plantes, les levures, les procaryotes et les virus mais, à la différence de certains lincRNAs qui sont hautement conservés, les NATs n’ont aucune séquence ou structure conservée qui pourrait être évocatrice d'une fonction particulière. Ils exercent des influences variées sur leur transcrits sens, activation ou répression. Les niveaux d’expression des paires sens-antisens sont généralement concordantes mais une expression antagoniste peut exister. Les NATs peuvent agir selon plusieurs mécanismes (plateforme, collision transcriptionnelle).

Wrap53 est un NAT régulant l’expression de TP53 en ciblant la région 5’ non traduite

de l’ARNm de TP53. Cette interaction inhibitrice prévient l’induction de TP53 après altération de l’ADN.

Certains lncRNAs chevauchent de petits ARNs, tels des snoRNAs ou des miRNAs, avec lesquels ils entretiennent des liens fonctionnels, comme dans les régions soumises à l’empreinte génomique (Koerner et al., 2009 ; Abel et al., 2014).

Des lncRNAs plus récemment identifiés sont constitués seulement de séquences

exoniques pouvant provenir (i) de diverses parties de mRNAs ayant subi un processus

de maturation post-transcriptionnelle (Affymetrix ENCODE transcriptome Project, 2009), tels les secteurs 3’UTR (Mercer et al., 2011) et 5’cap (Abdelhamid et al., 2014), et (ii) d’autres processus cellulaires, tels l’épissage inverse produisant des lncRNAs exoniques circulaires (Jeck et al ., 2013), le trans-épissage conduisant à la synthèse de lncRNAs chimériques (Djebali et al., 2012), la copie de RNAs produisant des lncRNAs antisens « en miroir » (Kapranov et al., 2010) et l’épissage de transcrits pourvus d’une partie 3’UTR de grande taille à l’origine de lncRNAs participant au maintien de la configuration chromatinienne interphasique (Caudron-Herger et al., 2011).

76

LncRNA intergénique

LncRNA intronique

LncRNA bidirectionnel

LncRNA sens

LncRNA antisens

Gènes codants Gènes non codants

Groupe II : LncRNAs situés au niveau des régions régulatrices des gènes

Les enhancer ncRNAs (eRNAs) sont transcrits à partir d’un enhancer (Bulger and Groudine, 2011 ; Xie and Ren, 2013). On distingue les eRNAs qui sont transcrits dans les 2 directions et les elncRNAs transcrits unidirectionnellement. Des analyses convergentes ont révélé que les lncRNAs peuvent réguler directement l’expression des gènes en contrôlant l’activité des enhancers des promoteurs et que le niveau d’expression des eRNAs est corrélé positivement avec le niveau d’expression des mRNAs des gènes voisins codant pour des protéines. De plus, des lncRNAs peuvent agir comme des enhancers et certains enhancers sont le lieu de synthèse de lncRNAs impliqués dans la régulation positive et négative des gènes, via la formation de boucles chromosomiques (Kim et al., 2010 ; Orom et al., 2010 ; Lai et al., 2013 ; Mousavi et al., 2013 ; Shibayama et al., 2014). En outre, des super-enhancers caractérisés par des groupes d’enhancers associés à des gènes impliqués dans le maintien de l’identité cellulaire, ont été récemment découverts (Lovén et al., 2013 ; Whyte et al., 2013). Ainsi, le lncRNA CCAT-1 est transcrit à partir d’un super-

enhancer situé en amont du locus MYC et agit comme un eRNA régulant la

transcription de MYC (Xiang et al., 2014).

Les promoter associated lncRNAs (paRNAs) sont transcrits à partir des domaines promoteurs situés en amont des gènes codant pour les protéines. La transcription divergente au niveau des régions promotrices de différents gènes donne lieu à la production de lncRNAs qui régulent la transcription des gènes codants voisins (Core et al., 2008 ; Seila et al., 2008 ; Wang et al., 2008 ; Taft et al., 2009). Ainsi, l’expression du lncRNA PANDA, issu du promoteur du gène CDKN1A-p21, est induite après une altération de l’ADN et favorise la prolifération cellulaire en inhibant le gène pro-apoptotique CDKN1A-p21 (Wang et al., 2008 ; Hung et al., 2011). De même, le lncRNA APTR inhibe la transcription de CDKN1A-p21 en recrutant et guidant le complexe polycomb PRC2 au niveau de son promoteur (Negishi et al., 2014). En outre, le lncRNA Linc-p21 agit en inactivant les promoteurs de gènes réprimés par p53 via hnRNP-K (Huarte et al., 2010 ; Dimitrova et al., 2014).

Les lncRNAs associés à l’extrémité 3’-UTR (uaRNAs) sont transcrits à partir de la région 3’ non traduite des gènes codant pour les protéines.

Groupe III : LncRNAs situés au niveau de régions chromosomiques spécifiques

Les lncRNAs associés aux télomères

Un groupe de lncRNAs, nommé TERRA, est transcrit des loci sub-télomériques et est impliqué dans la replication des chromosomes et dans l’homéostasie télomérique via la séquestration de la protéine hnRNPA1, la régulation directe de l’activité télomérasique et le maintien de la voie télomérique alternative (Azzalin et al., 2007; Redon et al., 2010). TERRA est considéré comme un régulateur négatif de la télomérase et semble impliqué dans la cancérogénèse lorsqu’il est sous-exprimé (Ng et al., 2009 ; Caslini, 2010 ; Cusanelli et al., 2013 ; Yu et al., 2014).

Les lncRNAs associés à des séquences répétitives

50% du génome humain est constitué de séquences répétitives de diverses catégories, dont les séquences LINE, les séquences rétrovirales endogènes transcrites, les répétitions satellitaires, les promoteurs situés au sein de séquences répétitives et les pseudogènes transcrits (Belancio et al., 2009 ; Faulkner et al., 2009). De nombreuses régions génomiques transcrites en ncRNAs présentent des chevauchements avec ces séquences répétitives (Kelley et al., 2012 ; Kapusta et al., 2013). En particulier, les lncRNAs PTENP1 et KRASP1 sont transcrits à partir de pseudogènes. Les lncRNAs transcrits à partir de séquences répétitives sont préférentiellement impliqués dans le maintien de la pluripotence cellulaire (Johnsson et al., 2013).

Les lncRNAs associés à des séquences conservées

De nombreux lncRNAs sont transcrits à partir de séquences conservées entre les espèces, telles les régions ultraconservées transcrites (T-UCR), les transcrits ultraconservés non codants induits par l’hypoxie (HINCUT), les transcrits non codants induits par le stress (LSINCT) et les very long intergenic non-coding RNAs (vlincRNAs). Les transcrits des régions ultraconservées ont une taille comprise entre 200 nt et 779 nt et comportent une expression tissulaire spécifique. De nombreux T-

UCRs présentent une altération de leur expression dans divers cancers (Scaruffi et al., 2009 ; Silva et al., 2010 ; Braconi et al., 2011 ; Ferdin et al., 2013).

Les lncRNAs associés à des « régions humaines accélérées »

Plus de 200 « régions génomiques humaines accélérées », caractérisées par un taux accru de substitutions nucléotidiques entre le singe et l’homme, ont été récemment identifiées, dont 96% sont situées dans des segments génomiques non codants (Pollard et al., 2006). Parmi ces régions présentant un très faible degré de conservation entre les séquences des primates et celles des autres espèces, le lncRNA HAR1 est impliqué dans le développement du néocortex. Son expression spatio-temporelle associée à sa structure secondaire sont fortement suggestives d’une fonctionnalité spécifique (Beniaminov et al., 2008).