• Aucun résultat trouvé

PARTIE III : L ES LONGS ARN S NON CODANTS OU LNC RNA S

II) Structure et conservation des lncRNAs

a.

Structure des lncRNAs

i. Généralités

Comme cité précédemment, les lncRNAs sont définis comme des ARNs d'une longueur supérieure à 200nt et n'ayant pas de potentiel codant. Mis à part ces caractéristiques, il n'y a pour l'heure aucun archétype commun ou séquence consensus permettant de classifier les lncRNAs. Il semble donc qu'ils constituent un groupe très hétérogène d'ARNs sur le plan structural. Par ailleurs, il n'y a globalement pas non plus de différence majeure entre les lncRNAs et leurs pendants codants puisque les lncRNAs peuvent être cappés, polyadénylés, épissés, édités, multi-exoniques et soumis aux mêmes régulations transcriptionnelles et post-transcriptionnelles que les ARNm. Il a aussi été observé des similarités entre les lncRNAs et les 3'UTR (Untranslated Region) des ARNm en terme de séquence (Pourcentage GC faible) et de structure secondaire (structures moins stables par rapport aux ORFs et aux 5'UTR des ARNm) (Niazi and Valadkhan, 2012).

Cependant, quelques différences sont à noter :

Avec un panel de plus de 8000 lncRNAs, Cabili et al. ont pu montrer qu'en moyenne un lncRNA était plus petit et possédait moins d'exons qu'un mRNA (Cabili et al., 2011), même si certains macroARNs dépassent les 200k nt comme le lncRNA XACT (X Active Coating Transcript) (Vallot et al., 2013) (Figure 20). Cette étude a également mis en évidence une tendance des lncRNAs à contenir en moyenne 2 exons et à être soumis à au moins un épissage alternatif. Ces résultats ont été confirmés par une étude en 2012 sur le catalogue GENCODE montrant que 42% des lncRNAs présentent 2 exons alors que seulement 6% des ARNm présentent 2 exons (les ARNm présentant généralement plus que 2 exons) (Derrien et al., 2012). Cependant, il semblerait que les exons et introns des lncRNAs

57 soient plus longs que ceux des ARNm. Les auteurs de ce travail ont également montré que 98% des lncRNAs pourraient être épissés et que plus de 25% des lncRNAs présenteraient un épissage alternatif avec au moins 2 isoformes. En effet, la majorité des introns sont flanqués des sites canoniques d'épissage (GT/AG). Le lncRNA PCBP1-AS1 (Poly(rC) binding protein 1-Anti Sens 1) par exemple présente jusqu'à 40 isoformes. Cette analyse a également mis en évidence que 39% des lncRNAs contenaient au moins 1 des 6 motifs poly(A) communs alors que 51% des ARNm contenaient ces motifs. Il semblerait ainsi qu'une grande proportion des lncRNAs soit transcrite par l'ARN pol II, bien qu'il ait été montré que la transcription de certains lncRNAs pouvait dépendre de l'ARN pol III (Pagano et al., 2007) ou encore de l'ARN pol I, comme les IGS RNAs (Intergenic Spacer RNAs) situés dans les régions de gènes ribosomaux (Jacob et al., 2012). Les demi-vies sont également très variables (de 30min à 16h) et fortement dépendantes de la localisation cellulaire des lncRNAs. De plus, la stabilité des lncRNAs paraît être en moyenne légèrement inférieure à celle des ARNm (Clark et al., 2012).

Figure 20 : Représentation de XACT sur le chromosome X par rapport au lncRNA XIST. Les données RNA-seq présentent une transcription continue sur plus de 250kb (Adapté de Vallot et al., 2013).

Comme pour les protéines, la structure d'un ARN se distingue en 3 catégories d'organisation : primaire, secondaire et tertiaire.

ii. Structure primaire

La structure primaire fait référence à la séquence de l'acide nucléique. Il n'y pas de différence majeure entre les lncRNAs et les ARNm du point de vue de la séquence hormis l'absence d'ORF. Cependant, des lncRNAs aux séquences particulières ont été récemment mis en évidence : ce sont des lncRNAs introniques situés entre des snoARNs (sno-lncRNAs). L'expression de ces lncRNAs est dépendante de la machinerie de maturation des snoARNs qui ne processerait pas l'intron (le lncRNA)

58 générant un lncRNA. Ce dernier présente les séquences de deux snoARNs à ses extrémités 3' et 5' (Yin et al., 2012) (Figure 21).

Figure 21 : Modèle de processing snor-lncRNAs. Les snoARNs sont processés à partir du gène hôte mais la séquence interne n’est pas excisée, conduisant en un lncRNA avec des snoARNs aux extrémités. Cette structure peut se circulariser ou rester linéaire (Adapté de Yin et al., 2012).

Une large portion des séquences exoniques des lncRNAs provient d'éléments génétiques mobiles, représentant par ailleurs 40% du génome humain. En se basant sur une analyse croisée entre des données RNA-seq et GENCODE, Kelley et Rinn ont estimé que 41% des séquences des lncRNAs dériveraient d'éléments transposables, et que 83% des lncRNAs contiendraient au moins un fragment d'élément transposable (Kelley and Rinn, 2012). Par conséquent, la plupart des transcrits lncRNAs contiennent des combinaisons de multiples fragments répétés. Cependant, la forte fréquence de séquences répétées et d'éléments transposables au sein de lncRNAs ne semble pas préjudiciable, puisqu'il a été décrit dans la littérature plusieurs cas de lncRNAs fonctionnels tout en étant riche en séquences répétées (Carrieri et al., 2012). Les régions centromériques sont particulièrement riches en séquences répétées et considérées comme des régions ne possédant pas de gènes codants. Il a tout de même été mis en évidence que ces régions pouvaient être transcrites, notamment en lncRNAs. En effet, il a été récemment montré par Quénet et Dalal l'expression d'un lncRNA en phase G1 du cycle cellulaire, qui s'est avérée être nécessaire à l'organisation de la structure chromatinienne par le recrutement de l'histone centromérique CENP-A (Quénet and Dalal, 2014).

59

iii. Structure secondaire

La structure secondaire implique des paires de bases Watson-Crick et des régions non appariées, qui sont supposées être la base fonctionnelle des lncRNAs (Wan et al., 2011). Cependant, les données de structures secondaires des lncRNAs en relation avec leurs fonctions sont très peu décrites. Il a été rapporté par exemple que le lncRNA MALAT1 (metastasis associated lung adenocarcinoma transcript 1) pouvait être processé en un ARN plus petit comportant une structure ARNt-like (Wilusz et al., 2008) (Figure 22A). Une des études les plus complètes sur la structure secondaire d'un lncRNA a été publiée en 2012 sur SRA RNA (Steroid receptor RNA activator) (Novikova et al., 2012). Cette étude a révélé une organisation structurale complexe de SRA comprenant 4 domaines et plusieurs structures secondaires plus ou moins larges comme des hélices et des tiges boucles (Figure 22B). Le lncRNA HOTAIR (HOX Transcript Antisense RNA) semble participer à l'échafaudage de complexes protéiques via des motifs structuraux complexes en 5' et 3' permettant l'interaction directe avec différentes protéines (Tsai et al., 2010a) (Somarowthu et al., 2015). La structure des lncRNAs semblerait donc avoir un rôle important pour les interactions avec d'autres molécules, comme avec des régulateurs de la chromatine et même avec d'autres acides nucléiques (ADN, microARNs, etc…) (Paraskevopoulou et al., 2013). Il existe également des lncRNAs se circularisant comme les circRNAs ou ciRNAs (Circular intronic RNAs), pouvant être dérégulés dans certaines pathologies et impliqués dans divers processus, comme dans la régulation de la transcription et dans la séquestration de microARNs (Memczak et al., 2013)(Qu et al., 2015).

Figure 22 : Structure des lncRNAs. A. Prédiction de structure de mascRNA en feuille de trèfle ARNt-like (Adapté de Wilusz et al., 2008). B. Structure complexe de SRA déterminée expérimentalement. Ce lncRNA est constitué notamment de 4 domaines distincts et de 25 hélices (Adapté de Novikova et al., 2012).

60

iv. Structure tertiaire et quaternaire

Il n'y a pour l'heure que très peu de données concernant la structure tertiaire des lncRNAs. Par contre, un exemple intéressant de structure quaternaire a été mis en évidence pour le lncRNA NEAT1 (Nuclear Paraspeckle Assembly Transcript 1). NEAT1 peut former des interactions quaternaires avec différentes protéines nécessaires à la formation des fibres appelées "paraspeckles" dans le noyau, et dont la fonction n'est pas totalement déterminée (Naganuma and Hirose, 2013) (Figure 23). Même si la structure n'a pas clairement été étudiée, il est peu probable que NEAT1 forme des structures semblables aux ribosomes, mais il est suggéré que le lncRNA formerait plutôt des structures proches du complexe télomèrase.

Figure 23 : Formation des paraspeckles nucléaires à partir des deux isoformes de NEAT1, NEAT1-1 et NEAT1_2 s'associant à différentes protéines (Adapté de Naganuma and Hirose, 2013).

b.

Conservation au cours de l'évolution

Plusieurs études ont démontré que les exons des lncRNAs présentaient une plus faible conservation par rapport à celle des ARNm. Cependant, les lncRNAs présentent une meilleure conservation que des séquences aléatoires du génome renforçant leur probable importance fonctionnelle (Marques and Ponting, 2009)(Guttman et al., 2009). Ce faible niveau de conservation pourrait refléter une adaptabilité plus élevée des lncRNAs au cours de l'évolution, contrairement aux séquences codantes sous fortes pressions sélectives. De plus, les promoteurs des lncRNAs sont en moyenne plus conservés que leurs exons et presque autant conservés que ceux des ARNm. L'étude menée par Derrien et al. sur le catalogue GENCODE semble confirmer ces observations (Derrien et al., 2012). Les auteurs ont également montré qu'environ 30% des lncRNAs étaient primates spécifiques et moins de 1% était spécifique à l'homme. Ceci suggère que l'unité génique du lncRNA

61 est relativement bien conservée, mais que les séquences ont évolué trop rapidement pour les analyses classiques d'homologie. D'autres études ont pu identifier des lncRNAs orthologues très conservés et spécifiques du cerveau chez la souris, dans des espèces aussi distantes phylogénétiquement que l'opossum ou la poule (Chodroff et al., 2010). De plus Cabili et al. ont identifié 993 lincRNAs sur 8195 ayant un transcrit orthologue dans d'autres espèces, de la souris au poisson, avec une homologie relativement modeste (Cabili et al., 2011). Par ailleurs, certains de ces transcrits chez la souris sont annotés comme codants, reflétant soit la présence de petits peptides cryptiques chez l'homme, soit une évolution d'un transcrit non codant à partir d'un gène codant. Il existe également une classe particulière de lncRNAs appelés T-UCR (Ultra Conserved Region) qui sont presque parfaitement conservés entre les espèces (>95% au sein des mammifères) et plus conservés que les gènes codants (Bejerano et al., 2004). De manière tout à fait intéressante, les multiples alignements réalisés par Derrien et al. ont également mis en évidence une forte conservation de certaines régions des lncRNAs, ce qui pourrait signifier une plus forte conservation des structures secondaires potentiellement fonctionnelles (Derrien et al., 2012). En effet, des analyses de conservation entre l'homme et la souris ont montré que des portions du lncRNA XIST étaient très conservées, suggérant un maintien des domaines fonctionnels de

XIST à travers l'évolution. A l'inverse, le lncRNA GAS5 est un lncRNA producteur de snoARNs à

partir de ses introns, et la conservation entre homme et souris est uniquement située au niveau des régions contenant les snoARNs, démontrant potentiellement une conservation se limitant à la fonction (Smith and Steitz, 1998).