• Aucun résultat trouvé

Organisation génomique et classification des lncRNAs

PARTIE III : L ES LONGS ARN S NON CODANTS OU LNC RNA S

III) Organisation génomique et classification des lncRNAs

Etant considérée pour l'heure comme un groupe très hétérogène d'un point de vue structural, la classification des lncRNAs est couramment effectuée selon leur position génomique et leur position relative à un gène codant (Figure 24). Cette classification n'indique pas nécessairement une information quant à la fonction ou à l'origine du lncRNA. On peut donc citer plusieurs catégories relatives à un gène codant:

a.

Classification relative à un gène codant

Le lncRNA intronique, lorsque celui-ci est situé dans l'intron d'un gène codant et transcrit en sens ou anti-sens par rapport au gène hôte.

Le lncRNA sens lorsque celui-ci chevauche partiellement au moins un exon d'un gène codant sur le même brin.

Le lncRNA anti-sens si ce chevauchement se situe sur le brin opposé. Ces lncRNAs sont plus couramment appelés NATs pour Natural Anti-sens Transcripts, et il a été rapporté que plus de 70% des transcrits présentaient un transcrit anti-sens (Katayama et al., 2005). Le chevauchement peut être

62 complet ou incomplet et il semblerait que les NATs soient préférentiellement chevauchants en 5' des transcrits sens. De manière intéressante, plusieurs exemples de lncRNAs anti-sens à un gène codant sont impliqués dans l'empreinte parentale comme KCNQ1OT1 (KCNQ1 overlapping transcript 1) sur le locus KCNQ1 (potassium channel, voltage gated KQT-like subfamily Q, member 1) (Kanduri et al., 2006). La paire ARN sens/anti-sens peut également être composée de deux lncRNAs comme dans le cas de XIST/TSIX (Xist Antisens RNA), deux lncRNAs impliqués dans l'inactivation du chromosome X (Lee et al., 1999).

Le lncRNA bidirectionnel lorsque sa transcription est initiée à proximité et dans le sens opposé du gène codant voisin.

Les lncRNAs intergéniques ou lincRNAs qui sont des unités transcriptionnelles uniques situées entre 2 gènes codants. Un grand nombre de ces derniers ont été identifiés par l'analyse des signatures chromatiniennes par ChiP-seq (Chromatin immunoprecipitation-Sequencing). En effet, ces lncRNAs présentent des marques épigénétiques correspondant à une transcription active comme H3K4me3 au niveau du promoteur, ou H3K36me3 le long du gène transcrit (Guttman et al., 2009). Les lincRNAs sont certainement les plus étudiés et décrits des lncRNAs. Ils sont majoritairement transcrits par l'ARN pol II, polyadénylés, épissés, et présentent plusieurs isoformes avec une longueur de 1kb en moyenne. De plus, une étude se basant sur plus de 8000 lincRNAs a mis en évidence que ces ARNs avaient une tendance à être situés à proximité de gènes codants impliqués dans le développement, et à présenter une corrélation significative entre leurs expressions et celles des gènes codants voisins (Cabili et al., 2011).

63

b.

Classification relative à une région génomique

Il existe deux autres classes de lncRNAs relatives non pas à un gène codant mais à des régions régulatrices : les eRNAs (Enhancer RNA) pour les lncRNAs transcrits à partir d'enhancers, et les pRNAs (Promoter-Associated Long Non Coding RNAs) ou les PROMPTs (PROMoter uPstream Transcripts) pour les lncRNAs transcrits à partir de promoteurs.

Les eRNAs : Les enhancers sont caractérisés essentiellement par la présence d'une mono-méthylation en K4 de l'histone H3 (He et al., 2010). L'association de cette marque avec une acétylation en K27 de l'histone H3 est corroborée avec une activité positive de l'enhancer et à l'inverse, l'association de cette marque avec la tri-méthylation en K27 de l'histone H3 est corroborée avec l'inactivité de l'enhancer (Creyghton et al., 2010). Il a été noté récemment que ces sites présentaient massivement des chevauchements avec les sites de transcription de l'ARN polymérase II, suggérant que les enhancers pourraient être transcrits en ARNs non codants (De Santa et al., 2010). En 2014, Andersson et al. ont publié un atlas sur les eRNAs à partir de données de séquençage haut débit et de ChiP-seq sur un large panel de tissus primaires et de lignées cellulaires, conduisant à l'identification de plusieurs milliers de eRNAs (Andersson et al., 2014). Cela a permis d'observer que ces ARNs sont en majorité non polyadénylés, nucléaires et non épissés.

Les PROMPTS : les promoteurs peuvent être bidirectionnels. Ainsi la transcription se réalise dans les deux sens, produisant l'ARNm et un autre ARN en amont, le PROMPT. Ces ARNs non codants partagent les mêmes caractéristiques au niveau du TSS (Transcription Start Site) que le TSS du gène codant associé. Il semblerait que leurs transcriptions permettent d'orienter l'ARN polymérase II dans le sens de l'ARNm, suite à leur dégradation par l'exosome (Ntini et al., 2013) (Figure 25).

Figure 25 : Mécanisme supposé de transcription des PROMPTs. L'ARN pol II transcrit bidirectionnellement à partir du promoteur l'ARNm et les PROMPTs en amont. L'expression de ces lncRNAs et leur rapide dégradation conduirait à orienter l'ARN pol II majoritairement dans le sens du gène associé.

64 Les pARNs : une autre classe de lncRNAs moins spécifique est également associée aux promoteurs de gènes codants, les pARNs. Ces lncRNAs ont été décrits comme des ARNs présentant une expression corrélée avec celle du promoteur, et impliqués dans la modulation de l'expression du gène codant associé. En effet, une région riche en îlots CpG du promoteur du gène SPHK1 (sphingosine kinase 1) peut être transcrite en un ARN non codant intervenant dans la méthylation et la déméthylation du promoteur de SPHK1, régulant ainsi la transcription du gène codant (Imamura et al., 2004).

c.

Autres classes

Les T-UCRs : dans une classe très spécifique de lncRNAs, on dénombre 481 T-UCRs, associés à des régions ultra-conservées. La plupart de ces lncRNAs sont organisés en cluster et il semblerait que ces éléments soient soumis à une forte sélection évolutive depuis plus de 400 millions d'années, ce qui expliquerait la forte conservation observée du poisson à l'homme. Un tiers de ces T-UCRs est situé dans des "déserts génétiques". Une autre portion de ces ARNs est située à proximité de gènes impliqués dans le développement, ce qui pourrait expliquer leur forte conservation. Par contre, la majorité des T-UCRs sont à cheval sur des exons, dans les introns ou à proximité de gènes codants impliqués dans divers processus, comme la régulation de l'épissage et de la transcription (Bejerano et al., 2004).

Les pseudogènes : la dernière classe relativement particulière de longs ARNs non codants est issue des pseudogènes. Ils sont considérés comme des gènes ancestraux ayant perdu leur potentiel codant par succession de mutations (Balakirev and Ayala, 2003). La plupart de ces gènes sont le produit de duplications en tandem de gènes ou de rétro-transpositions, conduisant à un certain nombre de copies de gènes surnuméraires qui ne sont plus sous de fortes pressions de sélection. Cependant, une petite portion de ces gènes non codants "morts" peut être transcrite. On considère aujourd'hui que ces pseudogènes sont soit en voie de complète extinction (Harrison et al., 2005), soit qu'ils resurgissent en acquérant de nouvelles fonctions par un mécanisme encore inconnu (Bekpen et al., 2009). On suppose par exemple que le lncRNA XIST a évolué à partir de la pseudogénisation du gène codant LNX3 et par l'intégration de séquences répétées transposables (Elisaphenko et al., 2008).