• Aucun résultat trouvé

3.1.1 – Qu’est-ce qu’un ARNlnc ?

Un ARN long non-codant (ARNlnc) est comme son nom l’indique un long ARN, (>200 nucléotides) ne codant pas une protéine. Ces ARNlnc ont de fortes similarités avec les ARNm puisque la grande majorité14 est tout aussi bien transcrite par l’ARN polymérase II que 5’-coiffée et poly-adénylée [45]. Tout comme les ARNm, il existe également des ARNlnc transcrits par l’ARN polymérase III et non poly-adénylés [46]. Ils subissent également pour la grande majorité une maturation par épissage mais semblent tout de même plus courts avec en général des ARNlnc bi-exoniques [47]. Puisque non-codant, leur rôle est en revanche très différent des ARNm et ont des activités régulatrices de tout ordre (cf. 3.3 – Les différents mécanismes d’action des ARNlnc). Ils agissent à des niveaux d’expression très faible – 10 à 100 fois moins que les ARNm [19, 23] – et sont bien plus tissus spécifiques [19, 23, 48]. Un autre point très important concernant les ARNlnc est leur très faible conservation de séquence au travers du règne animal [23, 49, 50]. En effet, même au sein d’un même clade, les ARNlnc restent peu conservés [43]. Il a été montré cependant que les séquences au niveau des promoteurs et des jonctions d’épissage des ARNlnc semblaient être plus stables entre les espèces [10, 12, 51–53] et que leur position génomique respectait des relations synténiques dans le règne animal [23, 24, 49, 50]. Leur séquence étant peu conservée, il a été proposé que la structure tridimensionnelle des ARNlnc le soit afin de conserver leur rôle, entre autres de ligand protéique [54]. Cette définition est à nuancer pour quelques cas d’ARNlnc marginaux : les T-UCR, ARNlnc issus de régions ultra-conservées (e.g. uc.372) qui ont donc une séquence très proches entre espèces [55] ou encore les ARNcirc qui ont une séquence plus conservée entre espèces et qui ont, de par leur conformation, une demi-vie supérieure à celle des autres ARNnc [56]. En effet, les ARNm, au stade mature, sont pseudo-circularisés par la formation d’un complexe protéique entre les facteurs d’initiation de la traduction au niveau de la coiffe et PABP, protéine associée à la queue poly-A. Cette pseudo-circularisation permet sa traduction et le protège des ribonucléases. Mais depuis quelques années, certains articles parlent d’ARN circulaires (ARNcirc) qui forment une boucle continue et fermée covalemment. Cet ARNcirc est issu de l’épissage alternatif des gènes [56, 57] mais je n’en développerai pas les mécanismes.

18 Cette circularisation permet également à ces ARN de se protéger des exonucléases. De longueur généralement supérieure à 200 nucléotides, les ARNcirc peuvent être codants comme non-codants [58, 59]. On notera l’existence d’une sous-catégorie d’ARNcirc, les ARNic (intronique circulaire) qui sont issus de la maturation d’un lariat (i.e. lasso intronique formé lors de l’épissage) intronique [60].

3.1.2 – Qui du gène codant ou non-codant est arrivé en premier ?

Cette question, contrairement à son parallèle de l’œuf et de la poule, a déjà eu quelques éléments de réponse dans plusieurs publications. La première – et celle qui semble la plus instinctive – est celle de l’ARNlnc issu de l’érosion d’un gène codant ancestral. L’exemple de XIST est le plus connu. Chez de nombreuses espèces diploïdes, la détermination du sexe est liée à la paire de chromosomes sexuels. Les animaux homogamétiques ont un patrimoine génétique lié au chromosome sexuel concerné doublé alors que les individus hétérogamétiques ont une seule copie des gènes de chacun des chromosomes sexuels. Chez les mammifères, la femelle est XX et le mâle XY. Un processus de compensation de dosage des gènes est donc mis en place chez les individus femelles afin de réprimer l’une des copies du chromosome X, c’est la lyonisation. Chez les mammifères15 ce mécanisme est contrôlé par le centre d’inactivation du chromosome X (XIC). Ce XIC est composé de plusieurs gènes à un même locus sur le chromosome X dont 4 gènes à ARNlnc TSX, XIST (Figure 18), JPX et FTX. Il a été proposé par Duret et collègues [62] que ces gènes soient issus de la pseudogénéisation de FIP1L2, LNX3, RASL11C et USPL gènes codants connus chez la poule et également localisé au même locus. Dans une dimension plus globale, Hezroni et collègues ont présenté récemment une liste de 55 ARNlnc humains dérivés de gènes codants ancestraux qui ont perdu leur potentiel codant [63]. Les hypothèses expliquant l’érosion des gènes codants sont : les mutations, le réarrangement chromosomique et l’exonisation d’éléments transposables qui brisent ou modifient le continuum d’un ORF et les transferts horizontaux [63–66]. La limite ici entre ARNlnc et pseudogène est mince. La simple nuance repose, je pense, sur le fait que l’on puisse remonter au gène codant primaire dans le cas des pseudogènes (plus de 15000 chez l’Homme contre 20000 gènes codants et 15000 ARNlnc). On pourrait donc imaginer que les ARNlnc sont des gènes codant des protéines très érodés (Figure 7A, flèches rouges).

15 Plus précisément les euthériens (i.e. les mammifères sans les marsupiaux). Les marsupiaux ayant une compensation de dosage des gènes fonctionnant différemment des autres mammifères [61]

19

Figure 7 – Schéma sur l’évolution des gènes. A. Phénomènes de duplication de gènes,

pseudogénéisation et néo-fonctionnalisation. Il est à noter que les remaniements par éléments transposables, transferts de gènes horizontaux et réarrangements chromosomiques n’ont pas été notés ici. Inspiré de Casane et Laurenti [67]. B. Exemple de rétro-transpositions de l’ARNcirc circRFWD2 à 5 exons (a, b, c, d et e) processé (i.e. maturé, sans intron) dans le génome de la souris. 6 copies de cet ARN mature ont été trouvées sur des chromosomes différents. Inspiré de Dong et collègues [68].

La réciproque de la néo-fonctionnalisation des ARNlnc/pseudogène en gènes codant des protéines est plus rare et uniquement issue de mutations aléatoires sélectionnées si elle apporte un avantage pour la survie de l’espèce [2, 67] (Figure 7A, flèches vertes).

On notera aussi les cas de duplications de gènes et d’introduction de nouveaux gènes paralogues codants ou non-codants par rétro-transposition de transcrits dans le génome16 (Figure 7A, flèches orange). C’est le cas par exemple d’un certain nombre de pseudogènes dérivés d’ARNcirc. Dong et collègues [68] proposent les exemples de circPRKDC et circCAMSAP1 rétro-transposés chez quelques primates ou circRFWD2 (Figure 7B), circSATB1 et circDIAP3 chez la souris. Pour information, le génome humain comporte environ 5000 pseudogènes non-processés (i.e. non maturés, avec introns) et 10000 pseudogènes processés (i.e. maturés, sans introns).

3.1.3 – Les ARNlnc : entre ARN codant et bruit transcriptionnel

Les ARNlnc étant faiblement exprimés (entre 10 et 100 fois moins que les ARN codants), ce n’est qu’avec l’avènement des nouvelles technologies de séquençage haut débit que leur

16 La rétro-transposition de tout ou partie d’un pré-ARN donne lieu à l’intégration d’un paralogue fonctionnel ou non dans le génome. On parle d’ARN non-processé. Elle peut également concerner la rétro-transposition de tout ou partie d’un ARN épissé. On parle alors d’ARN processé.

20 existence nous a été dévoilée. A partir de données RNA-seq, il est possible de modéliser des modèles de transcrits/gènes via des outils comme Cufflinks. Plus un transcrit/gène est exprimé et plus le modèle sera affiné. L’utilisation de plusieurs échantillons permet, pour les modèles peu exprimés, 1/ d’augmenter le nombre de lectures alignées sur le transcrit/gène et ainsi accumuler de la donnée pour améliorer les modèles et 2/ d’évaluer la proportion d’échantillons où le transcrit/gène est exprimé, la répétabilité fiabilisant les modèles. Ces critères permettent d’isoler les ARNlnc du bruit transcriptionnel (Figure 8) comme montré dans Muret et collègues en 2017 [23].

Figure 8 – Expression des ARNlnc et des ARNm vs. de 10 régions sans gène connu. RPKM :

Lectures normalisées d’un échantillon exprimées par kilobases et par million de lectures dans l’échantillon. Figure traduite de Muret et collègues [23].

3.1.4 – Des outils pour repérer les ARNlnc dans cet océan de transcrits modélisés Une fois les transcrits modélisés grâce aux données RNA-seq, il faut prédire dans cet océan de transcrits supérieurs à 200nt ceux qui sont potentiellement codants de ce qui ne le sont pas, à savoir les ARNlnc. Pour déterminer et classifier les ARNlnc, il est nécessaire de trouver des critères permettant d’optimiser la sensibilité (i.e. la capacité à détecter tous les ARNlnc) et la spécificité (i.e. la capacité à ne sélectionner que des ARNlnc) des méthodes. La majorité des outils utilisent à minima les caractéristiques définissant un ARNlnc i.e. la taille >200nt, l’absence d’un long cadre ouvert de lecture (ORF), la faible couverture de l’ORF et/ou l’absence de domaine protéique.

21 L’outil CPC (Coding Potential Calculator) [69, 70], est le plus simple d’utilisation et le plus utilisé depuis son apparition en 2007 (Figure 9). Il est basé sur plusieurs critères : 1/ le log-odd score évaluant la qualité des ORF trouvés dans la séquence ; 2/ la couverture de l’ORF ; 3/ l’intégrité de l’ORF (présence des codons start et stop) ; 4/ le nombre de résultats issus d’une analyse par blastx17 contre la base de données protéiques fournie par l’utilisateur ; 5/ la qualité des résultats du blastx ; 6/ la distribution des résultats sur les 3 cadres de lecture18. Cet outil regroupe donc l’intégralité des caractéristiques minimales des ARNlnc. Toutefois, de nombreux auteurs font encore aujourd’hui ce travail à la main pour mieux contrôler leurs résultats. A noter qu’une seconde version, CPC2 [70] est sortie récemment et améliore considérablement la vitesse d’exécution (x1000) et la précision des résultats. Il est basé sur des paramètres supplémentaires dont le Fickett Score (i.e. le score qui reflète la composition en nucléotides) et le point isoélectrique de l’ARN (pH auquel l’ARN est sous forme d’ion mixte i.e. avec un potentiel électrique neutre).

L’outil PhyloCSF (Phylogenetic Codon Substitution Frequencies) [71] a été créé en 2011 et a émergé du fait de l’importance de trouver des méthodes efficaces pour classifier les transcrits malgré des modèles de transcrits incomplets. Basé sur la comparaison des séquences des ARNlnc entre espèces phylogénétiquement proches (e.g. les mammifères), son fonctionnement repose sur 2 critères : 1/ la métrique CSF qui attribue un score à chaque substitution observée en fonction de la fréquence relative de cette substitution dans les régions codantes et non-codantes issue de jeux d’entraînements ; 2/ la comparaison d’un alignement à 2 modèles statistiques phylogénétiquement estimés à partir des régions codantes et non-codantes. Le choix de la classification du transcrit se fait sur le choix d’un des deux modèles i.e. celui qui donne la meilleure explication à l’alignement donné basé sur l’estimation des maxima de vraisemblance des deux modèles.

A sa création en 2013, l’outil CPAT (Coding-Potential Assessment Tool) [72] se voulait indépendant des modèles d’alignements. Il proposait le calcul d’un potentiel codant, à partir d’un jeu d’entraînement, pour chaque transcrit basé sur la combinatoire de quatre critères : 1/ la taille de l’ORF ; 2/ la couverture de l’ORF ; 3/ le score de Fickett qui reflète la composition en nucléotides et leur position dans les codons ; 4/ le critère le plus discriminant : le score d’hexamère qui reflète le biais d’usage des 8-mers. Les tests de performance issus de leur

17 Le blastx est un alignement d’une séquence nucléotidique traduite en séquence protéique contre une base de données de séquences protéiques.

18 Basé ici sur le fait que les transcrits codant pour des protéines possèdent un ORF couvrant un seul des cadres de lecture alors que les ARNlnc donnent des résultats où plusieurs ORF recouvrent plusieurs cadres de lecture.

22 publication montrent que CPAT est clairement plus spécifique et moins sensible que les deux outils précédemment cités. Ces outils, malgré une très forte sensibilité, classent beaucoup d’ARN codants comme non-codants.

L’outil CNCI (Coding-Non-Coding Index) [73] de 2013 se veut utilisable pour toutes les espèces malgré un jeu d’entraînement humain. L’entraînement puis l’évaluation des transcrits se fait via le passage d’une fenêtre glissante au travers des 6 cadres de lecture des transcrits permettant de conserver les 6 meilleurs ORF associés à un score-S reflétant le potentiel codant de ces ORF19. Les 5 critères utilisés pour l’identification des ARNlnc sont : 1/ le score du meilleur ORF ; 2/ la longueur du meilleur ORF ; 3/ un critère évaluant la longueur du meilleur ORF par rapport à la longueur de l’ensemble des autres ORF ; 4/ un critère évaluant le score du meilleur ORF par rapport au score des autres ORF ; 5/ le biais d’utilisation de codon. Cet outil semble très efficace pour les vertébrés et encore plus pour les espèces proches phylogénétiquement de l’Homme. Il a l’avantage de ne pas avoir besoin de génome de référence mais cela cause également son plus gros problème : une extrême sensibilité aux insertions/délétions déstabilisant le continuum de triplets des ORF.

L’outil PLEK (Predictor of Long non-coding RNAs and mEssenger RNAs based on an improved K-mer scheme) [74] publié en 2014 montre qu’il n’est en revanche pas sensible aux insertions/délétions. PLEK s’affranchit des alignements et des ORF en se basant sur la fréquence en k-mers (k=1 à 5) des différents jeux d’entraînement codant et non-codant.

L’outil FEELnc (FlExible Extraction of LncRNAs) [75] est un outil bien plus récent (2017) combinant les avantages des outils précédents. Il n’a pas besoin de génome de référence ni d’ARNlnc connus pour être entraîné et s’adapte donc à toutes les espèces. Il utilise les ORF et leur couverture malgré des modélisations incomplètes ainsi que la fréquence en k-mers (k=1 à 12). Il a également la particularité de classifier les ARNlnc en fonction de leur proximité vis-à-vis des gènes codants proches suivant les classes décrites dans la publication phare de GENCODE [19]. C’est l’outil qui a été utilisé dans le cadre de cette thèse.

L’outil COME (COding potential calculation tool based on Multiple fEatures) publié en 2017 [76] est l’un des derniers sortis. Il se veut un peu plus révolutionnaire en proposant cette fois-ci d’intégrer plusieurs sources de données pour évaluer le potentiel codant des transcrits. Les auteurs précisent que tous les outils déjà publiés sont forcément biaisés par la non connaissance

19 Basé sur des matrices d’utilisation de triplets nucléotidiques adjacents (i.e. le continuum) dans les ORF et les régions non-codantes.

23 du continuum complet des transcrits. Ils proposent 9 critères de bases pour le calcul du potentiel codant : 1/ le pourcentage en G-C ; 2/ la conservation de la séquence ADN ; 3/ la conservation de la séquence protéique ; 4/ la conservation de la structure secondaire de l’ARN ; 5/ l’expression des ARN via des données RNA-seq des petits ARN ; 6/ via des données RNA-seq poly-A(+) ; 7/ via des données RNA-seq poly-A(-) ; 8/ les signatures chromatiniennes à partir de données ChIP-seq (H3K36me3) ; 9/ et ChIP-seq (H3K4me3). On peut y adjoindre des données supplémentaires comme par exemple des données de profilage ribosomique ou de spécificité d’expression. Le calcul du score COME se fait par décomposition du génome en unités, que l’utilisateur doit définir (100nt avec un pas de 50nt par exemple) et calcul des paramètres pour chacune d’elles. Ces unités sont réassemblées par transcrit et ces scores pour chaque paramètre sont combinés puis comparés aux jeux d’entraînement des ARN codants et non-codants. Cette méthode bien que très spécifique est toutefois peu sensible dans la détection des ARNlnc et est par ailleurs contraignante car elle demande de nombreuses données expérimentales.

La Figure 9 montre l’évolution du nombre de publications citant/utilisant chacun des 7 outils préalablement cités. Les plus anciens et les plus simples étant les plus utilisés, à savoir : CPC, CPAT et CNCI.

Figure 9 – Evolution du nombre de publications selon l’outil de prédiction des ARNlnc utilisé. Les résultats pour 2018 ont été ramenés à 12 mois.

24 3.1.5 – Classification des ARNlnc

Les ARNlnc sont nombreux et leurs rôles ont encore peu été décrits ; c’est le cas pour environ 1% d’entre eux [77]. Une des préoccupations actuelles est de les classer en fonction de différents critères alimentant diverses problématiques en lien avec la régulation ou la fonction des ARNlnc.

a – Classification selon leur position par rapport au gène codant le plus proche

La classification la plus accessible est celle de la classification positionnelle sur le génome puisqu’elle ne requiert pas de connaître la fonction des ARNlnc. Cependant, certaines de ces classes peuvent suggérer une fonction de régulation sur le gène codant le plus proche. Simple de mise en œuvre, bon nombre de publications se basent sur cette classification [19]. Comme évoqué plus haut, l’outil FEELnc [75] offre un module qui fournit cette classification en fonction du gène codant le plus proche. Les ARNlnc peuvent être scindé en 2 classes : les ARNlnc géniques, c’est-à-dire qu’ils chevauchent au moins un nucléotide d’un gène codant quel que soit le brin, et les ARNlnc intergéniques qui ne chevauchent pas de gène codant et qui sont comme le nom l’indique, localisés entre les gènes codants. Ces deux classes sont découpées en 6 « sous-classes » usuellement proposées relatives au gène codant le plus proche sont les suivantes : les ARNlnc géniques sens (notés gsRNA20), les ARNlnc géniques antisens soit d’exons, soit d’introns (notés gaRNA, NAT ou asRNA21) et enfin les ARNlnc intergéniques (notés iRNA ou lincRNA22) que l’on sous-classe en 3 catégories selon les brins de l’ADN transcrits pour l’ARNlnc et le gène codant, à savoir même-brin, divergent ou convergent (Figure 10, partie haute). Une attention particulière est souvent donnée aux ARNlnc antisens ou divergents proches de gènes codants, car dans le cas où ils sont hautement corrélés en expression cela peut refléter une régulation commune et/ou une fonction de régulation de l’ARNlnc sur le gène codant.

b – Classification selon leur position par rapport à des éléments régulateurs

Les ARNlnc peuvent aussi être classifiés par rapport aux éléments régulateurs sur le génome (Figure 10, partie basse). On retrouve ainsi les p-ARNlnc (ou pRNA, plncRNA, pancRNA, uaRNA, TSSa-RNA, PROMPT, PALR23) pour les ARNlnc transcrits en antisens au niveau de

20gsRNA : genic sense RNA

21gaRNA : genic antisense RNA ; NAT : natural antisense transcript ; asRNA : antisense RNA

22iRNA : intergenic RNA ; lincRNA : large/long intergenic/intervening noncoding RNA

23pRNA : promoter-associated RNA ; plncRNA : promoter-associated long noncoding RNA ; pancRNA : promoter-associated noncoding RNA ; uaRNA : upstream-antisense RNA ; TSSa-RNA : transcription start site activator RNA ; PROMPT : promoter upstream transcript ; PALR : promoter-associated long RNA.

25 promoteurs, qui sont alors équivalents aux ARNlnc divergents par rapport à un gène codant proche. On retrouve également les e-ARNlnc (eRNA, ncRNA-a, elncRNA24) qui sont des ARNlnc transcrits au niveau d’une région enhancer en général dans les deux sens. Une région enhancer est considérée comme une région à distance du TSS du gène, en général inférieure à 10kb mais qui peut aller jusqu’à quelques mégabases [78]. Au niveau génique, on a également les ua-ARNlnc (uaRNA25) pour les ARNlnc associés aux régions UTR des gènes codants (Figure 10, partie basse).

Figure 10 – Les différentes classes par rapport au gène codant proche et aux éléments de régulation. A. Les ARNlnc intergéniques et géniques. B. Les ARNlnc associés aux promoteurs,

enhancers et extrémités UTR.

c – Classification selon GENCODE / Ensembl

La classification des biotypes de gènes à ARNlnc selon GENCODE, référence de l’annotation des gènes d’Ensembl, reprend les principes des deux classifications ci-dessus, ainsi que quelques biotypes supplémentaires. Il est à noter que les catégories ne sont pas exclusives bien qu’un transcrit et un gène n’aient qu’un seul biotype. Ci-dessous, les différents biotypes utilisés et leur signification (bien que souvent, pas suffisamment décrits dans les fiches techniques) : 1/ lincRNA : ARNlnc intergénique

2/ antisense : ARNlnc génique antisens (intronique et/ou exonique)

3/ sense_intronic et sense_overlapping : ARNlnc géniques sens (intronique ou contenant un codant dans son intron)

4/ bidirectional_promoter_lncrna : ARNlnc divergent proche (présent dans la région promotrice en antisens)

5/ processed_transcript : transcrit sans ORF

24 eRNA : enhancer-associated RNA ; ncRNA-a : noncoding RNA activating ; elncRNA : enhancer-associated long noncoding RNA.

26 6/ 3prime_overlapping_ncrna : ARNnc qui d’après la littérature est transcrit à partir d’une extrémité 3’UTR d’un gène codant

7/ macro_lncRNA : ARNlnc non épissé de taille supérieure à plusieurs kb d – Classification selon leur mécanisme d’action

Lorsque le mécanisme d’action est connu, on retrouve également les notions de régulation locale (appelée souvent dans la littérature cis-régulation) ou de régulation à distance (appelée trans-régulation) comme indiqué dans la Figure 11 [79]. On notera également la notion d’ARNce (i.e. compétiteur endogène) pour les ARNlnc qui s’hybrident à d’autres ARN (Figure 11, flèche rouge) comme les ARNmi pour les séquestrer et les empêcher d’agir sur leur cible [79, 80].

Figure 11 – Classification selon leur mécanisme d’action

e – Classification selon leur structure

Certains ARNlnc sont circulaires et prennent donc l’appellation d’ARNcirc. Pour autant, il faut