• Aucun résultat trouvé

pseudogènes peuvent être transcrits et traduits en une protéine tronquée. Par exemple chez l’homme, le pseudogène Cx43 (Connexin43) code une protéine de 43 kDa dans des cellules tumorales, qui est capable d’inhiber la croissance cellulaire (Kandouz, Bier, Carystinos, Alaoui-Jamali, & Batist, 2004).

2.4 Les ARN non codant

Le terme d'ARN non codant (noté ARNnc) est employé pour définir les ARN qui ne codent pas une protéine. Cependant, ils peuvent posséder une activité catalytique qui leur est propre. Certains sont impliqués dans des complexes nucléoprotéiques (les ribosomes notamment), comme par exemple les miRNA qui font partie intégrante du complexe RISC (« RNA-induced silencing complex ») (Gurtan & Sharp, 2013). Dans les génomes des mammifères, des analyses transcriptomiques ont montré que deux tiers de l'ADN génomique était transcrit, ce qui contraste avec le pourcentage estimé à moins de 2% des gènes codants des protéines (Djebali et al., 2012). Par ailleurs, le degré de complexité entre les espèces a une plus forte corrélation avec la proportion des transcrits non codants, qu'avec les transcrits codants des protéines, même en prenant en compte la diversité des protéines issues d'épissage alternatif et modifiées par les mécanismes de régulation post-transcriptionnelle (Taft, Pheasant, & Mattick, 2007) (Figure 16). Cela suggère que les mécanismes de régulation impliquant des ARN ont un rôle important dans l'évolution de la complexité du développement chez les eucaryotes.

La proportion des ARNnc excède celle des gènes codants des protéines dans les génomes eucaryotes. On distingue les ARNnc dit constitutifs, c'est à dire ceux impliqués dans des mécanismes conservés comme la traduction (ARNr, ARNt), l'épissage ou la maturation des ARN (snRNA, snoRNA), et les ARNnc qui sont impliqués dans des phénomènes de régulation, généralement moins conservés entre les espèces (Figure 17).

Ces ARNnc sont moins bien caractérisés car plus difficiles à mettre en évidence. Cependant, le développement récent de protocoles de séquençage massifs d'ADNc a accru considérablement notre capacité à les identifier dans les génomes. Une grande proportion des ARNnc transcrits ont une taille supérieure à 200 pb. Ces ARN sont souvent polyadénylés mais sont dépourvus d'ORF (« open reading frame », cadre de lecture ouvert) et sont regroupés sous le terme de « long non coding RNA » ou grands ARN non codants (notés lncRNA) (Fatica & Bozzoni, 2014). Les gènes codant des lncRNA partagent des caractéristiques semblables aux gènes codants des protéines : profils de modification d’histone similaires, signaux d’épissage et tailles des introns et des exons similaires (Ulitsky & Bartel, 2013). Ils ont donc une composition proche de celle des ARNm mais ne servent

Figure 18 : Inactivation du chromosome X.

(A) Le lncRNA Xist est trranscrit à partir du locus Xic situé sur le chrososome X inactif (Xi). L'ARN Xist recouvre entièrement le chromosome et entraine l'extinction de l'expression des gènes portés par le chromosome via des modifications épigénétiques des histones et de l'ADN. (B) Le locus Xist et son lncRNA.

(C) Intéractions du lncRNA et des protéines lors de l'initiation de l'inactivation du chromosome X.

D'après (J. T. Lee 2012).

Tableau 2 : Principales caractéristiques et fonctions des ARNnc. D'après (Dogini et al. 2014) Classe Taille Fonctions

Long ncRNA

rRNA ∼1,9 kb Essentiel pour la synthèse des protéines. XIST RNA ∼17 kb Inactivation du chromosome X.

Autres lncRNA

> 200 nt

Impliqué dans des modifications épigénétiques, processus post-transcriptionnels, modulation de la structure de la chromatine, etc ...

Small ncRNA

miRNAs 18–21 nt Régulation des gènes. siRNA

∼21 nt Régulation des gènes, défense contre les virus et activité de transposon.

rasiRNA

24–27 nt Orientation de l'hétérochromatine dans la formation du centromère.

snoRNA 60–300 nt Méthylation et pseudo uridylation d'autres ARN snRNA 100–300 nt Impliqué dans le complexe du spliceosome.

piRNA 26–30 nt Régulation de l'activité des transposons et de l'état chromatinien.

23 pas de base à la synthèse de protéines (Tableau 2). Cependant, à la différence des ARNm, les lncRNA présentent un biais de composition en nombre d'exons (en faveur de deux exons) (Harrow et al., 2012). Chez l’homme, une analyse de l’expression dans 6 types cellulaires différents a montré que les lncRNA sont généralement moins exprimés que les gènes codant des protéines et sont davantage exprimés spécifiquement (Derrien et al., 2012). Cette spécificité est corrélée à la présence accrue d'éléments transposables au voisinage du promoteur des lncRNA (Kelley et Rinn 2012).

Quoiqu'encore peu décrit dans la littérature, un rôle biologique majeur a parfois été démontré pour certains ARNnc comme notamment l'inactivation d'un des chromosomes X chez les femmes, processus nécessaire au maintien de l'équilibre du niveau d'expression des gènes portés par ce chromosome. Le locus responsable de l'initiation de cette inactivation est transcrit en deux ARNnc appelés Xist (« X-inactive specific transcript ») et Tsix qui contrôlent la répression de l'expression de l'ensemble des gènes d'un des deux chromosomes X (K. C. Wang & Chang, 2011) (Figure 18).

Chez les plantes, plusieurs lncRNA ont déjà été décrits, majoritairement chez A. thaliana, comme par exemple COOLAIR qui est impliqué dans la vernalisation (Heo, Lee, & Sung, 2013). Au total, chez A. thaliana 2 708 lincRNA ont été identifiés (J. Liu et al., 2012). Plus récemment chez le maïs, un set robuste de lncRNA a été généré en se basant sur des données RNA-Seq de 30 tissus, ainsi que des EST (L. Li et al., 2014). Parmi les 20 163 lncRNA mis en évidence, 18 459 ont été identifiés comme des précurseurs de petits ARN et les 1 704 restants ont été définis comme un set lncRNA. En se basant sur plus d'un milliard de lectures RNA-Seq issus de 13 tissus de maïs, l’analyse des données a montré que 50% de lncRNA précédemment identifiés sont exprimés spécifiquement dans un tissu, alors que seulement 10% sont exprimés dans au moins cinq tissus (L. Li et al., 2014). Ces valeurs contrastent avec celles des gènes codant des protéines pour lesquels 8% sont exprimés dans un tissu uniquement et 74% dans au moins cinq tissus. En terme de niveau d'expression, 80% des lncRNA ont un FPKM inférieur à 5 dans chaque tissu testé, suggérant un niveau d'expression globalement faible des lncRNA (L. Li et al., 2014). C'est une des raisons qui explique qu'ils n'ont été mis en évidence que récemment, conjointement à l'augmentation des débits de séquençage.

3 Les outils d'analyse des gènes

Les avancées technologiques et méthodologiques, ainsi que les outils statistiques permettent à l’heure actuelle d’étudier les génomes à une échelle de précision jamais

Figure 19 : Différence entre prédiction et annotation d'un gène.

Le schéma représente l'annotation d'un gène ainsi que les évidences biologiques. Entre parenthèse ce sont les noms communément employés pour les programmes. En bleu est représentée l'annotation du gène avec les régions 5' et 3' UTR suggérées par les évidences biologiques (orange). La prédiction du gène qui est réalisée par SNAP (en vert) est incorrecte car il manque les exons en 5' ainsi que le site d'initiation de la traduction, et comme beaucoup de prédicteurs de gènes, il n'inclut pas les régions UTR. D'après (Yandell et Ence 2012).

Figure 20 : Schéma représentant trois approches basiques de l'annotation d'un génome.

Les trois approches différent en fonction du temps, de l'effort et de la qualité de l'annotation voulue, en regard d'une approche ab initio. Le produit final de chaque approche est indiqué dans les rectangles bleus.

24 atteinte jusqu’ici. Cela grâce aux outils d’annotation des gènes ainsi que de transcriptomique, qui permettent d’analyser les gènes tant au niveau de leur structure (taille, nombre d’exon, etc), que de leur fonction.