• Aucun résultat trouvé

Les gènes

Dans le document Annotation des génomes de paramécies (Page 41-45)

Les génomes eucaryotes

I.2 Organisation des génomes eucaryotes 1 Structure des chromosomes

I.2.2 Organisation génétique

I.2.2.2 Les gènes

P

récédemment, nous avons vu que les séquences répétées, globalement non codantes, pouvaient occuper une grande proportion des génomes. Pourtant, la partie codante, n’occupant qu’1% du génome humain, est d’un intérêt tout particulier car l’expression des gènes codants détermine le phénotype de l’organisme. D’après Gerstein et al. (2007), un gène est une union de séquences génomiques codant pour un ensemble cohérent de produit(s) fonctionnel(s). Il existe une variété de types de gènes. Dans les paragraphes suivants, je vais différencier les gènes non-codants, les gènes codants et les pseudogènes. Même si ces descriptions resteront brèves et un peu scolaires, il me paraissait important de définir les éléments que j’annote.

Les gènes non codants sont transcrits mais ne codent pas pour des protéines. La très grande majorité de ces transcrits ont un rôle fonctionnel (Eddy 2001). Les ARN de transfert (ARNt) traduisent l’information des triplets de codon de l’ARNm en acides aminés. Les ARN ribosomiques (ARNr), représentant 80% de l’ARN total de la cellule, sont au cœur de l’ossature du ribosome, un complexe ribonucléoprotéique. Les snoARN (Small Nucleolar RNA) ont une fonction dans les nucléoles et les snRNA (Small Nuclear RNA) dans le spliceosome pour épisser les introns de l’ARN primaire. Les microARN (miARN) d’une vingtaine de nucléotides ont des rôles dans la régulation des ARN (Ambros 2001). Les gènes codants La figure I.6 (p. 14) schématise la structure d’un gène codant euca- ryote (Shafee 2017). Un brin d’ADN est transcrit dans le sens 5’ vers 3’ par l’ARN poly- mérase II. Un gène codant est composé d’un cadre ouvert de lecture (ORF Open Reading Frame) et de séquences régulatrices. Sans rentrer dans des détails sémantiques, aujour- d’hui, et notamment en bioinformatique, une ORF est définit préférentiellement comme une séquence séparée par deux codons terminateurs (discuté par Sieber et al. (2018)), alors que la séquence codante (ou CDS pour CoDing Sequence) démarre par un codon initiateur et se finit par un codon terminateur.

Les séquences régulatrices, localisées aux extrémités du gène, sont composées d’une région promotrice et de séquences activatrices ou répressives. Ces dernières peuvent être éloignées du gène et modulent l’activité des promoteurs. Le promoteur, situé à l’extrémité 5’ de la CDS, est constitué d’une partie principale et d’une partie proximale. Le promo- teur principal fixe l’ARN polymérase et définit le site de départ de la transcription (TSS Transcription Start Site). Il peut contenir des motifs de type TATA ou CCAAT à environ 20-30 paires de base en amont du TSS. La région proximale du promoteur se lie à des fac- teurs de transcription modifiant l’affinité du promoteur principal pour l’ARN polymérase (Juven-Gershon et al. 2008, Haberle and Stark 2018). Les facteurs de transcription régulent la transcription des gènes en fonction du stade cellulaire ou du type cellulaire (Andersson et al. 2015). La partie transcrite du gène est composée d’exons et d’introns pour générer une molécule de pré-ARN messager. Après épissage des introns, seuls les exons seront retenus dans l’ARN messager mature (Matera and Wang 2014). Une coiffe est ajoutée en 5’ et une queue de poly-adénosine en 3’, stabilisant la molécule (Wu and Brewer 2012).

Après transport dans le cytoplasme, la traduction de l’ARNm débutera au codon ini- tiateur (ou codon start) (en général une méthionine) et se finira au codon terminateur (ou codon stop). Grâce aux ARNt, chaque codon (triplet de nucléotides) va correspondre à un acide aminé. En revanche, un acide aminé se rapporte à plusieurs codons (le code génétique). Tous les codons, codant pour le même acide aminé, ne sont pas retrouvés aux mêmes fréquences dans les séquences. Ce biais d’utilisation de codons varie d’une espèce à une autre et peut également varier entre gènes d’un même organisme. En effet, il est connu que l’usage des codons a des implications fonctionnelles pour le contrôle de la traduction et l’expression des gènes (Quax et al. 2015). Il faut aussi noter que tous

Figure I.6 – Structure d’un gène

La structure d’un gène eucaryote codant pour une protéine. La séquence régulatrice contrôle quand et où l’expression se produit pour la région codant pour la protéine (rouge). Les régions promotrices et activatrices (jaune) régulent la transcription du gène en un pré-ARNm modifié pour éliminer les introns (gris clair) et ajoutent une coiffe 5 ’et une queue poly-A (gris foncé). Les régions non traduites 5 ’et 3’ de l’ARNm (bleu) régulent la traduction dans le produit protéique final. Figure tirée de Shafee (2017)

les organismes n’utilisent pas le même code génétique (Osawa et al. 1992, Jukes and Osawa 1993). Une douzaine de codes alternatifs sont répertoriés. Par exemple, le génome mitochondrial des vertébrés utilise des codons terminateurs différents du génome nu- cléaire (Barrell et al. 1979). Le génome nucléaire de la paramécie utilise le code "The Ciliate, Dasycladacean and Hexamita Nuclear Code" (numéro 6) et sa mitochondrie le code "The Mold, Protozoan, and Coelenterate Mitochondrial Code and the Mycoplasma/Spiroplasma Code" (numéro 4) (Caron and Meyer 1985, Preer et al. 1985, Pritchard et al. 1990). Dans le code génétique utilisé par les ciliés, il n’existe qu’un seul codon initiateur (ATG pour la Méthionine) et un seul codon terminateur (TGA).

Les exons non traduits ou UTR (UnTranslated Region) contiennent des éléments régula- teurs (Wu and Brewer 2012). La séquence 3’UTR participe à la signalisation de la fin de la transcription à l’ARN polymérase. La séquence 5’UTR lie le ribosome pour la traduction. De plus, les protéines peuvent être maturées par des modifications post-traductionnelles (acétylation, biotinylation, méthylation, ...) altérant ou modifiant leurs fonctions. Le code des histones de la section I.2.1 (p.8) en est un exemple. Il est vrai que la figure I.6 (p. I.6) est une vision simplifiée du gène. En effet deux gènes peuvent se chevaucher, no- tamment au niveau des séquences régulatrices. De plus, l’épissage alternatif (Kornblihtt et al. 2013) et le trans-épissage (Lasda and Blumenthal 2011, Matera and Wang 2014) participent à la diversité des molécules produites par un gène.

Les pseudogènes ne produisent pas de protéines, en raison de la présence de codons stop interrompant leurs phases ouvertes de lecture ou à un changement de phase de lec- ture suite à des InDels (Ohno 1972). Les séquences des pseudogènes, n’étant plus sous pression sélective, s’éloignent progressivement de la composition de l’ADN codant et se rapprochent d’une séquence aléatoire (Echols et al. 2002). Comme les élements transpo- sables, plus le pseudogène accumule des mutations, plus son identification sera difficile. Il existe deux classes de pseudogènes. Les pseudogènes processés (Vanin 1985) sont issus de la retrotranscription d’un ARNm par une reverse transcriptase de transposon (le plus souvent d’un rétrotransposon de type LINE). L’ADN codant est ensuite intégré dans le gé- nome. Par définition, ces gènes sont dépourvus d’introns et de séquences régulatrices. Ces rétropseudogènes sont considérés comme des séquences répétées (voir figure I.5 dans la section I.2.2.1 p.10). Les pseudogènes non processés sont issus d’une duplication de gène. La plupart des pseudogènes n’ont pas de fonction mais plusieurs études ont démontré un possible rôle des pseudogènes dans la régulation de l’expression et la fonction des gènes (Balakirev and Ayala 2003, Pavlicek et al. 2006, Kovalenko and Patrushev 2018).

Dans le document Annotation des génomes de paramécies (Page 41-45)