• Aucun résultat trouvé

En 1996, un consortium international [118, 169] réunissant des scientifiques de trois grands groupes : le Sanger Centre à Cambridge, The Institute of Genomic Research (TIGR) et l’Université de Stanford aux Etats-Unis, a entrepris de séquencer le génome nucléaire complet du clone 3D7 de Plasmodium falciparum. Le but de ce projet était de connaître de manière précise la biologie du parasite de façon à trouver des failles dans l’armure du parasite afin de développer de nouveaux médicaments et vaccins efficaces. Lorsque j’ai

commencé ce travail, le séquençage n’était pas terminé et l’on avait accès à des morceaux de séquences sous forme de shotguns ou de contigs.

Au moment de la publication du génome en octobre 2002 [132], les chromosomes 1 à 5, 9 et 12 étaient entièrement séquencés, alors que les chromosomes 6 à 8, 10, 11, 13 et 14 contenaient encore de 3 à 37 « trous », la plupart de moins de 2,5 kilobases (kb).

Les caractéristiques du génome nucléaire

Le génome nucléaire du clone 3D7 de Plasmodium falciparum (Tableau 3) est composé de 22,85 mégabases (Mb) distribuées en 14 chromosomes ayant une longueur comprise entre 0,643 et 3,29 Mb. Ainsi, le génome de P. falciparum est deux fois plus long que les génomes des levures Schizosaccharomyces pombe et Saccharomyces cerevisiae (Figure 4). Sa composition générale en (A+T) est de 80,6% et peut approcher les 90% dans les introns et les régions intergéniques.

Les phases ouvertes de lecture ont été prédites par divers programmes informatiques et contrôlées manuellement. On a identifié sur ce génome environ 5 300 séquences codantes, ce qui se situe entre ce qui a été prédit chez S. pombe et S. cerevisiae (Tableau 3 & Figure 4).

La densité de gènes est ainsi d’environ 1 gène toutes les 4 338 pb ce qui est légèrement plus que ce qui avait été calculé lors de la publication des chromosomes 2 et 3 (respectivement 1 gène pour 4 500 pb et 1 gène pour 4 800 pb) [38, 133].

Des introns ont été prédits dans 54% des gènes. Et en excluant les introns, les gènes ont une longueur moyenne de 2,3 kb ce qui est légèrement plus long que dans les autres génomes d’eucaryotes unicellulaires présentés ici, dont la longueur moyenne des gènes va de ~1,4 à ~1,8 kb. Plasmodium falciparum montre une plus grande proportion de gènes (15,5%) dont la taille est supérieure à 4 kb par comparaison à S. cerevisiae et S. pombe (respectivement 3,0% et 3,6%). La raison de cette augmentation reste incertaine. Beaucoup de ces grands gènes codent des protéines encore non caractérisées qui semblent être cytosoliques car elles ne présentent pas de peptide signal reconnaissable [132]. Cependant, dans les protéines déjà caractérisées, la présence d’insertions entre les domaines caractéristiques a aussi été observée [306], notamment dans les ARN polymérases I, II et III [123, 231, 232] qui sont des protéines nucléaires.

Tableau 3. Résumé des caractéristiques du génome de P. falciparum et comparaison avec d’autres génomes d’organismes eucaryotes unicellulaires.

(†) : en excluant les introns. (‡) : estimation.

(*) : chez E. cuniculi, ce sont des ARNr 16S et 23S. Il en existe deux par chromosome.

(#) : chez D. discoideum, ce sont des ARNr 5.8S, 17S et 26S. Les deux précurseurs des ARNr sont situés sur un ADN extrachromosomal palindromique de 88 kb présent à ~100 copies par noyau.

Les données concernant les ARNt et les ARNr de P. falciparum sont issues de la version 5.0 Bêta de PlasmoDB et ne correspondent pas tout à fait à ce qui a été publié en 2002 [132].

Sources des données pour les autres organismes : Cryptosporidium parvum [1], Encephalitozoon cuniculi [198], Dictyostelium discoideum [101, 361], Saccharomyces cerevisiae [407], Schizosaccharomyces pombe [406].

Figure 4. Quelques-uns des génomes entièrement séquencés (2002).

La figure montre le nombre de gènes en fonction de la taille des génomes eucaryotes ( ) et procaryotes ( ). A noter, l’échelle logarithmique utilisée pour le taille des génomes, exprimée en million de paires de bases. D’après R.F. Doolittle [93].

La traduction des protéines requiert les trois types d’ARN dans une cellule (Figure 5) : - l’ARN messager (ARNm) qui porte une partie de l’information génétique contenue

au niveau de l’ADN jusqu’au ribosome pour qu’elle soit traduite en protéine ;

- les ARN de transfert (ARNt) qui sont la clé du code génétique : ils transfèrent les acides aminés qui se trouvent dans le cytoplasme jusqu’au ribosome, lieu de la synthèse protéique.

- les ARN ribosomiques (ARNr) qui font partie intégrante des ribosomes. La biogenèse du ribosome, chez les eucaryotes, commence par la synthèse de deux précurseurs d’ARNr par deux ARN polymérases différentes qui seront maturés pour l’un en ARNr 5S et pour l’autre en ARNr 18S, 5.8S et 28S – on parlera alors d’unités 18S-5.8S-28S. Ces ARNr interagiront ensuite avec de nombreuses protéines ribosomiques pour former la petite sous-unité (avec l’ARNr 18S) et la grande sous-unité du ribosome (avec les ARNr 5S, 5.8S et 28S). Lorsque les deux sous-unités s’assemblent, il se forme, entre les deux, un sillon dans lequel passera l’ARNm [127] ;

En règle générale, ce sont les ARNr qui sont de loin les ARN les plus abondants dans une cellule (~82%) alors que les ARNt ne représentent qu’environ 16% et les ARNm environ 2% des ARN totaux d’une cellule.

Figure 5. Les trois types d’ARN jouent un rôle dans la synthèse des protéines.

Les trois types d’ARN sont indiqués en bleu. L’ARNm est traduit en protéine par l’action concertée de l’ARNt et du ribosome, qui est une structure hybride composée de nombreuses protéines et de 4 ARNr. Adaptée à partir du livre An introduction to genetic analysis [150].

Contrairement à d’autres eucaryotes, P. falciparum ne contient pas dans son génome de longues séries de gènes d’ARNr répétés en tandem (Tableau 3). Le parasite possède uniquement 3 unités 18S-5.8S-28S distribuées sur différents chromosomes qui sont toutes différentes les unes des autres au niveau de leur séquence mais aussi au niveau du stade parasitaire où elles sont exprimées [393]. Et l’ARN 5S est codé par trois gènes identiques répétés en tandem sur le chromosome 14.

Chez P. falciparum, 45 ARNt ont été identifiés (Tableau 3) : ils représentent tous les acides aminés. Chaque anticodon n’apparaît qu’une seule fois sauf celui de la méthionine pour laquelle un ARNt est réservé à l’initiation de la traduction et un autre code les méthionines internes. De plus, il existerait un anticodon pour la sélénocystéine. Chez la plupart des organismes séquencés jusqu’à aujourd’hui, les gènes codant les ARNt sont assez redondants, les deux seules exceptions connues étant celles des parasites intracellulaires Cryptosporidium parvum et Encephalitozoon cuniculi qui ne contiennent respectivement que 45 et 44 gènes d’ARNt dans leur génome [198]. Une troisième exception existe maintenant avec P. falciparum qui montre une redondance d’ARNt des plus minimales dans son génome nucléaire.

En résumé, le génome de Plasmodium falciparum se trouve parmi les plus petits génomes eucaryotes connus à ce jour. Il présente des similitudes avec d’autres génomes entièrement séquencés comme celui d’Encephalitozoon cuniculi, mais il montre aussi des particularités comme sa richesse en A+T. En effet, Plasmodium est l’organisme qui contient le pourcentage en A+T le plus élevé connu à ce jour.

Le protéome

Des 5 268 protéines prédites, 3 208 sont uniques : elles ne présentent pas assez d’homologie au niveau de leurs séquences avec des protéines d’autres organismes pour que l’on puisse les intégrer dans une famille de gènes et/ou leur assigner une fonction putative. Cela représente environ 60% des protéines, ce qui est beaucoup plus que ce que l’on peut rencontrer chez d’autres organismes [132]. Ceci peut être le reflet de la distance, en terme d’évolution, existant entre P. falciparum et les autres eucaryotes dont le génome a été

séquencé, cette distance pouvant être exacerbée par l’extrême richesse en (A+T) du génome du parasite.

Parmi ces 5 268 protéines prédites, 5% ont une similitude significative avec des protéines malheureusement encore hypothétiques existant chez d’autres organismes. Un tiers des protéines prédites présentent un ou plusieurs domaines transmembranaires et 17,3% possèdent un peptide signal ou un signal d’ancrage putatif.

La base de données Gene Ontology (GO) [14] fournit un vocabulaire très structuré pour des domaines biologiques spécifiques permettant de décrire des produits de gènes dans un organisme donné. Des termes de GO ont été assignés manuellement à 2 134 produits de gènes (~40%) de P. falciparum. Quand on compare cette annotation avec l’annotation des produits des gènes de S. cerevisiae [132], on se rend compte qu’on a pu appliquer des termes GO à une plus grande proportion des produits de gènes de la levure et ce, que l’on utilise le principe d’organisation selon la fonction moléculaire ou le processus biologique. Ceci vient du fait que le génome de la levure est bien mieux caractérisé que celui du parasite. Cependant, il existe deux exceptions, reflétant deux processus typiques du parasite : la catégorie ‘cell invasion or adhesion’ et la catégorie ‘physiological processes’ dans laquelle on retrouve les 208 gènes connus pour être impliqués dans l’échappement du système immunitaire de l’hôte.

Comme il existe des processus typiques du parasite, il existe des processus typiques de la levure (‘sporulation’ et ‘cell budding’). Néanmoins, très peu de produits de gènes de P.

falciparum sont associés aux catégories suivantes : ‘cell organization and biogenesis’, ‘cell

cycle’ ou ‘transcription factor’, par comparaison avec S. cerevisiae. Ces différences n’impliquent pas nécessairement qu’un plus faible nombre de gènes parasitaires soit impliqué dans ces processus, mais soulignent les domaines de la biologie du parasite où les connaissances sont encore limitées.

LA TRANSCRIPTION ET LA

REGULATION TRANSCRIPTIONNELLE

CHEZ LES EUCARYOTES

Chaque animal est constitué d’un ensemble d’unités vivantes qui portent chacune en soi toutes les caractéristiques de la vie. Rudolph Virchow (1858)

Les êtres vivants sont faits d’éléments si étroitement interdépendants que l’on ne juge bien de l’importance d’aucun d’eux sans tenir compte des autres. Harvey Lodish [238]

Ce que Rudolph Virchow a dit des animaux peut être appliqué à tout être vivant. En effet, tous les êtres vivants ont comme point commun d’être composé d’un élément de base : la cellule. La compréhension de la complexité d’une cellule passe par l’étude des nombreux éléments interdépendants qui la composent et nécessite de nombreuses disciplines de la biologie.

Dans la cellule se trouvent, entre autres, les gènes, c’est-à-dire les éléments qui déterminent non seulement la structure des protéines, mais aussi l’infrastructure cellulaire et orchestrent tout ce qui est nécessaire à la cohésion d’un organisme, qu’il soit uni- ou pluricellulaire. Dans ce chapitre sera abordé une des étapes de l’expression des gènes : la transcription et les mécanismes qui permettent de la moduler. Nous verrons que même si cette étape est une petite partie de la régulation de l’expression de gènes et de ce qui permet à une cellule de vivre, elle est extraordinairement complexe.

I - Structure du matériel génétique chez les eucaryotes

L’existence d’un noyau vrai contenant l’ADN génomique en tant qu’organite délimité par une enveloppe membranaire est une caractéristique de la cellule eucaryote. C’est un organite permanent de la vie de la cellule dite « interphasique ». Pendant l’interphase s’effectuent dans le noyau :

- la transcription des messages codés dans l’ADN qui interviennent dans la prolifération et/ou la différenciation des cellules ainsi que dans leurs activités physiologiques,

- la préparation à la division cellulaire grâce à la réplication de l’ADN dans les cellules appelées à se diviser.