• Aucun résultat trouvé

Expression des AtRH et analyse des promoteurs

IV. Etude des promoteurs

A. Caractérisation des séquences promotrices

Afin d’identifier d’autres éléments pouvant expliquer l’expression des gènes AtRH, nous avons analysé la séquence promotrice des 56 gènes AtRH par deux approches informatiques : une représentation de l’ADN en 3 dimensions et une recherche de motifs par le logiciel RSAT.

Pour ces deux approches, nous avons défini comme région promotrice des AtRH, les mille paires de bases situées en amont du codon d’initiation de la traduction. Une fois la position de l’ATG initiateur définie pour chaque AtRH, les séquences promotrices ont été extraites automatiquement des fichiers contenant les séquences génomiques. C’est ce jeu de séquences qui a été utilisé pour l’analyse des promoteurs.

B. Représentation en 3 dimensions

L’approche utilisée au laboratoire provient d’une collaboration avec une équipe de recherche du LIMSI-CNRS. Cette équipe exploite un modèle pour calculer la trajectoire que prendrait l’ADN nu sous la seule contrainte physique de l’enchaînement des bases. L’algorithme permet de représenter les séquences d’ADN par une courbe dans un espace à trois dimensions et de calculer sa courbure.

Au laboratoire, ce logiciel a été utilisé pour rechercher des courbures particulières au niveau des sites d’épissage des introns. Nous l’avons aussi utilisé avec les promoteurs des 56 AtRH mais l’allure des courbes obtenues ne nous a pas permis de mettre en évidence de caractéristiques communes. En effet, il est très difficile pour l’œil humain de comparer des tracés en 3D. De plus, le nombre de séquences était trop faible pour effectuer des calculs statistiques.

C. Analyse des promoteurs et de la région 5’ UTR avec le logiciel RSAT

Le logiciel Regulatory Sequence Analysis Tools (van Helden et al., 1998) a été développé pour rechercher par une méthode statistique des motifs sur-représentés dans un jeu de séquences. Il est basé sur le principe que les gènes répondant aux même signaux de régulation doivent présenter des sites conservés, correspondants à la zone de fixation du(des) facteur(s) de transcription les régulant. Ainsi une analyse statistique des séquences des régions promotrices d’un groupe de gènes régulés par le même facteur devrait faire apparaître des motifs sur-représentés dans ce groupe de gène par rapport aux séquences promotrices de

l’ensemble du génome. Ce logiciel a été mis au point chez S. cerevisiae. Il est actuellement disponible pour un grand nombre de génomes entièrement séquencés soit plus d’une centaine de génomes procaryotes et cinq génomes eucaryotes dont celui d’A. thaliana19.

Comme les AtRH présentent un profil d’expression similaire, nous avons posé l’hypothèse que les gènes de cette famille seraient régulés par le(s) même(s) facteur(s) de transcription. Ainsi, ils forment un ensemble de gènes cohérents avec les critères d’analyse du logiciel RSAT.

1. Deux motifs sur-représentés dans le promoteur des AtRH

Le promoteur et la région 5’ UTR des 56 gènes de la famille AtRH ont donc été analysés à l’aide du logiciel RSAT (van Helden et al., 1998). Cette analyse révèle la présence de 2 motifs sur-représentés, AAACCCTA / TAGGGTTT (séquences directe et inverse-complémentaire) et GGCCCA / TGGGCC, avec un index de significativité de 6,02 et 1,98 respectivement.

Le premier motif, AAACCCTA, correspond à la « telo-box » ou boîte télo, identifiée dans le promoteur des quatre membres de la famille AtEF1α (Axelos et al., 1989) et conservée dans tous les promoteurs des gènes EF1α connus chez les Végétaux. Cette boîte a été également décrite dans la région 5’ d’autres gènes codant des composants de l’appareil de traduction d’A. thaliana (Manevski et al., 1999). La boîte télo est impliquée dans l’activation de l’expression des gènes dans les primordia racinaires, en coopération avec la boîte tef ou « tef-box » (Manevski et al., 1999; Manevski et al., 2000).

Le second motif, GGCCCA, a d’abord été impliqué dans le contrôle de l’expression des gènes PCNA (Proliferating Cellular Nuclear Antigen) chez le Riz (Kosugi et al., 1995; Kosugi & Ohashi, 1997; Kosugi & Ohashi, 2002) et A. thaliana (Tremousaygue et al., 2003). Il a été décrit dans le promoteur des gènes codant les protéines ribosomiques (Tremousaygue et al., 2003).

2. Analyse à l’échelle du génome

a. Abondance des boîtes télo et GGCCCA

Nous avons examiné la séquence promotrice des AtRH correspondant aux 500 pb en amont du codon d’initiation de la traduction (Tableau 13). Au moins une boîte télo a été identifiée dans

Tableau 13 Nombre de gènes d’A. thaliana présentant au mois une boîte télo, au moins une boîte GGCCCA ou au moins un exemplaire de chaque boîte dans les 500 pb en amont du début de la traduction.

Les gènes ont été recherchés dans la base de données FLAGdb++20 par des mots clés ou par une liste de numéros d’accession (italiques). a Gènes codant les protéines du cycle cellulaire (Vandepoele et al., 2002).

Fonctions Nombre total de gènes Nombre de gènes avec au moins une boîte télo % Nombre de gènes avec au moins une boîte GGCCCA % Nombre de

gènes avec les deux boîtes

%

Tous les gènes 24659 3831 16 4036 16 937 4

Protéines ribosomiques 309 197 64 168 54 128 41 AtRH 56 27 48 21 38 12 21 Traduction 62 26 42 19 31 11 18 Elongation 30 11 37 7 23 4 13 Protéasome 52 15 29 27 52 10 19 ARN-t synthétases 45 12 27 9 20 5 11 MADS 96 24 25 6 6 2 2 PPR 470 89 19 133 28 24 5

Protéines du cycle cellulairea 61 9 15 5 8 0 0

Phosphatases 205 28 14 28 14 2 1 Transcription 472 60 13 32 7 7 1 Histones 58 7 12 21 41 3 6 Facteurs MYB 184 20 11 7 4 2 1 Sérine/thréonine kinases 131 11 8 17 13 4 3 Métabolisme 2649 220 8 329 12 47 2 Cytochrome P450 245 12 5 18 7 0 0

Toutes les catégories 5125 768 15 847 17 261 5

27 AtRH (48%) et au moins une boîte GGCCCA dans 21 AtRH (38%). Douze AtRH (21%) présentent au moins un exemplaire de chacune des deux boîtes. La même étude a été réalisée sur l’ensemble des 24,659 gènes d’A. thaliana (prédictions TIGR/GenBank) à l’exception des gènes des régions répétées comme les transposons. Environ 16% (3831) des gènes contiennent une boîte télo, environ 16% (4036) présentent une boîte GGCCCA et 4% (937) possèdent les deux boîtes télo et GGCCCA (Tableau 13) dans les 500 pb en amont de leur codon d’initiation de la traduction.

La différence de fréquence de la présence des deux boîtes entre l’ensemble des gènes d’A. thaliana et au sein des AtRH suggère que ces deux boîtes pourraient être présentes de façon préférentielle dans certaines familles de gènes. Ainsi, une recherche exhaustive dans les 500 pb en amont du codon d’initiation de la traduction de plusieurs catégories fonctionnelles de gènes ou de grandes familles de paralogues d’A. thaliana a été réalisée (Tableau 13). Les gènes correspondant à chaque catégorie ont été recherchés à l’aide de mots clé dans la base de donnée FLAGdb++, sauf les AtRH, déjà identifiées et dont la liste des numéros d’accession était disponible au laboratoire, et les protéines du cycle cellulaire qui correspondent à l’ensemble défini par Vandepoele et ses collaborateurs (Vandepoele et al., 2002). Parmi ces gènes, représentant environ 25% du génome, 15% contiennent une boîte télo, 17% une boîte GGCCCA et 5% les deux. La proportion de gènes présentant l’une ou l’autre des boîtes varie beaucoup selon le groupe de gènes considéré. La boîte télo est présente dans 5% des gènes de la famille des P450 et dans 64% des gènes de la famille des protéines ribosomiques. La boîte GGCCCA est présente dans 4% des gènes de la famille des facteurs MYB et dans 54% des gènes de la famille des protéines ribosomiques. De plus, l’abondance relative de chaque boîte est différente selon les catégories fonctionnelles. Par exemple, les familles des histones et des phosphatases présentent une fréquence de boîte télo similaire : 12% et 14 % des gènes respectivement, alors que l’occurrence de la boîte GGCCCA est respectivement de 41% et 14% des gènes pour ces deux familles. Inversement, les familles des AtRH et des histones présentent une fréquence de boîte GGCCCA similaire : 41% et 38% des gènes, respectivement et des fréquences de boîte télo différentes : 48% et 12% des gènes.

Les gènes classés dans les catégories fonctionnelles telles que traduction, élongation et protéasome présentent une proportion élevée de gènes possédant le motif télo : 30 à 40% environ. Par contre, les gènes classés dans les catégories transcription et cycle cellulaire se rapprochent beaucoup plus de la moyenne avec 13% et 15% de gènes portant un motif télo. Et enfin, seulement 8% des gènes impliqués dans le métabolisme présentent un motif télo.

0

20

40

60

80

100

120

140

160

20

60

100

140

180

220

260

300

340

380

420

460

500