2.2 I NITIATION DE LA TRANSCRIPTION CHEZ LES BACTÉRIES
2.2.1 Les facteurs sigma chez S. coelicolor A3(2)
2.3 FOUILLE DE DONNÉES ... 31
ANALYSE DU GÉNOME DE BACILLUS SUBTILIS ... 47
2.4 COMPLÉMENTS DE RÉSULTATS POUR L’IDENTIFICATION DE SFBS PUTATIFS SUR BACILLUSSUBTILIS ... 47
Cette partie concerne la stratégie développée pour la modélisation des sites de reconnaissance
des facteurs de transcription (TFBS pour transcription facteur binding site). Ce chapitre
s’article autour d’une publication parue dans la revue Jounal of Computational Biology(JCB)
et est organisé de la manière suivante.
La partie I donne une description biologique de la structure des TFBS dans les génomes
bactériens. Cette partie est plus détaillée que dans l’article publié dans JCB.
En revanche, la partie II reprend l’article publié dans JCBet commence par présenter un état
de l’art des méthodes de détection des TFBS. Ensuite, elle décrit notre système de fouille de
données pour l’identification de TFBS sans connaissance a priori du contenu génétique. La
fouille de données associe une méthode stochastique fondée sur les HMM d’ordre 2 pour
l’identification de motifs élémentaires et une méthode de classification de ces motifs
Modèle d’étude : Streptomyces
permettant de définir des graines pour la recherche de motifs composites sur-représentés dans
le génome. Notre approche permet l’identification de motifs composites dans une séquence
génomique en tenant compte de la variabilité des motifs et du séparateur. Nous présentons les
résultats obtenus sur la bactérie S. coelicolor.
La partie III développe les résultats obtenus sur Bacillus subtilis. L’existence de cette dernière
partie est motivée par un effort de précisions par rapport aux résultats décrits dans l’article
pour l’analyse du génome de B. subtilis.
Introduction
La flexibilité de l’expression génétique est essentielle dans l’adaptation des bactéries à leur
environnement. L’expression génétique comprend la transcription et la traduction de
l’information de chaque gène et aboutit à la synthèse d’une protéine. Elle assure aussi la
stabilité des transcrits et des produits. Dans la transcription, les différentes étapes que sont
l’initiation, l’élongation et la terminaison, sont soumises à une régulation. L’expression du
gène débute par la liaison de multiples facteurs protéiques, appelés facteurs de transcription
(TF pour Transcription Factor) à leur site de reconnaissance, les TFBS (Transcription Factor
Binding Sites). Les facteurs de transcription sont des protéines nécessaires à l’initiation de la
transcription et/ou à l’activation/répression. L’organisme modèle utilisé en laboratoire est la
bactérie Streptomyces coelicolorA3(2) qui possède un important réseau de régulation
transcriptionnelle incluant au moins 60 facteurs sigma (SF pour Sigma Factor) impliqués dans
la différenciation morphologique et biochimique. Cependant, seule une dizaine de ces sites de
reconnaissance ont été caractérisés expérimentalement (Potuckova et al., 1995 ; Paget et al.,
1998, Paget et al., 1999 ; Cho et al., 2001 ; Bibb et al., 2000, Kim et al., 2008). La détection
des TFBS in silicoconstitue un défi important et complexe, en particulier à cause du caractère
variable des motifs de reconnaissance. Les motifs constituant le TFBS présentent des
variations en termes de séquence, d’organisation et d’occurrence. Ces variabilités à différents
niveaux rendent difficile leur prédiction par des outils de bioinformatique.
2.1 Modèle d’étude : Streptomyces
Les Streptomyces sont des bactéries Gram positives à haut contenu en bases G et C et font
partie des Actinomycètes. Les Streptomyces sont des bactéries filamenteuses dont l’habitat
naturel est le sol. Ces bactéries possèdent l’un des plus grands génomes bactériens (~10 Mpb)
(Bentley et al., 2002), leur chromosome est linéaire (figure 9) et présente une composition en
bases G et C élevée (70-74 %). En plus de ces caractéristiques structurales et
compositionnelles, les Streptomyces ont un métabolisme secondaire complexe et original. Ils
synthétisent une diversité de métabolites secondaires ayant des structures chimiques variées.
L’application la plus connue des métabolites secondaires est la lutte anti-infectieuse. Les
Streptomyceset d’autres genres relativement proches produisent à eux seuls plus de 50 % des
antibiotiques commerciaux (Demain, 1999 ; Rigali et al., 2008). Il faut ajouter à cela que, les
Modèle d’étude : Streptomyces
comme antifongique, anti-parasitique, antivirale, anti-tumorale, immunosuppressive,
insecticide ou herbicide.
2.1.1 Originalités génomiques
La circularité des chromosomes a longtemps été considérée comme le paradigme chez les
bactéries. Comme l’indique cette étude qui porte sur 44 espèces (Volff et al., 2000) seules
quatre espèces (incluant Streptomyces) présentent un chromosome linéaire (Ferdows et
Barbour, 1989) (figure 9). Ces quatre espèces n’étant pas phylogénétiquement liées, cela
suggère une apparition sporadique de la linéarité.
Figure 9 : Distribution des chromosomes linéaires (traits) et circulaires (cercles) chez les
procaryotes (figure dérivée de Volff et Altenbuchner 2000).
Une autre originalité des Streptomyces provient de leur taille. Les génomes des eucaryotes
sont de grandes tailles et présentent une grande dispersion entre 10
7et 10
11paires de bases
(Gregory, 2005). Quant aux bactéries, elles présentent des génomes de petites tailles et
variables de 0,6x10
6à 10
7paires de bases. L’un des plus petits génomes bactériens séquencés
est celui de Mycoplasma genitalium qui a une taille de 580 Kpb et qui comporte 517 gènes
dont 37 gènes codant pour des ARN de structure (ARN ribosomiques et de transfert) (Fraser
et al., 1995). Ce dernier se développe dans les systèmes génitaux et respiratoires humains. A
l’opposé, le plus grand génome bactérien séquencé est celui de Sorangium cellulosum 'So ce
56' qui a une taille de 13 Mpb comprenant pas moins de 9 703 gènes (NC_010162
1A la différence des eucaryotes, le génome des bactéries montre une corrélation entre le
nombre de gènes et la taille du génome (Mira et al., 2001). Cette corrélation est aussi
)
(Schneiker et al., 2007). Notre organisme modèle, Streptomyces coelicolor A3(2), fait partie
des plus grands génomes bactériens séquencés, et atteint une taille d’environ 8,7 Mpb
contenant pas moins de 7 912 gènes (Bentley et al., 2002).
1