HAL Id: inria-00000191
https://hal.inria.fr/inria-00000191
Submitted on 23 Aug 2005
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires
SIGffRid : Programme de recherche des sites de fixation des facteurs de transcription par approche comparative
Fabrice Touzain, Sophie Schbath, Isabelle Debled-Rennesson, Bertrand Aigle, Pierre Leblond, Gregory Kucherov
To cite this version:
Fabrice Touzain, Sophie Schbath, Isabelle Debled-Rennesson, Bertrand Aigle, Pierre Leblond, et al..
SIGffRid : Programme de recherche des sites de fixation des facteurs de transcription par approche
comparative. Journées Ouvertes Biologie Informatique Mathématiques - JOBIM’05, Guy Perrière,
Alain Guénoche et Christophe Geourjon, Jul 2005, Lyon, France. pp.417-425. �inria-00000191�
SIGffRid : Programme de recherche des sites de fixation des facteurs de transcription par approche comparative
F. Touzain a , S. Schbath b , I. Debled-Rennesson a , B. Aigle c , P. Leblond c , et G. Kucherov a
a Laboratoire Lorrain de Recherche en Informatique et ses Applications, Vandoeuvre-L` es-Nancy, France,
b Unit´ e Math´ ematique Informatique et G´ enome INRA, Jouy-en-Josas, France,
c Laboratoire de G´ en´ etique et de Microbiologie de l’Universit´ e Henri Poincar´ e, de Nancy, France.
email : touzain@loria.fr 23 aoˆ ut 2005
R´ esum´ e
Notre objectif est la recherche des sites de fixa- tion des sous-unit´ es σ de l’ARN polym´ erase dans des g´ enomes bact´ eriens, sites g´ en´ eralement compos´ es de deux « boˆıtes » dites -35 et -10 en r´ ef´ erence au point d’initiation de la transcription. En utilisant la g´ enomique comparative, nous souhaitons nous as- surer de la conservation de couples de boˆıtes sta- tistiquement int´ eressantes (programme R’MES [1]) li´ ee ` a la pr´ esence d’un motif r´ egulateur fonction- nel. Nous autorisons un espacement variable entre boˆıtes -35 et -10 conserv´ ees dans les s´ equences in- terg´ eniques amonts de g` enes suppos´ es orthologues
1. Cette d´ emarche, g´ en´ eralisable ` a tout couple de bact´ eries proches, permet de pr´ edire les sites de fixa- tion des facteurs de transcription (SFFT) qui leur sont communs. Un descriptif du fonctionnement du programme est pr´ esent´ e. Plusieurs r´ esultats promet-
1
Sont dits « orthologues » deux g` enes de bact´ eries diff´ erentes issus d’un g` ene d’une bact´ erie ancestrale com- mune.
teurs ressortent de son utilisation. Trois SFFT connus sont retrouv´ es ou confirm´ es, avec un grand nombre de nouveaux g` enes co-r´ egul´ es candidats pour cha- cun. Deux groupes de motifs ressemblent ` a divers SFFT r´ ef´ erenc´ es, sugg´ erant certaines hypoth` eses bio- logiques sur les r´ esultats connus. Au moins deux nou- veaux SFFT sont propos´ es, ` a la fois chez Strepto- myces coelicolor et Streptomyces avermitilis.
1 Introduction
De nombreux programmes ont ´ et´ e con¸cus
dans le but de d´ ecouvrir des SFFT. Certains
sont compar´ es dans un article r´ ecent [2] qui
montre la diversit´ e et le nombre des solutions
avanc´ ees pour la r´ esolution de ce probl` eme fon-
damental en bioinformatique, qu’un paragraphe
ne saurait r´ esumer. La plupart d’entre eux ne
peuvent pas utiliser d’espacement variable entre
deux mots (MEME [3]) ou font appel ` a des
m´ ethodes pour lesquelles le bruit de fond peut
interf´ erer avec le motif biologique (Bioprospector [4]). Il existe un programme permettant de fixer pr´ ecis´ ement les contraintes structurelles des mo- tifs recherch´ es : Smile [5]. N´ eanmoins, ` a vocation plus g´ en´ eraliste, il n’oriente pas ses comparaisons en fonction de donn´ ees phylog´ eniques et impose de fixer un quorum pour la repr´ esentation d’un motif dans les s´ equences d’int´ erˆ et.
Dans le cadre de la recherche de SFFT dans des g´ enomes bact´ eriens, nous avons cibl´ e nos compa- raisons et permis un espacement variable entre boˆıtes -35 et -10 potentielles, d´ efinies en nous appuyant sur des statistiques rigoureuses. Telles sont quelques-unes des am´ eliorations apport´ ees par le programme SIGffRid (SIGma Factor (bin- ding site) Finder using R’mes to select Input Data). D´ ecrit ci-apr` es, il s’appuie sur l’analyse simultan´ ee de couples de s´ equences extraits de deux g´ enomes de bact´ eries phylog´ en´ etiquement proches, et l’utilisation du programme R’MES [1].
2 Donn´ ees initiales
Le programme principal n´ ecessite plusieurs types de donn´ ees :
- la s´ equence totale du g´ enome qui nous int´ eresse (chromosome et plasmide(s)),
- toutes les s´ equences amonts de g` enes, fu- sionn´ ees si elles se chevauchent et sont de mˆ eme orientation (nous consid´ erons les deux brins d’ADN distinctement), pour chaque bact´ erie (Fig 1),
- les mots statistiquement sur-, ou sur- et sous- repr´ esent´ es chez la bact´ erie d’int´ erˆ et (sorties de R’MES modifi´ ees),
- les probabilit´ es de transition d’un mod` ele de Markov d’ordre 3 ajust´ e sur l’ensemble du g´ enome pour chaque bact´ erie,
- des fichiers comportant chacun deux s´ equences interg´ eniques amonts de g` enes orthologues (une par bact´ erie).
Des scripts ont ´ et´ e r´ ealis´ es pour obtenir ces donn´ ees ` a partir de fichiers embl, genbank et des sorties standard de R’MES. Plusieurs crit` eres biologiques sont pris en consid´ eration (donn´ ees pouvant ´ evoluer en fonction des connaissances que nous avons des SFFT) :
- longueurs minimale et maximale de l’espace- ment entre boˆıtes -35 et -10 tous facteurs sigma confondus (10 et 25 respectivement par d´ efaut),
- variabilit´ e de cet espacement pour un facteur sigma et une bact´ erie donn´ es (1 par d´ efaut), - variabilit´ e de cet espacement pour un fac-
teur sigma donn´ e entre deux bact´ eries phy- log´ en´ etiquement proches (1 par d´ efaut).
s. amont 3: −350 +10
gène 1 gène 2
gène 3 séquences amonts fusionnées retenues
s. amont 1 s. amont 2
Fig. 1 – D´ efinition des s´ equences amonts utilis´ ees
3 Approche
Les techniques d´ ecrites supposent plusieurs hypoth` eses biologiques :
- les SFFT sont localis´ es en amont des g` enes, - des g` enes orthologues de bact´ eries phy-
log´ en´ etiquement proches ont de bonnes
chances d’avoir conserv´ e le mˆ eme type de
r´ egulation transcriptionnelle,
- la conservation de la structure de l’ADN recon- nue par une sous-unit´ e σ de l’ARN polym´ erase se traduit par une conservation de portions de s´ equences nucl´ eotidiques (souvent nomm´ ees boˆıtes -35 et -10 en r´ ef´ erence ` a leur position ap- proximative par rapport au site d’initiation de la transcription).
La premi` ere ´ etape consiste ` a d´ eterminer les boˆıtes ` a rechercher. Nous s´ electionnons les mots donn´ es par R’MES [1]
(http ://www-mig.jouy.inra.fr/ssb/rmes)
comme statistiquement sur-repr´ esent´ es sur l’ensemble du g´ enome de la bact´ erie d’int´ erˆ et.
L’´ etude des boˆıtes -35 et -10 connues chez Streptomyces coelicolor a en effet montr´ e que les mots correspondants, ou des sous-mots de taille raisonnable les composant, pr´ esentaient un score d’exceptionnalit´ e positif et tr` es ´ elev´ e dans la sortie de R’MES.
Intuitivement, si nous consid´ erons un motif de SFFT, nous devrions avoir un faible nombre d’occurrences pour chaque boˆıte sur la totalit´ e d’un g´ enome comparativement aux autres mots.
En effet, si une prot´ eine se fixe sur les bases correspondant ` a ce motif, il est fort possible qu’elle puisse interagir avec chacune de ses composantes. Celles-ci devraient donc avoir une influence n´ egative sur la disponibilit´ e de cette prot´ eine, donc sur le processus de transcrip- tion qui lui est associ´ e. N´ eanmoins, les boˆıtes des SFFT devraient ˆ etre significativement sur-repr´ esent´ ees par rapport ` a leur nombre attendu si nous tenons compte des probabilit´ es des sous-mots les composant. En revanche, la sous-repr´ esentation de ces derniers explique le plus souvent le faible nombre d’occurrences observ´ ees d’une boˆıte sur la totalit´ e du g´ enome.
Nous nous appuyons sur les relations d’ortho- logies issues de la base de donn´ ees MBGD [6],
et regroupons les paires de s´ equences amonts de g` enes orthologues via les familles d´ efinies dans celle-ci, pour diminuer le nombre de s´ equences traˆıt´ ees simultan´ ement. Ces familles ne sont que de grandes cat´ egories de g` enes permettant de scinder les paires de s´ equences amonts d’orthologues en sous-groupes, sinon coh´ erents du point de vue de la r´ egulation, au moins lo- giques par rapport aux fonctions suppos´ ees des g` enes. Elles permettent de limiter la m´ emoire n´ ecessaire au programme qui traˆıtera successi- vement chaque groupe de g` enes. Via des scripts perl additionnels, nous r´ ecup´ erons les s´ equences interg´ eniques amonts correspondant ` a des g` enes orthologues probables group´ es par paires (une s´ equence interg´ enique par bact´ erie pour chaque relation d’orthologie, des positions -350 -au mieux- ` a +10 par rapport au site d’initiation de la traduction et d’une taille minimale de 30 nucl´ eotides). Nous y recherchons alors les couples de mots int´ eressants conserv´ es avec un espacement compatible avec la fixation d’un facteur de transcription (Fig 2). Pour chaque paire de s´ equences amonts d’orthologues, nous obtenons donc une liste de candidats en tant que SFFT.
Ces r´ esultats interm´ ediaires sont alors group´ es (et dupliqu´ es si besoin) par similarit´ es de dou- blet de trinucl´ eotides (un pour chaque boˆıte) et d’espacement (avec une variation de 1 autoris´ ee) (Fig 3).
A partir de cette ´ etape, nous allons traˆıter les s´ equences de chaque bact´ erie s´ epar´ ement, ceci afin de pouvoir mettre ` a jour des motifs proches mais ayant ´ evolu´ e diff´ eremment pour chaque bact´ erie.
Un tri des s´ equences concern´ ees est r´ ealis´ e
de concert avec l’extension du motif qui leur
est commun et l’´ evaluation du motif consen-
(...)
mots donnés par R’MES trinucléotides communs bactérie 1
bactérie 2 séq. 1 séq. 1
séq. n séq. n séq. 3 séq. 3
séq. 9 séq. 9
SS1 SS2
Fig. 3 – Conservation des mots int´ eressants dans un ensemble de paires de s´ equences interg´ eniques amonts d’orthologues
SS1
− si n < 4 ARRET
t g c a
(...)
Bernouilli MM3
(...)
AGAAT 19−20 GTT
ENSEMBLE INTERESSANT
− si majoritairement dans les séquences amonts (Tr > 3,84)
− sinon
n autres séquences bactérie 1
t1 t2
t1’ t2
trinucléotides communs
− sinon
Fig. 4 – Extension des trinucl´ eotides communs, tri des s´ equences
Séquence 1 Séquence 2
GGAA GGAA
GTT GTT
D (10)
12 30
40 22
10 <= ESPACE <= 25
Même espacement entre GAAT et GTT dans les deux séquences.
D va permettre l'accès aux mots présentant un espacement proche dans les deux séquences
(D, D-1 et D+1, dans le cas d'une variabilité de ±1).
D (10)
Fig. 2 – Conservation des mots int´ eressants dans les s´ equences interg´ eniques amonts d’une paire d’orthologues
sus r´ esultant. Cette extension de motif s’ap- puie sur un mod` ele probabiliste (Fig 4). Elle se poursuit r´ ecursivement tant qu’aucun mo- tif int´ eressant n’a ´ et´ e mis en exergue et que le nombre de s´ equences est suffisant. Nous d´ ecrivons pr´ ecis´ ement dans le paragraphe sui- vant les techniques utilis´ ees.
3.1 Algorithme
3.1.1 D´ efinition des mots recherch´ es
Vu les tailles de mots (¡8) et de g´ enomes (¿8 Mb) consid´ er´ ees, nous avons utilis´ e R’MES dans sa version approximation gaussienne du comptage particuli` erement adapt´ ee aux mots fr´ equents. Nous avons analys´ e conjointement les mots et leur compl´ ementaire invers´ e (option - fam). Les scores d’exceptionnalit´ e calcul´ es par R’MES correspondent aux transformations pro- bit des p-values approch´ ees, une p-value ´ etant la probabilit´ e qu’un mot soit observ´ e autant de fois dans une s´ equence al´ eatoire de mˆ eme composi- tion que le g´ enome analys´ e (mod` ele markovien d’ordre maximal). Ainsi, ces scores sont compa- rables ` a des variables de loi N (0, 1). Pour d´ ecider de l’ensemble des mots de fr´ equence exception-
nelle, nous avons d´ efini, pour chaque longueur h de mots, un seuil t inspir´ e du crit` ere de Bonfer- roni :
P( N (0, 1) ≥ t) = α
rmes4 h , o u ` α
rmes= 5.10 −3 Cela nous a donc donn´ e un ensemble W de mots exceptionnels de longueur 3 ≤ h ≤ 7 sur l’alpha- bet A = { a, c, g, t } .
Ces mots sont recherch´ es dans chaque paire de s´ equences interg´ eniques amonts d’orthologues.
3.1.2 Propri´ et´ es des motifs retenus comme pou- vant ˆ etre des SFFT
Soient d min et d max les espacements minimaux et maximaux autoris´ es entre les boˆıtes -35 et -10 (donn´ ees biologiques).
Soient D la variation biologique d’espacement accept´ ee entre les SFFT des deux s´ equences amonts, et sp1 et sp2 deux espacements ∈ [d min ..d max ].
Soit un triplet C i = { w 1 i , w i 2 , { s 1 i , s 2 i }} corres- pondant aux mots w i 1 et w 2 i ∈ W dans les s´ equences amonts d’orthologues s 1 i et s 2 i . C i est consid´ er´ e comme int´ eressant si w 1 i et w i 2 sont pr´ esents dans s 1 i et s 2 i avec des espacements sp1 et sp2 respectivement tels que sp2 = sp1 ± D.
Si p s
1i(w 1 i ), p s
1i(w 2 i ) sont les positions de w i 1 et w 2 i respectivement dans s 1 i et p s
2i(w 1 i ), p s
2i(w 2 i ) les positions de w 1 i et w 2 i respectivement dans s 2 i , nous avons la relation suivante :
p s
1i(w i 1 ) − p s
2i(w 1 i ) = p s
1i(w i 2 ) − p s
2i(w 2 i ) ± D (1)
Cela nous permet de grouper les mots par espa-
cements proches. Nous ne gardons pour chaque
paire de s´ equences d’orthologues que les couples
C i qui v´ erifient la relation (1), candidats poten-
tiels en tant que SFFT.
3.1.3 Extension de motifs et tri des s´ equences Apr` es cela, nous regroupons les r´ esultats in- term´ ediaires (ensemble des C i ) en fonction des trinucl´ eotides qui composent w 1 i et w 2 i .
Soient t1 et t2 deux trinucl´ eotides et d t 1− t 2 l’es- pace qui les s´ epare.
Soit e un entier.
Pour chaque triplet (t1, t2, d t 1− t 2 ) possible en consid´ erant l’ensemble des C i obtenus pour toutes les paires de s´ equences amonts d’ortho- logues, nous allons cr´ eer un ensemble C de tous les C i qui v´ erifient :
(t1 ⊂ w 1 i ) ∧ (t2 ⊂ w 2 i ) ∧ (d t 1− t 2 ∈ [e..e + D]) De chaque C , nous r´ ecup´ erons deux ensembles de s´ equences SS 1 = s 1 i ∈ C et SS 2 = s 2 i ∈ C , un pour chaque bact´ erie (Fig 3).
Soit min SS le nombre de s´ equences distinctes minimal intervenant dans l’obtention d’un mo- tif de SFFT candidat. Nous ne gardons chaque ensemble SS 1 ou SS 2 que s’il pr´ esente au moins min SS s´ equences distinctes.
t1 est le trinucl´ eotide de gauche qui sera inclus dans la boˆıte -35 d’un ´ eventuel SFFT potentiel et
t2 est le trinucl´ eotide de droite qui sera inclus dans la boˆıte -10 du mˆ eme SFFT potentiel.
Pour chacun des ensembles SS 1 et SS 2 , les s´ equences sont tri´ ees par comptage et ´ evaluation statistique des lettres jouxtant t1 et t2. Notre crit` ere statistique s’appuie sur les probabilit´ es de transition d’un mod` ele de Markov d’ordre 3 ajust´ e pour chaque bact´ erie sur l’ensemble du g´ enome.
Soient les positions :
- 1 : imm´ ediatement ` a gauche de t1, - 2 : imm´ ediatement ` a droite de t1, - 3 : imm´ ediatement ` a gauche de t2, - 4 : imm´ ediatement ` a droite de t2.
Soient la position g ∈ { 1, 3 } et la position d ∈ { 2, 4 } .
Soit ∈ A , le nucl´ eotide dont nous consid´ erons la probabilit´ e d’obtention ` a une position donn´ ee.
Soit n le nombre de s´ equences concern´ ees.
Soit t le trinucl´ eotide ` a ´ etendre.
Soit j ∈ [1..2] fix´ e, l’indice permettant de pr´ eciser l’ensemble de s´ equences traˆıt´ e.
Pour l’extension d’une lettre de droite, posons : Y i d () =
1 si la i` eme s´ equence de SS j poss` ede le nucl´ eotide en position d, 0 sinon.
Le nombre N d () de s´ equences poss´ edant le nucl´ eotide en position d, N d () = n i =1 Y i d (), suit alors une loi binomiale B (n, N (t)/N (t)), o` u N ( · ) d´ esigne le comptage et t le t´ etranucl´ eotide form´ e de t suivi de . Nous pouvons ainsi calculer la significativit´ e p d () du nombre de s´ equences avec un en position d :
p d () = 1 −
x −1 y =0
C n y ( N (t)
N (t) ) y (1 − N (t) N (t) ) n − y Pour l’extension d’une lettre de gauche, posons : Y i g () =
1 si la i` eme s´ equence de SS j poss` ede le nucl´ eotide en position g, 0 sinon.
Le nombre N g () de s´ equences poss´ edant le nucl´ eotide en position g, N g () = n i =1 Y i g (), suit alors une loi binomiale B (n, N (t)/N (t)), o` u N ( · ) d´ esigne le comptage et t le t´ etranucl´ eotide form´ e de t pr´ ec´ ed´ e de . Nous pouvons ainsi calculer la significativit´ e p g () du nombre de s´ equences avec un en position g :
p g () = 1 −
x −1 y =0
C n y ( N (t)
N (t) ) y (1 − N(t)
N (t) ) n − y
Nous choisissons le nucl´ eotide k et la position i ∈ { 1, 2, 3, 4 } les plus significatifs (minimisation des probabilit´ es (p d (), p g ())) avec N d | g () ≥ 4.
Les s´ equences poss´ edant la lettre k ` a la posi- tion i sont regroup´ ees pour les ´ etapes suivantes (Fig 4). Un motif correspondant ` a cet ensemble de s´ equences est g´ en´ er´ e et ´ evalu´ e (cf. § 3.1.4).
- S’il est consid´ er´ e comme int´ eressant, le proces- sus d’extension se poursuit sans test sur R et T R (cf. § 3.1.4), pour trier les s´ equences et fa- ciliter leur comparaison visuelle (jusqu’` a ce que l’extension concerne moins de 4 s´ equences), et nous marquons cet ensemble de s´ equences pour son affichage ult´ erieur dans les r´ esultats (en en- registrant l’intervalle des indices de s´ equences int´ eressantes, la matrice d’´ evaluation et le mo- tif correspondant (cf. § 3.1.4)),
- Si le nombre de s´ equences concern´ ees devient trop faible (< min SS ), le processus s’arrˆ ete, - Si le motif n’est pas int´ eressant, nous poursui- vons l’extension, en rempla¸cant :
- t1 par t1 = k.t1[1].t1[2], si i = 1, - t1 par t1 = t1[2].t1[3].k, si i = 2, - t2 par t2 = k.t2[1].t2[2], si i = 3, - t2 par t2 = t2[2].t2[3].k, si i = 4,
o` u . est l’op´ erateur de concat´ enation.
(d´ eplacement d’une lettre dans toutes les s´ equences concern´ ees)
Les autres s´ equences sont traˆıt´ ees distinctement suivant la mˆ eme d´ emarche.
3.1.4 G´ en´ eration d’un motif consensus et son
´
evaluation
A chaque ´ etape de regroupement, un motif g´ en´ erique est d´ eduit correspondant ` a deux mots avec un espacement variable. Il est construit en ajoutant au couple de tinucl´ eotides les lettres pr´ esentes dans 70% des s´ equences concern´ ees (par extension de ces derniers en s’appuyant sur
une double matrice position-sp´ ecifique) (Fig 5).
Ce motif est recherch´ e dans l’ensemble des s´ equences amonts fusionn´ ees pour chaque brin, et dans le g´ enome entier dans les deux sens. De ces comptages est d´ eduit un rapport R :
R = | motif s´ eq amonts |
| motif s´ eq totale 2 sens |
Ce rapport mesure la sp´ ecificit´ e du motif pour les s´ equences amonts. Il est g´ en´ eralement admis que les SFFT sont localis´ es en amont des g` enes. Pour tester la significativit´ e du rapport R, nous effec- tuons un test du rapport de vraisemblance [7]
dont la statistique de test T R suit une loi χ 2 { 1 } et est donn´ ee par :
T R = 2
N 1 log
N
1L
1N L
+ N 2 log
N
2L
2N L
avec
L 1 = l amont − (l motif × nbseq), L 2 = 2(l genome − l motif ), L = L 1 + L 2 , et N = N 1 + N 2 , o` u
l amont est la somme des longueurs des nbseq s´ equences amonts de g` enes,
l genome la longueur totale du g´ enome complet et l motif la longueur maximale pouvant ˆ etre prise par l’expression r´ eguli` ere correspondant au mo- tif d´ enombr´ e.
N 1 est le nombre d’occurrences du motif dans les s´ equences amonts, et
N 2 le nombre d’occurrences dans le g´ enome total et son compl´ ementaire invers´ e.
T R conditionne la poursuite ou l’arrˆ et de l’exten- sion du motif consensus par tri des s´ equences.
Une s´ election des r´ esultats les plus int´ eressants est faite via les rapports R et T R . La relation :
(R ≥ R min ) ∧ (T R ≥ T R min )
doit ˆ etre v´ erifi´ ee,
avec R min le seuil minimal de sp´ ecificit´ e (pour le moment empirique, fix´ e ` a 0.35, mais qui de- vrait ` a terme ˆ etre d´ eduit et adapt´ e pour chaque bact´ erie), et T R min le quantile ` a 5% (α
TR min) de la loi du χ 2 .
3.1.5 Visualisation des r´ esultats
La figure 5 montre l’aspect d’un motif r´ esultat et l’ensemble des s´ equences ayant permis de le g´ en´ erer.
Ils sont compl´ et´ es par une recherche automa- tique du motif g´ en´ erique dans l’ensemble des s´ equences amonts de la bact´ erie concern´ ee, four- nissant ainsi les identifiants des g` enes, et les po- sitions des occurrences par rapport au d´ ebut de la traduction.
Les seuls travaux pour validation de ces r´ esultats sont donc d’ordre biologique : v´ erification de la coh´ erence des fonctions des g` enes li´ es par un mˆ eme motif de r´ egulation et exp´ eriences. Aucun post-traitement manuel des r´ esultats ne sera n´ ecessaire avant interpr´ etation dans la version finalis´ ee du programme.
Toutes les ´ etapes, de la r´ ecup´ eration des ortho- logues et l’extraction des s´ equences, en passant par l’utilisation de R’MES jusqu’` a l’affichage des r´ esultats sont automatis´ ees en PERL.
4 Discussion
4.1 Point de vue informatique
Nombre d’id´ ees int´ eressantes pour la recherche des sites SFFT avaient ´ et´ e utilis´ ees isol´ ement : emploi de motifs composites [5, 4], de rela- tions d’orthologies pour cibler les comparaisons [8, 9], de statistiques pour post-traˆıtement des r´ esultats [5]. Elles n’avaient n´ eanmoins jamais
´ et´ e combin´ ees. Le programme pr´ esent´ e ici n’est pas exhaustif, puisqu’il n´ ecessite encore le re- groupement des g` enes des bact´ eries concern´ ees en grandes fonctions (16 dans le cas pr´ esent) du fait de la grande taille des g´ enomes utilis´ es.
Une ´ evolution prochaine devrait permettre le traˆıtement ` a partir de toutes les relations d’or- thologie disponibles entre deux bact´ eries, quelles que soient les tailles de leur g´ enomes. Ceci est rendu possible par une s´ election statistique ri- goureuse des mots recherch´ es.
D’autres caract´ eristiques propres ` a ce pro- gramme tiennent mieux compte de la nature des SFFT. Ainsi, des variations d’un mˆ eme SFFT peuvent exister dans deux bact´ eries phy- log´ en´ etiquement proches [10]. Nous les dis- tinguons par l’alignement des s´ equences de chaque bact´ erie s´ epar´ ement. Nous obtenons des variantes ´ eventuellement diff´ erentes d’un mˆ eme SFFT dans deux bact´ eries proches, les diff´ erences pouvant concerner aussi bien les boˆıtes que la longueur de l’espacement qui les s´ epare.
Une limitation actuelle du programme est le choix unique qu’il fait pour l’extension des boˆıtes d’un motif donn´ e. Il est possible qu’il ne d´ etecte pas certains motifs simplement parce que ceux-ci recoupent d’autres motifs dont les caract´ eristiques statistiques sont plus significa- tives.
4.2 Point de vue biologique
Nous avons utilis´ e des bact´ eries phy- log´ en´ etiquement proches de la famille des Actinomyc` etes, Streptomyces coelicolor et Streptomyces avermitilis. Outre leur int´ erˆ et
´ economique (les Actinomyc` etes sont res- ponsables de la production de plus de 70%
des antibiotiques connus), ces Streptomyces
nb seq 8, 26 in promot
g :0.12 0.25 0.25 0.50 GGA 0.00 0.00 0.50 0.25 0.62 0.62 0.25 0.25 GTT 0.75 0.25 0.12 0.12 t :0.25 0.12 0.00 0.00 GGA 0.00 0.75 0.00 0.12 0.12 0.25 0.12 0.12 GTT 0.12 0.38 0.12 0.00
cas subw1 gga subw2 gtt subsp 18 19 20
a :0.25 0.12 0.00 0.12 GGA 1.00 0.00 0.12 0.25 0.12 0.00 0.25 0.00 GTT 0.12 0.12 0.12 0.38
gcggcagccgGGAatgggcgggccggtcgttcgGTTgccgggttga SCO2634 −46 (SAV5412 −49) gcgtctcccgGGAatgccccaccccgcaagggtGTTgtgacgtacg SCO1997 −50 (SAV6234 −48) agtcggaacgGGAatctttaccgccgcccggacGTTgaccggatga SCO1421 −77 (SAV6925 −77) cggccgtgggGGAatcccggcacgtcgccgtccGTTgtcccgaacg SCO1304 −71 (SAV7049 −74) ggcccgtcccGGAatgaatccgcggtcccgccgGTTggaaccgtcg SCO2161 −61 (SAV6042 −61) tcccgcGGAataggtcactatggaccgtcGTTagcactcatc SCO3187 −51 (SAV3678 −52) gttccgctccGGAacgaccgccgcccgcgagacGTTtcccccgtgc SCO2260 −97 (SAV5937 −79) cgccggagcaGGAaccccggtgccatgctgggcGTTgttccatgcg SCO1517 −131 (SAV6836 −131)
2 1
trinucléotides et espacement(s) utilisés pour le regroupement motif consensus et matrice dont il est issu