SIGffRid : Programme de recherche des sites de fixation des facteurs de transcription par approche comparative

(1)

HAL Id: inria-00000191

https://hal.inria.fr/inria-00000191

Submitted on 23 Aug 2005

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires

SIGffRid : Programme de recherche des sites de fixation des facteurs de transcription par approche comparative

Fabrice Touzain, Sophie Schbath, Isabelle Debled-Rennesson, Bertrand Aigle, Pierre Leblond, Gregory Kucherov

To cite this version:

Fabrice Touzain, Sophie Schbath, Isabelle Debled-Rennesson, Bertrand Aigle, Pierre Leblond, et al..

SIGffRid : Programme de recherche des sites de fixation des facteurs de transcription par approche

comparative. Journées Ouvertes Biologie Informatique Mathématiques - JOBIM’05, Guy Perrière,

Alain Guénoche et Christophe Geourjon, Jul 2005, Lyon, France. pp.417-425. �inria-00000191�

(2)

SIGﬀRid : Programme de recherche des sites de ﬁxation des facteurs de transcription par approche comparative

F. Touzain â , S. Schbath ^b , I. Debled-Rennesson â , B. Aigle ^c , P. Leblond ^c , et G. Kucherov â

a Laboratoire Lorrain de Recherche en Informatique et ses Applications, Vandoeuvre-L` es-Nancy, France,

b Unit´ e Math´ ematique Informatique et G´ enome INRA, Jouy-en-Josas, France,

c Laboratoire de G´ en´ etique et de Microbiologie de l’Universit´ e Henri Poincar´ e, de Nancy, France.

email : touzain@loria.fr 23 aoˆ ut 2005

R´ esum´ e

Notre objectif est la recherche des sites de ﬁxa- tion des sous-unit´ es σ de l’ARN polym´ erase dans des g´ enomes bact´ eriens, sites g´ en´ eralement compos´ es de deux « boˆıtes » dites -35 et -10 en r´ ef´ erence au point d’initiation de la transcription. En utilisant la g´ enomique comparative, nous souhaitons nous as- surer de la conservation de couples de boˆıtes sta- tistiquement int´ eressantes (programme R’MES [1]) li´ ee ` a la pr´ esence d’un motif r´ egulateur fonction- nel. Nous autorisons un espacement variable entre boˆıtes -35 et -10 conserv´ ees dans les s´ equences in- terg´ eniques amonts de g` enes suppos´ es orthologues

¹

. Cette d´ emarche, g´ en´ eralisable ` a tout couple de bact´ eries proches, permet de pr´ edire les sites de ﬁxa- tion des facteurs de transcription (SFFT) qui leur sont communs. Un descriptif du fonctionnement du programme est pr´ esent´ e. Plusieurs r´ esultats promet-

1

Sont dits « orthologues » deux g` enes de bact´ eries diﬀ´ erentes issus d’un g` ene d’une bact´ erie ancestrale com- mune.

teurs ressortent de son utilisation. Trois SFFT connus sont retrouv´ es ou conﬁrm´ es, avec un grand nombre de nouveaux g` enes co-r´ egul´ es candidats pour cha- cun. Deux groupes de motifs ressemblent ` a divers SFFT r´ ef´ erenc´ es, sugg´ erant certaines hypoth` eses bio- logiques sur les r´ esultats connus. Au moins deux nou- veaux SFFT sont propos´ es, ` a la fois chez Strepto- myces coelicolor et Streptomyces avermitilis.

1 Introduction

De nombreux programmes ont ´ et´ e con¸cus

dans le but de d´ ecouvrir des SFFT. Certains

sont compar´ es dans un article r´ ecent [2] qui

montre la diversit´ e et le nombre des solutions

avanc´ ees pour la r´ esolution de ce probl` eme fon-

damental en bioinformatique, qu’un paragraphe

ne saurait r´ esumer. La plupart d’entre eux ne

peuvent pas utiliser d’espacement variable entre

deux mots (MEME [3]) ou font appel ` a des

m´ ethodes pour lesquelles le bruit de fond peut

(3)

interf´ erer avec le motif biologique (Bioprospector [4]). Il existe un programme permettant de ﬁxer pr´ ecis´ ement les contraintes structurelles des mo- tifs recherch´ es : Smile [5]. N´ eanmoins, ` a vocation plus g´ en´ eraliste, il n’oriente pas ses comparaisons en fonction de donn´ ees phylog´ eniques et impose de ﬁxer un quorum pour la repr´ esentation d’un motif dans les s´ equences d’int´ erˆ et.

Dans le cadre de la recherche de SFFT dans des g´ enomes bact´ eriens, nous avons cibl´ e nos compa- raisons et permis un espacement variable entre boˆıtes -35 et -10 potentielles, d´ eﬁnies en nous appuyant sur des statistiques rigoureuses. Telles sont quelques-unes des am´ eliorations apport´ ees par le programme SIGﬀRid (SIGma Factor (bin- ding site) Finder using R’mes to select Input Data). D´ ecrit ci-apr` es, il s’appuie sur l’analyse simultan´ ee de couples de s´ equences extraits de deux g´ enomes de bact´ eries phylog´ en´ etiquement proches, et l’utilisation du programme R’MES [1].

2 Donn´ ees initiales

Le programme principal n´ ecessite plusieurs types de donn´ ees :

- la s´ equence totale du g´ enome qui nous int´ eresse (chromosome et plasmide(s)),

- toutes les s´ equences amonts de g` enes, fu- sionn´ ees si elles se chevauchent et sont de mˆ eme orientation (nous consid´ erons les deux brins d’ADN distinctement), pour chaque bact´ erie (Fig 1),

- les mots statistiquement sur-, ou sur- et sous- repr´ esent´ es chez la bact´ erie d’int´ erˆ et (sorties de R’MES modiﬁ´ ees),

- les probabilit´ es de transition d’un mod` ele de Markov d’ordre 3 ajust´ e sur l’ensemble du g´ enome pour chaque bact´ erie,

- des ﬁchiers comportant chacun deux s´ equences interg´ eniques amonts de g` enes orthologues (une par bact´ erie).

Des scripts ont ´ et´ e r´ ealis´ es pour obtenir ces donn´ ees ` a partir de ﬁchiers embl, genbank et des sorties standard de R’MES. Plusieurs crit` eres biologiques sont pris en consid´ eration (donn´ ees pouvant ´ evoluer en fonction des connaissances que nous avons des SFFT) :

- longueurs minimale et maximale de l’espace- ment entre boˆıtes -35 et -10 tous facteurs sigma confondus (10 et 25 respectivement par d´ efaut),

- variabilit´ e de cet espacement pour un facteur sigma et une bact´ erie donn´ es (1 par d´ efaut), - variabilit´ e de cet espacement pour un fac-

teur sigma donn´ e entre deux bact´ eries phy- log´ en´ etiquement proches (1 par d´ efaut).

s. amont 3: −350 +10

gène 1 gène 2

gène 3 séquences amonts fusionnées retenues

s. amont 1 s. amont 2

Fig. 1 – D´ eﬁnition des s´ equences amonts utilis´ ees

3 Approche

Les techniques d´ ecrites supposent plusieurs hypoth` eses biologiques :

- les SFFT sont localis´ es en amont des g` enes, - des g` enes orthologues de bact´ eries phy-

log´ en´ etiquement proches ont de bonnes

chances d’avoir conserv´ e le mˆ eme type de

r´ egulation transcriptionnelle,

(4)

- la conservation de la structure de l’ADN recon- nue par une sous-unit´ e σ de l’ARN polym´ erase se traduit par une conservation de portions de s´ equences nucl´ eotidiques (souvent nomm´ ees boˆıtes -35 et -10 en r´ ef´ erence ` a leur position ap- proximative par rapport au site d’initiation de la transcription).

La premi` ere ´ etape consiste ` a d´ eterminer les boˆıtes ` a rechercher. Nous s´ electionnons les mots donn´ es par R’MES [1]

(http ://www-mig.jouy.inra.fr/ssb/rmes)

comme statistiquement sur-repr´ esent´ es sur l’ensemble du g´ enome de la bact´ erie d’int´ erˆ et.

L’´ etude des boˆıtes -35 et -10 connues chez Streptomyces coelicolor a en eﬀet montr´ e que les mots correspondants, ou des sous-mots de taille raisonnable les composant, pr´ esentaient un score d’exceptionnalit´ e positif et tr` es ´ elev´ e dans la sortie de R’MES.

Intuitivement, si nous consid´ erons un motif de SFFT, nous devrions avoir un faible nombre d’occurrences pour chaque boˆıte sur la totalit´ e d’un g´ enome comparativement aux autres mots.

En effet, si une prot´ eine se fixe sur les bases correspondant ` a ce motif, il est fort possible qu’elle puisse interagir avec chacune de ses composantes. Celles-ci devraient donc avoir une influence n´ egative sur la disponibilit´ e de cette prot´ eine, donc sur le processus de transcrip- tion qui lui est associ´ e. N´ eanmoins, les boˆıtes des SFFT devraient ˆ etre significativement sur-repr´ esent´ ees par rapport ` a leur nombre attendu si nous tenons compte des probabilit´ es des sous-mots les composant. En revanche, la sous-repr´ esentation de ces derniers explique le plus souvent le faible nombre d’occurrences observ´ ees d’une boˆıte sur la totalit´ e du g´ enome.

Nous nous appuyons sur les relations d’ortho- logies issues de la base de donn´ ees MBGD [6],

et regroupons les paires de s´ equences amonts de g` enes orthologues via les familles d´ eﬁnies dans celle-ci, pour diminuer le nombre de s´ equences traˆıt´ ees simultan´ ement. Ces familles ne sont que de grandes cat´ egories de g` enes permettant de scinder les paires de s´ equences amonts d’orthologues en sous-groupes, sinon coh´ erents du point de vue de la r´ egulation, au moins lo- giques par rapport aux fonctions suppos´ ees des g` enes. Elles permettent de limiter la m´ emoire n´ ecessaire au programme qui traˆıtera successi- vement chaque groupe de g` enes. Via des scripts perl additionnels, nous r´ ecup´ erons les s´ equences interg´ eniques amonts correspondant ` a des g` enes orthologues probables group´ es par paires (une s´ equence interg´ enique par bact´ erie pour chaque relation d’orthologie, des positions -350 -au mieux- ` a +10 par rapport au site d’initiation de la traduction et d’une taille minimale de 30 nucl´ eotides). Nous y recherchons alors les couples de mots int´ eressants conserv´ es avec un espacement compatible avec la ﬁxation d’un facteur de transcription (Fig 2). Pour chaque paire de s´ equences amonts d’orthologues, nous obtenons donc une liste de candidats en tant que SFFT.

Ces r´ esultats interm´ ediaires sont alors group´ es (et dupliqu´ es si besoin) par similarit´ es de dou- blet de trinucl´ eotides (un pour chaque boˆıte) et d’espacement (avec une variation de 1 autoris´ ee) (Fig 3).

A partir de cette ´ etape, nous allons traˆıter les s´ equences de chaque bact´ erie s´ epar´ ement, ceci aﬁn de pouvoir mettre ` a jour des motifs proches mais ayant ´ evolu´ e diﬀ´ eremment pour chaque bact´ erie.

Un tri des s´ equences concern´ ees est r´ ealis´ e

de concert avec l’extension du motif qui leur

est commun et l’´ evaluation du motif consen-

(5)

(...)

mots donnés par R’MES trinucléotides communs bactérie 1

bactérie 2 séq. 1 séq. 1

séq. n séq. n séq. 3 séq. 3

séq. 9 séq. 9

SS1 SS2

Fig. 3 – Conservation des mots int´ eressants dans un ensemble de paires de s´ equences interg´ eniques amonts d’orthologues

SS1

− si n < 4 ARRET

t g c a

(...)

Bernouilli MM3

(...)

AGAAT 19−20 GTT

ENSEMBLE INTERESSANT

− si majoritairement dans les séquences amonts (Tr > 3,84)

− sinon

n autres séquences bactérie 1

t1 t2

t1’ t2

trinucléotides communs

− sinon

Fig. 4 – Extension des trinucl´ eotides communs, tri des s´ equences

(6)

Séquence 1 Séquence 2

GGAA GGAA

GTT GTT

D (10)

12 30

40 22

10 <= ESPACE <= 25

Même espacement entre GAAT et GTT dans les deux séquences.

D va permettre l'accès aux mots présentant un espacement proche dans les deux séquences

(D, D-1 et D+1, dans le cas d'une variabilité de ±1).

D (10)

Fig. 2 – Conservation des mots int´ eressants dans les s´ equences interg´ eniques amonts d’une paire d’orthologues

sus r´ esultant. Cette extension de motif s’ap- puie sur un mod` ele probabiliste (Fig 4). Elle se poursuit r´ ecursivement tant qu’aucun mo- tif int´ eressant n’a ´ et´ e mis en exergue et que le nombre de s´ equences est suﬃsant. Nous d´ ecrivons pr´ ecis´ ement dans le paragraphe sui- vant les techniques utilis´ ees.

3.1 Algorithme

3.1.1 D´ eﬁnition des mots recherch´ es

Vu les tailles de mots (¡8) et de g´ enomes (¿8 Mb) consid´ er´ ees, nous avons utilis´ e R’MES dans sa version approximation gaussienne du comptage particuli` erement adapt´ ee aux mots fr´ equents. Nous avons analys´ e conjointement les mots et leur compl´ ementaire invers´ e (option - fam). Les scores d’exceptionnalit´ e calcul´ es par R’MES correspondent aux transformations pro- bit des p-values approch´ ees, une p-value ´ etant la probabilit´ e qu’un mot soit observ´ e autant de fois dans une s´ equence al´ eatoire de mˆ eme composi- tion que le g´ enome analys´ e (mod` ele markovien d’ordre maximal). Ainsi, ces scores sont compa- rables ` a des variables de loi N (0, 1). Pour d´ ecider de l’ensemble des mots de fr´ equence exception-

nelle, nous avons d´ eﬁni, pour chaque longueur h de mots, un seuil t inspir´ e du crit` ere de Bonfer- roni :

P( N (0, 1) ≥ t) = α

_rmes

4 ^h , o u ` α

_rmes

= 5.10 ⁻³ Cela nous a donc donn´ e un ensemble W de mots exceptionnels de longueur 3 ≤ h ≤ 7 sur l’alpha- bet A = { a, c, g, t } .

Ces mots sont recherch´ es dans chaque paire de s´ equences interg´ eniques amonts d’orthologues.

3.1.2 Propri´ et´ es des motifs retenus comme pou- vant ˆ etre des SFFT

Soient d min et d max les espacements minimaux et maximaux autoris´ es entre les boˆıtes -35 et -10 (donn´ ees biologiques).

Soient D la variation biologique d’espacement accept´ ee entre les SFFT des deux s´ equences amonts, et sp1 et sp2 deux espacements ∈ [d _min ..d _max ].

Soit un triplet C i = { w ¹ _i , w _i ² , { s ₁ i , s ₂ i }} corres- pondant aux mots w _i ¹ et w ² _i ∈ W dans les s´ equences amonts d’orthologues s ₁ _i et s ₂ _i . C _i est consid´ er´ e comme int´ eressant si w ¹ _i et w _i ² sont pr´ esents dans s ₁ _i et s ₂ _i avec des espacements sp1 et sp2 respectivement tels que sp2 = sp1 ± D.

Si p s

_1i

(w ¹ _i ), p s

_1i

(w ² _i ) sont les positions de w _i ¹ et w ² _i respectivement dans s ₁ _i et p _s

_2i

(w ¹ _i ), p _s

_2i

(w ² _i ) les positions de w ¹ _i et w ² _i respectivement dans s ₂ i , nous avons la relation suivante :

p _s

_1i

(w _i ¹ ) − p _s

_2i

(w ¹ _i ) = p _s

_1i

(w _i ² ) − p _s

_2i

(w ² _i ) ± D (1)

Cela nous permet de grouper les mots par espa-

cements proches. Nous ne gardons pour chaque

paire de s´ equences d’orthologues que les couples

C _i qui v´ eriﬁent la relation (1), candidats poten-

tiels en tant que SFFT.

(7)

3.1.3 Extension de motifs et tri des s´ equences Apr` es cela, nous regroupons les r´ esultats in- term´ ediaires (ensemble des C i ) en fonction des trinucl´ eotides qui composent w ¹ _i et w ² _i .

Soient t1 et t2 deux trinucl´ eotides et d t 1− t 2 l’es- pace qui les s´ epare.

Soit e un entier.

Pour chaque triplet (t1, t2, d _t ₁₋ _t ₂ ) possible en consid´ erant l’ensemble des C i obtenus pour toutes les paires de s´ equences amonts d’ortho- logues, nous allons cr´ eer un ensemble C de tous les C i qui v´ eriﬁent :

(t1 ⊂ w ¹ _i ) ∧ (t2 ⊂ w ² _i ) ∧ (d _t ₁₋ _t ₂ ∈ [e..e + D]) De chaque C , nous r´ ecup´ erons deux ensembles de s´ equences SS ₁ = s ₁ i ∈ C et SS ₂ = s ₂ i ∈ C , un pour chaque bact´ erie (Fig 3).

Soit min _SS le nombre de s´ equences distinctes minimal intervenant dans l’obtention d’un mo- tif de SFFT candidat. Nous ne gardons chaque ensemble SS ₁ ou SS ₂ que s’il pr´ esente au moins min SS s´ equences distinctes.

t1 est le trinucl´ eotide de gauche qui sera inclus dans la boˆıte -35 d’un ´ eventuel SFFT potentiel et

t2 est le trinucl´ eotide de droite qui sera inclus dans la boˆıte -10 du mˆ eme SFFT potentiel.

Pour chacun des ensembles SS ₁ et SS ₂ , les s´ equences sont tri´ ees par comptage et ´ evaluation statistique des lettres jouxtant t1 et t2. Notre crit` ere statistique s’appuie sur les probabilit´ es de transition d’un mod` ele de Markov d’ordre 3 ajust´ e pour chaque bact´ erie sur l’ensemble du g´ enome.

Soient les positions :

- 1 : imm´ ediatement ` a gauche de t1, - 2 : imm´ ediatement ` a droite de t1, - 3 : imm´ ediatement ` a gauche de t2, - 4 : imm´ ediatement ` a droite de t2.

Soient la position g ∈ { 1, 3 } et la position d ∈ { 2, 4 } .

Soit ∈ A , le nucl´ eotide dont nous consid´ erons la probabilit´ e d’obtention ` a une position donn´ ee.

Soit n le nombre de s´ equences concern´ ees.

Soit t le trinucl´ eotide ` a ´ etendre.

Soit j ∈ [1..2] ﬁx´ e, l’indice permettant de pr´ eciser l’ensemble de s´ equences traˆıt´ e.

Pour l’extension d’une lettre de droite, posons : Y _i ^d () =

 



 

1 si la i` eme s´ equence de SS _j poss` ede le nucl´ eotide en position d, 0 sinon.

Le nombre N ^d () de s´ equences poss´ edant le nucl´ eotide en position d, N ^d () = ⁿ _i ₌₁ Y _i ^d (), suit alors une loi binomiale B (n, N (t)/N (t)), o` u N ( · ) d´ esigne le comptage et t le t´ etranucl´ eotide form´ e de t suivi de . Nous pouvons ainsi calculer la signiﬁcativit´ e p ^d () du nombre de s´ equences avec un en position d :

p ^d () = 1 −

x −1 y =0

C _n ^y ( N (t)

N (t) ) ^y (1 − N (t) N (t) ) ⁿ ⁻ ^y Pour l’extension d’une lettre de gauche, posons : Y _i ^g () =

 



 

1 si la i` eme s´ equence de SS _j poss` ede le nucl´ eotide en position g, 0 sinon.

Le nombre N ^g () de s´ equences poss´ edant le nucl´ eotide en position g, N ^g () = ⁿ _i ₌₁ Y _i ^g (), suit alors une loi binomiale B (n, N (t)/N (t)), o` u N ( · ) d´ esigne le comptage et t le t´ etranucl´ eotide form´ e de t pr´ ec´ ed´ e de . Nous pouvons ainsi calculer la signiﬁcativit´ e p ^g () du nombre de s´ equences avec un en position g :

p ^g () = 1 −

x −1 y =0

C _n ^y ( N (t)

N (t) ) ^y (1 − N(t)

N (t) ) ⁿ ⁻ ^y

(8)

Nous choisissons le nucl´ eotide k et la position i ∈ { 1, 2, 3, 4 } les plus signiﬁcatifs (minimisation des probabilit´ es (p ^d (), p ^g ())) avec N ^d ^| ^g () ≥ 4.

Les s´ equences poss´ edant la lettre k ` a la posi- tion i sont regroup´ ees pour les ´ etapes suivantes (Fig 4). Un motif correspondant ` a cet ensemble de s´ equences est g´ en´ er´ e et ´ evalu´ e (cf. § 3.1.4).

- S’il est consid´ er´ e comme int´ eressant, le proces- sus d’extension se poursuit sans test sur R et T R (cf. § 3.1.4), pour trier les s´ equences et fa- ciliter leur comparaison visuelle (jusqu’` a ce que l’extension concerne moins de 4 s´ equences), et nous marquons cet ensemble de s´ equences pour son aﬃchage ult´ erieur dans les r´ esultats (en en- registrant l’intervalle des indices de s´ equences int´ eressantes, la matrice d’´ evaluation et le mo- tif correspondant (cf. § 3.1.4)),

- Si le nombre de s´ equences concern´ ees devient trop faible (< min _SS ), le processus s’arrˆ ete, - Si le motif n’est pas int´ eressant, nous poursui- vons l’extension, en rempla¸cant :

- t1 par t1 = k.t1[1].t1[2], si i = 1, - t1 par t1 = t1[2].t1[3].k, si i = 2, - t2 par t2 = k.t2[1].t2[2], si i = 3, - t2 par t2 = t2[2].t2[3].k, si i = 4,

o` u . est l’op´ erateur de concat´ enation.

(d´ eplacement d’une lettre dans toutes les s´ equences concern´ ees)

Les autres s´ equences sont traˆıt´ ees distinctement suivant la mˆ eme d´ emarche.

3.1.4 G´ en´ eration d’un motif consensus et son

´

evaluation

A chaque ´ etape de regroupement, un motif g´ en´ erique est d´ eduit correspondant ` a deux mots avec un espacement variable. Il est construit en ajoutant au couple de tinucl´ eotides les lettres pr´ esentes dans 70% des s´ equences concern´ ees (par extension de ces derniers en s’appuyant sur

une double matrice position-sp´ eciﬁque) (Fig 5).

Ce motif est recherch´ e dans l’ensemble des s´ equences amonts fusionn´ ees pour chaque brin, et dans le g´ enome entier dans les deux sens. De ces comptages est d´ eduit un rapport R :

R = | motif s´ eq amonts |

| motif s´ eq totale 2 sens |

Ce rapport mesure la sp´ ecificit´ e du motif pour les s´ equences amonts. Il est g´ en´ eralement admis que les SFFT sont localis´ es en amont des g` enes. Pour tester la significativit´ e du rapport R, nous effec- tuons un test du rapport de vraisemblance [7]

dont la statistique de test T _R suit une loi χ ² { 1 } et est donn´ ee par :

T _R = 2

N ₁ log

N

₁

L

₁

N L

+ N ₂ log

N

₂

L

₂

N L

avec

L ₁ = l amont − (l _motif × nbseq), L ₂ = 2(l _genome − l _motif ), L = L ₁ + L ₂ , et N = N ₁ + N ₂ , o` u

l _amont est la somme des longueurs des nbseq s´ equences amonts de g` enes,

l genome la longueur totale du g´ enome complet et l _motif la longueur maximale pouvant ˆ etre prise par l’expression r´ eguli` ere correspondant au mo- tif d´ enombr´ e.

N ₁ est le nombre d’occurrences du motif dans les s´ equences amonts, et

N ₂ le nombre d’occurrences dans le g´ enome total et son compl´ ementaire invers´ e.

T _R conditionne la poursuite ou l’arrˆ et de l’exten- sion du motif consensus par tri des s´ equences.

Une s´ election des r´ esultats les plus int´ eressants est faite via les rapports R et T _R . La relation :

(R ≥ R _min ) ∧ (T _R ≥ T _{R min} )

(9)

doit ˆ etre v´ eriﬁ´ ee,

avec R _min le seuil minimal de sp´ eciﬁcit´ e (pour le moment empirique, ﬁx´ e ` a 0.35, mais qui de- vrait ` a terme ˆ etre d´ eduit et adapt´ e pour chaque bact´ erie), et T _{R min} le quantile ` a 5% (α

_{TR min}

) de la loi du χ ² .

3.1.5 Visualisation des r´ esultats

La ﬁgure 5 montre l’aspect d’un motif r´ esultat et l’ensemble des s´ equences ayant permis de le g´ en´ erer.

Ils sont compl´ et´ es par une recherche automa- tique du motif g´ en´ erique dans l’ensemble des s´ equences amonts de la bact´ erie concern´ ee, four- nissant ainsi les identiﬁants des g` enes, et les po- sitions des occurrences par rapport au d´ ebut de la traduction.

Les seuls travaux pour validation de ces r´ esultats sont donc d’ordre biologique : v´ eriﬁcation de la coh´ erence des fonctions des g` enes li´ es par un mˆ eme motif de r´ egulation et exp´ eriences. Aucun post-traitement manuel des r´ esultats ne sera n´ ecessaire avant interpr´ etation dans la version ﬁnalis´ ee du programme.

Toutes les ´ etapes, de la r´ ecup´ eration des ortho- logues et l’extraction des s´ equences, en passant par l’utilisation de R’MES jusqu’` a l’aﬃchage des r´ esultats sont automatis´ ees en PERL.

4 Discussion

4.1 Point de vue informatique

Nombre d’id´ ees int´ eressantes pour la recherche des sites SFFT avaient ´ et´ e utilis´ ees isol´ ement : emploi de motifs composites [5, 4], de rela- tions d’orthologies pour cibler les comparaisons [8, 9], de statistiques pour post-traˆıtement des r´ esultats [5]. Elles n’avaient n´ eanmoins jamais

´ et´ e combin´ ees. Le programme pr´ esent´ e ici n’est pas exhaustif, puisqu’il n´ ecessite encore le re- groupement des g` enes des bact´ eries concern´ ees en grandes fonctions (16 dans le cas pr´ esent) du fait de la grande taille des g´ enomes utilis´ es.

Une ´ evolution prochaine devrait permettre le traˆıtement ` a partir de toutes les relations d’or- thologie disponibles entre deux bact´ eries, quelles que soient les tailles de leur g´ enomes. Ceci est rendu possible par une s´ election statistique ri- goureuse des mots recherch´ es.

D’autres caract´ eristiques propres ` a ce pro- gramme tiennent mieux compte de la nature des SFFT. Ainsi, des variations d’un mˆ eme SFFT peuvent exister dans deux bact´ eries phy- log´ en´ etiquement proches [10]. Nous les dis- tinguons par l’alignement des s´ equences de chaque bact´ erie s´ epar´ ement. Nous obtenons des variantes ´ eventuellement diﬀ´ erentes d’un mˆ eme SFFT dans deux bact´ eries proches, les diﬀ´ erences pouvant concerner aussi bien les boˆıtes que la longueur de l’espacement qui les s´ epare.

Une limitation actuelle du programme est le choix unique qu’il fait pour l’extension des boˆıtes d’un motif donn´ e. Il est possible qu’il ne d´ etecte pas certains motifs simplement parce que ceux-ci recoupent d’autres motifs dont les caract´ eristiques statistiques sont plus signiﬁca- tives.

4.2 Point de vue biologique

Nous avons utilis´ e des bact´ eries phy- log´ en´ etiquement proches de la famille des Actinomyc` etes, Streptomyces coelicolor et Streptomyces avermitilis. Outre leur int´ erˆ et

´ economique (les Actinomyc` etes sont res- ponsables de la production de plus de 70%

des antibiotiques connus), ces Streptomyces

(10)

nb seq 8, 26 in promot

g :0.12 0.25 0.25 0.50 GGA 0.00 0.00 0.50 0.25 0.62 0.62 0.25 0.25 GTT 0.75 0.25 0.12 0.12 t :0.25 0.12 0.00 0.00 GGA 0.00 0.75 0.00 0.12 0.12 0.25 0.12 0.12 GTT 0.12 0.38 0.12 0.00

cas subw1 gga subw2 gtt subsp 18 19 20

a :0.25 0.12 0.00 0.12 GGA 1.00 0.00 0.12 0.25 0.12 0.00 0.25 0.00 GTT 0.12 0.12 0.12 0.38

gcggcagccgGGAatgggcgggccggtcgttcgGTTgccgggttga SCO2634 −46 (SAV5412 −49) gcgtctcccgGGAatgccccaccccgcaagggtGTTgtgacgtacg SCO1997 −50 (SAV6234 −48) agtcggaacgGGAatctttaccgccgcccggacGTTgaccggatga SCO1421 −77 (SAV6925 −77) cggccgtgggGGAatcccggcacgtcgccgtccGTTgtcccgaacg SCO1304 −71 (SAV7049 −74) ggcccgtcccGGAatgaatccgcggtcccgccgGTTggaaccgtcg SCO2161 −61 (SAV6042 −61) tcccgcGGAataggtcactatggaccgtcGTTagcactcatc SCO3187 −51 (SAV3678 −52) gttccgctccGGAacgaccgccgcccgcgagacGTTtcccccgtgc SCO2260 −97 (SAV5937 −79) cgccggagcaGGAaccccggtgccatgctgggcGTTgttccatgcg SCO1517 −131 (SAV6836 −131)

2 1

trinucléotides et espacement(s) utilisés pour le regroupement motif consensus et matrice dont il est issu

c :0.38 0.50 0.75 0.38 GGA 0.00 0.25 0.38 0.38 0.12 0.12 0.38 0.62 GTT 0.00 0.25 0.62 0.50

position du premier trinucléotide de regroupement dans les séquences concernées par rapport au début de la traduction identifiant des gènes concernés (1), et de leurs orthologues (2)

MOTIF ggaat\w{18,18}gttg, R: 0.78 (>= 0.35), Tr 36 (>= 3.84, alpha = 0.05)

Fig. 5 – Exemple de r´ esultat pour un motif pr´ esentent des g´ enomes de grande taille et un

nombre de facteurs sigma pr´ edits sans commune mesure (plus de 60), ce qui en fait des mod` eles de choix dans notre ´ etude. Notre programme a donc ´ et´ e ´ eprouv´ e sur ces deux bact´ eries.

Les fonctions des g` enes concern´ es par nos pr´ edictions peuvent ˆ etre employ´ ees comme premi` ere validation des r´ esultats. Seuls des tests biologiques seront ` a mˆ eme de les conﬁrmer.

N´ eanmoins, des SFFT connus ont ´ et´ e re- trouv´ es (sigR [10], ggaat-n(18)-gtt, 30 SFFT r´ epertori´ es ; BldN [11], cgtaac-n(16)-cgttga, un seul SFFT r´ epertori´ e ; HrdB [12, 13, 14, 15, 16]) et de nombreux g` enes potentiellement co- r´ egul´ es sont propos´ es. Certains motifs identiﬁ´ es via d’autres m´ ethodes de pr´ ediction, ont pu ˆ

etre retrouv´ es (tgtcagtgc-n(7)tagg, tgac-n(19)- tgac [8]). De nouveaux candidats sont en outre avanc´ es.

Seuls sont donn´ es les motifs connus jusqu’` a pr´ esent, le programme en fournit parfois des va- riations plus cibl´ ees ou plus g´ en´ eralistes. Il est

`

a noter qu’approximativement 30 des 65 fac- teurs sigma suppos´ es de Streptomyces coelicolor peuvent ˆ etre group´ es en trois grandes familles de facteurs sigma aux domaines de ﬁxation sup- pos´ es aux boˆıtes -35 et -10 extrˆ emement proches (r´ egions 2.4 et 4.2). Bien qu’on ne puisse d´ eduire directement une conservation des boˆıtes -35 et -10 ` a partir de la conservation des domaines prot´ eiques 2.4 et 4.2 des facteurs sigma, il est fort possible que les boˆıtes reconnues soient proches pour une famille de facteurs sigma donn´ ee.

De nombreuses validations seront n´ ecessaires,

mais au vue des recoupements d´ ej` a observ´ es avec

des SFFT connus, l’approche paraˆıt tr` es promet-

teuse.

(11)

5 Conclusion

Les r´ esultats obtenus sont int´ eressants ` a plus d’un titre. D’une part parce qu’ils recoupent parfaitement la plupart des SFFT connus et pr´ ecis´ ement d´ eﬁnis, d’autre part parce que cer- tains des autres motifs avanc´ es sont tr` es proches de ceux suppos´ es pour la r´ egulation de cer- tains g` enes (cas de HrdB [12, 13] par exemple).

En outre, d’autres motifs sp´ eciﬁques des r´ egions amonts ont ´ et´ e mis ` a jour et pourraient aussi ˆ etre impliqu´ es dans des m´ ecanismes de r´ egulation.

Evidemment, ce programme ne dispense pas d’une v´ eriﬁcation exp´ erimentale des r´ esultats, mais il apporte la r´ eponse la plus sp´ eciﬁque pour la pr´ ediction de SFFT.

Il n´ ecessite n´ eanmoins un minimum de six or- thologues co-r´ egul´ es pour la d´ eduction d’un mo- tif consensus de SFFT.

6 Remerciements

Nous souhaitions remercier tout parti- culi` erement M. Sylvain Blondeau pour sa contribution dans les investigations biologiques et l’automatisation des traˆıtements de ﬁchiers dans le cadre de son stage de maˆıtrise, et M.

Laurent No´ e pour les ´ eclaircissements qu’il a pu apporter dans l’´ elaboration de certaines parties d’un sous-programme. Il est ` a noter que ces travaux n’auraient pu voir le jour sans les concours de l’ACI IMPBio (Informatique, Math´ ematiques et Physique pour la Biologie) et de la r´ egion Lorraine auxquelles nous exprimons toute notre reconnaissance.

R´ ef´ erences

[1] S. Schbath. An eﬃcient statistic software to de- tect over- and under-represented words in dna se-

quences. J. Comp. Biol., 4 :189-192, 1997.

http ://www-mig.jouy.inra.fr/ssb/rmes

[2] M. Tompa, N. Li, T.L. Bailey, G.M. Church, B.

De Moor, E. Eskin, A.V. Favorov, M.C. Frith, Y.

Fu, W.J. Kent, V.J. Makeev, A.A. Mironov, W.S.

Noble, G. Pavesi, G. Pesole, M. R´ egnier, N. Simo- nis, S. Sinha, G. Thijs, J. van Helden, M. Vanden- bogaert, Z. Weng, C. Workman, C. Ye, and Z. Zhu.

Assessing computational tools for the discovery of transcription factor binding sites. Nature Biotech., 23(1) :137-144, 2005.

[3] T.L. Bailey and C. Elkan. Fitting a mixture mo- del by expectation maximization to discover motifs in biopolymers. Proc. of the Sec. Int. Conf. on In- tel. Sys. for Molec. Biol., pages 28-36, 1994.

[4] X. Liu, D.L. Brutlag, and J.S. Liu. Bioprospec- tor : discovering conserved dna motifs in ups- tream regulatory regions of co-expressed genes.

Pac. Symp. Biocomput., pages 127-138, 2001.

[5] L. Marsan and Sagot M.F. Algorithms for ex- tracting structured motifs using a suﬃx tree with an application to promoter and regulatory site consensus identiﬁcation. J. Comput. Biol., 7(3- 4) :345-362, 2000.

[6] I. Uchiyama. MBGD : microbial genome database for comparative analysis. Nucleic Acids Research, 31(1) :58-62, 2003.

[7] S. Robin and S. Schbath (2005), Un motif est-il signiﬁcativement plus concentr´ e dans une s´ equence que dans une autre ?, En pr´ eparation.

[8] D.J. Studholme, S.D. Bentley, and J. Korma- nec. Bioinformatic identiﬁcation of novel regula- tory dna sequence motifs in Streptomyces coelico- lor. BMC Microbiology, 4(14), 2004.

[9] Touzain, F. , Debled-Rennesson, I. , Aigle, B. , Leblond, P. et Kucherov, G.. Poster at the Euro- pean Conference for Computer Biology. Identiﬁca- tion of Transcription Factor Binding Sites in Strep- tomyces coelicolor A3(2) by Phylogenetic Compa- rison, 2003.

[10] M.S.B. Paget, V. Molle, G. Cohen, Y. Aharo-

nowitz, and M.J. Buttner. Deﬁning the disulphide

stress response in Streptomyces coelicolor A3(2) :

(12)

identiﬁcation of the regulon. Molecular Microbio- logy, 42(4) :1007-1020, 2001.

[11] M.J. Bibb, V. Molle, and M.J. Buttner. , an extracytoplasmic function rna polymerase sigma factor required for aerial mycelium formation in Streptomyces coelicolor A3(2). Journal of Bacte- riology, 182(16) :4606-4616, 2000.

[12] A. Saito, M. Ishizaka, P.B. Francisco Jr, T. Fi- jii, and K. Miyashita. Transcriptional co-regulation of ﬁve chitinase genes scattered on the Strepto- myces coelicolor A3(2) chromosome. Microbiology, 146 :2937-2946, 2000.

[13] J.S. Hahn, S.Y. Oh, and J.H. Roe. Regulation of the fura and catc operon, encoding a ferric uptake regulator homologue and catalase-peroxidase, res- pectively, in Streptomyces coelicolor A3(2). Jour- nal of Bacteriology, 182(13) :3767-3774, 2000.

[14] J.-G. Kang, M.-Y. Hahn, A. Ishihama, and J.- H. Roe. Identiﬁcation of sigma factors for growth phase-related promoter selectivity of rna polyme- rases from Streptomyces coelicolor A3(2). Nucleic Acids Research, 25(13) :2566-2573, 1997.

[15] K.L. Brown, S. Wood, and M.J. Buttner. Isola- tion and characterization of the major vegetative rna polymerase of Streptomyces coelicolor A3(2) ; renaturation of a sigma subunit using groel. Mol.

Microbiol., 6 :1133-1139, 1992.

[16] I. Delic, P. Robbins, and J. Westpheling. Direct repeat sequences are implicated in the regulation of two streptomyces chitinase promoters that are sub- jet to carbon catabolite control. Proc. Natl. Acad.

Sci. USA, 89 :1885-1889, 1992.

SIGffRid : Programme de recherche des sites de fixation des facteurs de transcription par approche comparative

HAL Id: inria-00000191

https://hal.inria.fr/inria-00000191

Submitted on 23 Aug 2005

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires

SIGffRid : Programme de recherche des sites de fixation des facteurs de transcription par approche comparative

Fabrice Touzain, Sophie Schbath, Isabelle Debled-Rennesson, Bertrand Aigle, Pierre Leblond, Gregory Kucherov

To cite this version:

Fabrice Touzain, Sophie Schbath, Isabelle Debled-Rennesson, Bertrand Aigle, Pierre Leblond, et al..

SIGffRid : Programme de recherche des sites de fixation des facteurs de transcription par approche

comparative. Journées Ouvertes Biologie Informatique Mathématiques - JOBIM’05, Guy Perrière,

Alain Guénoche et Christophe Geourjon, Jul 2005, Lyon, France. pp.417-425. �inria-00000191�

SIGﬀRid : Programme de recherche des sites de ﬁxation des facteurs de transcription par approche comparative

F. Touzain a , S. Schbath b , I. Debled-Rennesson a , B. Aigle c , P. Leblond c , et G. Kucherov a

a Laboratoire Lorrain de Recherche en Informatique et ses Applications, Vandoeuvre-L` es-Nancy, France,

b Unit´ e Math´ ematique Informatique et G´ enome INRA, Jouy-en-Josas, France,

c Laboratoire de G´ en´ etique et de Microbiologie de l’Universit´ e Henri Poincar´ e, de Nancy, France.

email : touzain@loria.fr 23 aoˆ ut 2005

R´ esum´ e

. Cette d´ emarche, g´ en´ eralisable ` a tout couple de bact´ eries proches, permet de pr´ edire les sites de ﬁxa- tion des facteurs de transcription (SFFT) qui leur sont communs. Un descriptif du fonctionnement du programme est pr´ esent´ e. Plusieurs r´ esultats promet-

Sont dits « orthologues » deux g` enes de bact´ eries diﬀ´ erentes issus d’un g` ene d’une bact´ erie ancestrale com- mune.

1 Introduction

De nombreux programmes ont ´ et´ e con¸cus

dans le but de d´ ecouvrir des SFFT. Certains

sont compar´ es dans un article r´ ecent [2] qui

montre la diversit´ e et le nombre des solutions

avanc´ ees pour la r´ esolution de ce probl` eme fon-

damental en bioinformatique, qu’un paragraphe

ne saurait r´ esumer. La plupart d’entre eux ne

peuvent pas utiliser d’espacement variable entre

deux mots (MEME [3]) ou font appel ` a des

m´ ethodes pour lesquelles le bruit de fond peut

2 Donn´ ees initiales

Le programme principal n´ ecessite plusieurs types de donn´ ees :

- la s´ equence totale du g´ enome qui nous int´ eresse (chromosome et plasmide(s)),

- toutes les s´ equences amonts de g` enes, fu- sionn´ ees si elles se chevauchent et sont de mˆ eme orientation (nous consid´ erons les deux brins d’ADN distinctement), pour chaque bact´ erie (Fig 1),

- les mots statistiquement sur-, ou sur- et sous- repr´ esent´ es chez la bact´ erie d’int´ erˆ et (sorties de R’MES modiﬁ´ ees),

- les probabilit´ es de transition d’un mod` ele de Markov d’ordre 3 ajust´ e sur l’ensemble du g´ enome pour chaque bact´ erie,

- des ﬁchiers comportant chacun deux s´ equences interg´ eniques amonts de g` enes orthologues (une par bact´ erie).

Des scripts ont ´ et´ e r´ ealis´ es pour obtenir ces donn´ ees ` a partir de ﬁchiers embl, genbank et des sorties standard de R’MES. Plusieurs crit` eres biologiques sont pris en consid´ eration (donn´ ees pouvant ´ evoluer en fonction des connaissances que nous avons des SFFT) :

- longueurs minimale et maximale de l’espace- ment entre boˆıtes -35 et -10 tous facteurs sigma confondus (10 et 25 respectivement par d´ efaut),

- variabilit´ e de cet espacement pour un facteur sigma et une bact´ erie donn´ es (1 par d´ efaut), - variabilit´ e de cet espacement pour un fac-

teur sigma donn´ e entre deux bact´ eries phy- log´ en´ etiquement proches (1 par d´ efaut).

Fig. 1 – D´ eﬁnition des s´ equences amonts utilis´ ees

3 Approche

Les techniques d´ ecrites supposent plusieurs hypoth` eses biologiques :

- les SFFT sont localis´ es en amont des g` enes, - des g` enes orthologues de bact´ eries phy-

log´ en´ etiquement proches ont de bonnes

chances d’avoir conserv´ e le mˆ eme type de

r´ egulation transcriptionnelle,

La premi` ere ´ etape consiste ` a d´ eterminer les boˆıtes ` a rechercher. Nous s´ electionnons les mots donn´ es par R’MES [1]

(http ://www-mig.jouy.inra.fr/ssb/rmes)

comme statistiquement sur-repr´ esent´ es sur l’ensemble du g´ enome de la bact´ erie d’int´ erˆ et.

L’´ etude des boˆıtes -35 et -10 connues chez Streptomyces coelicolor a en eﬀet montr´ e que les mots correspondants, ou des sous-mots de taille raisonnable les composant, pr´ esentaient un score d’exceptionnalit´ e positif et tr` es ´ elev´ e dans la sortie de R’MES.

Intuitivement, si nous consid´ erons un motif de SFFT, nous devrions avoir un faible nombre d’occurrences pour chaque boˆıte sur la totalit´ e d’un g´ enome comparativement aux autres mots.

Nous nous appuyons sur les relations d’ortho- logies issues de la base de donn´ ees MBGD [6],

Ces r´ esultats interm´ ediaires sont alors group´ es (et dupliqu´ es si besoin) par similarit´ es de dou- blet de trinucl´ eotides (un pour chaque boˆıte) et d’espacement (avec une variation de 1 autoris´ ee) (Fig 3).

A partir de cette ´ etape, nous allons traˆıter les s´ equences de chaque bact´ erie s´ epar´ ement, ceci aﬁn de pouvoir mettre ` a jour des motifs proches mais ayant ´ evolu´ e diﬀ´ eremment pour chaque bact´ erie.

Un tri des s´ equences concern´ ees est r´ ealis´ e

de concert avec l’extension du motif qui leur

est commun et l’´ evaluation du motif consen-

(...)

mots donnés par R’MES trinucléotides communs bactérie 1

bactérie 2 séq. 1 séq. 1

séq. n séq. n séq. 3 séq. 3

séq. 9 séq. 9

SS1 SS2

Fig. 3 – Conservation des mots int´ eressants dans un ensemble de paires de s´ equences interg´ eniques amonts d’orthologues

SS1

− si n < 4 ARRET

t g c a

(...)

Bernouilli MM3

(...)

AGAAT 19−20 GTT

ENSEMBLE INTERESSANT

− si majoritairement dans les séquences amonts (Tr > 3,84)

− sinon

n autres séquences bactérie 1

F. Touzain â , S. Schbath ^b , I. Debled-Rennesson â , B. Aigle ^c , P. Leblond ^c , et G. Kucherov â

4 ^h , o u ` α

= 5.10 ⁻³ Cela nous a donc donn´ e un ensemble W de mots exceptionnels de longueur 3 ≤ h ≤ 7 sur l’alpha- bet A = { a, c, g, t } .

Soient D la variation biologique d’espacement accept´ ee entre les SFFT des deux s´ equences amonts, et sp1 et sp2 deux espacements ∈ [d _min ..d _max ].

(w ¹ _i ), p s

(w ² _i ) sont les positions de w _i ¹ et w ² _i respectivement dans s ₁ _i et p _s

(w ¹ _i ), p _s

(w ² _i ) les positions de w ¹ _i et w ² _i respectivement dans s ₂ i , nous avons la relation suivante :

p _s

(w _i ¹ ) − p _s

(w ¹ _i ) = p _s

(w _i ² ) − p _s

(w ² _i ) ± D (1)

C _i qui v´ eriﬁent la relation (1), candidats poten-

3.1.3 Extension de motifs et tri des s´ equences Apr` es cela, nous regroupons les r´ esultats in- term´ ediaires (ensemble des C i ) en fonction des trinucl´ eotides qui composent w ¹ _i et w ² _i .

Pour chaque triplet (t1, t2, d _t ₁₋ _t ₂ ) possible en consid´ erant l’ensemble des C i obtenus pour toutes les paires de s´ equences amonts d’ortho- logues, nous allons cr´ eer un ensemble C de tous les C i qui v´ eriﬁent :

(t1 ⊂ w ¹ _i ) ∧ (t2 ⊂ w ² _i ) ∧ (d _t ₁₋ _t ₂ ∈ [e..e + D]) De chaque C , nous r´ ecup´ erons deux ensembles de s´ equences SS ₁ = s ₁ i ∈ C et SS ₂ = s ₂ i ∈ C , un pour chaque bact´ erie (Fig 3).

Soit min _SS le nombre de s´ equences distinctes minimal intervenant dans l’obtention d’un mo- tif de SFFT candidat. Nous ne gardons chaque ensemble SS ₁ ou SS ₂ que s’il pr´ esente au moins min SS s´ equences distinctes.

Pour l’extension d’une lettre de droite, posons : Y _i ^d () =

1 si la i` eme s´ equence de SS _j poss` ede le nucl´ eotide en position d, 0 sinon.

p ^d () = 1 −

C _n ^y ( N (t)

N (t) ) ^y (1 − N (t) N (t) ) ⁿ ⁻ ^y Pour l’extension d’une lettre de gauche, posons : Y _i ^g () =