• Aucun résultat trouvé

Int´ egration des pr´ edictions issues de r´ esultats de m´ ethodes

nucl´ eiques

6.3 Int´ egration des pr´ edictions issues de r´ esultats de m´ ethodes

Une autre fa¸con d’obtenir des annotations g´enomiques est d’utiliser des m´ethodes bioinforma-tique de pr´ediction (Tab. 5.2 C p. 172).

6.3.1 Pr´edictions syntaxiques

Les tables du mod`ele PkGDB d´edi´ees `a l’annotation syntaxique de la s´equence d’un r´eplicon sont celles qui permettent de d´efinir des objets g´enomiques de diff´erents types. Les programmes tRNAscan-SE (resp. findrRNA) permettent d’identifier les g`enes d’ARNt (resp. d’ARNr) stock´es dans la table [tRNA Scan] (resp. [Find rRNA] ; Tab. 5.2 C p. 172). La table [AMIGene] contient les CDS pr´edites par la strat´egie AMIGene (Tab. 5.2 C p. 172 et voir p. 197 et p. .237).

Les frameshifts sont d´etect´es par le programme ProFED et stock´es dans la table [ProFED] (Tab. 5.2 C p. 172). Diff´erents types de r´ep´etitions longues sont recherch´es sur le chromosome par le programme Nosferatu et les r´esultats sont stock´es dans la table [Nosferatu] (Tab. 5.2 C p. 172). Actuellement, ces deux types d’objets ne sont pas int´egr´es dans la table [Genomic object] ; ils sont cependant repr´esent´es dans l’interface cartographique de MaGe (Tab. 5.2 B p. 172). La table [Prokov CDS] permet de d´efinir toutes les CDS de longueur maximales sup´erieures `a 60 pb.

Il est pr´evu d’int´egrer d’autres m´ethodes d’annotation syntaxique dans le mod`ele PkGDB comme la recherche de RBS (RBSFinder) et de terminateurs rho ind´ependants (Petrin ; Tab. 5.2 C p. 172). Les recherches d’op´erateurs, de promoteurs et de terminateurs d´ependant du facteur rho ne sont pas effectu´ees car nous n’avons pas encore trouv´e d’outils satisfaisants (le d´eveloppement de nouveaux algorithmes n’est pas dans nos priorit´es).

6.3.2 Pr´edictions fonctionnelles

Les tables du mod`ele PkGDB d´edi´ees `a l’annotation fonctionnelle d’un r´eplicon permettent de caract´eriser les objets g´enomiques ou leurs produits. Par exemple, pour chaque CDS de la table [Genomic Object], nous utilisons un ensemble de m´ethodes pour caract´eriser ces CDS et identifier la fonction des s´equences traduites (polypeptides).

Caract´erisation des CDS

Une CDS peut aussi ˆetre caract´eris´ee par de nombreux autres attributs. Connaissant les posi-tions de l’origine et du terminus de la r´eplication, nous calculons l’orientation directe ou inverse de la CDS par rapport `a ces positions (table [Leading Lagging]). La table [CodonW Cluster] est con¸cue pour recevoir les r´esultats d’analyse statistique des CDS. Les champs CC status et CC coeff caract´erisent la classe d’usage des codons synonymes obtenue par les analyses multivari´ees AFC

-A B

C D

E F

Fig. 6.2 – Diff´erents cas de figure n´ecessitant la correction manuelle des bornes des CDS

Les lignes jaunes repr´esentent les six phases de lecture d’une s´equence nucl´eique. Les rectangles transparents en position haute repr´esentent les CDS issues du programme prokov orf (l>60pb). Les courbes bleues sont les pr´edictions de codage issues du programme prokov curve. Les rectangles rouges repr´esentent les CDS dont le statut est `a ’validated’. Les rectangles verts repr´esentent les CDS dont le statut est `a ’checked’. Les rectangles jaunes repr´esentent les CDS dont le statut n’est ni `a ’checked’ ni `a ’validated’.

A La carte du haut montre la CDS de M. tuberculosis H37Rv en jaune car elle a le statut ’no3multiple’. La carte du bas montre la mˆeme r´egion apr`es correction de la position de fin de la CDS. Dans les annotations originales, ce g`ene est annot´e comme partiel (Rv0857 953255..>953631).

B La carte du haut montre la CDS de M. tuberculosis H37Rv en jaune car elle a le statut ’stopInFrame’. La carte du bas montre la mˆeme r´egion apr`es correction de la position de fin de la CDS. Dans les annotations originales, ce g`ene est annot´e avec un join (Rv3224a join(3600631..3600783,3600785..3601015)).

C La carte du haut montre la CDS de M. tuberculosis H37Rv en jaune car elle a le statut ’noStop’. La carte du bas montre la mˆeme r´egion apr`es correction de la position de d´ebut de la CDS (en vert la plus en 5′) et cr´eation d’une nouvelle CDS (en vert la plus en 3′

). Dans les annotations originales, ce g`ene est annot´e comme partiel (Rv0857 comple-ment(<42431..43363)). La r´ealit´e de la nouvelle CDS est confirm´ee par Blast2p, les deux CDS s’alignent avec deux fragments diff´erents de PR28 MYCTU (des d´ecalages du cadre de lecture ont mˆeme ´et´e annot´es pour M. tuberculosis H37Rv dans l’entr´ee Swiss-Prot).

D La carte du haut montre la CDS de M. tuberculosis H37Rv en jaune car elle a le statut ’multipleStop’. La carte du bas montre la mˆeme r´egion apr`es correction de la position de fin de la CDS (en vert la plus en 5′

) et cr´eation d’une nouvelle CDS (en vert la plus en 3′

). Les annotations originales de ce g`ene contiennent une exception de traduction (Rv1792 /transl except=(pos :2030519..2030521,aa :OTHER)).

E La carte montre la CDS de M. tuberculosis CDC1551 en jaune car elle a le statut ’checked noStop’. Dans les annotations originales, la longueur du g`ene MT1483 n’est pas multiple de trois (complement(1616248..1616836) ; ’no3multiple’). De plus seul l’objet gene est annot´e (pas d’objet CDS) et le /note= indique la pr´esence d’un d´ecalage du cadre de lecture authentique. La CDS en vert la plus en 3′

a ´et´e raccourcie par sa position de fin et deux nouvelles CDS ont ´et´e cr´e´ees (en vert la plus en 5′

et en jaune). Dans ce cas rare et extrˆeme, nous pr´ef´erons ne pas allonger la CDS en jaune jusqu’au codon de terminaison indiqu´e par prokov orf car cela lui ferait perdre son sens biologique (plus de 50% de la CDS serait alors artefactuelle). Les CDS qui ont le statut de coh´erence ’checked noStop’ ne doivent pas rentrer dans le processus de comparaison des annotations banque–AMIGene pour l’attribution d’un statut de r´eannotation (puisque ce processus est fond´e sur la comparaison de la position du codon de terminaison d’une CDS annot´ee dans les banques avec celle d’une CDS pr´edite par AMIGene).

F La carte montre la CDS de Y. pseudotuberculosis en jaune car elle a le statut ’checked multipleStop’. Dans les annota-tions originales, la CDS or1732 est annot´ee comme partielle (2944676..2945572 ; /product=”glucans biosynthesis protein (partial)”). De plus, on remarque la pr´esence de quatre codons de terminaison dans le /translation=.

Ces exemples ne sont pas exhaustifs, on peut ´evidemment rencontrer des combinaisons de tous ces cas de figure avec plus de deux fCDS. D’une mani`ere g´en´erale, seules les CDS qui se terminent par un codon de terminaison et qui ont une longueur sup´erieure `a 60 pb codon de terminaison inclus, entreront dans le processus d’attribution d’un statut de r´eannotation.

Ether. Les autres champs (CC ) contiennent les fr´equences relatives en nucl´eotides aux trois posi-tions des codons calcul´ees par le programme CodonW. De nombreuses autres fr´equences relatives peuvent ˆetre d´eduites `a partir de ces champs comme la fr´equence relative en mononucl´eotide ind´e-pendamment de la position dans le codon (FR(A) = (FR(A1) + FR(A2) + FR(A3))/3) ou le GC3 (FR(GC3) = FR(G3) + FR(C3)).

Recherche de similitudes dans les banques de s´equences prot´eiques

Le programme Blast2p de la plate-forme de comparaison de s´equences, Biofacet, est utilis´e pour rechercher des similitudes entre les produits de traduction des CDS de la table [Genomic Object] et les prot´eines des banques publiques (e.g. Swiss-Prot, SWALL ; Tab. 5.2 A et B p. 172). Une description de ces banques est enregistr´ee dans la table [Public Bank]. La table [Public Protein] contient les informations sur les prot´eines correspondantes : le num´ero d’accession (PP accession), une description de la fonction biologique et le nom de l’organisme d’appartenance.

La table [GO PP CPD] d´ecrit les r´esultats de recherche de similitudes. Cette table r´ealise une correspondance n ↔ m entre les CDS (GO id) et les prot´eines des banques (PP id) : une CDS peut ˆetre similaire `a plusieurs prot´eines des banques et inversement. Plusieurs champs per-mettent de caract´eriser une similitude comme les positions exactes de l’alignement entre les deux s´equences. Les champs GOPP score, GOPP eval, GOPP ident et GOPP pos indiquent respecti-vement le score, la E-value, le pourcentage d’identit´e et de similarit´e entre les deux s´equences. Le champ GOPP maxlrap, rapport de la longueur de l’alignement (GOPP matchlength) sur la plus longue des deux prot´eines, permet de distinguer les alignements partiels des alignements complets. Pour chaque s´equence requˆete (produit d’une CDS de [Genomic Object]), les dix meilleurs r´esultats (ordonn´es selon leur E-value) sont stock´es dans [GO PP CPD].

Reconnaissance de motifs prot´eiques

Une autre fa¸con de caract´eriser les polypeptides est de rechercher des motifs prot´eiques, en parti-culier pour la caract´erisation des domaines des prot´eines modulaires. Ces motifs sont recherch´es avec le programme InterProScan qui utilise la base InterPro (table [InterProScan]). Par ailleurs, nous d´etectons les peptides signaux et les h´elices alpha transmembranaires dans les s´equences prot´eiques respectivement `a l’aide des programmes SignalP et TMHMM (resp. [SignalP] et [TMHMM]). Classes fonctionnelles de g´enomes mod`eles

Pour attribuer des classes fonctionnelles aux polypeptides, nous utilisons le syst`eme de clas-sification multi-fonctionnelle d’E. coli K-12 fourni par la banque GenProtEC [Serres et al., 2004] et int´egr´e dans la table [MultiFun Classif]. La table de correspondances [GO MC CPD] permet d’attribuer plusieurs classes fonctionelles `a un mˆeme polypeptide. Par exemple, le module b0149 1 est impliqu´e dans la biosynth`ese du peptidoglycane (m´etabolisme et structure cellulaire), dans la division cellulaire (processus cellulaire) et situ´e dans la membrane interne (localisation). Le module

b0149 2 est impliqu´e dans la biosynth`ese du peptidoglycan, dans les processus cellulaires de la divi-sion cellulaire et de la r´esistance aux antibiotiques (e.g. penicilline), et localis´e dans le cytoplasme. Dans le cadre de l’analyse de l’usage des codons synonymes (voir p. 197), les partitions en k classes que nous obtenons sont souvent corrobor´ees par des propri´et´es biologiques particuli`eres : biais mutationnel (une classe de g`enes pr´ef´erentiellement sur le brin pr´ecoce contre une classe de g`ene pr´ef´erentiellement sur le brin tardif), l’essentialit´e, l’expressivit´e, l’origine exog`ene, etc. Nous collectons donc des donn´ees de r´ef´erence sur ces classes fonctionnelles, au moins dans le cas d’organismes mod`eles comme E. coli K-12 et B. subtilis (g`enes exog`enes [GenProtEC], g`enes essentiels [Predicted essential] et g`enes hautement exprim´es [Highly eXpressed] ; [Wei et al., 2001, Karlin et al., 2001] et Tab. 5.2 A p. 172).

Familles fonctionnelles des g´enomes complets

La table [COG] regroupe les 3307 classes de la banque de COG identifi´ees par COG id et dont la fonction est d´ecrite dans le champ COG function. Une CDS pouvant ˆetre class´ee dans un ou plusieurs COG, la table [CO COG CPD] ´etablit des correspondances n ↔ m entre les tables [Genomic Object] et [COG]. Les correspondances sont calcul´ees par le programme COGnitor : soit nous r´ecup´erons les donn´ees de la banque de COG qui comprend 43 g´enomes, soit nous ex´ecutons une version locale du COGnitor sur un prot´eome (Tab. 5.2 p. 172). La table [COG Gene] permet d’´etablir des correspondances entre les COG id (e.g. COG0007) et les CG gene name (e.g. cysG) non sp´ecifique de chaque organisme. La table [COG Bank] permet d’´etablir des correspondances entre les COG id et les CB label (e.g. Rv0511) sp´ecifiques de chaque organisme (les CB COG label comportent en plus la notion de module, e.g. Rv0511 1).

Pr´ediction de fonctions enzymatiques

Les donn´ees de la banque ENZYME sont charg´ees dans la table [Enzyme] [Bairoch, 2000]. Les r´eactions enzymatiques sont identifi´ees par le champ EC id qui correspond `a un num´ero attribu´e par l’Enzyme Commission (EC). La m´ethode PRIAM (PRofils pour l’Identification Automatique du M´etabolisme [Claudel-Renard et al., 2003, Claudel-Renard, 2003]) permet d’effectuer une recherche de similitude de chaque s´equence prot´eique requˆete d’un prot´eome complet contre une banque de profils enzymatiques, en utilisant le programme RPS-BLAST (Reverse Position-Specific Basic Local Alignement Search Tool [Altschul et al., 1997]). La banque est construite pr´ealablement : `a chaque num´ero EC correspond une ou plusieurs matrices de score position sp´ecifique (PSSM). Ces PSSM sont calcul´ees `a partir des alignements multiples de toutes les s´equences de Swiss-Prot qui poss`edent le mˆeme num´ero EC (annotations de la banque Enzyme) par le programme PSI-BLAST (Position-Specific Iterated BLAST [Marchler-Bauer et al., 2003]). PRIAM va donc attribuer aux produits des CDS stock´ees dans [Genomic Object], z´ero (s’il ne s’agit pas d’un enzyme), une (s’il s’agit d’une monoenzyme) ou plusieurs (s’il s’agit d’un multienzyme) activit´es enzymatiques. Ces r´esultats sont stock´es dans la table [GO EC CPD] (e.g. le num´ero du profil et le num´ero EC sont contenus

respectivement dans les champs GOEC profil et EC id).

Recherche d’orthologues, de paralogues

Nous avons d´ej`a d´efini les relations d’orthologie et de paralogie entre deux g`enes dans la partie de l’´etat de l’art (voir p. 51). Dans le but de comparer les g´enomes deux `a deux, on d´efinit des relations de correspondance entre les objets g´enomiques d’un g´enome G 1 et ceux d’un g´enome G 2 (1 et 2 pouvant ˆetre deux esp`eces procaryotes ou deux souches d’une mˆeme esp`ece). Ces relations de correspondance peuvent ˆetre fond´ees sur divers crit`eres de comparaison (e.g. recherche de similitudes contre une banque de s´equences prot´eiques ou contre une banque de motifs prot´eiques).

La table [GO GO CPD] permet de conserver les r´esultats de comparaisons de s´equences entre les CDS de deux g´enomes pour la recherche d’orthologues, ou entre les CDS d’un mˆeme g´enome pour la recherche de paralogues. Elle a la mˆeme structure que la table [GO PP CPD] `a ceci pr`es qu’elle ´etablit une relation de similitude entre deux objets g´enomiques de type CDS (GO id 1 et GO id 2). Deux types de correspondances sont particuli`erement int´eressantes : les BBH (Bidirectional Best Hit, i.e. les meilleurs alignements bidirectionnels) et les BH (Best Hit, i.e. les meilleurs alignements) [Overbeek et al., 1999]. Deux g`enes X 1 et X 2 de deux g´enomes G 1 et G 2 sont en BBH si X 1 et X 2 ont une similitude de s´equence, s’il n’existe pas un g`ene Y 2 de G 2 plus similaire `a X 1 que X 2 et s’il n’existe pas un g`ene Y 1 de G 1 plus similaire `a X 2 que X 1. Deux g`enes X 1 et X 2 sont uniquement en BH si l’une des deux derni`eres conditions n’est pas respect´ee. Ces deux notions permettent de supposer que deux g`enes en BBH sont plus vraisemblablement des orthologues que deux g`enes en BH. La table [GO GO CPD] comporte les champs GOGO order 1 et GOGO order 2 qui permettent d’ordonner les alignements suivant un crit`ere (e.g. E-value, score). Si les champs GOGO order 1 pour GO id 1 et GOGO order 2 pour GO id 2 sont ´egaux `a 1, alors GO id 1 et GO id 2 sont en BBH. Si uniquement GOGO order 1 ou GOGO order 2 est ´egal `a 1, alors GO id 1 et GO id 2 sont en BH.

La table [GO GO CPD] permet donc de lier des orthologues putatifs d’un g´enome G 1 `a un g´enome G 2. L’absence de relation de X 1 vers G 2 au sein de [GO GO CPD] peut sugg´erer la sp´ecificit´e de ce g`ene (X 1 est unique `a G 1 par rapport `a G 2) sans toutefois l’affirmer. La table [GO GO CPD] contient ´egalement le champ SY id (identifiant unique de groupe de synt´enie) qui permet de renseigner l’implication d’une relation de correspondance entre deux g`enes au sein d’un groupe de synt´enie (voir p. 192).

6.3.3 Pr´edictions relationnelles

Les tables d’annotation relationnelle permettent d’´etablir des relations complexes entre les ob-jets g´enomiques ou entre leurs produits afin de reconstituer des unit´es biologiques (e.g. unit´es de transcription, complexes prot´eiques, voies m´etaboliques, cascades de signalisation ; Fig. 1.1 p. 35).

Pr´edictions d’ilˆots g´enomiques

Il existe plusieurs termes pour d´esigner les g`enes acquis par transfert horizontal : on parle de g`enes HGT (Horizontal Gene Transfer [Lawrence & Hendrickson, 2003]), de g`enes LGT (Lateral Gene Transfer [Daubin et al., 2003b]), de g`enes pA (putative Alien [Karlin, 2001]), de g`enes x´eno-logues [Fitch, 2000], de g`enes d’origine ´etrang`ere, exog`ene ou extra-chromosomique [Serres et al., 2004]. Un ˆılot g´enomique (Genomic Island (GI)) est un groupe de g`enes colocalis´es sur le chromosome, acquis par transfert horizontal, essentiels pour la plasticit´e adaptative (fitness) et la survie des bact´eries `a des conditions de stress (e.g. op´eron cobalamine de S. enterica serovar Typhimurium LT2, syst`eme de capture du fer des Yersinia spp. [Hacker & Carniel, 2001]). Les ˆılots de pathog´enie (PAthogenicity Island (PAI)) et de surcroˆıt les ˆılots de haute pathog´enie (High Pathogenicity Island (HPI)) sont des ˆılots g´enomiques dont la fonction est impliqu´ee dans la virulence des bact´eries pathog`enes (e.g. adh´esine, invasine, syst`eme de secr´etion de type III ou IV, toxines [Karlin, 2001]). Ainsi, une m´ethode pertinente pour la pr´ediction d’ˆılots g´enomiques consiste `a rechercher des groupes de g`enes HGT colocalis´es sur le chromosome. Toute la difficult´e r´eside dans la pr´ediction des g`enes HGT. En effet, il existe un d´ebat sur les g`enes HGT : certains ont observ´e que les g`enes atypiques dans leur usage des codons synonymes (i.e. classe III AT3 riche chez E. coli K-12 et B. subtilis) ´etaient souvent group´es sur le chromosome et pr´esentaient des similitudes avec des g`enes connus pour ˆetre transf´er´es horizontalement (e.g. g`enes de phages, de toxines [Moszer et al., 1999]). Cependant, d’autres ont annot´es des ˆılots g´enomiques GC3riches (Fig. 11.2 p. 343). Enfin, d’autres encore pensent que les g`enes transf´er´es horizontalement n’ont pas forc´ement un usage des codons atypique et inversement [Koski et al., 2001]. L. Koski et coll. invoquent plusieurs raisons.

– Si l’´ev´enement est trop ancien, l’usage des codons synonymes des g`enes acquis a eu le temps de s’adapter `a celui de g`enes typiques de la bact´erie.

– Si l’´ev´enement a eu lieu entre deux esp`eces bact´eriennes ayant des usages des codons syno-nymes similaires, alors il sera impossible d’observer une diff´erence significative entre l’usage des codons synonymes des g`enes acquis et celui des g`enes typiques.

– D’autres pressions de s´election peuvent expliquer la pr´esence de g`enes avec un usage des codons synonymes atypique.

Comme nous le verrons p. 226, la composition des g`enes HGT serait plus influenc´ee par des pro-pri´et´es structurales de l’ADN que par la composition du g´enome donneur. La classe III permettrait donc de rep´erer une partie des transferts horizontaux : les transferts r´ecents de g`enes AT3 riches. En attendant d’accueillir des r´esultats d’une nouvelle m´ethode de pr´ediction d’ˆılots g´enomiques (voir p. 353) et/ou des donn´ees d’autres ressources (e.g. HGT-DB [Garcia-Vallve et al., 2003] Is-landPath [Hsiao et al., 2003] ; voir p. 338), la table [Genomic Island] de PkGDB contient des GI de r´ef´erence comme les PAI de Y. pestis CO92 [Parkhill et al., 2001b] et de P. luminescens [Duchaud et al., 2003].

Reconstruction de voies m´etaboliques

Les num´eros EC attribu´es par PRIAM aux CDS pr´esentant une activit´e enzymatique sont le point de d´epart de la reconstruction de voies m´etaboliques. Une premi`ere ´etape permet de visualiser sur les graphes m´etaboliques d’un organisme mod`ele le contenu enzymatique d’un organisme en cours d’´etude. La d´emarche consiste `a r´ealiser des interconnexions entre PkGDB et deux bases de donn´ees m´etaboliques : KEGG et BioCyc. Le serveur KEGG rassemble toutes les voies m´etaboliques possibles des g´enomes complets. Il est capable de repr´esenter des voies m´etaboliques `a partir de num´eros EC. La base BioCyc (MetaCyc et EcoCyc) permet de faire des requˆetes sur les voies m´etaboliques d’un nombre plus limit´e d’organismes.

Dans une seconde ´etape, PkGDB permet, `a partir des num´eros EC et des orthologues putatifs entre l’organisme mod`ele et l’organisme ´etudi´e, d’obtenir les listes d’enzymes communes aux deux organismes, uniques `a l’organisme mod`ele et `a l’organisme ´etudi´e. Ces listes sont calcul´ees dyna-miquement selon des param`etres de similitude de s´equences, et vont permettre de redessiner les sch´emas m´etaboliques de l’organisme mod`ele en distinguant les r´eactions enzymatiques pr´esentes ou absentes chez l’organisme ´etudi´e. La base de donn´ees KEGG poss`ede un outil permettant de colorer, sur les graphes m´etaboliques, les num´eros EC suivant un code couleur sp´ecifi´e : il peut donc servir `a visualiser les r´eactions communes et uniques et ainsi `a localiser des points de ruptures dans les voies m´etaboliques. Ces ruptures indiquent (1) que les enzymes manquantes sont bien pr´esentes dans l’organisme ´etudi´e mais qu’elles n’ont pas ´et´e d´etect´ees par les m´ethodes de pr´ediction fonc-tionnelle, (2) que l’organisme ´etudi´e n’est pas capable de synth´etiser les m´etabolites en aval d’une rupture, ou (3) que l’organisme ´etudi´e utilise une voie m´etabolique alternative pour la synth`ese de ces m´etabolites.

Pr´edictions de groupes de synt´enie

Dans le but d’aider `a l’annotation fonctionnelle des g`enes, nous nous int´eressons `a la d´etection de groupes de g`enes dont l’organisation reste relativement conserv´ee entre deux g´enomes procaryotes : on parle de groupes de synt´enie. En effet, l’observation de telles structures peut traduire un ´eventuel couplage fonctionnel entre les produits des g`enes concern´es, comme c’est le cas entre les produits de g`enes appartenant `a des op´erons ou `a des r´egulons procaryotes. Un groupe de synt´enie est

Documents relatifs