• Aucun résultat trouvé

Int´ egration d’outils distribu´ es et h´ et´ erog` enes

Annotation de g´ enomes : quels moyens informatiques ?

4.1 Int´ egration d’outils distribu´ es et h´ et´ erog` enes

Les outils pr´esent´es dans les chapitres pr´ec´edents r´epondent, le plus souvent, `a des objectifs dif-f´erents. Il est illusoire de chercher `a concevoir un outil universel permettant de r´epondre `a plusieurs questions biologiques. Il faut accepter la pluralit´e des probl´ematiques, qui implique n´ecessairement une pluralit´e des outils. Aussi, le probl`eme informatique majeur de l’annotation des g´enomes proca-ryotes est li´e `a l’existence d’une multitude d’outils distribu´es fournissant des donn´ees h´et´erog`enes, tant en termes de nature que de format. C’est pourquoi depuis le milieu des ann´ees 90, le mot cl´e en bioinformatique est devenu « int´egration ».

4.1.1 Standards facilitant les compatibilit´es entre donn´ees de banques et de

bases

Nous avons vu pr´ec´edemment que le format de donn´ees des banques actuelles n’est pas toujours identique (Swiss-Prot, GenPept, PFam . . . ). L’homog´en´eisation des formats rel`eve d’un probl`eme essentiellement technique (extraction des donn´ees des fichiers des banques), et permet d’assurer la compatibilit´e syntaxique des donn´ees. Plus complexe est le probl`eme d’homog´en´eisation des concepts repr´esentant les entit´es et des valeurs prises par les attributs. Par exemple, nous avons vu que le qualificatif gene des banques de s´equences nucl´eiques, d´esigne un concept ambigu pour lequel il existe diff´erentes interpr´etations (voir p. 65). Bien que des standards aient ´et´e d´evelopp´es

pour faciliter la gestion de ces probl`emes, seuls des experts sont capables de trouver des solutions. Aujourd’hui, trois standards de fonctionnalit´es compl´ementaires facilitent la mise en œuvre de solutions d´efinies par des experts afin d’assurer la compatibilit´e syntaxique des donn´ees :

– CORBA1 (Common Object Request Broker Achitecture)

– XML2 (eXtended Markup Langage)

– UML3 (Unified Modeling Langage)

Name ST Description Availability

DiscoveryLink Middleware system based on a virtual relational database.

IBM Ensembl Software system integrating eukaryotic genomic

data and bioinformatics tools.

The Wellcome Trust Sanger Institute/European Bioinformatics Institute (EBI)

Entrez Information retrieval system based on a relational database.

NCBI GenoMax Enterprise-level integration of bioinformatics tools

and data sources. Data are stored within a relational database.

InforMax

Kleisli Mediator system encompassing a nested relational data model, a high-level query language and a powerful query optimizer.

geneticXchange

SRS Indexed flat-file system built on the model of a document retrieval system.

EBI/Lion biosciences TAMBIS Retrieval-based information system using an

ontology for molecular biology and bioinformatics.

University of Manchester, UK XML-based system Tagged text files system based on a XML

Schema.

W3C

ST system type; F federated database; W data warehouse; XML extensible markup language; N/A not applicable. N/A F F F F W W W Haas-2001 Hubbard-2002 Schuler-1996 http://www.informax inc.com/solutions/g enomax/index.html Chung-1999 Etzold-1996 Stevens-2000 http://www.w3. org/XML/ Reference

Tab. 4.1 – Syt`emes d’int´egration de donn´eesCe tableau est extrait de la publication [Durand et al., 2003] .

Deux approches permettent d’int´egrer des donn´ees de diff´erentes sources, dans un contexte favorable `a leur compatibilit´e syntaxique et s´emantique, afin de les rendre accessibles sous forme d’une base unique.

L’approche f´ed´erative consiste `a ajouter, au-dessus des bases existantes, une couche logicielle qui offre les interfaces n´ecessaires entre les bases faisant ainsi apparaˆıtre l’ensemble comme une seule base virtuelle (par exemple SRS [Etzold et al., 1996]). L’approche entrepˆot de donn´ees consiste `a agr´eger, au sein d’un sch´ema unique (UML), les donn´ees (XML) de diff´erentes bases (dataware-house ; Tab. 4.1 p. 150). Ces donn´ees sont organis´ees par sujets et g´er´ees dans un environnement de stockage sp´ecialis´e. L’approche entrepˆot poss`ede plusieurs avantages par rapport `a l’approche f´ed´erative. Les performances de temps d’acc`es aux donn´ees et de traitement des requˆetes sont th´eo-riquement meilleures ; en contre partie, cette approche n´ecessite des mises `a jour tr`es r´eguli`eres. L’ontologie est implicite dans le sch´ema conceptuel commun `a toutes les donn´ees r´eunies. Ainsi, l’approche entrepˆot offre un contexte plus favorable `a la compatibilit´e s´emantique.

1Les sp´ecifications de CORBA 2.0 http://www.omg.org ont ´et´e adopt´ees en 1994.

2XMLhttp://www.xml.com/ a ´et´e cr´e´e en 1999.

4.1.2 Bases de connaissances et int´egration de m´ethodes

Le concept de connaissances est li´e `a l’interpr´etation de donn´ees compatibles. Cette interpr´eta-tion repose sur le m´ecanisme d’inf´erence (g´en´erainterpr´eta-tion de nouveaux faits `a partir des donn´ees).

Afin de garantir l’interop´erabilit´e syntaxique et s´emantique des donn´ees `a l’int´erieur d’une base (ou entre deux bases), il faut passer de la notion de base (ou entrepˆot) de donn´ees, `a celle de base (ou entrepˆot) de connaissances. Les probl`emes de compatibilit´e syntaxique et s´emantique des donn´ees doivent ˆetre r´esolus au niveau des sch´emas conceptuels [Morgat & Rechenmann, 2002]. La repr´esentation de connaissances permet l’interop´erabilit´e de plusieurs bases de donn´ees de domaines biologiques qui se recouvrent, et la mod´elisation explicite de r´eseaux biologiques par le biais des associations et des classes.

Pour g´erer l’inf´erence de connaissances, le mod`ele doit ˆetre extensible afin d’accueillir de nou-velles connaissances (donn´ees inf´er´ees qui peuvent r´ev´eler la n´ecessit´e d’importer de nounou-velles don-n´ees primaires, etc.). Aussi, le second concept cl´e des bases de connaissances est celui de l’inf´erence. Les deux m´ecanismes d’inf´erence majoritairement utilis´es sont l’induction et la d´eduction. Classi-quement, en bioinformatique, l’inf´erence de connaissance par induction est bas´ee sur l’utilisation d’un ensemble de m´ethodes, ce qui n´ecessite d’int´egrer des programmes d’analyses dans un syst`eme assurant la compatibilit´e des donn´ees en entr´ee et en sortie.

Le moyen le plus simple d’inf´erer des connaissances est d’avoir, `a sa disposition, `a la fois un ensemble de donn´ees structur´ees et un ensemble de m´ethodes int´egr´ees. A l’oppos´e du probl`eme de l’int´egration des donn´ees dans un environnement homog`ene, celui de l’int´egration des m´ethodes a suscit´e, `a ce jour, un int´erˆet moindre. En effet, les biologistes qui ne travaillent pas `a grande ´echelle (sur de grands ensembles de donn´ees `a la fois), se satisfont des m´ethodes distribu´ees en ligne. Les bioinformaticiens, quant `a eux, vont rapatrier et compiler les m´ethodes dont ils ont besoin (ou bien mˆeme d´evelopper celles qui ne sont pas disponibles) pour les enchaˆıner au sein d’un script. Le manque de synchronisation entre les diff´erents d´eveloppements r´ealis´es par la communaut´e de bioinformaticiens g´en`ere une redondance des m´ethodes et une perte de temps ind´eniable. Il semble donc crucial de pouvoir disposer d’un environnement permettant au programmeur d’acc´eder `a toutes les m´ethodes disponibles au sein d’un groupe de travail, environnement qui faciliterait aussi la compr´ehension du rˆole de ces m´ethodes.

Le package, ou « boˆıte `a outils », est un logiciel qui int`egre diff´erentes m´ethodes. Il est parfois possible de construire des strat´egies d’analyse qui permettent d’enchaˆıner les m´ethodes `a partir d’un langage ad hoc. On peut citer les packages Genetics Computer Group (GCG), European Molecular Biology Open Software Suite (EMBOSS ), etc. (Tab. 4.1 p. 154). Les packages peuvent ˆetre coupl´es `

a des SGBD, mais sans int´egration r´eelle des deux syst`emes dans un seul et mˆeme environnement. Bien que le package soit une avanc´ee dans la m´ethodologie informatique, il est aujourd’hui ´evident que les donn´ees d’une part, et les m´ethodes d’autre part, sont indissociables : les donn´ees biologiques sont utilis´ees en entr´ee de programmes qui g´en`erent eux mˆeme de nouvelles donn´ees `a stocker. Enfin, l’efficacit´e d’une m´ethode repose g´en´eralement sur un ensemble de param`etres dont les valeurs sont

souvent estim´ees sur des jeux d’apprentissage (des donn´ees biologique). C’est pourquoi une des plates-formes pr´esent´ees dans la section qui suit (Genostar ) repose sur une structure de base qui int`egre `a la fois les donn´ees et les m´ethodes d’analyse.

4.2 Plates-formes d’annotation et d’exploration des g´enomes

pro-caryotes

Au milieu des ann´ees 90, devant l’augmentation exponentielle du nombre de s´equences, il deve-nait tentant de d´evelopper et d’utiliser des m´ethodes d’analyse automatiques. Ainsi une premi`ere cat´egorie de plates-formes d’annotation met en œuvre des pipelines d’analyses automatiques, l’inter-action avec l’utilisateur ´etant alors minimale. Les r´esultats de l’annotation fonctionnelle des g`enes pr´edits sont pr´esent´es dans des pages HTML. Dans cette cat´egorie, on peut citer le logiciel GeneQuiz ou encore Magpie [Andrade et al., 1999, Gaasterland & Sensen, 1996]. L’annotation strictement au-tomatique des s´equences g´enomiques n’´etant ni facile, ni fiable, de nombreux environnements plus interactifs sont aujourd’hui tr`es utilis´es : c’est le cas des plates-formes semi-automatiques Manatee (Tab. 4.1 p. 154), ERGO [Overbeek et al., 2003], GeneDB [Hertz-Fowler et al., 2004] qui offrent, en compl´ement d’un pipeline d’analyses, des interfaces d’annotations manuelles permettant de valider les annotations automatiques. Enfin, Artemis est avant tout une excellente interface graphique d´e-di´ee `a l’annotation strictement manuelle des s´equences g´enomiques [Rutherford et al., 2000]. Com-par´es aux environnements automatiques, ces syst`emes offrent g´en´eralement des mod`eles de donn´ees biologiques plus sophistiqu´es (ils reposent sur des SGBDR ou SGBDO), et/ou des interfaces gra-phiques interactives permettant d’extraire, d’analyser, d’annoter, de modifier, de visualiser les don-n´ees repr´esent´ees par ces mod`eles. A titre d’exemple, nous d´ecrirons bri`evement les plates-formes GeneQuiz (automatique), Manatee (semi-automatique), et Artemis (manuelle). Nous terminerons cette section en pr´esentant une plate-forme plus r´ecente d´edi´ee `a l’annotation et `a l’exploration de s´equences g´enomiques : Genostar.

4.2.1 GeneQuiz

GeneQuiz [Andrade et al., 1999] est une plate-forme d’annotation fonctionnelle automatique accessible en ligne qui n’utilise que des m´ethodes d’analyse de s´equences prot´eiques. L’utilisateur fournit une s´equence prot´eique, et r´ecup`ere une liste d’annotations fonctionnelles.

GeneQuiz est compos´e de quatre modules : GQUpdate, GQSearch, GQreason et GQbrowse. GQUpdate g`ere la mise `a jour quotidienne de banques de s´equences, de motifs et de structures (SWALL, PROSITE, PDB). Sur chaque s´equence prot´eique requˆete le module GQSearch est charg´e d’ex´ecuter les m´ethodes de comparaison du type Blastp, Fasta, recherche de motifs, mais aussi recherche d’homologie dans la banque de structure 3D. Puis le module GQreason filtre les prot´eines s´electionn´ees par GQSearch en fonction de leur description. Ce module fait une analyse syntaxique du champ de description afin de v´erifier si l’information contenue est valide ou non. Lorsque la

description est acceptable, les seuils pr´ed´efinis sur le score et la E-value des programmes Blast et Fasta permettent de ranger la fonction de chaque prot´eine requˆete dans diff´erentes cat´egories (clear, tentative, marginal et unknown). Finalement, le module GQbrowse est charg´e de synth´etiser les r´esultats obtenus pour chaque m´ethode dans une page HTML.

L’attribution fonctionnelle automatique d´evelopp´ee par GeneQuiz combine de fa¸con astucieuse plusieurs r´esultats d’analyse afin d’attribuer une fonction unique `a la prot´eine analys´ee. GeneQuiz a servi notamment `a l’analyse du g´enome de M. jannaschii pour la pr´ediction de fonctions prot´eiques [Andrade et al., 1997]. Elles se heurtent cependant in´evitablement au probl`eme de l’accumulation des erreurs d’annotation dans les banques de s´equences, mais aussi `a l’organisation souvent modu-laire des prot´eines, conduisant alors `a des annotations soit « fausses », soit incompl`etes.

4.2.2 Manatee

Manatee (Manual Annotation Tool Etc, Etc) est une plate-forme d’annotation semi-automatique de g´enomes procaryotes developp´ee en langage Perl au TIGR4(Tab. 4.1 p. 154). Le moteur d’anno-tation automatique, d´ecrit dans diff´erentes publications [Nierman et al., 2001, Tettelin et al., 2001], est constitu´e d’un pipeline externe. Les CDS sont pr´edites par le programme GLIMMER [Delcher et al., 1999a], puis compar´ees aux s´equences d’une base non redondante d’acides amin´es constitu´ee `a partir de PIR-NREF et de la base CMR (Comprehensive Microbial Resources) du TIGR. Le programme BER (Blast-Extend-Repraze), utilis´e `a cet effet, permet aussi de rep`erer des d´ecalages du cadre de lecture. Les s´equences prot´eiques pr´edites sont aussi examin´ees par le pro-gramme HMMPfam (pr´ediction de domaines prot´eiques). Le propro-gramme AutoAnnote, qui analyse les r´esultats des recherches BER et HMMpfam, permet d’assigner `a chaque prot´eine un nom com-mun, un symbole de g`ene, un num´ero de la commission enzyme, et une classe fonctionnelle de Gene Ontology [Ashburner et al., 2000]. Dans le cas des g´enomes procaryotes, le TIGR utilise la classifi-cation fonctionnelle de Monica Riley [Serres et al., 2004]. Les r´esultats de l’annotation automatique sont stock´es dans une base MySQL : ils sont visualis´es et ´edit´es pour une annotation manuelle via le navigateur de Manatee. Ainsi, l’interface cartographique de Manatee permet d’identifier rapi-dement les g`enes et d’assigner une fonction `a partir des r´esultats de similitudes, de familles de paralogues et des suggestions d’annotation g´en´er´ees par les analyses automatiques. Le centre de s´equen¸cage du TIGR s´equence et annote de nombreux g´enomes procaryotes comme N. meningitidis MC58 (serogroup B), Caulobacter crescentus, Streptococcus pneumoniae TIGR4, Bacillus anthracis [Tettelin et al., 2000, Nierman et al., 2001, Tettelin et al., 2001, Read et al., 2003].

4.2.3 Artemis

Parmi l’ensemble des g´enomes de micro-organismes aujourd’hui disponibles, la qualit´e des an-notations est g´en´eralement sup´erieure chez les annotateurs qui utilisent des interfaces graphiques destin´ees `a une validation des annotations fonctionnelles [Bocs et al., 2002]. Le logiciel Artemis

Annot at ion de g´en omes : quel s mo y en s in for mat iq ue s ? Chap it re 4 (implementation) installation GCG Wisconsin Package

Sequence analysis package. http://www.accelrys.com/products/

gcg_wisconsin_package/index.html

Prokaryotes Eukaryotes

DNA/RNA/protein sequences Yes (RDBMS) Client-server Yes -

EMBOSS Open source software package for sequence analysis.

http://www.hgmp.mrc.ac.uk/Software/E MBOSS

Prokaryotes Eukaryotes

DNA/RNA/protein sequences No - Yes

Darwin Open source software package

for sequence comparisons and phylogenetic tree building.

http://cbrg.inf.ethz.ch/Darwin Prokaryotes Eukaryotes

DNA/RNA/protein sequences No - Yes

PEDANT System for completely automated and exhaustive analysis of protein sequence sets.

http://pedant.gsf.de/ Prokaryotes Eukaryotes

DNA/protein sequences Functional predictions Protein-protein interactions

Yes (RDBMS) Client-server Web server

GeneQuiz Fully automated system for genome analysis.

http://jura.ebi.ac.uk:8765/ Prokaryotes Eukaryotes

Protein sequences Functional predictions

Yes (RDBMS) Client-server Web server

MAGPIE/ EGRET

Fully automated sequence for genome analysis.

http://genomes.rockefeller.edu/ magpie/ Prokaryotes (EGRET for Eukaryotes)

DNA/protein sequences No Client-server Yes

Biofacet (LASSAP)

Software platform for comparative genomics.

http://www.gene-it.com Prokaryotes Eukaryotes

DNA/protein sequences No - Yes

SEALS Software package for

large-scale, semi-automated sequence analysis. http://www.ncbi.nlm.nih.gov/CBB research/Walker/SEALS/index. html Prokaryotes Eukaryotes

DNA/protein sequences No - Yes

ASAP A Systematic Annotation

Package for community analysis of genomes.

https://asap.ahabs.wisc.edu/ annotation/php/ASAP1.htm

Prokaryotes DNA/protein sequences Experimental data

Yes (RDBMS) Client-server Yes

AceDB Database system with many

specific displays and tools for genomic data.

http://www.acedb.org Prokaryotes Eukaryotes

DNA/RNA/protein sequences Physical and genetic map

Yes (OODB) Client-server Yes -

Artemis Genome viewer and annotation

tool.

http://www.sanger.ac.uk/Software/A rtemis/

Prokaryotes Eukaryotes

DNA sequences No - Yes

Genotator Genome viewer and sequence annotation tool.

http://www.fruitfly.org/~nomi/genotator Eukaryotes DNA sequences No - Yes

Sequin Sequence viewer and annotation

tool, primarily designed for sequence submission.

http://www.ncbi.nlm.nih.gov/Sequin Prokaryotes Eukaryotes

DNA/protein sequences Yes (NCBI data

model/ASN.1)

Client-server Ye s -

Apollo Genome annotation editor. http://www.fruitfly.org/annot/apollo/ Eukaryotes DNA sequences Yes (RDBMS;

Gadfly/Ensembl projects)

Client-server Ye s

Manatee Web-based gene evaluation and genome annotation tool.

http://manatee.sourceforge.net/ Prokaryotes Eukaryotes

DNA/protein sequence Functional prediction outputs

Yes (RDBMS) Client-server Yes -

ERGO Software system for a

comprehensive analysis of genes and genomes.

http://ergo.integratedgenomics.com/E RGO Prokaryotes Eukaryotes Genomic data Expression data Regulatory data

Yes (RDBMS) Client-server Web server

üUberTool Software system for the

integration and analysis of molecular biological data.

http://www.science-factory. com/products.html Prokaryotes Eukaryotes DNA/protein sequences 3D structure Expression data

Yes (OODB) Client-server Yes -

Genostar Software platform for genome annotation and exploration.

http://www.genostar.org Prokaryotes DNA sequences Experimental data

Yes (OODB) - Yes -

1Does the system rely on an explicit data model, and if yes, what is the implementation? RDBMS relational database management system; OODB object-oriented database. A hardwired model (eg,

Java classes) is not considered as explicit. 2Does the system require a local installation, or is it only accessible through a web server?

Rice-2000 Gonnet-2000 Gaasterland-1996 Gaasterland-2000 Glemet-1997 Walker-1997 Glasner-2003 Rutherford-2000 Harris-1997 Lewis-2002 Overbeek-2003 Frishman -2001 Andrade -1999 Fig. 4.1 – A) Plat e-f orm e d’an al y se de g´en omes (cˆ ot ´e don n ´ees )

Name Nature of methods Built-in annotation pipeline User control execution1 User control strategy2 Data

visualization3 Data edition4

GCG Wisconsin Package

Sequence analysis tools. No GUI or command line

Yes (programming)

Passive Manual EMBOSS Complete set of sequence analysis

tools. No GUI or command line Yes (programming) Active DARWIN comparison algorithms

and phylogenic trees reconstitution.

No Yes

(programming)

Passive PEDANT Tools for protein function and

structure prediction, gene context exploration (SNAP method).

No Active GUI

GeneQuiz Complete set of protein annotation tools for automatic functional assignment.

Yes No Active No

MAGPIE/EGRET Sequence annotation tools for automatic functional assignment.

Yes (programming)

Active Biofacet

(LASSAP)

Sequence comparison algorithms (eg, local, global or blast).

Yes (programming)

Active SEALS Sequence analysis tools. Command line Yes

(programming)

Passive ASAP Sequence annotation tools. No (external

analysis tools)

No Yes (annotator and curator levels only) AceDB Genome annotation and

visualization tools.

No GUI or command line

No Artemis Genome annotation and

visualization tools.

No No Active

Genotator Genome annotation and

visualization tools. Yes GUI or command line No?

Sequin Sequence annotation tools. No GUI No Active Apollo Genome annotation and

visualization tools. No No Active

Manatee Genome annotation and

visualization tools. Yes No Active

ERGO Genome annotation and visualization tools.

Methods for comparative genomics (eg, gene contexts, pathways or plylogenetic clusters).

Yes No(the internal pipeline belongs to Integrated Genomics Inc)

No No

UüberTool , structure and expression data analysis.

Yes Yes (GUI) Active

Genostar Genome annotation and visualization tools, gene context exploration.

Yes Yes

(programming)

Active

1

Can the user control the execution of methods on data? 2

Can the end user design his/her own strategies? 'Programming' means that this is possible, by writing code (eg, Unix scripts or programming API). 3

Describes interactions with data system. Passive: display data only; active: dynamic (usually dedicated) interface connected to the internal representation of data. 4

How can the end user edit and annotate the data? 'Manual' means that edits are possible through direct edit of (text) files; 'GUI' (graphical user interface) means that dedicated graphical editors are available.

Manual Manual GUI GUI GUI GUI GUI GUI GUI GUI GUI Manual Manual Active Active Active Active GUI HTML Command line Command line Yes Command line Yes Command line Yes No No GUI No No GUI GUI Sequence Sequence

Fig. 4.1 – B) Plate-forme d’analyse de g´enomes (cˆot´e m´ethodes)

d´evelopp´e au Sanger Centre (Tab. 4.1 p. 154) dispose d’une interface graphique tr`es conviviale permettant, `a partir des r´esultats de plusieurs m´ethodes ayant ´et´e ex´ecut´ees au pr´ealable, d’anno-ter chacun des objets g´enomiques caract´eris´es (CDS, introns et exons . . . ), et de les sauvegarder au format de la banque EMBL. Cette plate-forme ne repose pas sur l’utilisation d’un SGBD et les quelques m´ethodes accessibles au niveau de l’interface graphique restent rudimentaires (recherche d’ORFs, calcul de GC skew, . . . ). L’ex´ecution des programmes Blastp et Fasta sur des CDS choisies est r´ealis´ee `a l’ext´erieur Artemis. Ainsi, c’est avant tout l’interface graphique dynamique qui rend ce logiciel tr`es attractif : il apporte en particulier beaucoup d’aide `a l’annotation pr´ecise des codons

Documents relatifs