• Aucun résultat trouvé

B.2 - Centralisation de l’information et banques de données

Des banques de données ont très vite été créées avec l’émergence des techniques de séquençage des protéines. Le volume de séquences n’ayant cessé de croître, ces banques se sont enrichies au fil des ans et certaines se sont spécialisées tandis que d’autres sont restées plus générales, pour permettre la centralisation de l’information. Ces banques de données peuvent être consultées en utilisant des systèmes d’interrogations croisées tel que SRS (Sequence Retrieval System) (Etzold et al., 1996). Ces systèmes permettent de centraliser l’accès à l’information à partir d’une séquence et de croiser des données provenant de différentes banques. La section qui suit ne prétend pas répertorier l'intégralité de ces banques de données mais présenter à la fois une vue d’ensemble des plus utilisées dans le cadre de l’annotation d’un génome, et des plus pertinentes pour la suite de ce manuscrit. En effet, il existe à l’heure actuelle plus de 500 banques de données de divers types (information extraite de DBNet (Discala et al., 2000), chacune essayant d’apporter un plus dans la recherche d’information.

II.B.2.1 Les banques de données généralistes

II.B.2.1.1 Banques de données des séquences nucléiques

Il existe trois grandes banques de données de séquences nucléiques, publiques et généralistes : la GenBank aux Etats-Unis (Benson et al., 2008), l’EMBL en Europe (European Molecular Biology Laboratory. Sterk et al., 2007) et la DDBJ au Japon (DNA Data Bank of Japan. Sugawara et al., 2008). Grâce une forte coopération internationale depuis 1982, ces banques s’échangent leurs informations tous les jours. La GenBank est cependant le centre névralgique de cette interconnexion. Créée et maintenue par le National Center for Biotechnology Information (NCBI, USA), elle est issue de la fusion de 260 000 organismes de recherche (Benson et al., 2008). En octobre 2008, cette banque de données contient, entre autres, les séquences de 706 génomes bactériens, 52 génomes archéens et 22 génomes eucaryotes. De plus, 1200 génomes de bactéries, 38 génomes d’archées et 336 génomes d’eucaryotes sont en cours de séquençage (source : NCBI).

II.B.2.1.2 Banques de données des séquences protéiques

L’ensemble des séquences protéiques, issues soit de soumissions directes soit de la traduction automatique des séquences d’acides nucléiques disponibles dans les banques de données précédemment citées, est accessible dans la banque publique GenPept créée et maintenue par le NCBI. Cette banque contient la collection de séquences protéiques la plus importante au monde. Elle présente cependant l’énorme inconvénient d’être mal annotée, car les annotations que l’on y trouve ne sont réalisées qu’avec un processus automatisé. En revanche, la banque UniProt KnowledgeBase (UniProtKB) (The UniProt Consortium, 2008), née de la fusion en 2002 des trois principales banques de données accessibles pour l’étude des protéines (SwissProt, TrEMBL et PIR), n'est composée, dans sa partie SwissProt, que de séquences protéiques à haute valeur ajoutée. Elle contient en effet des séquences présentant un niveau minimal de redondance et dont les annotations sont réputées très fiables, car révisées à la main par des experts à partir de la bibliographie. SwissProt propose en outre de nombreux liens avec plusieurs autres banques de données. Elle est maintenue par le Swiss Institute of Bioinformatics (SIB) en collaboration avec l’European Institute of Bioinformatics (EBI). La banque de données TrEMBL (Translation of EMBL) contient les traductions automatiques de l’ensemble des séquences nucléiques codantes de l’EMBL, non intégrées dans la banque SwissProt. Cette banque est également maintenue par le SIB et

l’EBI. Enfin, la banque PIR (Protein Information Ressource) rassemble l’ensemble des données protéiques contenues dans les principales banques mondiales. Elle est maintenue par le Georgetown University Medical Center, aux Etats-Unis.

II.B.2.2 Les banques de données spécialisées

La banque ENZYME regroupe des activités enzymatiques, classées selon une nomenclature systématique. Elle est maintenue par l’IUBMB (International Union of Biochemistry and Molecular Biology) (Tipton and Boyce, 2000) qui l’a créée en 1961 pour normaliser les descriptions des activités enzymatiques. Cette nomenclature classe les enzymes selon les réactions qu’elles catalysent. A l’heure actuelle, la nomenclature des numéros EC (Enzyme Commission) comporte 6 classes de réactions : les oxydoréductases, les transférases, les hydrolases, les lyases, les isomérases, et les ligases. Un code à 4 nombres permet de décrire chaque activité enzymatique de manière unique. Le premier nombre est compris entre 1 et 6, et correspond à la classe enzymatique de l’enzyme. Le deuxième nombre correspond à sa sous-classe et renseigne sur le type de liaison impliqué dans la réaction. Le troisième nombre indique le type d’atome de la liaison directement impliqué dans la réaction. Et enfin, le quatrième nombre correspond au substrat catalysé. Par exemple, le numéro EC 3.2.1.83 nous indique que l’enzyme appartient à la classe des hydrolases (3.-.-.-) et la sous-classe des glycosylases (3.2.-.-), qu’elle hydrolyse des liaisons

O- ou S-glycosidiques (3.2.1.-), et enfin, qu’elle est active sur le κ-carraghénane (3.2.1.83). Il s’agit donc d’une glycoside hydrolase active sur le κ-carraghénane, soit une κ-carraghénase.

La banque Carbohydrate-Active enZymes (CAZy) (Henrissat, 1998) décrit les familles de modules (catalytiques ou non) d’enzymes qui dégradent, modifient ou créent des liaisons glycosidiques, en se basant sur les relations de structure existant entre ces modules. La banque classe les différentes familles en cinq grandes classes. Les glycosyl transferases (GT) transfèrent des sucres activés sur des groupements accepteurs ; les glycoside

hydrolases (GH) hydrolysent les liaisons glycosidiques ou catalysent les réactions de

transglycosylation ; les polysaccharide lyases (PL) clivent par β-élimination les liaisons glycosidiques impliquant des acides uroniques, libérant des sucres insaturés ; les

carbohydrate esterases (CE) catalysent l’hydrolyse des liaisons esters qui constituent des

décorations sur des polysaccharides ; et enfin, les carbohydrate binding modules (CBM) ne sont pas catalytiques mais peuvent se fixer avec une grande affinité sur certains motifs polysaccharidiques.

La Protein Data Bank (PDB) (Berman et al., 2003) est une banque de structures tridimensionnelles. Elle rassemble toutes les structures publiées, quelle que soit leur nature (protéines, ADN, complexes obtenus par radiocristallographie ou RMN) et leur attribue un identificateur unique à quatre caractères composé de chiffres et de lettres (ex : 2BSP). L’essor des projets de génomique structurale a fortement contribué à son succès. En effet, si elle contenait un peu plus de 15 000 entrées en 2001, elle est composée de plus de 50 000 structures en octobre 2008. De nombreuses banques de données sont dérivées de la PDB comme SCOP (Andreeva et al., 2004) ou encore CATH (Greene et al., 2007). Elles exploitent les informations structurales des protéines pour permettre leur classification en domaines structuraux.

PROSITE (Hulo et al., 2008) est la première banque de données de familles de protéines et de domaines, créée en 1988 au Swiss Institute of Bioinformatics (SIB). PROSITE consiste en une collection de motifs assez courts (10 à 20 acides aminés) décrits par des profils et liés à une documentation sur la famille de protéines ou le domaine qu’ils permettent de détecter.

Pfam (Finn et al., 2008) est une banque de données de domaines protéiques issus d’alignements multiples de séquences et de la génération de profils HMM. Une famille Pfam contient des annotations sur la fonction, des références bibliographiques, des liens vers d’autres banques de données et deux types d’alignements multiples : un alignement contenant seulement les membres représentatifs de la famille, utilisé pour calculer le profil HMM, et un alignement complet avec tous les membres de la famille trouvés avec le profil dans les banques Swiss-Prot et TrEMBL.

Le consortium InterPro (Mulder and Apweiler, 2008) a été créé en 1998 sous l’impulsion des banques de données pour permettre un recoupement des informations pertinentes issues des analyses de chaque banque. Ce serveur regroupe ainsi les données des quatre principales banques de données : PROSITE, Pfam, PRINTS (Attwood et al., 2003) et ProDom (Servant et al., 2002), ainsi que les informations issues de 12 autres banques.

Dans une volonté de recouper encore les informations, d’autres banques de données ont vu le jour avec, cette fois, le but de ne pas se contenter de décrire une famille mais d’établir les relations existant entre les protéines au sein des voies métaboliques. Des banques de données enzymatiques telle que BRENDA (Barthelmes et al., 2007) permettent

agissant en amont ou en aval d’une voie métabolique. La banque KEGG (Kyoto Encyclopedia of Genes and Genomes) (Kanehisa et al., 2008) se propose quant à elle de décrire les grandes voies métaboliques et de positionner (par un système de graphiques très intuitifs) une enzyme ou un groupe d’enzymes donné dans la carte métabolique d’une cellule.