• Aucun résultat trouvé

Bases de données et ressources

N/A
N/A
Protected

Academic year: 2022

Partager "Bases de données et ressources"

Copied!
26
0
0

Texte intégral

(1)

Bases de données et ressources pour la protéomique

Lydie LANE,

Swiss Institute of Bioinformatics (SIB), CALIPHO Group

25 septembre 2012 , Workshop « Protéomique et Maladies Rares»

(2)

Bases de données de séquences

Bases de données d’annotation (fonction,

localisation, modifications…) Outils d’analyse

(graphes, enrichissement…)

Entrepôts de données

Question biologique

?

Spectres

= «Données brutes»

Protéines d’intérêt Expérience

de protéomique

Protéines identifiées Résultat

biologique

Echantillon,

instrumentation…

= «Metadata»

Bases de données et protéomique sont

indissociables

(3)

Question biologique

?

Spectres

= «Données brutes»

Protéines d’intérêt Expérience

de protéomique

Protéines identifiées Résultat

biologique

Bases de données de séquences

Bases de données d’annotation (fonction,

localisation, modifications…) Outils d’analyse

(graphes, enrichissement…)

Entrepôts de données

Echantillon,

instrumentation…

= «Metadata»

1- Sauvegarde des données brutes de

protéomique

(4)

http://www.ebi.ac.uk/pride/

(5)

http://www.peptideatlas.org/

(6)

http://www.proteomexchange.org/

(7)

ProteomeCentral for ProteomeXchange

• 8 datasets released and announced

• 16 identifiers reserved

for datasets in process

(8)

Question biologique

?

Spectres

= «Données brutes»

Protéines d’intérêt Expérience

de protéomique

Protéines identifiées Résultat

biologique

Bases de données de séquences

Bases de données d’annotation (fonction,

localisation, modifications…) Outils d’analyse

(graphes, enrichissement…)

Entrepôts de données

Echantillon,

instrumentation…

= «Metadata»

2- Identification de protéines

(9)

La base de données de séquences utilisée pour

l’identification des peptides à partir des spectres

doit être «complète» pour un organisme donné

(10)
(11)

Comment définir un “protéome humain” complet?

post-translational modifications of proteins

(PTMs)

50-100 fold increase alternative splicing

of mRNA

2-5 fold increase

~ 50 to 100’000 transcripts

(mRNAs)

~ 20’000 protein

coding-genes ~ 5'000'000

different

proteins

(12)

Le protéome humain dans

20’225 entrées (~gènes codants);

16’000 isoformes d’épissage dans 8’100 entrées: 50’000 séquences protéiques;

65’000 variants; 22’500 liés à des maladies; les autres sont des polymorphismes

80’000 PTMs (50% prouvées expérimentalement).

(13)

• Une ressource spécifique pour les protéines humaines

• Ne remplace pas UniProtKB/Swiss-prot qui reste la base de référence pour les séquences humaines

• Vise à intégrer des résultats d’expériences à haut débit en transcriptomique, protéomique etc…

• Avec un souci constant de qualité

www.nextprot.org

(14)

• 83’600 PTMs

• > 320’000 variants [= UniProtKB (65’000) + dbSNP

+ COSMIC]

(15)

neXtProt est la première ressource à avoir implémenté le format PEFF

= “Proteomics-enriched FASTA format”, ce qui devrait permettre aux outils d’identification un accès plus

facile aux informations de variants et de PTM.

>nxp:Q9HCU4 \NcbiTaxId=9606 \Pname=Cadherin EGF LAG seven-pass G-type receptor 2 \Gname=CELSR2 \Processed=(1|31|SIGNAL)(32|2923|CHAIN)

\ModRes=(1591|MOD:00035) (1810|MOD:00035)

\Variant=(1066|1066|Q)(1639|1639|H)(1992|1992|R)(2387|2387|A)

MRSPATGVPL PTPPPPLLLL LLLLLPPPLL GDQVGPCRSL GSRGRGSSGA CAPMGWLCPS SASNLWLYTS RCRDAGTELT GHLVPHHDGL RVWCPESEAH IPLPPAPEGC PWSCRLLGIG GHLSPQGKLT LPEEHPCLKA PRLRCQSCKL AQAPGLRAGE RSPEESLGGR RKRNVNTAPQ FQPPSYQATV PENQPAGTPV ASLRAIDPDE GEAGRLEYTM DALFDSRSNQ FFSLDPVTGA VTTAEELDRE TKSTHVFRVT AQDHGMPRRS ALATLTILVT DTNDHDPVFE QQEYKESLRE NLEVGYEVLT VRATDGDAPP NANILYRLLE GSGGSPSEVF EIDPRSGVIR TRGPVDREEV ESYQLTVEAS DQGRDPGPRS TTAAVFLSVE DDNDNAPQFS EKRYVVQVRE DVTPGAPVLR VTASDRDKGS NAVVHYSIMS GNARGQFYLD AQTGALDVVS PLDYETTKEY TLRVRAQDGG RPPLSNVSGL VTVQVLDIND NAPIFVSTPF QATVLESVPL GYLVLHVQAI DADAGDNARL EYRLAGVGHD FPFTINNGTG WISVAAELDR EEVDFYSFGV EARDHGTPAL TASASVSVTV LDVNDNNPTF TQPEYTVRLN EDAAVGTSVV TVSAVDRDAH SVITYQITSG NTRNRFSITS QSGGGLVSLA LPLDYKLERQ YVLAVTASDG TRQDTAQIVV NVTDANTHRP VFQSSHYTVN VNEDRPAGTT VVLISATDED TGENARITYF MEDSIPQFRI DADTGAVTTQ AELDYEDQVS YTLAITARDN GIPQKSDTTY LEILVNDVND NAPQFLRDSY QGSVYEDVPP FTSVLQISAT DRDSGLNGRV FYTFQGGDDG DGDFIVESTS GIVRTLRRLD RENVAQYVLR AYAVDKGMPP ARTPMEVTVT VLDVNDNPPV FEQDEFDVFV EENSPIGLAV ARVTATDPDE GTNAQIMYQI VEGNIPEVFQ LDIFSGELTA LVDLDYEDRP EYVLVIQATS APLVSRATVH VRLLDRNDNP PVLGNFEILF NNYVTNRSSS FPGGAIGRVP AHDPDISDSL TYSFERGNEL SLVLLNASTG ELKLSRALDN NRPLEAIMSV LVSDGVHSVT AQCALRVTII TDEMLTHSIT LRLEDMSPER FLSPLLGLFI QAVAATLATP PDHVVVFNVQ RDTDAPGGHI LNVSLSVGQP PGPGGGPPFL PSEDLQERLY LNRSLLTAIS AQRVLPFDDN ICLREPCENY MRCVSVLRFD SSAPFIASSS VLFRPIHPVG GLRCRCPPGF TGDYCETEVD LCYSRPCGPH GRCRSREGGY TCLCRDGYTG EHCEVSARSG RCTPGVCKNG GTCVNLLVGG FKCDCPSGDF EKPYCQVTTR SFPAHSFITF RGLRQRFHFT LALSFATKER DGLLLYNGRF NEKHDFVALE VIQEQVQLTF SAGESTTTVS PFVPGGVSDG QWHTVQLKYY NKPLLGQTGL PQGPSEQKVA VVTVDGCDTG VALRFGSVLG NYSCAAQGTQ GGSKKSLDLT GPLLLGGVPD LPESFPVRMR QFVGCMRNLQ VDSRHIDMAD FIANNGTVPG CPAKKNVCDS NTCHNGGTCV NQWDAFSCEC PLGFGGKSCA QEMANPQHFL GSSLVAWHGL SLPISQPWYL SLMFRTRQAD GVLLQAITRG RSTITLQLRE GHVMLSVEGT GLQASSLRLE PGRANDGDWH HAQLALGASG GPGHAILSFD YGQQRAEGNL GPRLHGLHLS NITVGGIPGP AGGVARGFRG CLQGVRVSDT PEGVNSLDPS HGESINVEQG CSLPDPCDSN PCPANSYCSN DWDSYSCSCD PGYYGDNCTN VCDLNPCEHQ SVCTRKPSAP HGYTCECPPN YLGPYCETRI DQPCPRGWWG HPTCGPCNCD VSKGFDPDCN KTSGECHCKE NHYRPPGSPT CLLCDCYPTG SLSRVCDPED GQCPCKPGVI GRQCDRCDNP FAEVTTNGCE VNYDSCPRAI EAGIWWPRTR FGLPAAAPCP KGSFGTAVRH CDEHRGWLPP NLFNCTSITF SELKGFAERL QRNESGLDSG RSQQLALLLR NATQHTAGYF GSDVKVAYQL ATRLLAHEST QRGFGLSATQ DVHFTENLLR VGSALLDTAN KRHWELIQQT EGGTAWLLQH YEAYASALAQ NMRHTYLSPF TIVTPNIVIS VVRLDKGNFA GAKLPRYEAL RGEQPPDLET TVILPESVFR ETPPVVRPAG PGEAQEPEEL ARRQRRHPEL SQGEAVASVI IYRTLAGLLP HNYDPDKRSL RVPKRPIINT PVVSISVHDD EELLPRALDK PVTVQFRLLE TEERTKPICV FWNHSILVSG TGGWSARGCE VVFRNESHVS CQCNHMTSFA VLMDVSRREN GEILPLKTLT YVALGVTLAA LLLTFFFLTL LRILRSNQHG IRRNLTAALG LAQLVFLLGI NQADLPFACT VIAILLHFLY LCTFSWALLE ALHLYRALTE VRDVNTGPMR FYYMLGWGVP AFITGLAVGL DPEGYGNPDF CWLSIYDTLI WSFAGPVAFA VSMSVFLYIL AARASCAAQR QGFEKKGPVS GLQPSFAVLL LLSATWLLAL LSVNSDTLLF HYLFATCNCI QGPFIFLSYV VLSKEVRKAL KLACSRKPSP DPALTTKSTL TSSYNCPSPY ADGRLYQPYG DSAGSLHSTS RSGKSQPSYI PFLLREESAL NPGQGPPGLG DPGSLFLEGQ DQQHDPDTDS DSDLSLEDDQ SGSYASTHSS DSEEEEEEEE EEAAFPGEQG WDSLLGPGAE RLPLHSTPKD GGPGPGKAPW PGDFGTTAKE SSGNGAPEER LRENGDALSR EGSLGPLPGS SAQPHKGILK KKCLPTISEK SSLLRLPLEQ CTGSSRGSSA SEGSRGGPPP RPPPRQSLQE QLNGVMPIAM SIKAGTVDED SSGSEFLFFN FLH

(16)

Question biologique

?

Spectres

= «Données brutes»

Protéines d’intérêt Expérience

de protéomique

Protéines identifiées Résultat

biologique

Bases de données de séquences

Bases de données d’annotation (fonction,

localisation, modifications…) Outils d’analyse

(graphes, enrichissement…)

En^trepôts de données

Echantillon,

instrumentation…

= «Metadata»

3- Filtrage des résultats d’identification

(17)

Différentes vues pour une même protéine

(18)

Exemple : dans la vue «Expression», les données obtenues

au niveau mRNA et protéine ont été intégrées et unifiées

(19)

Accès par programme

• Toutes les données inclues dans neXtProt (expression, localisation subcellulaire, variants et PTM) peuvent être explorées par une

application dédiée

www.nextprot.org/rest/

(20)

Question biologique

?

Spectres

= «Données brutes»

Protéines d’intérêt Expérience

de protéomique

Protéines identifiées Résultat

biologique

Bases de données de séquences

Bases de données d’annotation (fonction,

localisation, modifications…) Outils d’analyse

(graphes, enrichissement…)

Entrepôts de données

Echantillon,

instrumentation…

= «Metadata»

3- Analyse des résultats d’identification

(21)

Outils d’analyse de listes de protéines

De nombreux outils bioinformatiques proposent une analyse statistique du contenu en annotation.

La plupart analysent les termes GO présents dans les

entrées (DAVID, AmiGO etc..) http://david.abcc.ncifcrf.gov

neXtProt va proposer prochainement un outil mesurant

l’ enrichissement de tout type d annotation

(22)

Outil d’enrichissement (beta test)

• Exemple : Liste de 49 partenaires de Lyn

• Enrichissement en UniProt KWs :

(23)

Question biologique

?

Spectres

= «Données brutes»

Protéines d’intérêt Expérience

de protéomique

Protéines identifiées Résultat

biologique

Bases de données de séquences

Bases de données d’annotation (fonction,

localisation, modifications…) Outils d’analyse

(graphes, enrichissement…)

Entrepôts de données

Echantillon,

instrumentation…

= «Metadata»

4- Intégration des données de protéomique

(24)

Vue proteomique

(25)

PeptideAtlas reprocessing

Raw storage EBI PRIDE

(MS/MS)

ISB PASSEL (SRM)

ProteomeXchange

identifications study metadata mass spec output files

Infrastructures bioinformatiques pour le HUPO Human Proteome Project

Ab/IHC data

MS data

(26)

Remerciements

• ProteomExchange consortium

• UniProtKB consortium

• The Human Protein Atlas

• GO consortium

• neXtProt

… et tous les biocurateurs qui maintiennent ces ressources utilisables gratuitement par la

communauté

Références

Documents relatifs

Ressource: quelque chose dont un process a besoin pour continuer (physique ou logique/non partageable/attente circulaire) Interblocage: Situation impliquant un ensemble de process

Vous pouvez maintenant créer une base de données personnelle, dans le domaine de votre choix, mais qui satisfait aux conditions suivantes : au moins trois tables distinctes, avec

Système de Gestion de Bases de Données SGBD Rappel sur les niveaux d’abstraction MySQL Principaux types de données disponibles Créer une BD phpMyAdmin Pour finir... Système de

• Oui/Non : Seules deux données sont autorisées dans ce champ : Oui et Non (on utilisera ce type de données par exemple avec un champ « réglé » qui indiquera si une facture a

La base de données (données primaires) est la matière première à partir de laquelle la bioinformatique va produire d'autres données (données secondaires) et

Pour une naïve et belle démonstration, on pourra utiliser la figure ci- contre : Il suffit, dans le cas de figure donné, d’exprimer l’aire du

h) Nom et prime des joueurs sponsorisés par Peugeot entre 1985 et 1990. i) Nom et année de naissance des joueurs ayant participé au tournoi de Rolland Garros de 1989. j) Nom

Cette requête retourne exactement les mêmes colonnes qu’il y a dans la base de données. Pour en savoir plus sur le sujet il est recommandé de lire l’article avantage et