Frédéric Lecerf
frederic.lecerf@agrocampus-ouest.fr UMR PEGASE
Equipe Génétique & Génomique
Bioinformatique
Ressources et banques de données
internationales
2
Bioinformatique
1. Présentation des banques et les différents BLAST 2. Ressources du NCBI
3. Autres ressources (Ensembl, Biomart, UCSC)
Plan du module
3
1. Présentation des banques et les différents BLAST
Source : S. Lagarrigue (UMRGA)
Bioinformatique
Les différentes Banques
5
Les banques de séquences (et logiciels) d’accès public 1. Banques de séquences Nucléotidiques
2. Banques de séquences Protéiques
Banques généralistes (séquences soumises par les chercheurs)
Banques spécialisées
(données issues d’un traitement) - nucléotidiques (transfac, …)
http://www.gene-regulation.com/
- protéiques (Prosite, …)
http://us.expasy.org/prosite/
6
Bioinformatique – Banques (rappel)
Banques généralistes de séquences nucléotidiques
• EMBL : http://www.ebi.ac.uk (banque européenne)
• GENBANK : http://www.ncbi.nlm.nih.gov (banque américaine)
• DDBJ : http://www.ddbj.nig.ac.jp (banque japonnaise) – Echanges d’informations entre ces 3 banques (depuis 1987)
– Maintenant il existe des vérifications sont faites à la soumission (curation)
– Il existe désormais un recueil de séquences référencées, annotées et « contrôlées » : The Reference Sequence (RefSeq) collection
http://www.ncbi.nlm.nih.gov/RefSeq/
7
Banques généralistes de séquences protéiques
• Swissprot & TrEMBL : http://www.expasy.ch/
• PIR : http://pir.georgetown.edu/pirwww/support/sitemap.shtml
• Uniprot : http://www.expasy.uniprot.org/ consortium EBI-PIR-SIB
Bioinformatique – Banques (rappel)
Banque nucléotidiques Banque protéiques
- genbank - EMBL - …
TrEMBL
4 260 000 seq
Swiss-Prot
260 000 seq
PR séquencées partie codante
(cds) connue ou prédite
NNNNatgNNNNNNtagNNNN
avril 2007
87 500 000 seq in 160 milliard de nt
9
Banque nucléotidiques - genbank
- EMBL - …
avril 2007
87 500 000 seq in 160 milliard de nt
Séquences annotées par des chercheurs ("nr")
Séquences «
séquençage complet des génomes »
(HTG-WGS-STS)
Séquences « séquençage partiel à haut débit des cDNA
» (EST-HTC)
10
Bioinformatique – Banques (rappel)
Exemple : annotation d’une séquence inconnue (obtenu par séquençage, criblage d’une banque d’ADNC, …)
Quelle banque choisir ?
11
Exemple : annotation d’une séquence inconnue (obtenu par séquençage, criblage d’une banque d’ADNC, …)
Banque : EST
Bioinformatique – Banques (rappel)
Exemple : annotation d’une séquence inconnue (obtenu par séquençage, criblage d’une banque d’ADNC, …)
Banque : HTG
13
Exemple : annotation d’une séquence inconnue (obtenu par séquençage, criblage d’une banque d’ADNC, …)
banque : nr
14
Bioinformatique – Banques (rappel)
Banque protéiques TrEMBL
4 260 000 seq
Swiss-Prot
260 000 seq
PR séquencées
avril 2007
Séquences annotées par différentes informations fiables (annotations manuelles) : domaines, motifs, …
Séquençage direct de protéines ou de peptides Séquences traduites avec une
annotation provenant du gène (nom, espèce, …)
Depuis 2006, fusion swissprot / uniprot
Toutes les fiches sont disponibles sur le même site (TrEMBL et swissprot).
L’unique différence est la présence ou non d’une étoile…
Bioinformatique – Les différentes banques
Protein existence (PE): entries % 1: Evidence at protein level 13281 0.08%
2: Evidence at transcript level 537508 3.05%
3: Inferred from homology 3877735 21.97%
4: Predicted 13223191 74.91%
5: Uncertain 0 0.00%
Source : http://web.expasy.org/docs/relnotes/relstat.html
Protein existence (PE): entries % 1: Evidence at protein level 73099 13.7%
2: Evidence at transcript level 69939 13.1%
3: Inferred from homology 373413 70.1%
4: Predicted 14454 2.7%
5: Uncertain 1887 0.4%
18
Bioinformatique
Les différents BLAST
19
Accès à ces programmes pour la recherche des homologues à une séq
Bioinformatique
séquence banque
blastn nt vs. nt
blastp aa vs. aa
blastx translated nt vs. aa
tblastn aa vs. translated nt
tblastx translated nt vs. translated nt
21
séquence banque
blastn
requête « classique » d’une séquence ntblastp
requête « classique » d’une séquence ntblastx
« lissage » de la variabilité ex : EST inconnue, identité avec une PR ?tblastn
Obtention de plus d’informations (inclusion des infos de séquence de nt)tblastx
Combinaison des deux derniers casBanques nt : 3 grandes classes
• Gènes (nr, refseq…)
– A priori, de la séquence complète codante – Annotation (nom, fonction) disponible
• Génomique (HTG, WGS)
– séquence (contig) de fragment génomique – Pas d’annotation (ou uniquement localisation)
• EST : Fragment de séquences codantes
– Beaucoup de redondance, surreprésentation de la partie 3’
– Pas d’annotation (nom espèce et tissus, au mieux)
Conclusion - Banques
Banques protéiques
• Majorité des séquences protéiques – Traduction in silico
– « copier-coller » de l’annotation de la fiche GenBank
• Annotation plus poussée dans les fiches swissprot / UniprotKB – Intervention annotateur
– ATTENTION : de plus en plus « d’inferred from homology »
• Peu ou pas de séquençage direct de protéines
Les différents BLAST
• 3 catégories :
– « classiques » : blastn et blastp – « avancés » : blastx, tblastn, tblastx
– « spécifiques » : PHI-Blast (et d’autres encore)
• Hors « spécifiques », le choix du programme dépend du contexte et des objectifs…
• Garder à l’esprit que certaines choses ne sont pas possible avec tblastx, par exemple
Conclusion - BLAST
25
2. Ressources du NCBI
26
27
@
29
Bioinformatique - NCBI
30
Symbol ? Aliases ? MIM ? GeneID ?
31
Bioinformatique - NCBI
http://www.ncbi.nlm.nih.gov/gene/2218
33
- CCDS : Conserved CDS - Conserved Domains…
- EST : liste d’EST associées - Full text in PMC : PUBMED
- GEO Profiles : Expression de ce gène dans différentes XP - HomoloGene : orthologue…
- Nucleotide : Nt séquences, STS, WGS (pas EST) - OMIM : Online Medelian Inheritance in Man - UniSTS: liste de STS…
- UniGene : ensemble transcript regroupés selon le même site de transcription
- HGNC : HUGO Gene Nomenclature Comittee - UCSC : …
- KEGG : Kyoto Encyclopedia of Genes and Genomes
Variable selon les gènes…
Bioinformatique - NCBI
34
NP_006722.2 GI:119395714 NM_006731.2 AL601876.1 GeneID:2672
… ?
• Différentes nomenclatures d’identifiants
• Accession Number ET GI number :
– AL601876.1 : accession number et numéro de version – GI:119395714 : GI number (pas de notion de version) – Ces ID peuvent désigner la même séquence
– GI maintenu pour des raisons de compatibilité (1ère version)
• RefSeq ID :
– Liens vers des données RefSeq (curated or not) – Structure : XX_000000.0 (ou XX_000000000.0) avec
• XX: type de données
• 6 chiffres d’identifiant
• .0 : numéro de version
– Note : un ID XX_000000 désigne la dernière version
35
Bioinformatique - NCBI
• Type de données RefSeq « revues »
• Type de données « mixed » : automated AND curated (expert review)
Préfixe Type
NC_ Complete genomic molecules (genomes, chr, organelles, plasmids)
AC_ Alternate complete genomic molecules NG_ Incomplete genomic region
NM_ Transcript products
NP_ Protein products
AP_ Alternate protein products NR_ Non-coding transcripts
• Type de données RefSeq « automated »
• Type de données « automated » : processus d’annotation automatique (pas de vérification individuelle)
37
Préfixe Type
NT_ ou NW_ Intermediate genomic assemblies of BAC / WGS NZ_XXXX Collection of WGS (acc. not tracked between
released and XXXX identifies a genome project)
XM_ Transcript products
XP_ Protein products
XR_ Non-coding transcripts
YP_ Protein products: no corresponding transcripts record provided
ZP_ Protein products: annotated on NZ_accessions NS_ Genomic records that does not reflect the real
structure of molecules (e.g. unordered assembly)
Bioinformatique - NCBI
38
http://www.ncbi.nlm.nih.gov/gene/2218
A bit confused ?
Let’s have a look…
39
Bioinformatique - NCBI
Intérêt des données brutes ?
FTP ? WDSL ? SOAP ? API ? Dump SQL ?
Fichiers XML ?
• Bioinfo « haut-débit », the « promise heaven » files…
– Format TSV : Tabular Separated Values
– Format XML (notion de structure, champs, hiérarchie)
– Format SQL : intégration directe dans votre base de données (peut être d’une structure complexe…)
41
Schéma de la base de données de Gene
Ontology
Bioinformatique - NCBI
• Bioinfo « haut-débit », the « promise heaven » files formats…
– Format TSV : Tabular Separated Values
– Format XML (notion de structure, champs, hiérarchie)
– Format SQL : intégration directe dans votre base de données (peut être d’une structure complexe…)
– Format « RECORD » : le pire cas ?
42
43
Fichier DISEASE de KEGG
Bioinformatique - NCBI
• Bioinfo « haut-débit », the « promise heaven » files formats…
– Format TSV : Tabular Separated Values
– Format XML (notion de structure, champs, hiérarchie)
– Format SQL : intégration directe dans votre base de données (peut être d’une structure complexe…)
– Format « RECORD » : le pire cas ?
• Structure sous forme de fiches
• Cas : Uniprot, KEGG disease, OMIM, etc…
45
RTFM!
Bioinformatique - NCBI
• Les autres bases de données disponibles ?
• EnooooOOOOOOOooooormément de bases sur le site du NCBI
• Néanmoins, il faut :
– Distinguer les bases ultra-spécialisées (ex : GENSAT, Gene Expression Nervous System Atlas) ou « juste » hébergées par le NCBI (ex : OMIM)
– Appréhender la « redondance » et les sous-ensembles, ex : GenBank et RefSeq donne accès des séquences qui sont elles-mêmes
contenues dans la base Nucleotide (pour les nt) ou Protein
– Gérer les « connexions cachées » : une recherche sur Entrez vous rebasculera vers la base « Gene »
• Now, /mode catalogue ON
46
http://www.ncbi.nlm.nih.gov/Database/datamodel/
Base : Nucléotide
• séquences de nt : WGS, STS (no EST ou GSS, similaire EST mais sequences génomiques)
• différentes sources : GENBANK, RefSeq, etc…
47
Bioinformatique - NCBI
Base Protein
• Source : GenBank, EMBL, DDBJ, PIR, SWISS-PROT, PRF & PDB
Base : Genome
49
Lien vers MAPVIEW
Lien vers Liste PR
Lien vers Liste mRNA
Lien vers page Entrez pour une recherche uniquement dans ce contig NC_
Let’s have a look : http://www.ncbi.nlm.nih.gov/genomes/genlist.cgi?taxid=2759&type=0&name=Complete%20Eukaryota
Bioinformatique - NCBI
MapViewer
• http://www.ncbi.nlm.nih.gov/mapview/
50
Genome Projects
• Ensemble des « large scale sequencing » projects, complete or not
51
http://www.ncbi.nlm.nih.gov/genomeprj
Bioinformatique - NCBI
Bases « structurales »
• Structure
– experimentally designed
• 3D Domains
– Automatically identified
– Recherche selon séquence, nom, domaines…
53
http://www.ncbi.nlm.nih.gov/domains
Bioinformatique - NCBI
Bases « structurales »
• Structure
– experimentally designed
• 3D Domains
– Automatically identified
– Recherche selon séquence, nom, domaines…
• Conserved Domains :
– source : Pfam, Smart & COG – http://www.ncbi.nlm.nih.gov/cdd
54
UniSTS
• Listes non redondantes et unifiées de STS (i.e. marqueurs)
• Application pour de la cartographie génétique
55
Bioinformatique - NCBI
UniSTS
dbSNP
• Les SNP disponibles chez différentes espèces
• Possibilités de chercher les SNP disponibles selon un gène, une région, etc, etc…
• http://www.ncbi.nlm.nih.gov/snp
57
Bioinformatique - NCBI
dbGaP
• Relation phénotype – génotype
• Données issues de projet de GWAS, re-séquençage, etc…
• Accès très « pointue » : localisation SNP, p-value, etc…
58
dbGaP
59
Bioinformatique - NCBI
dbGaP
UniGene
• Système de paritionnement des séquences GenBank pour obtenir un ensemble non redondant de gènes en clusters (ouf!)
En clair…
• Un cluster UniGene est sensé regrouper un ensemble de séquences provenant d’un gène unique
• http://www.ncbi.nlm.nih.gov/unigene
61
Bioinformatique - NCBI
HomoloGene
• Détection automatique des homologues parmi des ensembles de gènes eucaryotes
62
63
Bioinformatique - NCBI
http://www.ncbi.nlm.nih.gov/homologene/20322
Existence de « mini-sites » d’espèces références
• http://www.ncbi.nlm.nih.gov/genome/guide/human/
• http://www.ncbi.nlm.nih.gov/genome/guide/mouse/
• http://www.ncbi.nlm.nih.gov/genome/guide/rat/
• http://www.ncbi.nlm.nih.gov/genome/guide/zebrafish/
65
Information générale : http://www.ncbi.nlm.nih.gov/Genomes/
Bioinformatique - NCBI
Base Taxonomy
• Présence d’un numéro de taxon dans de nombreuses bases NCBI
• Permet de connaître cet ID et d’obtenir d’autres informations (SNP disponibles, séquences, etc…)
• Toujours utile pour vérifier…
66
http://www.ncbi.nlm.nih.gov/taxonomy
Base Taxonomy
• Présence d’un numéro de taxon dans de nombreuses bases NCBI
• Permet de connaître cet ID et d’obtenir d’autres informations (SNP disponibles, séquences, etc…)
• Toujours utile pour vérifier…
67
http://www.ncbi.nlm.nih.gov/taxonomy
Bioinformatique - NCBI
GEO : Gene Expression Omnibus
• A chaque publication scientifique, les données d’expression (puce) sont mis à disposition de la communauté
• Accès aux données normalisées de plan d’expérience
• Applications :
– Quel est le niveau d’expression d’un gène selon un contexte ? GEO profiles
– Réalisation de méta-analyse (analyse de tous les plans d’expérience à partir d’un tissu pour plusieurs espèces, par exemple) : GEO datasets
GEO
69
Bioinformatique - NCBI
GEO profile
• Recherche par un nom de gène (e.g. BMPR)
70
GEO profile
71
Bioinformatique - NCBI
GEO datasets
• Recherche d’ensemble de données de transcriptomique selon : – Le tissu
– Le nb d’échantillon – Le type d’expérience – …
• http://www.ncbi.nlm.nih.gov/gds
GEO datasets
73
Bioinformatique - NCBI
GEO datasets
74
Cancer Chromosomes
• Aberrations chromosomiques de lignées cancéreuses
• Données de SKY-FISH et de CGH
• http://www.ncbi.nlm.nih.gov/cancerchromosomes
75
Bioinformatique - NCBI
Biosystems
• Obtention de groupes de molécules interagissant dans un système biologique
• Différents types de « biosystems » :
– Pathway (interactions gènes, protéines ou petites molécules) – Disease (interactions gènes, marqueurs biologiques)
• Connexions base KEGG
• http://www.ncbi.nlm.nih.gov/biosystems
Biosystems
77
Bioinformatique - NCBI
Biosystems
78
Biosystems
79
Bioinformatique - NCBI
OMIM & OMIA
• Online Mendelian Inherintance in Man or Animals
• Liste de gènes et de maladies / caractères héritables
• Connexion entre gènes et maladies
• Pour une maladie / caractère : apport du maximum de connaissances (gènes, cartographie, bibliographie, etc…)
81
Bioinformatique - NCBI
Autres bases ?
• PubChem : action biologique, bioassays…
• PubMed…
• MeSH (Medical Subject Headings) : – controlled vocabulary to retrieve informations
82
• Still alive ?
• Que retenir de cette présentation ?
83
Bioinformatique - NCBI
Conclusion
• Trop d’information tue l’information ?
• Exemple du NCBI : site extrêmement vaste – Richesse des bases de données
– Richesse des outils
– Accès à l’arrière-cours (données brutes FTP) – Accès aux méthodes (protocole SOAP)
• Et les autres… UCSC, EBI, UNIPROT, MGI, KEGG, Ensembl, GO, etc, etc…
Conclusion
• VOUS ne pouvez pas tout connaître (and nobody does)
• Il faut avoir une vue d’ensemble d’une base…
– Comprendre les relations
– Appréhender leurs obtentions (expérimental ? in silico ?) – Est-ce une réplication (i.e. suis-je à la source ?) ?
• … pour en retirer l’information qui vous sera utile, par ex:
– la structure 3D d’une protéine pourra m’être utile si j’identifie une mutation dans un gène
– Les niveaux d’expressions d’un gène dans d’autres espèces peuvent m’aider à comprendre mon expérience (et à formuler des hypothèses) – L’implication de mon gène™ dans telle maladie me permettra d’étayer
(ou non) les niveaux d’expressions dans mon expérience™
– …
85
Bioinformatique - NCBI
Conclusion
• Au final : 1. c’est vaste
2. Je ne peux pas tout connaître
• On fait comment ?
86
87
3. Sites web et outils spécifiques
Bioinformatique – Sites web : ENSEMBL & USCS
• 2 sites « généralistes » : Ensembl et UCSC – Synthèse d’information sur les génomes séquencés – Synthèse de l’annotation de ces génomes
– Outils disponibles : BLAST et BLAT
• ENSEMBL : http://www.ensembl.org
– Réconciliation de données de génomique fonctionnelle – De nombreuses API disponibles
Bioinformatique – Sites web : ENSEMBL
Bioinformatique – Sites web : ENSEMBL
Bioinformatique – Sites web : ENSEMBL
Bioinformatique – Sites web : ENSEMBL
Bioinformatique – Sites web : ENSEMBL
• USCS ou « Golden Path » : http://genome.ucsc.edu – Orientation génomique structurale
– Options différentes (comparaison de génomes, …)
Bioinformatique – Sites web : UCSC Genome Browser
Bioinformatique – Sites web : UCSC Genome Browser
Bioinformatique – Sites web : UCSC Genome Browser
• Ces 2 sites utilisent les données de sites « institutionnels » et d’autres sites (notion de réconciliation de données) : HGNC, EBI, UniProt, etc…
• 2 philosophies différentes (fonctionnelles vs. structurales), même si des chevauchements existent
• Très vaste et très complet
• Accès plus ou moins facilité aux données brutes : – API PERL / Biomart pour Ensembl
– Table browser et Galaxy pour UCSC
106
Bioinformatique – Sites web : BIOMART
La fin des bioinformaticiens ?
• Serveur internet : www.biomart.org
107
La fin des bioinformaticiens ?
• Serveur internet : www.biomart.org
• Système d’interrogation de bases de données (Ensembl, EBI, Uniprot, VEGA, …) et de récupération de données spécifiques selon des filtres personnalisés.
• Utilisation « classique » :
Mon ensemble de gènes à moi…
Uniprot ID ? GOA ? Chromosome ?
Nom ? Homologues ?
Domaines ? InterPro ID ? NCBI ? Entrez ?
…
Bioinformatique – Sites web : BIOMART
109
110
Bioinformatique – Sites web : BIOMART
111
Bioinformatique – Sites web : BIOMART
Domaine GST C-term
113
114
Bioinformatique – Sites web : BIOMART
115
Bioinformatique – Sites web : BIOMART
117
118
Bioinformatique – Sites web : BIOMART
Liens PERL : récupération du script permettant d’obtenir la requête en cours…
• BIOMART : possibilité d’interrogation de multiples bases de données de façon très souple et pointue… sans programmation !
• Interconnexion entre différents bases de données
• Réelle alternative à la programmation pour obtenir de façon rapide des ensembles d’annotations spécifiques d’une fonction, d’un chromosome, d’une classe de gène, …
• Liens PERL pour relancer le script ultérieurement
119
Bioinformatique – Sites web : GALAXY
• Galaxy : http://galaxy.psu.edu
– Plateforme de manipulation et d’analyse de données – Alternative à R, Programmation, UNIX, etc…
– Framework de logiciels
121
Bioinformatique – Sites web : GALAXY
122
123
Etc, etc, etc…
Bioinformatique – Sites web : GALAXY
• Beaucoup plus ouvert : envoi de vos propes données, utilisation de données publiques (Biomart ou UCSC)
• Possibilité de réaliser des workflow sur les données
• Possibilité d’ajouter vos propres programmes
• De plus en plus utilisé comme framework pour l’intégration de programme d’analyse
125
More ?
• Suite EMBOSS : http://emboss.sourceforge.net
• BioPERL : http://www.bioperl.org/wiki/Main_Page
• …
• N’oubliez pas les « classiques » : NCBI, EBI, … – Progression de l’interconnexion
– Possibilité de requête – …