Bioinformatique Plan du module

(1)

Frédéric Lecerf

frederic.lecerf@agrocampus-ouest.fr UMR PEGASE

Equipe Génétique & Génomique

Bioinformatique

Ressources et banques de données

internationales

2

Bioinformatique

1.  Présentation des banques et les différents BLAST 2.  Ressources du NCBI

3.  Autres ressources (Ensembl, Biomart, UCSC)

Plan du module

(2)

3

1. Présentation des banques et les différents BLAST

Source : S. Lagarrigue (UMRGA)

Bioinformatique

Les différentes Banques

(3)

5

Les banques de séquences (et logiciels) d’accès public 1.  Banques de séquences Nucléotidiques

2.  Banques de séquences Protéiques

Banques généralistes (séquences soumises par les chercheurs)

Banques spécialisées

(données issues d’un traitement) -  nucléotidiques (transfac, …)

http://www.gene-regulation.com/

-  protéiques (Prosite, …)

http://us.expasy.org/prosite/

6

Bioinformatique – Banques (rappel)

Banques généralistes de séquences nucléotidiques

•  EMBL : http://www.ebi.ac.uk (banque européenne)

•  GENBANK : http://www.ncbi.nlm.nih.gov (banque américaine)

•  DDBJ : http://www.ddbj.nig.ac.jp (banque japonnaise) –  Echanges d’informations entre ces 3 banques (depuis 1987)

–  Maintenant il existe des vérifications sont faites à la soumission (curation)

–  Il existe désormais un recueil de séquences référencées, annotées et « contrôlées » : The Reference Sequence (RefSeq) collection

http://www.ncbi.nlm.nih.gov/RefSeq/

(4)

7

Banques généralistes de séquences protéiques

•  Swissprot & TrEMBL : http://www.expasy.ch/

•  PIR : http://pir.georgetown.edu/pirwww/support/sitemap.shtml

•  Uniprot : http://www.expasy.uniprot.org/ consortium EBI-PIR-SIB

Bioinformatique – Banques (rappel)

Banque nucléotidiques Banque protéiques

- genbank - EMBL - …

TrEMBL

4 260 000 seq

Swiss-Prot

260 000 seq

PR séquencées partie codante

(cds) connue ou prédite

NNNNatgNNNNNNtagNNNN

avril 2007

87 500 000 seq in 160 milliard de nt

(5)

9

Banque nucléotidiques - genbank

- EMBL - …

avril 2007

87 500 000 seq in 160 milliard de nt

Séquences annotées par des chercheurs ("nr")

Séquences «

séquençage complet des génomes »

(HTG-WGS-STS)

Séquences « séquençage partiel à haut débit des cDNA

» (EST-HTC)

10

Bioinformatique – Banques (rappel)

Exemple : annotation d’une séquence inconnue (obtenu par séquençage, criblage d’une banque d’ADNC, …)

Quelle banque choisir ?

(6)

11

Banque : EST

Bioinformatique – Banques (rappel)

Banque : HTG

(7)

13

banque : nr

14

Bioinformatique – Banques (rappel)

Banque protéiques TrEMBL

4 260 000 seq

Swiss-Prot

260 000 seq

PR séquencées

avril 2007

Séquences annotées par différentes informations fiables (annotations manuelles) : domaines, motifs, …

Séquençage direct de protéines ou de peptides Séquences traduites avec une

annotation provenant du gène (nom, espèce, …)

(8)

Depuis 2006, fusion swissprot / uniprot

Toutes les fiches sont disponibles sur le même site (TrEMBL et swissprot).

L’unique différence est la présence ou non d’une étoile…

Bioinformatique – Les différentes banques

Protein existence (PE): entries % 1: Evidence at protein level 13281 0.08%

2: Evidence at transcript level 537508 3.05%

3: Inferred from homology 3877735 21.97%

4: Predicted 13223191 74.91%

5: Uncertain 0 0.00%

(9)

Source : http://web.expasy.org/docs/relnotes/relstat.html

Protein existence (PE): entries % 1: Evidence at protein level 73099 13.7%

2: Evidence at transcript level 69939 13.1%

3: Inferred from homology 373413 70.1%

4: Predicted 14454 2.7%

5: Uncertain 1887 0.4%

18

Bioinformatique

Les différents BLAST

(10)

19

Accès à ces programmes pour la recherche des homologues à une séq

Bioinformatique

séquence banque

blastn nt vs. nt

blastp aa vs. aa

blastx translated nt vs. aa

tblastn aa vs. translated nt

tblastx translated nt vs. translated nt

(11)

21

séquence banque

blastn

requête « classique » d’une séquence nt

blastp

requête « classique » d’une séquence nt

blastx

« lissage » de la variabilité ex : EST inconnue, identité avec une PR ?

tblastn

Obtention de plus d’informations (inclusion des infos de séquence de nt)

tblastx

Combinaison des deux derniers cas

Banques nt : 3 grandes classes

•  Gènes (nr, refseq…)

–  A priori, de la séquence complète codante –  Annotation (nom, fonction) disponible

•  Génomique (HTG, WGS)

–  séquence (contig) de fragment génomique –  Pas d’annotation (ou uniquement localisation)

•  EST : Fragment de séquences codantes

–  Beaucoup de redondance, surreprésentation de la partie 3’

–  Pas d’annotation (nom espèce et tissus, au mieux)

Conclusion - Banques

(12)

Banques protéiques

•  Majorité des séquences protéiques –  Traduction in silico

–  « copier-coller » de l’annotation de la fiche GenBank

•  Annotation plus poussée dans les fiches swissprot / UniprotKB –  Intervention annotateur

–  ATTENTION : de plus en plus « d’inferred from homology »

•  Peu ou pas de séquençage direct de protéines

Les différents BLAST

•  3 catégories :

–  « classiques » : blastn et blastp –  « avancés » : blastx, tblastn, tblastx

–  « spécifiques » : PHI-Blast (et d’autres encore)

•  Hors « spécifiques », le choix du programme dépend du contexte et des objectifs…

•  Garder à l’esprit que certaines choses ne sont pas possible avec tblastx, par exemple

Conclusion - BLAST

(13)

25

2. Ressources du NCBI

26

(14)

27

@

(15)

29

Bioinformatique - NCBI

30

Symbol ? Aliases ? MIM ? GeneID ?

(16)

31

Bioinformatique - NCBI

http://www.ncbi.nlm.nih.gov/gene/2218

(17)

33

- CCDS : Conserved CDS - Conserved Domains…

- EST : liste d’EST associées - Full text in PMC : PUBMED

- GEO Profiles : Expression de ce gène dans différentes XP - HomoloGene : orthologue…

- Nucleotide : Nt séquences, STS, WGS (pas EST) - OMIM : Online Medelian Inheritance in Man - UniSTS: liste de STS…

-  UniGene : ensemble transcript regroupés selon le même site de transcription

-  HGNC : HUGO Gene Nomenclature Comittee -  UCSC : …

-  KEGG : Kyoto Encyclopedia of Genes and Genomes

Variable selon les gènes…

Bioinformatique - NCBI

34

NP_006722.2 GI:119395714 NM_006731.2 AL601876.1 GeneID:2672

… ?

(18)

•  Différentes nomenclatures d’identifiants

•  Accession Number ET GI number :

–  AL601876.1 : accession number et numéro de version –  GI:119395714 : GI number (pas de notion de version) –  Ces ID peuvent désigner la même séquence

–  GI maintenu pour des raisons de compatibilité (1^ère version)

•  RefSeq ID :

–  Liens vers des données RefSeq (curated or not) –  Structure : XX_000000.0 (ou XX_000000000.0) avec

•  XX: type de données

•  6 chiffres d’identifiant

•  .0 : numéro de version

–  Note : un ID XX_000000 désigne la dernière version

35

Bioinformatique - NCBI

•  Type de données RefSeq « revues »

•  Type de données « mixed » : automated AND curated (expert review)

Préfixe Type

NC_ Complete genomic molecules (genomes, chr, organelles, plasmids)

AC_ Alternate complete genomic molecules NG_ Incomplete genomic region

NM_ Transcript products

NP_ Protein products

AP_ Alternate protein products NR_ Non-coding transcripts

(19)

•  Type de données RefSeq « automated »

•  Type de données « automated » : processus d’annotation automatique (pas de vérification individuelle)

37

Préfixe Type

NT_ ou NW_ Intermediate genomic assemblies of BAC / WGS NZ_XXXX Collection of WGS (acc. not tracked between

released and XXXX identifies a genome project)

XM_ Transcript products

XP_ Protein products

XR_ Non-coding transcripts

YP_ Protein products: no corresponding transcripts record provided

ZP_ Protein products: annotated on NZ_accessions NS_ Genomic records that does not reflect the real

structure of molecules (e.g. unordered assembly)

Bioinformatique - NCBI

38

http://www.ncbi.nlm.nih.gov/gene/2218

A bit confused ?

Let’s have a look…

(20)

39

Bioinformatique - NCBI

Intérêt des données brutes ?

FTP ? WDSL ? SOAP ? API ? Dump SQL ?

Fichiers XML ?

(21)

•  Bioinfo « haut-débit », the « promise heaven » files…

–  Format TSV : Tabular Separated Values

–  Format XML (notion de structure, champs, hiérarchie)

–  Format SQL : intégration directe dans votre base de données (peut être d’une structure complexe…)

41

Schéma de la base de données de Gene

Ontology

Bioinformatique - NCBI

•  Bioinfo « haut-débit », the « promise heaven » files formats…

–  Format « RECORD » : le pire cas ?

42

(22)

43

Fichier DISEASE de KEGG

Bioinformatique - NCBI

•  Bioinfo « haut-débit », the « promise heaven » files formats…

–  Format « RECORD » : le pire cas ?

•  Structure sous forme de fiches

•  Cas : Uniprot, KEGG disease, OMIM, etc…

(23)

45

RTFM!

Bioinformatique - NCBI

•  Les autres bases de données disponibles ?

•  EnooooOOOOOOOooooormément de bases sur le site du NCBI

•  Néanmoins, il faut :

–  Distinguer les bases ultra-spécialisées (ex : GENSAT, Gene Expression Nervous System Atlas) ou « juste » hébergées par le NCBI (ex : OMIM)

–  Appréhender la « redondance » et les sous-ensembles, ex : GenBank et RefSeq donne accès des séquences qui sont elles-mêmes

contenues dans la base Nucleotide (pour les nt) ou Protein

–  Gérer les « connexions cachées » : une recherche sur Entrez vous rebasculera vers la base « Gene »

•  Now, /mode catalogue ON

46

http://www.ncbi.nlm.nih.gov/Database/datamodel/

(24)

Base : Nucléotide

•  séquences de nt : WGS, STS (no EST ou GSS, similaire EST mais sequences génomiques)

•  différentes sources : GENBANK, RefSeq, etc…

47

Bioinformatique - NCBI

Base Protein

•  Source : GenBank, EMBL, DDBJ, PIR, SWISS-PROT, PRF & PDB

(25)

Base : Genome

49

Lien vers MAPVIEW

Lien vers Liste PR

Lien vers Liste mRNA

Lien vers page Entrez pour une recherche uniquement dans ce contig NC_

Let’s have a look : http://www.ncbi.nlm.nih.gov/genomes/genlist.cgi?taxid=2759&type=0&name=Complete%20Eukaryota

Bioinformatique - NCBI

MapViewer

•  http://www.ncbi.nlm.nih.gov/mapview/

50

(26)

Genome Projects

•  Ensemble des « large scale sequencing » projects, complete or not

51

http://www.ncbi.nlm.nih.gov/genomeprj

Bioinformatique - NCBI

Bases « structurales »

•  Structure

–  experimentally designed

•  3D Domains

–  Automatically identified

–  Recherche selon séquence, nom, domaines…

(27)

53

http://www.ncbi.nlm.nih.gov/domains

Bioinformatique - NCBI

Bases « structurales »

•  Structure

–  experimentally designed

•  3D Domains

–  Automatically identified

–  Recherche selon séquence, nom, domaines…

•  Conserved Domains :

–  source : Pfam, Smart & COG –  http://www.ncbi.nlm.nih.gov/cdd

54

(28)

UniSTS

•  Listes non redondantes et unifiées de STS (i.e. marqueurs)

•  Application pour de la cartographie génétique

55

Bioinformatique - NCBI

UniSTS

(29)

dbSNP

•  Les SNP disponibles chez différentes espèces

•  Possibilités de chercher les SNP disponibles selon un gène, une région, etc, etc…

•  http://www.ncbi.nlm.nih.gov/snp

57

Bioinformatique - NCBI

dbGaP

•  Relation phénotype – génotype

•  Données issues de projet de GWAS, re-séquençage, etc…

•  Accès très « pointue » : localisation SNP, p-value, etc…

58

(30)

dbGaP

59

Bioinformatique - NCBI

dbGaP

(31)

UniGene

•  Système de paritionnement des séquences GenBank pour obtenir un ensemble non redondant de gènes en clusters (ouf!)

En clair…

•  Un cluster UniGene est sensé regrouper un ensemble de séquences provenant d’un gène unique

•  http://www.ncbi.nlm.nih.gov/unigene

61

Bioinformatique - NCBI

HomoloGene

•  Détection automatique des homologues parmi des ensembles de gènes eucaryotes

62

(32)

63

Bioinformatique - NCBI

http://www.ncbi.nlm.nih.gov/homologene/20322

(33)

Existence de « mini-sites » d’espèces références

•  http://www.ncbi.nlm.nih.gov/genome/guide/human/

•  http://www.ncbi.nlm.nih.gov/genome/guide/mouse/

•  http://www.ncbi.nlm.nih.gov/genome/guide/rat/

•  http://www.ncbi.nlm.nih.gov/genome/guide/zebrafish/

65

Information générale : http://www.ncbi.nlm.nih.gov/Genomes/

Bioinformatique - NCBI

Base Taxonomy

•  Présence d’un numéro de taxon dans de nombreuses bases NCBI

•  Permet de connaître cet ID et d’obtenir d’autres informations (SNP disponibles, séquences, etc…)

•  Toujours utile pour vérifier…

66

http://www.ncbi.nlm.nih.gov/taxonomy

(34)

Base Taxonomy

•  Présence d’un numéro de taxon dans de nombreuses bases NCBI

•  Permet de connaître cet ID et d’obtenir d’autres informations (SNP disponibles, séquences, etc…)

•  Toujours utile pour vérifier…

67

http://www.ncbi.nlm.nih.gov/taxonomy

Bioinformatique - NCBI

GEO : Gene Expression Omnibus

•  A chaque publication scientifique, les données d’expression (puce) sont mis à disposition de la communauté

•  Accès aux données normalisées de plan d’expérience

•  Applications :

–  Quel est le niveau d’expression d’un gène selon un contexte ? GEO profiles

–  Réalisation de méta-analyse (analyse de tous les plans d’expérience à partir d’un tissu pour plusieurs espèces, par exemple) : GEO datasets

(35)

GEO

69

Bioinformatique - NCBI

GEO profile

•  Recherche par un nom de gène (e.g. BMPR)

70

(36)

GEO profile

71

Bioinformatique - NCBI

GEO datasets

•  Recherche d’ensemble de données de transcriptomique selon : –  Le tissu

–  Le nb d’échantillon –  Le type d’expérience –  …

•  http://www.ncbi.nlm.nih.gov/gds

(37)

GEO datasets

73

Bioinformatique - NCBI

GEO datasets

74

(38)

Cancer Chromosomes

•  Aberrations chromosomiques de lignées cancéreuses

•  Données de SKY-FISH et de CGH

•  http://www.ncbi.nlm.nih.gov/cancerchromosomes

75

Bioinformatique - NCBI

Biosystems

•  Obtention de groupes de molécules interagissant dans un système biologique

•  Différents types de « biosystems » :

–  Pathway (interactions gènes, protéines ou petites molécules) –  Disease (interactions gènes, marqueurs biologiques)

•  Connexions base KEGG

•  http://www.ncbi.nlm.nih.gov/biosystems

(39)

Biosystems

77

Bioinformatique - NCBI

Biosystems

78

(40)

Biosystems

79

Bioinformatique - NCBI

OMIM & OMIA

•  Online Mendelian Inherintance in Man or Animals

•  Liste de gènes et de maladies / caractères héritables

•  Connexion entre gènes et maladies

•  Pour une maladie / caractère : apport du maximum de connaissances (gènes, cartographie, bibliographie, etc…)

(41)

81

Bioinformatique - NCBI

Autres bases ?

•  PubChem : action biologique, bioassays…

•  PubMed…

•  MeSH (Medical Subject Headings) : –  controlled vocabulary to retrieve informations

82

(42)

•  Still alive ?

•  Que retenir de cette présentation ?

83

Bioinformatique - NCBI

Conclusion

•  Trop d’information tue l’information ?

•  Exemple du NCBI : site extrêmement vaste –  Richesse des bases de données

–  Richesse des outils

–  Accès à l’arrière-cours (données brutes FTP) –  Accès aux méthodes (protocole SOAP)

•  Et les autres… UCSC, EBI, UNIPROT, MGI, KEGG, Ensembl, GO, etc, etc…

(43)

Conclusion

•  VOUS ne pouvez pas tout connaître (and nobody does)

•  Il faut avoir une vue d’ensemble d’une base…

–  Comprendre les relations

–  Appréhender leurs obtentions (expérimental ? in silico ?) –  Est-ce une réplication (i.e. suis-je à la source ?) ?

•  … pour en retirer l’information qui vous sera utile, par ex:

–  la structure 3D d’une protéine pourra m’être utile si j’identifie une mutation dans un gène

–  Les niveaux d’expressions d’un gène dans d’autres espèces peuvent m’aider à comprendre mon expérience (et à formuler des hypothèses) –  L’implication de mon gène™ dans telle maladie me permettra d’étayer

(ou non) les niveaux d’expressions dans mon expérience™

–  …

85

Bioinformatique - NCBI

Conclusion

•  Au final : 1.  c’est vaste

2.  Je ne peux pas tout connaître

•  On fait comment ?

86

(44)

87

3. Sites web et outils spécifiques

Bioinformatique – Sites web : ENSEMBL & USCS

•  2 sites « généralistes » : Ensembl et UCSC –  Synthèse d’information sur les génomes séquencés –  Synthèse de l’annotation de ces génomes

–  Outils disponibles : BLAST et BLAT

(45)

•  ENSEMBL : http://www.ensembl.org

–  Réconciliation de données de génomique fonctionnelle –  De nombreuses API disponibles

Bioinformatique – Sites web : ENSEMBL

(46)

Bioinformatique – Sites web : ENSEMBL

(47)

Bioinformatique – Sites web : ENSEMBL

(48)

Bioinformatique – Sites web : ENSEMBL

(49)

Bioinformatique – Sites web : ENSEMBL

(50)

•  USCS ou « Golden Path » : http://genome.ucsc.edu –  Orientation génomique structurale

–  Options différentes (comparaison de génomes, …)

Bioinformatique – Sites web : UCSC Genome Browser

(51)

Bioinformatique – Sites web : UCSC Genome Browser

(52)

Bioinformatique – Sites web : UCSC Genome Browser

(53)

•  Ces 2 sites utilisent les données de sites « institutionnels » et d’autres sites (notion de réconciliation de données) : HGNC, EBI, UniProt, etc…

•  2 philosophies différentes (fonctionnelles vs. structurales), même si des chevauchements existent

•  Très vaste et très complet

•  Accès plus ou moins facilité aux données brutes : –  API PERL / Biomart pour Ensembl

–  Table browser et Galaxy pour UCSC

106

Bioinformatique – Sites web : BIOMART

La fin des bioinformaticiens ?

•  Serveur internet : www.biomart.org

(54)

107

La fin des bioinformaticiens ?

•  Serveur internet : www.biomart.org

•  Système d’interrogation de bases de données (Ensembl, EBI, Uniprot, VEGA, …) et de récupération de données spécifiques selon des filtres personnalisés.

•  Utilisation « classique » :

Mon ensemble de gènes à moi…

Uniprot ID ? GOA ? Chromosome ?

Nom ? Homologues ?

Domaines ? InterPro ID ? NCBI ? Entrez ?

…

Bioinformatique – Sites web : BIOMART

(55)

109

110

Bioinformatique – Sites web : BIOMART

(56)

111

Bioinformatique – Sites web : BIOMART

Domaine GST C-term

(57)

113

114

Bioinformatique – Sites web : BIOMART

(58)

115

Bioinformatique – Sites web : BIOMART

(59)

117

118

Bioinformatique – Sites web : BIOMART

Liens PERL : récupération du script permettant d’obtenir la requête en cours…

(60)

•  BIOMART : possibilité d’interrogation de multiples bases de données de façon très souple et pointue… sans programmation !

•  Interconnexion entre différents bases de données

•  Réelle alternative à la programmation pour obtenir de façon rapide des ensembles d’annotations spécifiques d’une fonction, d’un chromosome, d’une classe de gène, …

•  Liens PERL pour relancer le script ultérieurement

119

Bioinformatique – Sites web : GALAXY

•  Galaxy : http://galaxy.psu.edu

–  Plateforme de manipulation et d’analyse de données –  Alternative à R, Programmation, UNIX, etc…

–  Framework de logiciels

(61)

121

Bioinformatique – Sites web : GALAXY

122

(62)

123

Etc, etc, etc…

Bioinformatique – Sites web : GALAXY

•  Beaucoup plus ouvert : envoi de vos propes données, utilisation de données publiques (Biomart ou UCSC)

•  Possibilité de réaliser des workflow sur les données

•  Possibilité d’ajouter vos propres programmes

•  De plus en plus utilisé comme framework pour l’intégration de programme d’analyse

(63)

125

More ?

•  Suite EMBOSS : http://emboss.sourceforge.net

•  BioPERL : http://www.bioperl.org/wiki/Main_Page

•  …

•  N’oubliez pas les « classiques » : NCBI, EBI, … –  Progression de l’interconnexion

–  Possibilité de requête –  …