• Aucun résultat trouvé

Les principales bases de données en bioinformatique

N/A
N/A
Protected

Academic year: 2022

Partager "Les principales bases de données en bioinformatique"

Copied!
20
0
0

Texte intégral

(1)

142

Les principales bases de données en bioinformatique

143

Bases de données en bioinformatique

Nombreuses bases de données en bioinformatique

Données issues d'expériences, de publications, d'analyses faites à la main par des chercheurs

Données issues d'extractions ou de raisonnements automatiques

La plupart de ces bases sont accessibles librement sur Internet

Banque de données : base de données orientée vers la consultation et le recueil des données

Chaque base propose un accès simplifié via un site oueb spécifique qui propose des fonctions de :

Recherche

Visualisation des données

Lien vers d'autres bases

=> Les différentes bases sont inter-connectées entre elles

Beaucoup de redondance d'une base à l'autre

144

Techniques de recherche

Ces techniques fonctionnent dans les moteurs de recherche généraliste sur Internet (Google,...)

Mais aussi dans la plupart des moteurs de recherche de bases de données bioinformatiques

Guillemets : pour rechercher des mots à la suite les un des autres

Ex : sodium transporting

Recherche sodium transporting ATPase

Et aussi sodium/potassium-transporting ATPase

Ex : "sodium transporting"

Recherche sodium transporting ATPase

Mais exclut sodium/potassium-transporting ATPase

145

Résumé des différentes bases

Gène (ADN) EMBL (séquences)

Protéine EMBL (séquences) Uniprot (séquences) PDB (séquences) PDB (repliements) PROSITE (domaines) PFAM (domaines) Transcript (ARNm)

Ensembl (séquences) EPD (promoteurs) Unigen (lieu d'expression)

Maladie génétique OMIM (génétique) Orphanet (clinique)

Médicament DrugBank (cibles) Thériaque (clinique) Espèce

Tree of life

Transcription Traduction

Agit sur Soigne

Cause

Article (bibliographie) Pubmed

Dictionnaires

grand dictionnaire terminologique

146

Le grand dictionnaire terminologique

Dictionnaire français-anglais

Avec des traductions spécifique à différents domaines (biologie, médecine, aéronautique,...)

Attention : dictionnaire français québécois !

http://granddictionaire.com/

(2)

149

Pubmed / Medline

http://www.ncbi.nlm.nih.gov/pubmed

Medline : base de données bibliographiques en médecine / biologie

Pubmed : interface permettant de consulter la base

Lien vers le texte des articles disponibles en ligne

150

EMBL / Nucleotide / DDB

Séquences de nucléotides (ADN) :

EMBL (European Molecular Biology Laboratory DNA database)

http://www.ebi.ac.uk/

Nucleotide (anciennement appelé GenBank)

http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide

DNA Database of Japan

Contiennent toutes les séquences de nucléotides librement disponibles et leurs traductions en protéines

Les séquences d'ADN proviennent de séquençages

Les séquences de protéines proviennent de la traduction automatique des séquences d'ADN correspondantes

Les 3 banques sont synchronisées => même contenu

Cependant l'interface et les fonctions proposées par les 3 banques sont un peu différentes

Recherche principalement par nom de gène ou de protéine, et ou nom d'espèce

EMBL

Type de résultats

Génome entier Gène / ADN

Protéine

Pour rechercher un gène codant une protéine => coding sequence Release : dernière version publiée

Update : ajout depuis la dernière « release »

(3)

156

Format des séquences

Il existe différent format pour les séquences

Le format FASTA est le plus utilisé

Séquence d'ADN, d'ARN, de protéine,...

Exemple de séquence protéique au format FASTA :

>sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human).

MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM

Identifiant de la base de données (sp = SwissProt)

Identifiant de la séquence dans la base

Nom de la séquence et

de l'espèce

157

EPD

EPD : Eukaryotic Promoter Database :

http://www.epd.isb-sib.ch/

Base de données sur les séquences promoteurs : séquence d'ADN déclenchant la transcription

Uniquement pour les eucaryotes

Données expérimentales

Liste des gènes utilisant ce promoteur

La transcription commence ici

(4)

160

Ensembl

Ensembl :

http://www.ensembl.org

Base de données sur la transcription des gènes

ARNm (Transcripts)

Introns, exons, séquences codantes,...

Annotation manuelle en partant des séquences de gènes dans la base EMBL, notamment chez l'homme

Reste dans le noyau (intron) Quitte le noyau mais n'est pas traduit

Traduit en protéine

Séquence codante Séquence non-codante

Intron

Intron (épissage

alternatif) Domaines protéiques

Exon Gène

Pourquoi les 4 derniers transcripts ne sont pas traduits en protéine ?

(5)

166

Unigen

Unigen :

http://www.ncbi.nlm.nih.gov/UniGene

Base de données sur l'expression des gènes

Quels gènes sont exprimés dans quel organe, dans quel maladie, à quel moment ?

Données issues de la recherche de marqueurs de séquences exprimées (Expressed Sequence Tags, EST)

EST = séquence d'ADNc (= ARNm rétro-transcrit) courte considérée comme caractéristique d'un ou plusieurs gènes

=> données expérimentales mais assez peu fiables !

169

Uniprot

Uniprot

http://www.uniprot.org/

Les données proviennent de deux sources :

La base de données SwissProt, remplie manuellement à partir de publications

La traduction automatique des séquences d'ADN issues de la base EMBL

Il est plus facile de séquencer un gène qu'une protéine !

Recherche principalement par nom de gène ou de protéine, et ou nom d'espèce

Uniprot Uniprot

(6)

En bleu : source automatique non vérifiée par un expert

=> méfiance !

En jaune : source revu

manuellement par un expert

173

PDB

PDB (BrookHaven Protein DataBank)

http://www.rcsb.org

Séquences et structures des protéines

Visualisation en 3D

Les données proviennent de cristallographie, de RMN,...

Pour certaines protéines, plusieurs structures sont disponibles

Structure de la protéine seule ou avec ligand

Structure de la protéine dans différents milieux

Structure obtenue avec des méthodes expérimentales différentes

PDB : structure secondaires

PDB : séquence des protéines

PDB : structure

tertiaires

(7)

PDB : structure tertiaires

180

PROSITE

PROSITE :

http://www.expasy.ch/prosite/

Base de données sur les domaines des protéines, les familles protéiques et les fonctions biologiques associées

Un domaine = une région d'une protéine ayant une

fonction biologique propre, que l'on retrouve sur plusieurs protéines

Ex : plusieurs enzymes ont un même domaine avec une fonction d'hydrolyse de l'ATP

Les motifs des domaines ont été déterminés de manière manuelle

Recherche par nom de protéine, nom de domaine, fonction biologique,...

PROSITE

Identifiants :

PDOC... => domaine P... => protéine

PROSITE PROSITE

(8)

PROSITE

Permet d'accéder au motif du domaine

Recherche des « architectures » (= suite de domaines) dans les protéines de la base Swiss Prot

Recherche toutes les protéines Ayant ce domaine dans Uniprot

Motif du domaine

Qualité du motif

Une ligne par résidu dans le motif

Résidu n°1 Résidu n°2 Résidu n°3 ...

Acide aminé le plus fréquent en position n°1

Liste des 22 acides aminés

Fréquence de l'acide aminé E en position n°3

PROSITE : architecture de protéines

Protéine « Légo » !

Ici, des transporteurs actifs

Distance en nombre de résidus

Afficher les 33 autres protéines

Recherche du domaine dans Uniprot

Attention !

Il s'agit de rechercher toutes les protéines dont la séquence contient le motif du domaine ! Cela ne garantit pas à 100% que la protéine a la fonction biologique associée au domaine !

(9)

190

PFAM

PFAM (Protein Family) :

http://pfam.sanger.ac.uk/

Base de données sur les familles de protéines et les

« clans » (= super familles)

Par rapport à PROSITE :

Construit à partir des séquences de la base Uniprot

PFAM-A : annotation manuelle

PFAM-B : annotation automatique, à partir de recherche de domaines dans les séquences, de similarités...

Site oueb plus joli...

Mais moteur de recherche moins bon !

191

Recherche par séquence

Problème : on a séquencé un gène,

Est-il est déjà connu ?

Sous quel nom ?

Existe-t-il des gènes de séquences proches déjà connu ?

=> recherche par séquence

> 230 000 000 de séquences connues

192

Recherche par séquence

Problème du nombre de séquences connues

Problème des variations entre séquences

Mutations, variations individuelles, erreurs de séquençage

=> Utilisation de moteurs de recherche spécifiques

193

BLAST

Le programme BLAST permet de faire des recherches par séquence

Il est disponible sur Internet

http://blast.ncbi.nlm.nih.gov/Blast.cgi

Plusieurs variantes :

Blast n : recherche d'une séquence nucléotidique dans une banque d'ADN

Blast p : recherche d'une séquence protéique dans une banque de protéine

...

BLAST sur Internet

Séquence à rechercher

Base de données où la recherche est effectuée

Rechercher seulement chez certaines espèces

Lancer le BLAST !

(10)

BLAST sur Internet

Nombre maximum de séquences affichées Nombre d'erreur que l'on accepte (E-value)

E-value = 10 => parmi les résultats, statistiquement en moyenne 10 alignement de séquence seront dus au hasard

BLAST sur Internet

BLAST sur Internet

Séquence requête

14 séquences retrouvées par BLAST

La position des barres indique les alignements locaux La couleur indique le score d'alignement

BLAST sur Internet

BLAST sur Internet

201

Gene Ontology

Gene Ontology (GO) :

http://www.geneontology.org/

Ontologie :

Plus qu'une base de données, une base de connaissance

Ensemble structuré des concepts et des relations entre

ces concepts dans un domaine de connaissance donné

Ensemble => On recherche une certaine exhaustivité

pour avoir toutes les connaissances d'un domaine

Structuré => des traitements automatiques sont possibles

Un cours peut contenir l'ensemble des connaissances d'un domaine mais il n'est pas structuré (d'un point de vue informatique) => pas de traitement automatique possible

(11)

202

Ontologie

Exemple de raisonnement sur une ontologie sur les écosystèmes et les chaînes alimentaires

mange

Homme Brochet mange Gardon

Polluant Animal

est-un

PCB est-un

Lac

habite habite

est-un est-un

Ville habite

se con- centre dans

présent dans

L'homme risque-t-il d'être intoxiqué par les PCB (polychlorobiphényles) rejeté dans les eaux ?

203

Gene Ontology

Gene Ontology (GO) :

http://www.geneontology.org/

Attention, ce n'est pas vraiment une ontologie !

Seulement quelques types de relations :

Est-un

Partie-de

Régule

Régule positivement

Régule négativement

=> pour avoir une « vraie » ontologie, il manque des relations : stocke, détruit,...

204

Gene Ontology

Gene Ontology (GO) :

Composants de la cellule Cellule

Membrane Cytoplasme Noyau

Nucléole...

Vésicule sécrétoire Processus biologiques

Processus métaboliques Métabolisme des lipides Mort cellulaire...

Fonctions moléculaires Activité catabolique Activité anti-oxydante Régulateur de transcription...

Termes : Gènes :

BMP2 (poisson zèbre) Insuline (homme)

... (...) partie-de

est-un

annotation

Gene Ontology

Gene Ontology Gene Ontology

(12)

Gene Ontology Gene Ontology

est-un partie de

Régulation

Gene Ontology

Liste des domaines protéiques concernant le transport du sodium Mapping

(13)

214

KEGG

KEGG : Kyoto Encyclopedia of Genes and Genomes :

http://www.genome.jp/kegg/

Ontologie

Portant principalement sur les voies métaboliques

Mais aussi sur les gènes, les protéines, les maladies, les médicaments

Très complexe !

219

Tree of life

Tree of life :

http://tolweb.org

Base de données de taxonomie

Classification des êtres vivants

Avec des photos !

(14)

Tree of life

221

OMIM (MIM)

OMIM (Online Mendelian Inheritance in Man) :

http://www.ncbi.nlm.nih.gov/omim

Base de données sur les maladies génétiques chez l'homme

Données issues d'articles, d'expériences,...

Recherche par nom de maladie ou nom de gène

OMIM : maladie

Lien vers les gènes ou les portions de chromosome responsables de la maladie

OMIM : gène

OMIM : variants allèliques

SNP

= Single Nucleotide Polymorphisme

= Mutation concernant un seul nucélotide (les plus fréquentes)

OMIM : SMP dans Ensembl

Un T remplace un C

(15)

226

OrphaNet

OrphaNet :

http://www.orpha.net

Base de données sur les maladies orphelines

Informations sur les gènes concernés (pour les maladies génétiques), similaire à OMIM

Mais aussi des informations cliniques

Essais cliniques de nouveaux médicaments

Base française !

228

DrugBank

Base de données sur les médicaments

http://www.drugbank.ca

Information sur les cibles des médicaments

Attention : base américaine

=> médicaments américains !

DrugBank

231

Thériaque / Thésorimed

Base de données sur les médicaments

http://www.theriaque.org

Accessible gratuitement, mais il faut s'inscrire !

Informations cliniques :

Contre-indications, effets indésirables,...

Base française => médicaments français

(16)

233

Résumé des différentes bases

Gène (ADN) EMBL (séquences)

Protéine EMBL (séquences) Uniprot (séquences) PDB (séquences) PDB (repliements) PROSITE (domaines) PFAM (domaines) Transcript (ARNm)

Ensembl (séquences) EPD (promoteurs) Unigen (lieu d'expression)

Maladie génétique OMIM (génétique) Orphanet (clinique)

Médicament DrugBank (cibles) Thériaque (clinique) Espèce

Tree of life

Transcription Traduction

Agit sur Soigne

Cause

Article (bibliographie) Pubmed

Données expérimentales Données calculées Mélange des deux

Fonction biologique Gene Ontology PROSITE (domaines) PFAM (domaines)

234

Qualité des données

Il est très important de savoir évaluer la qualité des données

Y compris pour les données que l'on récupère sur Internet !

Y compris pour les logiciels !

Quelques critères d'évaluation :

Transparence :

Les informations « de base » (auteur, date,...) sont-elles disponibles ?

Les sources sont-elles disponibles ?

Auteur :

Qui est à l'origine des données ?

Quel est son statut ? A-t-il des intérêts particuliers ?

Date et péremption :

Les données sont-elles récentes ? Sont-elles à jour ?

235

Qualité des données

Les logiciels : Ne les croyez pas systématiquement !!!

Parfois des approximations : diminution de la qualité des résultats au profit de la rapidité

Recherche d’une solution parmi un ensemble infini de possibilités

Ce n’est pas toujours la solution la meilleure qui est trouvée !

Les banques de données : Ne les croyez pas systématiquement !!!

Les données se sont pas toujours fiables ou à jour.

Différence entre réalité mathématique et réalité biologique

=> cf TP1

Les ordinateurs ne font pas de biologie, ils calculent vite !

236

Exemple pratique

Question :

Quels sont les maladies génétiques pouvant être causées chez l'homme par une déficience des transporteurs potassiques transmembranaires ?

Comment répondre en combinant les différentes bases de données vues précédemment ?

Puis ontology

(17)

6046 gènes / protéines...

(18)

6046 gènes / protéines...

(19)

.../...

MIM = OMIM

(20)

259

Exemple pratique

Nous avons combiné les informations de 4 bases entre elles

Attention aux limites des différentes bases

Seules les connaissances connues sont présentes dans les bases !

Il reste beaucoup d'inconnu en biologie

Lorsqu'il y a beaucoup de gènes à rechercher :

Possibilité d'automatiser les recherches à l'aide de scripts (programmation)

260

Pour l'examen

Exercice comme ceux vu en cours et en TP

Les documents sont autorisés

Pensez à les amener !

Les calculatrices, les ordinateurs, les téléphones

portables et les livres sont interdits

Références

Documents relatifs

La mesure somme-des-paires, qui combine la projection des alignements de paires pour toutes les paires dans l’alignement multiple, a été largement utilisée dans les

• Comme u et v sont deux sous-chaînes de w, qui sont incluses dans le motif w, on peut faire l’hypothèse que la distance minimale de u plus la distance minimale de v peut seulement

• Un ADN pas si "poubelle" que ça qui joue un grand rôle dans la transformation des gènes et l'apparition de nouveaux gènes. région des gènes HOX) et des régions

Soit l’alignement entre les deux sequences S 1 et S 2 , calculer son score en utilisant la PSSM (position specific scoring matrix) de la table ci-dessous et de la matrice Blosum de

Chapitre 16 Aspects normaux et pathologiques du sexe fœtal (Julien B IGOT et Fred

Homologue:  Gènes dérivent d'un ancêtre commun Paralogue :  Gènes homologues issus de la duplication

Bioinformatique des séquences, banques de données, méthodes et outils d’analyse Biologie :.. Théorie de l’évolution → mutations aléatoires + pression

• donc si même résultat avec deux modèles, utiliser le plus simple car la variance de la distance augmente avec le nombre de paramètres. • application de la correction Gamma que