• Aucun résultat trouvé

Introduction à la Bio-Informatique

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction à la Bio-Informatique"

Copied!
20
0
0

Texte intégral

(1)

Introduction à la

Bio-Informatique

(2)

Qu’est-ce que la Bio-Informatique?

Champs multi-disciplinaire qui utilise des méthodes informatiques

(mathématiques, statistiques, combinatoires…) pour résoudre un

problème biologique :

Formaliser des problèmes de biologie moléculaire;

Développer des outils formels;

Analyser les données;

Prédire des résultats biologiques;

Organiser les données.

Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire.

(3)
(4)

Distinguer deux termes:

« Bioinformatics »

Analyse "in silico" de l'information biologique contenue dans les séquences nucléiques et protéiques

Biologie

Informatique Mathématiques Statistiques

« Computational biology »

Ensemble de méthodes et de logiciels qui permettent de gérer, manipuler, traiter et

analyser les données biologiques:

La bioinformatique met en jeu plusieurs champs disciplinaires :

(5)
(6)
(7)

La Bio-Informatique s’applique à tout type de données biologiques, en particulier moléculaires :

Les séquences d’ADN et de protéines

Les structures d’ARN et de protéines

Les contenus en gènes des génomes

Les puces à ADN (microarrays)

Les réseaux d’interactions entre protéines

Les réseaux métaboliques

Les arbres de phylogénie Utilités :

Faire avancer les connaissances en biologie, en génétique humaine, en théorie de l’évolution…

Aider à la conception de médicaments

Comprendre les maladies complexes..

(8)

Une évolution

Activité biologique

Études

biochimiques

Séquence

protéique Gène GATTACA

(9)

Une évolution

Activité biologique

Études

biochimiques

Séquence

protéique Gène

ANALYSES DE SEQUENCES

GATTACA

(10)

Défis de la biologie moléculaire

Analyser, comprendre et organiser une masse de données biologiques:

Plus de 200 génomes complètement

séquencés et publiés, dont l’homme (23 paires de chros.) et la souris (20 paires de chro.)

Projet HapMap du génome humain:

Construction de la carte des haplotypes

Projets de séquençage de plus de 500 procaryotes et 400 eucaryotes

(11)

Défis de la biologie moléculaire

Décoder l’information contenue dans les séquences d’ADN et de protéines

Trouver les gènes

Différencier entre introns et exons

Analyser les répétitions dans l’ADN

Identifier les sites des facteurs de transcription

Étudier l’évolution des génomes

Génomique structurale:

Modéliser les structures 3D des protéines et des ARN structurels

Déterminer la relation entre structure et fonction

Génomique fonctionnelle

Étudier la régulation des gènes

Déterminer les réseaux d’interaction entre les protéines

(12)

Une histoire

Début de la micro- informatique

Banques de données (EMBL, GENBANK)

~1980

Apparition des logiciels d’alignement (FASTA et BLAST)

Développement de l’Internet et des réseaux

~1990

Projets de séquençage de génomes complets

Séquençage du génome humain (Première ébauche)

~2000

Algorithme de comparaison de séquences (Needleman)

Première banque de séquences protéiques (PIR)

< 1980

(13)

Qu’est-ce qu’une banque de données ?

Ensemble de données relatives à un domaine, organisées par traitement informatique,

accessibles en ligne et à distance

Souvent, les données sont stockées sous la forme d’un fichier texte formaté (respectant une disposition particulière)

Besoin de développer des logiciels spécifiques pour interroger les données contenues dans ces banques

(14)

Les banques de données généralistes

Ces banques contiennent des données hétérogènes

Collecte la plus exhaustive possible

Banques de séquences nucléiques

Banques de séquences protéiques

Banques de structure 3D de macromolécules

Banques d’articles scientifiques

Avantage : tout est consultable en une fois

Inconvénients : difficiles à maintenir, difficiles à interroger

(15)

Les banques de données spécialisées

Ces banques contiennent des données homogènes

Collecte établie autour d’une thématique particulière

Avantages : facilité pour mettre à jour les données, vérifier leur intégrité, offrir une interface adaptée, …

Inconvénients : ne cible pas toujours ce que l’on veut; toutes les banques possibles

n’existent pas

Exemples : banques spécialisées pour un génome, banques de séquences

d'immunologies, banques sur des séquences validées, …

(16)

Les banques de séquences nucléiques

Origine des données :

Séquençage d’ADN et d’ARN

Les données stockées : séquences + annotations

Fragments de génomes

Un ou plusieurs gènes, un bout de gène, séquence intergénique, …

Génomes complets

ARNm, ARNt, ARNr, … (fragments ou entiers)

[ Note 1] : toutes les séquences (ADN ou ARN) sont écrites avec des T

[ Note 2] : les séquences sont toujours orientées 5’ vers 3’.

(17)

Les banques de séquences protéiques

Origine des données

Traduction de séquences d’ADN

Séquençage de protéines

Rare car long et coûteux

Protéines dont la structure 3D est connue

Les données stockées : séquences + annotations

Protéines entières

Fragments de protéines

(18)

Contient

Journaux concernant la biologie et la médecine

Articles indexés par des experts à l’aide des termes MeSH

Termes MeSH : vocabulaire contrôlé de termes biomédicaux et de molécules chimiques

Hiérarchisé

Dictionnaire de synonymes

19.000 termes médicaux, 103.500 termes chimiques

Subheadings : sous-titres qui décrivent un aspect particulier des termes MeSH

Mis à jour régulièrement

Une Banque bibliographique, PubMed

(19)

Les bases de données bioinformatiques les plus utilisées

NCBI, National Center for Biotechnology Information

GenBank: Séquences d’ADN (3 billion de paires de bases)

Site officiel de BLAST

PubMed: Permet la recherche de références

COGs: Familles de gènes orthologues …

EMBL, The European Molecular Biology Laboratory

ExPASy, Expert Protein Analysis System, Protéomique

Swiss-Prot: Séquences de protéines

PROSITE: Domaines et familles de protéines

SWISS-MODEL: Outil de prédiction 3D de protéines

Différents outils de recherche

PDB, Protein Data Bank

Base de données de structures 3D de protéines

Visualisation et manipulation de structures

SCOP, Structural Classification of Proteins

(20)

Entrez au NCBI

Entrez

PopSet Structure

PubMed

Books 3D Domains

Taxonomy

GEO/GDS UniGene

Nucleotide

Protein Genome

OMIM

CDD/CDART

Journals

SNP

UniSTS

PubMed Central

Gene

HomoloGene

Litera ture

G en om e

S eq u en ce /S tr u ct u re Sequence Nucleotid e

Organism Pr o te in

S e q u e n ce /S tr u ct u re Ex pre

ssio n

BioAssays Compounds

Substances

Références

Documents relatifs

To this point, RIXS spectroscopy has been restricted to the investigation of steady-state systems because of the relatively long acquisition times imposed by the necessity of

The mammal fauna from Joint Mitnor Cave, Buckfastleigh, Devon Sorex araneus Linnaeus, 1758 Eurasian common shrew Lepus timidus Linnaeus, 1758 Mountain hare Clethrionomys

Anesthésie Réanimation Anatomie Biochimie-chimie Dermatologie Chirurgie Générale Traumatologie orthopédique Hématologie biologique Chirurgie vasculaire périphérique

 Une base de données est un ensemble structuré de données enregistrées dans un ordinateur et accessibles de façon sélective par plusieurs utilisateurs.. Une base de

Besoin de développer des logiciels spécifiques pour interroger les données contenues dans ces banque Une base de données, usuellement abrégée en BD ou BDD, est un

monooxygenase NOT transaminase NOT kinase NOT oxidase NOT thioredoxin NOT glycerate NOT glyoxylate NOT glucose NOT glucose-1-dehydrogenase NOT glutamate dehydrogenase-related

La situation n'était claire que dans deux hypothèses extrêmes : si la création de cette oeuvre ou de cette banque a lieu en dehors de l'exercice de la fonction, l'intéressé en

Contiennent toutes les séquences d’acides nucléiques produites dans les laboratoires publiques (&gt;388 milliards de bp, &gt;200 millions de séquences) Pour qu’une publication