• Aucun résultat trouvé

Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la"

Copied!
19
0
0

Texte intégral

(1)

TD Biologie Moléculaire TD Biologie Moléculaire TD Biologie Moléculaire TD Biologie Moléculaire TD Biologie Moléculaire TD Biologie Moléculaire TD Biologie Moléculaire TD Biologie Moléculaire

SVI SVI SVI SVI SVI SVI SVI

SVI –––––––– SSSSSSSS6 6 6 6 6 6 6 6

Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique Introduction à la bioinformatique

Faculté Faculté Faculté

Faculté desdesdes SciencesdesSciencesSciencesSciences ---- RabatRabatRabatRabat Laboratoire de Microbiologie et Biologie MoléculaireLaboratoire de Microbiologie et Biologie MoléculaireLaboratoire de Microbiologie et Biologie MoléculaireLaboratoire de Microbiologie et Biologie MoléculaireLaboratoire de Microbiologie et Biologie MoléculaireLaboratoire de Microbiologie et Biologie MoléculaireLaboratoire de Microbiologie et Biologie MoléculaireLaboratoire de Microbiologie et Biologie Moléculaire --- Université Mohamed V

Université Mohamed V Université Mohamed V

Université Mohamed V ---- AgdalAgdalAgdal• Faculté des Sciences B.P. Agdal• Faculté des Sciences B.P. • Faculté des Sciences B.P. 1014 • Faculté des Sciences B.P. 1014 1014 1014 ---- Rabat

Rabat Rabat

Rabat ---- MAROCMAROCMAROCMAROC

Dr. Laila

Dr. Laila Sbabou Sbabou

(2)

Introduction Introduction Introduction Introduction

Qu`est ce que la bioinformatique?

Qu`est ce que la bioinformatique?

Qu`est ce que la bioinformatique?

Qu`est ce que la bioinformatique?

Historique de la Bioinformatique Historique de la Bioinformatique Historique de la Bioinformatique Historique de la Bioinformatique

Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données

Banques de séquences nucléiques Banques de séquences nucléiques Banques de séquences nucléiques Banques de séquences nucléiques Banques de séquences protéiques Banques de séquences protéiques Banques de séquences protéiques Banques de séquences protéiques Autres types de banques de données Autres types de banques de données Autres types de banques de données Autres types de banques de données Analyse de données:

Analyse de données:

Analyse de données:

Analyse de données:

Recherche Recherche Recherche

Recherche de de de de similaritéssimilaritéssimilaritéssimilarités dansdansdans les bases de dans les bases de les bases de les bases de donnéesdonnéesdonnéesdonnées Recherche

Recherche Recherche

Recherche des phases de lectures des phases de lectures des phases de lectures des phases de lectures ouvertesouvertesouvertes (ORF)ouvertes (ORF)(ORF)(ORF)

2

(3)

Une

Une approcheapproche inin silicosilico dede lala biologiebiologie quiqui consisteconsiste enen uneune analyse

analyse informatiséeinformatisée desdes donnéesdonnées biologiquesbiologiques enen utilisantutilisant unun ensemble

ensemble dede moyensmoyens (concepts,(concepts, méthodes,méthodes, implémentations,implémentations, logiciels,

logiciels, etcetc......))..

Discipline

Discipline complémentaire aux approches classiques de la complémentaire aux approches classiques de la biologie

biologie::

In vivo

In vivo (tests au (tests au seinsseins des des desdes organismesorganismes vivantsvivants)) In situ

In situ (tests (tests dansdans les les milieuxmilieux naturelsnaturels)) In vitro

In vitro (tests (tests dansdans des tubes) des tubes)

Introduction Introduction Introduction Introduction

Qu`est ce que la bioinformatique?

Qu`est ce que la bioinformatique?

Qu`est ce que la bioinformatique?

Qu`est ce que la bioinformatique?

(4)

4

Historique de la Bioinformatique Historique de la Bioinformatique Historique de la Bioinformatique Historique de la Bioinformatique

1965 1965 1965 1965 1965 1965 1965

1965:::::::: PremièrePremière compilationcompilation dede protéinesprotéines (M(M.. DayhoffDayhoff etet alal..)) :: 5050 entréesentrées 1967

1967 1967 1967 1967 1967 1967

1967:::::::: ArticleArticle :: ""ConstructionConstruction ofof PhylogeneticPhylogenetic TreesTrees"" (Fitch(Fitch && MargoliashMargoliash 19701970

19701970 19701970

19701970:::::::: ProgrammeProgramme d’alignementd’alignement globalglobal dede séquencesséquences (algorithme(algorithme dede NeedlemanNeedleman

&

& WunschWunsch))..

1972 1972 1972 1972 1972 1972 1972

1972:::::::: PremierPremier microprocesseurmicroprocesseur IntelIntel 80088008 1973

1973 1973 1973 1973 1973 1973

1973:::::::: GénieGénie GénétiqueGénétique (Cohen(Cohen etet alal..)) 1977

1977 1977 1977 1977 1977 1977

1977:::::::: MicroMicro--ordinateursordinateurs Séquençage

Séquençage d'ADNd'ADN :: FF.. SangerSanger // MaxamMaxam && GilbertGilbert Première

Première suitesuite logiciellelogicielle bioinformatiquebioinformatique ((StadenStaden )) 1980

1980 1980 1980 1980 1980 1980

1980:::::::: PremièresPremières méthodesméthodes dede prédictionprédiction etet d’alignementd’alignement..

Première

Première basesbases dede donnéesdonnées EMBLEMBL,, GenBankGenBank etet PIRPIR 1981

1981 1981 1981 1981 1981 1981

1981:::::::: GenBankGenBank :: 270270 séquencesséquences Programme

Programme d'alignementd'alignement locallocal dede séquencesséquences (Smith(Smith && Waterman)Waterman) 19851985

19851985 19851985

19851985:::::::: ProgrammeProgramme d'alignementd'alignement locallocal dede séquencesséquences "FASTA""FASTA" (Pearson(Pearson && LipmanLipman )) 1990

1990 1990 1990 1990 1990 1990

1990:::::::: ProgrammeProgramme d'alignementd'alignement locallocal dede séquencesséquences "BLAST""BLAST" ((AltschulAltschul etet alal..))

Introduction Introduction Introduction Introduction

(5)

Analyse des Analyse des Analyse des Analyse des

Résultats RésultatsRésultats Résultats Analyse

Analyse Analyse Analyse Analyse Analyse Analyse Analyse

Comparaison Comparaison Comparaison Comparaison Comparaison Comparaison Comparaison Comparaison

Modélisation Modélisation Modélisation Modélisation Modélisation Modélisation Modélisation Modélisation

Acquisition Acquisition Acquisition Acquisition Acquisition Acquisition Acquisition Acquisition Organisation Organisation Organisation Organisation Organisation Organisation Organisation Organisation

Stockage Stockage Stockage Stockage Stockage Stockage Stockage Stockage des données des données des données des données des données des données des données des données

(6)

6

Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données::::

SSéquenceséquences nucléotidiques et nucléotidiques et proteiquesproteiques Données

Données proteomiqueproteomique (spectrométrie de masse….)(spectrométrie de masse….) Données d’expression (puces à ADN…)

Données d’expression (puces à ADN…) Littérature

Littérature

Types de Types de Types de

Types de donndonndonnéesdonnéeséesées::::

Stocker Trier Corriger Annoter

(7)

Divers

Divers BanquesBanques de de DonnéesDonnées::

GenBank GenBank GenBank GenBank GenBank GenBank GenBank GenBank::::::::

La banque américaine maintenue au NCBI (National Center for Biotechnology Information) à Bethesda (USA)

EMBL : EMBL : EMBL : EMBL : EMBL : EMBL : EMBL : EMBL :

La banque européenne maintenue à l’EBI (European Bioinformatics Institut) à Cambridge (UK)

DDBJ : DDBJ : DDBJ : DDBJ : DDBJ : DDBJ : DDBJ : DDBJ :

La banque japonaise (DNA Data Bank of Japan)

Banques Banques Banques Banques Banques Banques Banques

Banques de sde sde sde sde séquencesde sde sde séquenceséquenceséquenceséquenceséquenceséquenceséquences nucléiques:nucléiques:nucléiques:nucléiques:nucléiques:nucléiques:nucléiques:nucléiques:

Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données::::

(8)

8

Banques Banques Banques

Banques de sde sde séquencesde séquenceséquenceséquences proteiquesproteiquesproteiques::::proteiques

Swiss Swiss Swiss Swiss Swiss Swiss Swiss

Swiss ProtProtProtProtProtProtProtProt::::::::

- Niveau élevé d’Annotation (manuelle):

-Description de la fonction des proteines, structure des domaines et modification post-traductionnelle…. etc

TrEMBL TrEMBL TrEMBL TrEMBL TrEMBL TrEMBL TrEMBL TrEMBL ::::::::

Données générées par traduction automatique des informations génétiques de la banque de données EMBL (d’où TrEMBL =Traduction EMBL)

Annotation automatique Prosite

Prosite Prosite Prosite Prosite Prosite Prosite Prosite::::::::

Base de données de familles et domaines de protéines GenePept

GenePept GenePept GenePept GenePept GenePept GenePept GenePept::::::::

Traduction automatique des CDS de GenBank PIR (

PIR ( PIR ( PIR ( PIR ( PIR ( PIR (

PIR (ProteinProteinProteinProteinProtein Information Ressource)ProteinProteinProteinInformation Ressource)Information Ressource)Information Ressource)Information Ressource)Information Ressource)Information Ressource)Information Ressource)::::::::

Groupe

Groupe établitétablit par le par le National Biomedical Research Foundation (NBRF) Identification et interpretation de

Identification et interpretation de l’informationl’information des des séquencesséquences proteiquesproteiques Expazy

Expazy Expazy Expazy Expazy Expazy Expazy Expazy::::::::

Base de données protéomique En

En En

En 2002200220022002: : : : consortium UniProt (Universal Protein Resource) formé par le groupe SwissProt-TrEMBL et le groupe PIR

Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données::::

(9)

Autres Autres Autres Autres Autres Autres Autres

Autres types de types de types de types de types de types de types de types de banquesbanquesbanquesbanquesbanquesbanquesbanquesbanques de de de de de de de de donnéesdonnéesdonnéesdonnéesdonnéesdonnéesdonnéesdonnées::::::::

Banques de Structure Banques de Structure Banques de Structure Banques de Structure::::

Ex: la Protein Database PDB dédiée au structures proteiques détérminées experimentalement

Banques dédiées à un organisme particulier:

Banques dédiées à un organisme particulier:Banques dédiées à un organisme particulier:

Banques dédiées à un organisme particulier:

Ex: Arabidopsis thaliana (TAIR, ABRC….) Colibri (E. coli)

Subtilis (Bacillus subtilis) Flybase (Drosophile)

Banques dédiées à un type de séquences particulier:

Banques dédiées à un type de séquences particulier:

Banques dédiées à un type de séquences particulier:

Banques dédiées à un type de séquences particulier:

- Analyse des promoteurs (PromScan, Virtual Footprint, Prokaryotic Promoter Prediction ‘PPP’, Scope…)

- Analyse des terminateurs de la transcriptio (FindTerm, RibEx….)

Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données Acquisition, organisation et stockage des données::::

(10)

10

Par comparaison de séquences afin de trouver des similarités (Voir si ma similarités (Voir si ma séquence ressemble à d’autres déjà connues),

séquence ressemble à d’autres déjà connues), définir la structure et Identifier les domaines et motifs connus.

Acides nucléiques:

Acides nucléiques:

Acides nucléiques:

Acides nucléiques:

- Recherche de phase de lecture ouverte (ORF) d’un gène - Déduire la structure Intron/Exon d’un gène

-Etablir l’arbre phylogènique

- Recherche d’Etiquettes EST et du profil d’expression des gènes (profiling) - Analyse de génomes entiers

Protéines:

Protéines:

Protéines:

Protéines:

-Déduire la séquence de la protéine à partir d’une séquence d’ADN (traduction in silico)

- Identifier la famille, sites actifs et domaines fonctionnelles

- prédiction des modifications post-traductionnelles et structures secondaires - Etablir un arbre Phylogénique

Analyse des données Analyse des données Analyse des données Analyse des données::::

(11)

Analyser Analyser Analyser

Analyser ma ma ma ma séquenceséquenceséquence pour ?séquence pour ?pour ?pour ? Similarité dans la séquence Similarité dans la séquence Similarité dans la séquence Similarité dans la séquence Similarité dans la séquence Similarité dans la séquence Similarité dans la séquence Similarité dans la séquence

Similarité dans la structure Similarité dans la structure Similarité dans la structure Similarité dans la structure Similarité dans la structure Similarité dans la structure Similarité dans la structure Similarité dans la structure

Similarité dans la fonction Similarité dans la fonction Similarité dans la fonction Similarité dans la fonction Similarité dans la fonction Similarité dans la fonction Similarité dans la fonction Similarité dans la fonction Analyse des données

Analyse des données Analyse des données Analyse des données::::

(12)

12

Recherche RechercheRecherche

Recherche de de de similaritésde similaritéssimilarités danssimilarités dansdansdans les les les banquesles banquesbanquesbanques de de de donnéesde donnéesdonnéesdonnées::::

Le Blast: Basic Local Alignement Le Blast: Basic Local Alignement Le Blast: Basic Local Alignement

Le Blast: Basic Local Alignement SearchSearchSearchSearch ToolToolToolTool

Analyse des données Analyse des donnéesAnalyse des données Analyse des données::::

(Ex: Blast sur NCBI) (Ex: Blast sur NCBI)(Ex: Blast sur NCBI) (Ex: Blast sur NCBI)(Ex: Blast sur NCBI) (Ex: Blast sur NCBI)(Ex: Blast sur NCBI) (Ex: Blast sur NCBI)

(13)

Programme Programme Programme

Programme Séquence Séquence Séquence Séquence requête requête requête requête

Base de données Base de données Base de données Base de données

BlastNNNNNNNN Nucléique Nucléique BlastPPPPPPPP Protéique Protéique BlastXXXXXXXX Nucléique Protéique ttttttttblastNNNNNNNN Protéique Nucléique ttttttttblastXXXXXXXX Nucléique Nucléique Analyse des données

Analyse des données Analyse des données Analyse des données::::

(14)

14

Résultat

Résultat du Blastdu Blast

(15)

Recherche RechercheRecherche

Recherche des phases de lectures des phases de lectures des phases de lectures ouvertesdes phases de lectures ouvertesouvertesouvertes (ORF)(ORF)(ORF)(ORF) ((((((((UtiliserUtiliserUtiliserUtiliserUtiliser l’ORFUtiliserUtiliserUtiliser l’ORFl’ORFl’ORFl’ORF finder de l’ORFl’ORFl’ORF finder de finder de finder de finder de ncbifinder de finder de finder de ncbincbincbincbincbincbincbi))))))))

NCBI / Resources/ Sequence analysis / Tools/ ORF finder NCBI / Resources/ Sequence analysis / Tools/ ORF finder

Analyse des données Analyse des données Analyse des données Analyse des données::::

(16)

A

A utiliserutiliser la la séquence de cette protéine dans séquence de cette protéine dans une nouvelle recherche

une nouvelle recherche BlastP

BlastP BlastP BlastP BlastP BlastP BlastP

BlastP et et tBlastNtBlastNtBlastNtBlastNtBlastNtBlastNtBlastNtBlastN 16 Analyse des données

Analyse des données Analyse des données Analyse des données::::

(17)

Comparaison ComparaisonComparaison

Comparaison des sdes sdes sdes séquenceséquenceséquenceséquences par alignementpar alignementpar alignementpar alignement

Utiliser

Utiliser ClustalWClustalW (http://www.ebi.ac.uk/Tools/clustalw(http://www.ebi.ac.uk/Tools/clustalw22/index.html/index.html))

Analyse des données Analyse des données Analyse des données Analyse des données::::

(18)

18

Exemple ExempleExemple

Exemple d`un Multid`un Multid`un Multid`un Multi----alignementalignementalignementalignement

Séquence 1 Séquence 2 Séquence 3

* = Identité

- = Gap (introduits pour optimiser l`alignement entre les deux séquences)

(19)

Références

Documents relatifs

• Trouve le meilleur segment d'appariement entre deux séquences sans utiliser pour cela toutes les bases (ou résidus) de la

La mesure somme-des-paires, qui combine la projection des alignements de paires pour toutes les paires dans l’alignement multiple, a été largement utilisée dans les

• Comme u et v sont deux sous-chaînes de w, qui sont incluses dans le motif w, on peut faire l’hypothèse que la distance minimale de u plus la distance minimale de v peut seulement

Alignement multiple progressif : ajout des séquences en fonction de leurs distances dans l’arbre (distance  , on commence par aligner les deux plus proches .  Alignement

Séquences nucléiques et protéiques correspondant aux allèles A, B, O.. Une régulation fine de l'expression des gènes.. La couleur de la fourrure des siamois : un exemple de

Bioinformatique des séquences, banques de données, méthodes et outils d’analyse Biologie :.. Théorie de l’évolution → mutations aléatoires + pression

Programmation avancée Fouille de données Traitement des données postgénomiques Evolution moléculaire (mut. M1 Biotechnologies) - Analyse des données multivariées (mut. M1

Le NCBI (Figure 1) est établi depuis 1988 à la « National Library of Medicine (NLM) » des États-Unis pour être une source d’information de biologie