Initiation à la Bioinformatique

(1)

Universitéd’Alexandrie - AUF

Auteur(s): Mohamed GAD

2009/2010

Initiation à la Bioinformatique

(2)

Universitéd’Alexandrie - AUF Professeur à l’institut des études supérieures et de la recherche

El Shatby, Alexandrie, EGYPTE Mèl : esmailgadmoh@yahoo.fr

2009/2010

(3)

2 Introduction

Le NCBI (Figure 1) est établi depuis 1988 à la « National Library of Medicine (NLM) » des États-Unis pour être une source d’information de biologie moléculaire, créer des bases de données destinées aux publiques, monter des projets de recherche dans le domaine de biologie computational, le développer des outils d’analyse des données génomiques et disséminer des informations biomédicles. On peut accéder au site de NCBI à partir du l’adresse suivante http://www.ncbi.nlm.nih.gov

Figure 1 : Page d’accueil de NCBI

La page d’accueil présent une barre (figure 2) qui contient une zone de requête « for » pour entrer les termes de la recherche « par exemple : cancer ». Sur la gauche, il y a un menu déroulant à partir du quel on peut choisir la base de donnée à consulter (figure 3). En entrant le mot de recherche « cancer », figure 2, une nouvelle page est obtenue (figure 4 ». Cette page est l’interface Entrez du NCBI. Entrez donne accès à toutes les bases de données sur NCBI. On peut voir l’architecture d’Entrez à l’adresse suivante http://www.ncbi.nlm.nih.gov/Sitemap/.

(4)

3 Figure 2 : Barre de recherche de la page d’accueil du NCBI

(5)

4 Figure 3 : Page d’accueil du NCBI avec le menu déroulant de recherche

(6)

5 Figure 4 : Entrez du NCBI avec toutes les données concernant le mot recherché « cancer »

Les bases de données de la littérature

PubMed est une base de données de citations scientifiques depuis 1948.Ellel contient plus de 18 million de publications. Pour interroger PubMed, on peut tout simplement entrer les termes de la recherche dans la zone de requête (figure 3) en choisissant pubmed da la liste déroulante. La barre de fonctionnalité placée directement en dessous (figure 6) fournit des options de recherche supplémentaires : Limits et Preview/Index. Les autres options History, Clipboard, Details peuvent être utilisées après avoir effectué une recherche. Quelle que soit la page affichée, au cours de l’interrogation, la zone de requête et ces différentes options sont toujours présentes à l’écran.

(7)

6 Figure 5 : L’architecture de l’Entrez

(8)

7 Figure 6 : L’outil PubMed de NCBI

Par défaut les références récupérées (figure 7) sont présentées dans le format résumé « Summary

» qui comprend les zones auteur, titre et source, ainsi que le numéro d’enregistrement de la référence dans PubMed « le PMID ». Les références sont présentées par groupe de 20 par page.

Figure 7: Resultat type sur PubMed

En changeant l’objectif de recherche en « protéine » et en utilisant le même mot clé « cancer » on obtient le résultat montré dans la figure 8

(9)

8 Figure 8 : Résultat type avec le mot clé « cancer » dans les bases de données des protéines.

(10)

9 En cliquant sur le «P04637 » on obtient plus de détails sur la protéine (figure 9a). La source

d’information de la protéine est, entourée en orange, montrée à gauche et dans notre cas c’est la base de données de Swiss-Prot (SP).

Figure 9a : Les détails d’une protéine dans les bases de données

On peut voir aussi (figure 9a) :

 Le numéro d’enregistrement (locus ; accession, version) dans le SP.

 Les autres bases de données qui contiennent des informations sur la protéine (DBsource)

 Les mots clés (key word) qui étaient suggérées par les auteurs pour la recherche dans les bases de données

 L’organisme d’origine (source organism) de cette protéine

 Les références bibliographiques (reference) qui parlent de cette protéine

 Un résumé (comments), figure 9b, sur les caractéristiques de cette protéine

 Des informations sur la composition (features) et la structure de cette protéine



On peut changer la façon de présentation de cette protéine on changeant le format (figure 9a, en vert). Par exemple la format FASTA (figure 10)

(11)

10 La format FASTA est un format qui commence par « > » suivie par le titre de protéine qui contient le

« gi » « l'identifiant général », le numéro d'accés dans la base de données d'origine et le nom de la protéine. En suite la séquence de la protéine.

(12)

11 Figure 9b : Les détails d’une protéine dans les bases de données

Figure 10 : le format FASTA de la protéine