(1)Applications et résultats de la protéomique : exemple de la RuBisCO Sommaire 1

(1)

Applications et résultats de la protéomique : exemple de la RuBisCO Sommaire

1. Obtention d'une séquence en acides aminés à partir d'une séquence nucléotidique

Récupérer la séquence FASTA "U91966" (lien ci- contre) et la coller dans un éditeur de texte.

Aller dans la catégorie "Proteomics" des outils de

"Expasy" et choisir l'outil "Translate".

Coller la la séquence FASTA "U91966" dans la fenêtre et lancer l'application.

Attention : supprimer tout le texte qui n'est pas la séquence proprement dite. Pourquoi ?

U91966

● cliquer sur le lien "5'3' Frame X" ou "3'5' Frame X" de la phase de lecture qui vous semble correcte

● cliquer sur la 1ère méthionine qui vous semble correcte

● cliquer sur le lien "Sequence in FASTA format"

Sauvegarder la séquence FASTA virtuelle (>VIRTXXX) générée.

Que signifie "5'3' Frame 1",

"5'3' Frame 2", ... ?

Pourquoi l'une des traductions est- t-elle plus cohérente ?

Qu'est-ce que FASTA ? Format de fichier Description de l'algorithme de FASTA

Voir le cours de protéomique

(2)

2. Diagramme de

fragmentation virtuel (MS-MS) de la séquence en acides

aminés

Ouvrir une nouvelle page de navigateur et choisir l'outil "MS- Digest" de la suite logicielle

"Protein Prospector".

Coller la séquence FASTA virtuelle dans la fenêtre "User Protein Sequence". Ajuster les paramètres (ci-contre).

Cliquer sur "Perform Digest".

Paramètres à ajuster :

● choisir "User protein" dans le menu "Database".

● choisir "Trypsin" dans le menu "Digest".

● supprimer le N° d'accession dans la fenêtre "List of Entries".

● choisir "ESI_Q_TOF" dans le menu "Instrument".

Qu'effectue ce programme ? Que signifie (R) ou (K) au début de la séquence de chaque

peptide ?

Noter les valeurs de masse molaire et de pI.

L'hydrolyse in silico de la protéine et le calcul des rapports masse/charge des peptides issus de la fragmentation par un spectromètre de masse en tandem de type ESI.

Site d'hydrolyse par la trypsine.

masse molaire : 52956 Da / pI : 5.9 Quels sont la masse isotopique, le

nombre d'acides aminés et la modification post-

traductionnelle du plus grand et du plus petit fragments ?

AVYECLR : mi = 853.4236 Da / 7 aa / pas de modification

VTPQPGVPPEEAGAAVAAESSTGTWTTVWTDGLTSLDR : mi = 3854.8719 Da / 38 aa / pas de modification

Rechercher le peptide

DLAVEGNEIIR et cliquer sur le lien.

● Quelle est la masse moyenne de l'ion [M+H]

+ ?

● Quels types d'ions N-

terminaux et C-terminaux la fragmentation de ce peptide génère-t-elle ?

● m_av = 1229.3838

● N-terminal : ions a et b / C-terminal : ions y Voir un rappel sur la nomenclature des ions issus de la fragmentation.

(3)

Choisir l'application "MS- Homology" (bandeau du haut).

● Choisir : "Database:

UniProtKB"

● Choisir : "Taxonomy : MODEL PLANTS"

● Champs "Possible Sequences (Use

CAPITALS)" : coller [D|E]

[A|I|L|V]AV[D|E]{GEIN}I [K|R]

Quel peptide cette écriture inclue-t-elle ?

Lancer l'application (celà peut prendre du temps). Pendant que le logiciel cherche les

résultats, passer à la suite.

De quelle protéine s'agit-il a priori ?

Lire les règles d'écriture des expressions régulières pour décrire un motif.

Expression régulière qui inclue DLAVEGNEIIR.

Ribulose bisphosphate carboxylase large chain.

3. Confirmation de l'identité de la protéine et recherche de protéines homologues ou similaires

Aller à BLAST - NCBI .

A quoi correspondent les différents programmes de la famille "BLAST" ? Choisir "protein blast".

Enter accession number(s), gi(s), or FASTA sequence(s) : coller la séquence FASTA virtuelle (avec la partie descriptive

">VIRT17159").

Différents programmes BLAST Logique de l'algorithme de BLAST

(4)

Choisir la base de données avec laquelle cette séquence va être comparée.

A quoi correspondent ces différentes bases de données ?

Les liens ci-contre renvoient vers une

description de chaque type de base de données.

● Non-redundant protein sequences (nr)

● refseq_ proteins

● UniProtKB/Swiss-Prot

● Patented protein sequences

● Protein Data Bank proteins

● metagenomic proteins (env_nr) :

"env" signifie "environmental projects"

● Transcriptome Shotgun Assembly proteins (tsa_nr)

Voir une explication de la redondance des séquences des 3 bases de données UniProtKB (Swiss-Prot et TrEMBL), UniParc et UniRef : "How redundant are the UniProt

databases ?"

Partie "Program Selection", cliquer sur PHI- BLAST.

Une fenêtre s'ouvre : coller le motif [DE][AILV]

[AILV][AILV][DE]G[DENQ][DE][AILV]

[AILV][KR].

Que traduit ce motif ?

Que fait PHI-BLAST ("Pattern Hit Initiated BLAST") ?

Voir la syntaxe des expressions régulières pour les motifs PHI-BLAST.

Similarité physico-chimique des chaînes latérales des acides aminés.

"PHI-BLAST performs the search but limits alignments to those that match a pattern in the query."

Partie "Algorithm parameters" (tout en bas) : cliquer sur le bouton "+" pour ouvrir la fenêtre des paramètres de la comparaison des

séquences (voir ci-contre).

Lancer la rercherche en cliquant sur le bouton bleu "BLAST".

● "Max target sequences" : choisir 500

● "Expect threshold" : voir l'explication

● "Matrix" : choisir la mieux adaptée

● "Gap Costs" : une pénalité moindre permet l'introduction de plus de gaps dans les alignements et l'obtention de séquences plus distantes

● Autres paramètres : voir les explications

(5)

Interpréter les résultats.

Que signifient les paramètres Max score, Query cover et E-value ?

De quelle protéine et de quel organisme s'agit- il ? Quelle est sa longueur en acides aminés ?

Signification du score et interprétation de la "e-value".

Brassica rapa ou Arabidopsis thaliana / Grande sous-unité de la RuBisCO / longueur : 479 aa

● Sélectionner une dizaine de séquences avec des E-value différentes. Enregistrer leur séquence FASTA.

● Aller à la liste des outils de l'EBI.

● Choisir "Clustal Omega" : coller les séquences, ajuster les paramètres ("More options").

● Aligner les séquences.

● Interpréter les résultats.

4. Analyse protéomique de la protéine identifiée

Aller à SWISS-2DPAGE . Dans le menu "Search by" (en haut à de gauche), choisir

"[accession number] ".

Dans la fenêtre "Search by accession number or by entry name (AC or ID)", taper le numéro d'accesion : O03042.

Commenter les résultats. De quel organisme s'agit-il ? Ouvrir l'image du gel 2D en cliquant dessus :

● Combien y a-t-il de spots marqués par des étoiles ?

● A quoi correspondent-ils ?

● Placer la souris sur l'un d'entre eux : une fenêtre s'ouvre avec des informations.

Interpréter-les.

● Quelles différences caractérisent ces spots ?

● S'il s'agit de la RuBisCO, pourquoi y en a-t-il autant ?

(6)

Aller à la base de données PPDB : "The Plant Proteome Database".

● Choisir : "Protein Function".

● Ouvrir l'arborescence (signe "+") : "1 PS" puis "1.3 PS. calvin cyle".

● Cliquer sur : "1.3.1 PS. calvin cyle.rubisco large subunit".

● Cliquer sur"ATCG00490.1".

Précisez les points suivants : plante / protéine / nombre d'acides aminés / masse molaire / pI

Arabidopsis thaliana / Grande sous-unité de la RuBisCO / longueur : 479 aa / Masse

molaire : 52.96 kDa / pI : 5.88

De quel travail sont issues les données de protéomique concernant les protéines de l'enveloppe totale des chloroplastes ("Total chloroplast envelope") ?

● Aller à l'item "Published Proteomics Data", cliquer sur 12766230.

● On arrive à PubMed. Cliquer sur l'icône de l'éditeur de l'article (en haut à droite).

Obtient-on le bon article ? Aller à Ferro et al. (2003)"Proteomics of the

Chloroplast Envelope Membranes from Arabidopsis thaliana" Mol. Cell. Prot. 2, 325-345.

Cliquer sur le lien "Full text".

D'après cet article, quel est le pourcentage de protéines localisées dans les membranes, les thylacoides, le

stroma ?

Lien correct vers l'article.

79%, 8%, 7%

Revenir à PPDB. Ouvir le lien "Get sequence" dans la partie "Links".

Récupérer et enregistrer la séquence FASTA. Ouvrir une nouvelle page de navigateur.

● Lancer le programme d'alignement FASTA (EBI) avec la séquence enregistrée.

● Optimiser les paramètres de l'alignement.

● Commenter les résultats. De quel organisme s'agit- il ?

RLSAT Cours matrices Arabidopsis thaliana

(7)

Revenir à la base de données PPDB. Dans la partie

"Experimental Evidence", cliquer sur "Details" du chiffre "107".

De quel organisme, de quel organe et de quel compartiment proviennent les données ?

Arabidopsis thaliana / feuille /

membrane thylakoide des chloroplastes

Cliquer sur le lien "SeqView" du "spot" N° 53.

● Quel peptide a été identifié ?

● Par quelle méthode de spectroscopie ?

● Par quelle protéase a-t-il été généré ?

● Quelle est la charge de l'ion ?

Peptide : DLAVEGNEIIR / Méthode : LC-ESI-Q-TOF

Digestion par la trypsine / Charge : +2

Enregistrer ce peptide au format FASTA. Dans une autre page de navigateur, aller à la liste des outils de l'EBI.

Lancer "Clustal Omega" : aligner la séquence de la grande sous-unité de la RuBisCO avec ce peptide.

Le résultat vous parait-il cohérent ?

5. Comparaison avec Oryza sativa et avec le précurseur protéique

Revenir à la base de données PPDB. Dans la partie

"Related Genes", repérer la séquence Os12g10580.1.

De quel organisme s'agit-il ? Que vaut la E-value ?

Oryza sativa / E-value : 1E-126

Que signifie la E-value qui vaut zéro dans ce tableau pour Osp1g00420.1 de Oryza sativa en regard de la séquence ?

Quels critères indiquent le meilleur alignement dans ce tableau ?

Os12g10580.1 : E-value : 1E-126 / longueur de match : 257 aa /

identité : 84% / similarité : 88%

Osp1g00420.1 : E-value : 0 / longueur de match : 476 aa / identité: 90% / similarité: 93%

(8)

Récupérer la séquence Os12g10580 au format FASTA.

Aller à MULTALIN. Aligner cette séquence avec celle de la grande sous-unité de la RuBisCO de Arabidopsis thaliana.

● Sur quelle partie les deux séquences s'alignent- elles le mieux ?

● Est-ce cohérent avec les résultats du tableau ?

Os12g10580 1 - 245 aa / oui

Aligner les 3 séquences : grande sous-unité de Arabidopsis thaliana, grande sous-unité de Oryza sativa et le peptide DLAVEGNEIIR.

Le résultat est-il étonnant ?

Faire un autre alignement en ajoutant le peptide : LTYYTPEYETK.

● Où se situe ce peptide dans la séquence ?

● A quelle expérience et à quel spot correspond-il ?

N-terminal / Experience : 107 / Spot : 78

Aller à la page de "ORF Finder" du NCBI. Taper le n°

d'accession "U91966" et lancer l'application.

Rechercher la phase de lecture ouverte la plus cohérente.

Quelle longueur fait-elle en nucléotides et pour combien d'acides aminés code-t-elle ?

● Frame +2

● from to 284 ..1744

● Length 1461

Récupérer la séquence nucléotidique FASTA :

● cliquer sur le carré vert à côté de "+2"/ cliquer sur

"Accept"

● dans le menu déroulant qui commence par "1

GenBank", choisir "2 Fasta nucleotide" / cliquer sur

"View"

● enregistrer cette séquence FASTA

ORFframe2

(9)

Revenir au programme "Translate".

Coller la séquence FASTA "ORFframe2" dans la fenêtre et lancer l'application.

● cliquer sur la bonne phase de lecture

● cliquer sur la méthionine en position 1

● cliquer sur le lien "VIRTXXXX in FASTA format"

Enregistrer la séquence FASTA virtuelle générée.

5'3' Frame 1 Virtuelle

Aller à MULTALIN. Aligner la séquence

"RLSAT" avec la séquence "Virtuelle".

Quelle différence y a-t-il entre "RLSAT" et

"Virtuelle" ?

Finalement à quoi correspond la séquence U91966 ?

"Virtuelle" est la séquence protéique du précurseur de la grande sous-unité de la RuBisco de Arabidopsis thaliana "RLSAT".

"U91966" est la séquence génomique de la grande sous-unité de la RuBisco de

Arabidopsis thaliana.

Liens Internet et références bibliographiques

ExPASy Proteomics tools : Ensemble d'applications pour l'analyse de séquences peptidiques.

Sequence Manipulation Suite : Ensemble d'applications Java pour l'analyse de séquences d'ADN et de protéines.

Site "Ion source" : spectromètrie de masse. Contient aussi des cours et

exercices appliqués à la protéomique à faire en ligne. Ion source

"La bioinformatique en protéomique : analyse des spectres de masse" -

F. Rechenmann & I. Quinkal Aller au site

"The Plant Proteome Database for Arabidopsis thaliana and Zea mays" PPDB

"ProMEX : Protein Mass spectra EXtraction" : base de données de spectres de masse d'ions obtenue après hydrolyse tryptique et générés par spectrométrie de masse à piège à ion couplée à la chromatographie liquide - Arabidopsis thaliana.

ProMEX

(10)

"AMPDB : the Arabidopsis Mitochondrial Protein Database" AMPDB

"Arabidopsis thaliana Seed Proteome" (CNRS - INRA - Bayer) Seed- proteome