• Aucun résultat trouvé

Alignement multiple

N/A
N/A
Protected

Academic year: 2022

Partager "Alignement multiple"

Copied!
46
0
0

Texte intégral

(1)

Alignement multiple

(2)

Alignement multiple

 

Principe: aligner plusieurs séquences dans leur  intégralité (alignement global) 

Caractériser familles des protéines Déterminer une séquence consensus

Aide à la prédiction de structures II et III de nouvelles  séquences

Point de départ d'une recherche phylogénétique

(3)

ClustalW

Calcul d'une matrice de distances pour l'ensemble des séquences  prises 2 à 2.

Construction d'un dendrogramme par construction de séquences  consensus successives

(4)

Compare all sequences pairwise. 

There are n(n­1)/2 pairs for n given sequences;

Perform cluster analysis on the pairwise data to generate a hierarchy for  alignment. This may be in the form of a binary tree or a simple ordering

Algorithme

1ère étape

(5)

Algorithme

2ème étape

Build the multiple alignment by first aligning the most similar pair of  sequences, then the next most similar pair and so on.

(6)

Algorithme

2ème étape (suite)

Once an alignment of two sequences has been made, then this is  fixed. Thus for a set of sequences A, B, C, D having aligned A with C  and B with D the alignment of A, B, C, D is obtained by comparing the  alignments of A and C with that of B and D using averaged scores at  each aligned position. 

(7)

>query 

MKNTLLKLGVCVSLLGITPFVSTISSVQAERTVEHKVIKNETGTISISQLNKNVW VHTELGYFSGEAVPS NGLVLNTSKGLVLVDSSWDDKLTKELIEMVEKKFKKRV TDVIITHAHADRIGGMKTLKERGIKAHSTALT AELAKKNGYEEPLGDLQSVTNLK FGNMKVETFYPGKGHTEDNIVVWLPQYQILAGGCLVKSASSKDLGNV ADAYV NEWSTSIENVLKRYGNINLVVPGHGEVGDRGLLLHTLDLLK

>gi|2984094 

MGGFLFFFLLVLFSFSSEYPKHVKETLRKITDRIYGVFGVYEQVSYENRGFISNAY FYVADDGVLVVDALSTYKLGKELIESIRSVTNKPIRFLVVTHYHTDHFYGAKAFR EVGAEVIAHEWAFDYISQPSSYNFFLARKKILKEHLEGTELTPPTITLTKNLNVYLQ VGKEYKRFEVLHLCRAHTNGDIVVWIPDEKVLFSGDIVFDGRLPFLGSGNSRTWL VCLDEILKMKPRILLPGHGEALIGEKKIKEAVSWTRKYIKDLRETIRKLYEEGCDVE CVRERINEELIKIDPSYAQVPVFFNVNPVNAYYVYFEIENEILMGE

>gi|115023|sp|P10425|

MKKNTLLKVGLCVSLLGTTQFVSTISSVQASQKVEQIVIKNETGTISISQLNKNVW VHTELGYFNGEAVPSNGLVLNTSKGLVLVDSSWDNKLTKELIEMVEKKFQKRVTD VIITHAHADRIGGITALKERGIKAHSTALTAELAKKSGYEEPLGDLQTVTNLKFGNTK VETFYPGKGHTEDNIVVWLPQYQILAGGCLVKSAEAKNLGNVADAYVNEWSTSIE NMLKRYRNINLVVPGHGKVGDKGLLLHTLDLLK

>gi|115030|sp|P25910|

MKTVFILISMLFPVAVMAQKSVKISDDISITQLSDKVYTYVSLAEIEGWGMVPSNGM IVINNHQAALLDTPINDAQTEMLVNWVTDSLHAKVTTFIPNHWHGDCIGGLGYLQR KGVQSYANQMTIDLAKEKGLPVPEHGFTDSLTVSLDGMPLQCYYLGGGHATDNIV VWLPTENILFGGCMLKDNQATSIGNISDADVTAWPKTLDKVKAKFPSARYVVPGH GDYGGTELIEHTKQIVNQYIESTSKP

(8)

queryx0    ­MKNTLLKLGVCVSLLGITPFVSTISSVQAERTVEHKVIKNETGTISISQLNKNVWVHTE  UNK_299032 MKKNTLLKVGLCVSLLGTTQFVSTISSVQASQKVEQIVIKNETGTISISQLNKNVWVHTE  UNK_299033 ­MKTVFILISMLFPVA­­­­­VMAQKSVKIS­­­DD­­­­­­­­­ISITQLSDKVYTYVS  2984094    MGGFLFFFLLVLFSFS­­­­­SEYPKHVKETLR­­­­­­­­­­­­­KITDRIYGVFGVYE        :: : : ... . *: .*:: *: . 

queryx0    LGYFSG­EAVPSNGLVLNTSKGLVLVDSSWDDKLTKELIEMVEKKFKKRVTDVIITHAHA  UNK_299032 LGYFNG­EAVPSNGLVLNTSKGLVLVDSSWDNKLTKELIEMVEKKFQKRVTDVIITHAHA  UNK_299033 LAEIEGWGMVPSNGMIVINNHQAALLDTPINDAQTEMLVNWVTDSLHAKVTTFIPNHWHG  2984094    QVSYEN­RGFISNAYFYVADDGVLVVDALSTYKLGKELIESIRSVTNKPIRFLVVTHYHT         .. . **. . .. ::*: : *:: : . : : .: .* * 

queryx0    DRIGGMKTLKERGIKAHSTALTAELAKKNG­­­­­­­­­­­­­­­­­­­­YEEPLGDLQS  UNK_299032 DRIGGITALKERGIKAHSTALTAELAKKSG­­­­­­­­­­­­­­­­­­­­YEEPLGDLQT  UNK_299033 DCIGGLGYLQRKGVQSYANQMTIDLAKEKG­­­­­­­­­­­­­­­­­­­­LPVPEHGFTD  2984094    DHFYGAKAFREVGAEVIAHEWAFDYISQPSSYNFFLARKKILKEHLEGTELTPPTITLTK         * : * ::. * : : : : .: . * : 

queryx0    VTNLKFGN­­­­MKVETFYPGKGHTEDNIVVWLPQYQILAGGCLVKSASSKDLGNVADAY  UNK_299032 VTNLKFGN­­­­TKVETFYPGKGHTEDNIVVWLPQYQILAGGCLVKSAEAKNLGNVADAY  UNK_299033 SLTVSLDG­­­­MPLQCYYLGGGHATDNIVVWLPTENILFGGCMLKDNQATSIGNISDAD  2984094    NLNVYLQVGKEYKRFEVLHLCRAHTNGDIVVWIPDEKVLFSGDIVFDGRLPFLG­­­SGN        .: : .: : .*: .:****:* ::* .* :: . :* .. 

"*" = identical or conserved residues in all sequences in the alignment 

":" = indicates conserved substitutions 

"." = indicates semi­conserved substitutions. 

(9)

1

2

2a ou 2b

(10)

3

(11)

Pénalité sur nouveau gap

Pénalité sur extension d'un gap

Distance minimale entre 2 gaps: majoration de pénalité  (=> apparence de blocs à l'alignement)

Gaps en fin de séquence peuvent être ignorés

Augmentation possible de la présence de gaps dans  zones hydrophiles (boucles, coils)

Si une structure II est disponible, utiliser comme profil pour  guider l'alignement (insertion de gap en dehors des 

structures II).

Création des gaps

(12)

Alignement multiple retourne toujours un résultat et un  seul 

Traitement n'a un sens que si les séquences sont  préalablement supposées proches 

Attention!! 

(13)

Recherche de motifs

Recherche de motifs

(14)

Définition de « motif »    

Motif : segment court, continu et non ambigu

Motif (pattern): séquence dégénérée et/ou composée de différents  motifs avec régions variables

Motif : élément structural retrouvé dans membres d'une famille de  protéines (≠ domaine)

Domaine : fragment de séquence contigu et conservé dans une ou  plusieurs familles de protéines.

Caractérisé par un repliement indépendant

(15)

Recherche de motifs

Identification d'éléments fonctionnels (trouver fonction d'une nouvelle  séquence)

Identification des phases ouvertes (recherche des signaux) Etablissement d'une carte de restriction

Recherche d'une signature  

Motif généralement impliqué 

dans les systèmes de régulation

dans des fonctions biologiques particulières.

(16)

Séquence consensus

Table de fréquences ou de probabilités Alignement multiple

Représentation d'un motif

(17)

Séquence consensus

[AF] 

x  ­

 {AM}

A(5) x(2,4)

< or >

A or F

 any character  separator

 amino acids not accepted at a given position  repetition 5A 

x­x or x­x­x or x­x­x­x

pattern is restricted to either the N­ or C­terminal

(18)

Séquence consensus

[RK]­x(2)­[DE]­x(3)­Y

RXXDXXXY RXXEXXXY KXXDXXXY KXXEXXXY

[AC]­x­V­x(4)­{ED}

< A­x­[ST](2)­x(0,1)­V

(19)

Séquence consensus: Exercices

[AC]­x­V­x(4)­{ED}

[Ala or Cys]­any­Val­any­any­any­any­{any but Glu or Asp}

< A­x­[ST](2)­x(0,1)­V

N­term Ala­any­[Ser or Thr]­[Ser or Thr]­(any or none)­Val

(20)

Séquence consensus: exercice

PALDPLDSTS

PAVDFIESSS

PSVNVGLSVS

PAINYAASIS

PAIHWECSLS

PALDAYISFS

PPINIPYSAS

PPINLQPSKS

PSIHGRWSYS

PAINMSMSWS

PSVNCTKSFS

(21)

Matrice consensus

   T  G  T  G  T  T  T  T 

T 36  6 62  2 55 43 39 33 

C 12  1  0  0  2 20 15 15 

A  9  6  2  2  3  0  8  9 

G 13 57  6 66  10 7  8 13 

(22)

Alignement multiple

Block IPB003423A ID   OEP; BLOCK

AC   IPB003423A; distance from previous block=(8,370) DE   Outer membrane efflux protein

BL   ADA;  width=17; seqs=81; 99.5%=964; strength=932 FUSA_BURCE|P24126  (  39) ANALDAGAAIRAADRDA  35

NODT_RHILV|P15727  ( 156) AAKLALIKDLVSSYIDA  65 CUSC_ECOLI|P77211  (  80) ATLKVQEARAQYRLTDA  35 SILC_SALTY|Q9ZHD2  (  81) AALKVEEARAQFNVTDA  47 YJCP_ECOLI|P32714  (  86) AKLREEKAQSQADLLDA  34 CYAE_BORPE|P11092  ( 265) APQRIEDRELAQWLRDA  64 PRTF_ERWCH|P23598  (  31) ALRNDAQLRAAGFERDA  21 APRF_PSEAE|Q03027  ( 251) ALAENPELASLRHAVDV  30 TOLC_VIBCH|Q9K2Y1  (  32) AKENDPQLLSVAAQRDA  28 YD40_HAEIN|P44165  ( 121) AQGDVKVRLNPVAVYDA  75 YE62_HAEIN|P45217  (  10) ALLMSGALVGCANIGDS  88 CNRC_ALCEU|P37974  ( 187) ASVAAAQAAEAAATNDA  48 CZCC_ALCEU|P13509  (  51) AAGSNFNLSAAAKELDS  32 NCCC_ALCXX|Q44584  ( 206) ASVSAAQAIEAAASSDV  58 TOLC_ECOLI|P02930  (  34) ARLSNPELRKSAADRDA  18 TOLC_SALEN|Q54001  (  34) ARLSNPELRKSAADRDA  18 ...

Q9HY88       (  68) ALAANLDIALAGARLDE  59 Q9HXB9       (  33) ANALATDHAIQAAAREA  44 Q9HWN7       ( 163) ATLQNTFALAAQAYYDA  49 Q9HWH3       ( 370) AALARYQRSLLLAQEDV  70 Q9HVJ4       ( 267) LQLLALDLSTQIRASDA  66 Q9HUJ1       (  39) AVDNNADLAAAQADYLA  67 Q9HU26       (  90) AEARARQAAATAQAQDA  42 Q9F680       (  77) ALLNNRDLRVAALNVEA  24 Q9F239       ( 159) ANRRNAQLSLVAETATA  57 Q9CNA5       (  75) AAINVNKALYQANLLGA  64 //

(23)

Banques de données  de 

familles de protéines

Famille de protéines

superfamille, sous­famille

protéines orthologues   membres de la même famille≡ protéines paralogues   ? relation plus lâche≡

famille  ≡  séquences similaires et repliement similaire

Nombre de familles 

1000 repliements (Chothia et al., 2000)  => 1000 familles banque InterPro : 6416 familles

banques « automatiques » : (ProDom : 391935 domaines)   

(24)

SWISS­PROT + TrEMBL Génomes complets Banques «manuelles » 

PROSITE PRINTS Pfam­A SMART

PIR superfamilies

Banques 

«automatiques »  ProDom

DOMOProtoMap SYSTERS Banques « dérivées »    Blocks+

ProClass InterPro Metafam

Banques 

«automatiques »  ProDom­CG

COG

(25)

Banques de données  de 

familles de protéines

« manuelles »    

(26)

PROSITE

(

Hofmann et al., 1999

)

La première des bases de données de familles de protéines et la  mieux documentée.

SWISS­PROT selon fonction documentée commune Mises à jour faibles depuis quelques années.

Famille : motifs, profils 

Fait partie du projet InterPro

(27)
(28)

PRINTS

(

Attwood et al., 2000

)

SWISS­PROT et TrEMBL

Entrées spécifiques de sous­familles Mises à jour régulières.

Famille : empreinte digitale (alignements multiples sans gap  correspondant à des motifs conservés)

Fait partie du projet InterPro

(29)

Pfam

(

Bateman et al., 2000

)

SWISS­PROT + TrEMBL (+ autres bases comme SMART) Critères structuraux + similarité + fonction commune

Annotations minimales

Fait partie du projet InterPro

(30)

 Pfam­A

Because the entries in Pfam­A do not cover all known proteins an  automatically generated supplement is provided called . 

Pfam­B is derived from the PRODOM database.

Pfam­B

 is the manually curated portion of the database that contains over  9000 entries.

builds on the domain description of Pfam. 

It investigates if different proteins described together in the protein  structure database PDB are close enough to potentially interact.

 iPfam

(31)

a protein sequence alignment

a hidden Markov model Pour chaque enregistrement 

These hidden Markov models can  be used to search sequence 

databases with the HMMer  package (Sean Eddy). 

hidden Markov model renseignements

alignement 3D

(32)

HMMER (http://hmmer.janelia.org)

hmmsearch hmmpfam

(33)
(34)
(35)
(36)
(37)

Banques de données  de 

familles de protéines

«automatiques »  

(38)

ProDom

(

Corpet et al., 2000

)

La première 

Pfam puis PSI­BLAST sur SWISS­PROT + TrEMBL 

Famille: séquence consensus et multiples alignements avec gaps Arbres phylogénétiques pour visualiser familles et sous­familles

Documentation: liens vers PROSITE, Pfam ou banques généralistes

(39)
(40)
(41)

Blocks+

(Henikoff et al., 2000)

Collection non redondante de familles de protéines  Pfam, PROSITE, PRINTS, ProDom, DOMO

PROSITE

« blocks »   

PRINTS Pfam

blocks+

« blocks »   

blocks+

blocks+

...

(42)

InterPro

http://www.ebi.ac.uk/interpro/

Références croisées  vers bases de familles de protéines  (déterminées manuellement)

Pfam­A, PROSITE, PRINTS

(43)
(44)
(45)

MetaFam

http://metafam.ahc.umn.edu

Références croisées automatiques entre segments de séquences  partagées ( ≠ InterPro)

Pfam­A, PROSITE, PRINTS, PIR Superfamilies, ProDom, SYSTERS,  ProtoMap, DOMO, SBASE­A, Blocks+

Paires de banques de données en cherchant relations maximales  entre séquences.

(46)

Ressources

http://www.infobiogen.fr

http://www.infobiogen.fr/services/deambulum/fr/bioinfo_index.html

Références

Documents relatifs

2 Même si une telle distinction est partiellement erronée, nous présentons d'abord les banques de données factuelles, préoccupées uniquement de recherche, puis les banques de

 considère la totalité des diagonales pour effectuer l'algorithme 

4 Alignement des nœuds de l’arbre par ordre croissant des distances. Thierry

tant dans la doctrine ou les thèses que dans les travaux des étudiants. Alors que l’entre-deux-guerres, malgré la généralisation des écrits et l’insistance mise sur le

The minimum square of jerk method with constrained motion states, especially acceleration and jerk, during planning processes is an efficient metric to achieve better passenger

The 2015 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection.

Contiennent toutes les séquences d’acides nucléiques produites dans les laboratoires publiques (&gt;388 milliards de bp, &gt;200 millions de séquences) Pour qu’une publication

Alignement multiple progressif : ajout des séquences en fonction de leurs distances dans l’arbre (distance  , on commence par aligner les deux plus proches .  Alignement

La situation n'était claire que dans deux hypothèses extrêmes : si la création de cette oeuvre ou de cette banque a lieu en dehors de l'exercice de la fonction, l'intéressé en

This study aims to demonstrate how a web-based Decision Support System (DSS) can improve the process of internal resource allocation in a Brazilian public university as

This means, for the scale free initialization to verify if the initial distribution of the degrees remains a power-law before the convergence of the opinions and for the small

Figure 1 shows typical trajectories into the opinion space of a system of normal agents (1a), a system influenced by diplomats (1b) and a system influenced by auctoritates

Ma recherche vise à estimer dans quelle mesure l’utilisation de l’ordinateur change les perceptions et l’attitude de mes élèves, notamment la perception

Il convient de faire une troisième catégorie de mots alémaniques d’origine rom ane: ceux qui n ’ont pas et, selon tout vraisem­ blance, n ’o nt jamais eu

The mammal fauna from Joint Mitnor Cave, Buckfastleigh, Devon Sorex araneus Linnaeus, 1758 Eurasian common shrew Lepus timidus Linnaeus, 1758 Mountain hare Clethrionomys

Anesthésie Réanimation Anatomie Biochimie-chimie Dermatologie Chirurgie Générale Traumatologie orthopédique Hématologie biologique Chirurgie vasculaire périphérique

 Une base de données est un ensemble structuré de données enregistrées dans un ordinateur et accessibles de façon sélective par plusieurs utilisateurs.. Une base de

monooxygenase NOT transaminase NOT kinase NOT oxidase NOT thioredoxin NOT glycerate NOT glyoxylate NOT glucose NOT glucose-1-dehydrogenase NOT glutamate dehydrogenase-related

Flexibilit6 et engagement des entreprises dans la formation La premibre consequence est de reporter vers l'aval, sur les petites entreprises, les questions de

Cette crise régionale avait des causes essentiellement subjectives dans la mesure où ce sont les gouvernements des quatre autres pays d'Amérique centrale qui, sous l'influence

 Heuristique pour le score SP: Algorithme garanti d’obtenir un alignement dont le score est au plus deux fois plus élevé que le score d’un alignement optimal....

– choisir une paire de séquences de score max, tq exactement une des séquences est dans l’alignement partiel obtenu. – Aligner la nouvelle séquence avec la matrice consensus

site: secret bancaire site:bger.ch restreint la recherche à un site web donné.. Astuces PC, Google