Les matrices de substitution Sommaire
1. Les matrices nucléiques 2. Les matrices protéiques
a. Score et mutabilité
b. Les matrices PAM ("Point Accepted Mutation")
c. Les matrices BLOSUM ("BLOcks SUbstitution Matrix")
d. La matrice Gonnet
e. Quelques règles pour le choix de la matrice protéique
f. Les valeurs par défaut de ClustalW
3. Liens Internet et références bibliographiques
1. Les matrices nucléiques
Il existe peu de matrices pour les acides nucléiques car il n'y a que 4 lettres pour leur alphabet.
La plus fréquemment utilisée est la matrice dite unitaire (ou matrice identité) où toutes les bases sont considérées comme équivalentes.
matrice unitaire
A T G C
A 1 0 0 0
T 0 1 0 0
G 0 0 1 0
C 0 0 0 1
matrice de transition - transversion
A T G C
A 3 0 1 0
T 0 3 0 1
G 1 0 3 0
C 0 1 0 3
matrice de BLAST
A T G C
A 1 - 3 - 3 - 3 T - 3 1 - 3 - 3 G - 3 - 3 1 - 3 C - 3 - 3 - 3 1
2. Les matrices protéiques a. Score et mutabilité
Le score Sij est calculé à partir d'alignement de séquences homologues. C'est le logarithme d'un rapport de 2 probabilités : Sij = log [qij / (pi . pj)]
● qij est la fréquence de substitution i en j
● pi est la probabilité normalisée d'apparition du résidu i
● pi . pj est la probabilité que les acides aminés i et j soit alignés par hasard
● Sij > 0 : substitution fréquente
● Sij < 0 : substitution peu probable entre séquences homologues
C'est donc la probabilité que 2 acides aminés i et j soit alignés dans l'alignement de 2
séquences de protéines homologues divisé par la probabilité d'alignement par hasard dans l'alignement de séquences de protéines non homologues.
Mutabilité m d'un acide aminé i : mi = ∑ jAij / fi
séquence 1 Y K Y
séquence 1 Y K C
Acides aminés i Y C K
substitutions
observées : ∑ jAij 1 1 0
fréquence
d'apparition : fi 3 1 2
Mutabilité : mi 0,33 1 0
Calcul des scores et normalisation
● Mij = (mj . Aij) / ∑ iAij
● Aij : paire d'acides aminés
● Rij = Mij / fi
● Normalisation : pour un acide aminé i, transformation telle que ∑Rij = 1
b. Les matrices PAM ("Point Accepted Mutation")
Elles ont été créées par Magaret Dayhoff et ses collaborateurs, après l'alignement d'environ 1300 séquences très semblables (> 85% d'identité) appartenant à 71 familles de protéines.
Ce type de matrice donne la probabilité que, suite à une mutation par substitution au cours de l'évolution, n'importe quel acide aminé remplace n'importe quel autre acide aminé sans que la fonction de la protéine ne soit altérée, d'où la terminologie "mutation acceptée".
● La première matrice de ce type, appelée 1PAM ("Percent Accepted Mutations") donne la probabilité qu'1 substitution soit acceptée pour 100 acides aminés.
● La multiplication X fois de cette matrice par elle-même donne une matrice XPAM qui permet d'analyser des distances d'évolution plus importantes : 2PAM = 1PAM x 1PAM, 3PAM = 2PAM x 1PAM ...
● A chaque matrice XPAM correspond une matrice PAMX, appelée matrice de mutation de Dayhoff. Ce sont les matrices PAMX qui sont utilisées par les algorithmes
d'alignement.
Exemple de la matrice PAM250 (ci-dessous)
Cette matrice donne la probabilité que 250 mutations soit acceptées pour 100 acides aminés.
Du fait des mutations silencieuses et des réversions de mutations, cette matrice correspond à des séquences qui ont globalement 20% d'identité.
Une valeur faible dans la matrice (exemple : W / C = -8) signifie qu'il est peu probable d'observer la substitution d'un tryptophane par une cystéine sans perte significative de la fonction de la protéine.
Au contraire, une valeur forte (exemple : Y / F = 7) signifie qu'il est probable d'observer la substitution d'une tyrosine par une phénylalanine.
A R N D C Q E G H I L K M F P S T W Y V A 2
R -2 6 N 0 0 2 D 0 -1 2 4 C -2 -4 -4 -5 4 Q 0 1 1 2 -5 4 E 0 -1 1 3 -5 2 4 G 1 -3 0 1 -3 -1 0 5
http://biochimej.univ-angers.fr/Page2/BIOINFORMATIQUE/7ModuleBioInfoJMGE/99Matrice/1Matrice.htm (3 sur 9)20/05/2015 19:31:00
H -1 2 2 1 -3 3 1 -2 6 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6
F -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 3 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -2 0 1 3 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17
Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 2 4 Les matrices PAM sont un peu moins utilisées maintenant au profit des matrices BLOSUM.
Les raisons sont les suivantes :
● l'hypothèse de départ est que tous les acides aminés ont une probabilité de mutation égale
● le nombre de séquences protéiques à l'origine des matrices PAM (en 1978) était restreint en regard de l'échantillon de séquences protéiques à l'origine des matrices BLOSUM.
● Il est cependant à noter qu'en 1992, le nombre de séquences et de familles ont été actualisés par l'analyse de 16130 séquences pour 2621 familles de protéines.
● l'échantillon de séquences protéiques à l'origine des matrices PAM était biaisé car la majorité des séquences sont celles des petites protéines globulaires
Correspondance entre la distance évolutive et la valeur des matrices PAM
distance
(%) PAM
1 1
25 30 50 80 80 246
La zone d'ombre ("twilight zone") est la zone à partir de laquelle il devient difficile de dire si deux protéines sont
homologues ou si elles se sont alignées par chance.
c. Les matrices BLOSUM ("BLOcks SUbstitution Matrix")
Elles sont postèrieures aux matrices PAM et ont été développées par Henikoff & Henikoff. Les matrices BLOSUM sont construites à partir de 2000 BLOCKS provenant de plus de 500 familles de protéines.
Les BLOCKS sont des régions conservées de familles de protéines ne contenant pas d'insertions ou de délétions. Ils sont tenus à jour dans une base de données massive située sur le serveur Blocks WWW Server.
Exemple d'un BLOCK pour 3 protéines :
LONM_YEAST|P36775 ( 632) GPPGVGKTSIGKSIARALNR 15 LON1_MAIZE|P93647 ( 409) GPPGVGKTSLASSIAKALNR 18 LONM_HUMAN|P36776 ( 526) GPPGVGKTSIARSIARALNR 15
● des BLOCKS d'acides aminés de petites portions de séquences trés conservées sont obtenus par alignement
● puis à partir d'un ensemble de blocs est constitué un sous-ensemble qui contient les portions de séquences qui révèlent un pourcentage donné d'identité
● ceci permet d'obtenir une probabilité de substitution pour chaque paire d'acides aminés dont découle la matrice BLOSUM
● ainsi la matrice BLOSUM 60 est obtenue avec un pourcentage d'identité de 60%
Les matrices BLOSUM sont le type de matrice par défaut du logiciel "Blastp".
Elles sont trés efficaces pour des alignements locaux de séquences ressemblantes.
http://biochimej.univ-angers.fr/Page2/BIOINFORMATIQUE/7ModuleBioInfoJMGE/99Matrice/1Matrice.htm (5 sur 9)20/05/2015 19:31:00
Comparaison des matrices PAM et des matrices BLOSUM
Les matrices PAM sont basées sur des modèles d'évolution explicites (c'est-à-dire que les substitutions sont comptabilisées à partir des valeurs des branches d'un arbre
phylogénétique), tandis que les matrices BLOSUM sont basées sur des modèles d'évolution implicites.
Les matrices PAM sont basées sur des mutations observées dans un alignement global, incluant aussi bien des régions hautement conservées que des régions hautement mutables.
Les matrices BLOSUM sont basées uniquement sur des régions hautement conservées à partir d'alignements qui ne contiennent pas de brèches ("gaps").
La méthode pour comptabiliser les substitutions est différente. A l'inverse de la procédure suivie pour l'obtention des matrices PAM, celle des matrices BLOSUM utilise des groupes de séquences au sein desquels toutes les mutations n'ont pas le même poids, c'est-à-dire que les mutations ne sont pas toutes comptabilisées de manière identique.>
● un indice élevé pour une matrice PAM décrit une distance d'évolution élevée
● un indice élevé pour une matrice BLOSUM décrit au contraire une forte similarité de séquences donc une distance d'évolution faible
d. Les matrices Gonnet
Ce type de matrice a été construit en 1992 par Gonnet, Cohen et Benner.
C'est une méthode itérative, sur la base de 16300 séquences de protéines correspondant à 2600 familles.
Chaque séquence a été comparée à l'ensemble des séquences de la banque et les alignements ont été obtenus en utilisant une matrice initiale choisie arbitrairement. Une nouvelle matrice a été construite et les alignements ont été recalculés à partir de cette nouvelle matrice.
Cette procédure a été répétée jusqu'à ce que la matrice reste inchangée.
Différentes matrices Gonnet : Gonnet 40, Gonnet 120, ..., Gonnet 250, Gonnet 350.
Autres matrices :
● matrice de Risler (1988) : obtenue par la superposition des structures
tridimensionnelles de 32 protéines regroupées en 11 groupes de séquences très voisines
● matrice de Johnson et Overington (1993) : obtenue à partir de 235 structures de
protéines protéiques regroupées en 65 familles pour lesquelles on connaissait au moins la structure tridimensionnelle de trois séquences
e. Quelques règles pour le choix de la matrice protéique
Vue la diversité des types de matrices, le problème du choix adapté au type d'analyse que l'on veut faire se pose.
Un grand nombre d'études sur les matrices ont mis en évidence que, de manière schématique :
● pour des séquences similaires et courtes, il est préférable d'utiliser une matrice BLOSUM élevée (ou PAM faible : par exemple 40)
● inversement pour des séquences divergentes et longues une matrice BLOSUM faible (ou PAM élevée) est mieux adaptée
● pour une séquence requête courte (50 - 85 acides aminés), la matrice BLOSUM 80 est mieux adaptée
● pour une séquence requête longue (> 300 acides aminés), la matrice BLOSUM 50 est mieux adaptée
PAM 100 BLOSUM 90
PAM 120 BLOSUM 64 - 80
PAM 160 BLOSUM 60 - 62
PAM 250 BLOSUM 45 séquence peu
divergentes <=====================> séquence trés divergentes
● les matrices BLOSUM sont mieux adaptées à la détection d'alignements locaux
● la matrice BLOSUM 62 est mieux adaptée à la détection de similarités faibles
Pour la comparaison d'une séquence donnée à un ensemble de séquences dans une banque de données, il semble que la matrice PAM120 soit un bon point de départ. De manière générale, pour les recherches dans les banques :
● Gonnet > BLOSUM 50
● BLOSUM 62 > PAM
C'est à l'utilisateur de trouver le meilleur outil par différentes analyses et ne surtout pas
"prendre pour argent comptant" le résultat d'un alignement.
f. Les valeurs par défaut deClustalW2
a. La longueur des mots "KTUP" : la valeur par défaut pour les protéines est 3.
b. Par défaut, les matrices sont :
● la matrice identité pour les acides nucléiques
● la matrice Gonnet 250 pour les protéines Les matrices pour les protéines sont :
● Blosum30
● PAM 350
● Gonnet 250
● matrice "identité" qui alloue un score de 10 à deux acides aminés identiques et un score de 0 sinon
c. Les paramètres de pénalité liés aux gaps
La fonction de pénalité d'un gap est définie par : f(n) = d + [e . (n-1)], où :
● n = longueur du gap
● d = pénalité d'ouverture d'un gap
● e = pénalité d'extension d'un gap
Exemple : un gap de longueur n = 3, avec une pénalité d'ouverture d = -10 et d'extension e = - 2, aura un score de f(3) = -10 + (-2 x 2) = -14
● GAP OPEN : valeur de la pénalité pour l'ouverture d'un gap. La valeur par défaut est 10.
● GAP EXTENSION : valeur de la pénalité pour l'extension d'un gap. La valeur par défaut est 0.05.
● GAP DISTANCES : valeur de la pénalité pour la séparation des gap. La valeur par défaut est 8.
● NO END GAPS : si "YES", il n'y a pas de gap finaux.
Exercice d'application sur un ensemble de séquences de glutamate déshydrogénase.
3. Liens Internet et références bibliographiques
Matrice substitution blosum pam gonnet Module bioinformatique Enseign...et recherche Biochimie - Universite Angers Emmanuel Jaspard biochimej
Voir un historique des matrices de substitution. Site
Dayhoff, Schwartz & Orcutt (1978) "A model of evolutionary change in proteins, matrixes for detecting distant relationships" dans "Atlas of protein sequence and structure", Dayhoff, M.O. (ed.), vol 5, 345 - 358
Henikoff & Henikoff (1992) "Amino acid substitution matrices from protein
blocks" Proc. Nat. Acad. Sci. USA 89, 10915 - 10919 Article Gonnet et al. (1992) "Exhaustive matching of the entire protein sequence
database" Science 256, 1443-1444 Article
Johnson & Overington (1993) "A structural basis for sequence comparisons. An evaluation of scoring methodologies" J. Mol. Biol. 233, 716 - 738