• Aucun résultat trouvé

Les alignements d'une séquence sur un alignement multiple de séquences : séquence-

Chapitre 1 : Introduction Générale

1.3 Développements bioinformatiques pour prédire les propriétés des PRMs : Objectif de la thèse.

1.4.6 Les alignements d'une séquence sur un alignement multiple de séquences : séquence-

Les domaines protéiques partageant un même repliement possèdent une empreinte de ce repliement le long de leur séquences : certaines positions clefs sont contraintes car leur substitution affecterait le repliement, tandis que d’autres sont plus variables. Les alignements de séquences par paires ne permettent pas de refléter cette propriété puisque quelle que soit la position le long de l’alignement, une même substitution a toujours le même score. Les approches basées sur les alignements multiples permettent de corriger cela et d’accorder plus d’importance aux régions conservées au sein d’une famille de domaines. Parmi les approches modélisant les alignements multiples, on distingue les méthodes utilisant des matrices PSSM (pour Position Specific Scoring Matrix), et celles basées sur les modèles de Markov cachés (ou HMM pour Hidden Markov Model)

Les matrices PSSM, ou profils. Intuitivement, on peut identifier une matrice PSSM à un

ensemble de vecteurs de substitution spécifiques de chaque position de l’alignement multiple : une substitution de valine en tyrosine peut alors avoir un score différent à la position i et à la position j (figure 13).

Une PSSM est construite à partir d’un alignement multiple : la distribution des acides aminés et des insertions dans chaque colonne de l’alignement multiple permet d’extraire une fréquence d’occurrences pour chaque position qui peut-être traduite en un vecteur de scores de probabilités. Pour obtenir une PSSM plus précise, il est possible d’enrichir les fréquences observées dans l’alignement multiple par la connaissance que l’on a a priori des relations entre acides aminés en utilisant soit les matrices de substitutions classiques comme PAM et BLOSUM (Dayhoff, 1973; Dayhoff, 1978; Henikoff and Henikoff, 1992; Kosiol and Goldman, 2005), soit un modèle plus fin basé sur les mélanges de distributions de probabilités de Dirichlet (Sjolander et al., 1996).

figure 13 : La figure représente la matrice PSSM des 20 premières positions de famille des domaines Tudor (à l’aide du programme PSSM Viewer en utilisant le profil PFam 00567 pour les domaines Tudor). La première et la deuxième colonnes indiquent respectivement la position dans l’alignement multiple et l’acide aminé consensus à cette position. Par la suite, on alignera toutes les nouvelles séquences sur cette séquence consensus, en utilisant les vecteurs de scores de substitution indiqués à droite. Par exemple, la substitution VÆY sera défavorable à la position 9 (score = -3), et favorable à la position 10 (score = 4).

Les scores stockés dans une PSSM sont généralement des entiers positifs ou négatifs (voir

figure 13). Une valeur positive indique que cette substitution est surreprésentée au sein de

l'alignement multiple tandis qu'une valeur négative traduit le contraire. On peut en conclure que les positions où l'on trouve des valeurs positives élevées sont celles soumises à des pressions de sélection particulières associées par exemple au repliement, aux sites actifs ou aux surfaces d'interaction intra ou inter-moléculaires.

Les PSSM, ou profils, ont été introduit au sein du programme PSI-BLAST (Altschul et al., 1997) qui a révolutionné la détection d’homologie à faible identité de séquence. Par la suite, ce formalisme a été utilisé dans de nombreux programmes d’alignement multiple ou de recherche de nouvelles séquences homologues (Gowri et al., 2006; Kann et al., 2005; Marchler-Bauer et al., 2002; Schaffer et al., 1999).

Les modèles de Markov cachés (HMM). Les modèles de Markov cachés, ou automates

stochastiques à états cachés, constituent un formalisme statistique puissant dont le domaine d’application est très vaste (reconnaissance d’images, d’empreintes digitales, de langage, intelligence artificielle, bioinformatique, etc). Ils ont été introduits dans les années 1960 par Léonard Baum, et reposent sur une propriété fondamentale : l’état de l’automate à l’instant t dépend uniquement de son état à l’instant (t-1).

Formellement (illustration figure 14), un modèle de Markov caché est défini comme un quadruplet (Q, Π, A, E) tel que :

- Q est l’ensemble des états q1,q2….qM de l’automate ;

- Π = π1...πM est un vecteur définissant pour chaque état la probabilité qu’il soit

l’état initial ;

- A = (aij) est une matrice MxM définissant les probabilités de transitions d’un état i

vers un état j et telle que pour tout i,

; =

=

M j ij

a

1

1

- E = (eik) est une matrice MxN définissant pour chaque état i la probabilité

d’émettre le symbole k et telle que pour tout i,

. = = N k ik e 1 1

Intuitivement, on comprend que l'observation dont on dispose est la séquence émise par une suite d'états, mais cette suite d'états reste « cachée » et doit être déduite des observations à l'aide d'algorithmes adéquats. C'est la raison pour laquelle ces automates stochastiques sont dits « à états cachés ».

Dans le cadre de la bioinformatique et plus précisément de l’alignement des séquences, l’idée est de construire un modèle de Markov caché

H

représentant l’alignement multiple, c'est-à- dire tel que toutes les séquences constituant l’alignement multiple soient des observations issues d’un parcours de

H

. En 1996, Sean Eddy (Washington University School of Medecine, Saint Louis, USA) a introduit des modèles de Markov cachés particulièrement adapté à la modélisation d’alignements multiples, et utilisés de nos jours au sein des programmes HMMER et SAMT2K (Eddy, 1996; Eddy, 1998; Karplus et al., 1998; Karplus et al., 2005).

figure 14 : Modèle de Markov caché contenant 3 états : qt-1, qt, qt+1. La matrice de transition A=(aij) indique les probabilités de

transition de chaque état i vers chaque état j. La somme des probabilités de transition sortantes de chaque état (somme des éléments d’une ligne) est égale à 1. La matrice des émissions stocke, pour chaque état, la probabilité d’émettre chacune des 5 lettres ‘c’,’e’,’i’,’o’,’d’, dont la somme est égale à 1. Pour une succession d’états (qt-1,qt,qt-1,qt,qt+1,qt+1,qt+1), on peut observer une séquence (‘i’,’c’,’e’,’e’,’d’,’d’,’d’).

Chaque colonne p de l’alignement multiple est modélisée par un état dont la probabilité d’émettre un acide aminé donné est dépendante de la composition en acides aminés de la colonne p, que l’on peut pondérer avec des matrices de substitution ou un mélange de distributions de probabilités de Dirichlet (Brown et al., 1993; Dayhoff, 1973; Dayhoff, 1978; Henikoff and Henikoff, 1992; Kosiol and Goldman, 2005; Sjolander et al., 1996). Ces états qui émettent des acides aminés selon des probabilités spécifiques à chaque position sont les états d’appariements notés Mi. Pour modéliser les insertions et délétions, on utilise des états

dédiés. Ainsi, un état de délétion Di permet de passer directement de Mi-1 à Mi+1, et donc de

n’émettre aucun acide aminé en Mi. Les insertions s’intercalent quant à elles entre deux états

d’appariement consécutifs Mi et Mi+1 et permettent d’émettre un ou plusieurs acide(s)

aminé(s). Selon le plan utilisé, toutes les transitions entre états ne sont pas autorisées. Notamment, il n’existe pas de transition d’une insertion vers une délétion et réciproquement dans le Plan7 (figure 15), alors que ces transitions sont autorisées au sein du Plan9.

Ajouter une nouvelle séquence sobs au sein d’un alignement multiple MSA revient à

rechercher la séquence d’états qui maximise la probabilité d’émission de sobs au sein du

modèle de Markov caché représentant MSA. L’intérêt d’utiliser ce formalisme des modèles de Markov cachés est que de nombreux algorithmes ont déjà été développés pour traiter des problèmes classiques. Parmi ceux-ci, l’algorithme mis au point par Andrew Viterbi en 1967, permet, connaissant tous les paramètres du modèle de Markov caché

H

=(Q,π,A,E), et la séquence observée sobs, de déterminer la séquence d’états cachés telle que la probabilité

d’émission de sobs soit maximale (Forney, 1973; Viterbi, 1967). De fait, cet algorithme est

parfaitement adapté à la recherche de l’alignement optimal entre une séquence et un alignement multiple donné.

L’utilisation de l’algorithme de Viterbi permet donc de résoudre le problème des alignements séquence-HMM. Des travaux ont montré que les alignements produits par cette approche sont de meilleure qualité que les alignements séquence-profil construits en utilisant les PSSM (Eddy, 1998; Karplus and Hu, 2001; Krogh et al., 1994).