Les méthodes d’alignements multiples - Traitement des données sources

2 Les outils bioinformatiques : vers de nouvelles solutions

2.4 Traitement des données sources

2.4.2 Les méthodes d’alignements multiples

La recherche par paires entre une séquence d’intérêt et les séquences des bases de données a permis d’identifier un ensemble de séquences (supposées homologues). L’étape qui suit a pour objectif d’agencer en colonne les acides aminés qui possèdent la même histoire évolutive : c’est l’étape d’alignement multiple. L’obtention d’alignements multiples constitue une étape essentielle de l’analyse bioinformatique : elle permet de mettre en évidence les positions importantes pour la structure et/ou la fonction. Dans le contexte de la prédiction de structure, l’optimisation des alignements multiples revêt donc une importance cruciale.

2.4.2.1 Méthodes optimales

L’algorithme de programmation dynamique (NWS) décrit précédemment pour deux séquences est généralisable à l’alignement de N séquences (Kruskal et Sankoff, 1983). Le souci qu’on rencontre lors d’utilisation de cet algorithme est sa complexité en temps et en mémoire (de l’ordre de O(Nk)). Quelques astuces ont été mises au point pour accélérer le temps de calcul, comme dans la méthode MSA où la matrice n-dimensionnelle est « tronquée de ses coins », mais les calculs demeurent de infaisables sur plus d’une dizaine de séquences.

2.4.2.2 Méthodes heuristiques

De la même manière que pour les alignements deux à deux, des méthodes heuristiques ont été développées pour pallier à la complexité de l’algorithme. Une façon de résoudre le problème de l’alignement de N séquences consiste à utiliser une procédure progressive d’alignement par paires qui peut être esquissée comme suit : (i) Alignement par programmation dynamique des deux première séquences, (ii) Alignement de la 3e séquence avec l’alignement précédent, (iii) Alignement de la séquence N avec l’alignement obtenu sur les N-1 premières séquences. Ce type de méthode présente toutefois une part de difficulté : il faudra toujours définir l’ordre dans lequel les séquences doivent être prises en compte car l’alignement final en dépend. Plusieurs solutions ont été envisagées pour contourner ce dernier problème. Il est possible dans un premier temps de limiter la difficulté à l’alignement de trois courtes séquences (Murata et al., 1985) ou de séquences relativement proches (Bains, 1986). On peut également chercher à définir d’abord « l’ordre de passage » des séquences à traiter au moyen d’arbres de distances (Higgins et al., 1992 ; Higgins et Sharp, 1988 ; Sankoff et al., 1976) ou en utilisant les scores obtenus par alignement par paire des différentes séquences pour ensuite les aligner en sous groupes, puis en groupes (Corpet, 1988 ; Taylor,1987). Un nombre important de logiciels et de programmes exploitent ces différentes approches : il serait long de tous les

présenter. Ici, on se propose de décrire ClustalW, l’un des plus simples, rapides largement utilisé (et aussi cours de cette thèse).

CLUSTALW. De tous les logiciels, ClustalW (Thompson et al., 1994) est sans conteste l’un des plus populaire dans la production d’alignements multiples à partir de séquences récupérés à partir d’un BLAST par exemple. Il procède en plusieurs étapes. La première étape calcule un arbre « dendogramme » qui sert de guide pour l’alignement multiple. Pour cela, un alignement de toutes les séquences deux à deux est effectué par un algorithme relativement frustre mais extrêmement rapide (n.(n-1) comparaisons) qui donne un score de distance pour chaque couple. Un arbre est alors construit par Neighbor-Joining à partir de la matrice des distances. Les deux séquences les plus proches sur l’arbre sont alignées. Un « profil » est alors construit à partir de cet alignement. Chaque position de ce profil représente la « moyenne » des deux séquences de la paire. La séquence suivante (ou profil de séquences déjà alignées) la plus proche (par rapport à la topologie de l’arbre) est alors alignée sur le profil de la paire. On peut noter que les gaps aux positions terminales des séquences ne coûtent rien. Les gaps seront introduits soit dans la nouvelle séquence (ou le nouveau profil), soit dans le profil. Ce point représente une des principales limites du programme car il lui est impossible d’effectuer un gap ou de le recalculer sur seulement une portion des séquences déjà alignées.

2.4.2.3 Alignements multiples et profils.

PSI-BLAST. Les procédés heuristiques précédemment décrits génèrent généralement un grand nombre d’insertions qui rend les alignements multiples difficiles à exploiter. Ces procédés constituent néanmoins une première approximation efficace. PSI-BLAST a été créé pour rechercher des homologies éloignées, à faible identité de séquence. Sa première itération est un simple BLASTP qui va donner les voisins proches de la séquence protéique recherchée. À partir des résultats obtenus, la distribution des acides aminés et des insertions dans chaque colonne de l’alignement multiple permet d’extraire une fréquence d’occurrence pour chaque position qui peut être traduite en termes de scores de probabilité sous forme d’une matrice appelée PSSM (Position Specific Score Matrix ou « profil »). Un exemple de PSSM généré par le logiciel PSI-BLAST est illustré sur la Figure 2-15. C’est ce profil qui est alors utilisé en remplacement de séquence dans une seconde itération pour rechercher de nouvelles séquences.

Figure 2-15 Représentation d'un profil paramétrant un alignement de 4 séquences, présenté en vertical à gauche. Pour Chaque position un score de substitution différent est calculé pour chaque acide aminé et pour les insertions (Gribskov et al., 1987).

Plusieurs itérations permettent d’affiner progressivement le profil et d’augmenter considérablement la sensibilité de la méthode de détection. Ces itérations peuvent être effectuées jusqu’à la convergence, c'est-à-dire qu’aucune nouvelle séquence n’est détectée. L’avantage de cette méthode est qu’elle « gomme » les particularités de la séquence requête grâce aux séquences voisines (supposées être de sa famille). Le principal reproche qu’on peut donner à cette méthode vient du fait qu’un faux positif puisse apparaître au cours des itérations et qu’il soit pris en compte pour construire la PSSM : ce faux positif serait alors susceptible de biaiser l’ensemble du profil aux itérations ultérieurs. Quelques tentatives d’optimisations ont été proposées pour réduire le danger potentiel de l’intégration de ces faux-positifs (Schaffer et al., 2001). Par ailleurs, l’approche itérative telle qu’elle vient d’être décrite présente un risque : lorsque le nombre de séquences est faible, les probabilités d’occurrence de certains acides aminés peuvent être estimées, faussant ainsi le profil associé à la famille de séquences homologues. Par exemple, l’observation d’une position exclusivement occupée par une isoleucine devrait laisser la possibilité que d’autres hydrophobes tels que la leucine ou la valine soient également probables. Pour améliorer les profils, il est possible d’enrichir les fréquences

observées dans l’alignement par la connaissance que l’on a, a priori, des relations entre acides aminés. Ces fréquences d’occurrence observées peuvent être corrigées par la méthode de « pseudo-count » comme c’est le cas dans PSI-BLAST. Dans cette approche, on ajoute une contribution variable des scores des matrices BLOSUM et PAM aux fréquences observées. L’importance de ces scores de « connaissance a priori » est pondérée en fonction de la richesse d’informations déjà contenues dans l’alignement multiple.

Les approches HMM. La notion de profil a été généralisée par le développement du formalisme des Chaînes de Markov Cachées (HMM) (Eddy, 1998). Ce formalisme associé aux HMM fournit un ensemble d’outils statistiques très performants pour manipuler et évaluer la vraisemblance d’un alignement. Les méthodes HMM sont très utilisées dans le traitement des séquences à grande échelle, dans la constitution et l’interrogation des bases de données de domaines telles que PFAM et SMART, mais également pour la détection et l’alignement des homologues lointains. Sans rentrer dans les détails, le formalisme HMM permet de générer un modèle statistique d’un alignement multiple dans lequel l’apparition des acides aminés dans l’alignement suit un processus stochastique de Markov (la probabilité de l’état n dépend uniquement de l’état n-1). Un alignement multiple peut être ainsi modélisé par une chaîne d’éléments qui possèdent 3 états (M pour une position alignée, I pour une insertion, D pour une délétion) avec des probabilités d’émission et de transition attribuées entre chacun des états (Figure 2-16). Les modèles HMM fournissent une flexibilité accrue par rapport aux profils en autorisant les états de délétions en plus des états d’insertions, et surtout en modélisant la relation de voisinage (ignorée dans le cas des PSSM). Les probabilités qui sous-tendent un alignement sont inconnues (variables « cachées ») et le premier objectif est de les estimer à partir des fréquences d’occurrence observées à chaque position. Comme pour les profils présentés précédemment, cette information est enrichie par la connaissance a priori des probabilités d’occurrence des acides aminés en fonction des contextes.

Le modèle HMM ainsi paramétré peut être utilisé pour reconnaître les séquences susceptibles d’être reliées aux séquences de l’alignement tel qu’il est décrit dans la Figure 2-16. L’algorithme de Viterbi, de façon similaire aux algorithmes de programmation dynamique, permet d’identifier la trajectoire la plus probable au sein du modèle HMM. Formellement, une séquence n’est pas alignée sur un HMM. Ce qu’on mesure, c’est la probabilité qu’un HMM donné puisse générer la séquence alignée de façon optimale. La base Pfam dont je me sers pour identifier des P450s, est créée à partir d’HHMER, un logiciel utilisant les HMM.

Figure 2-16 Architecture simplifié d’un modèle HMM (HMMER plan 7) et exemple de paramétrage. L’alignement des trois séquences A,B et C peut être représenté par une chaîne à 4 états. Les probabilités de transitions entre ces états déduites de l’alignement multiple sont indiquées en rouge au dessus de chaque flèche. Les probabilités d’émission de chaque acide aminé au sein de chaque état sont indiquées au dessus du modèle. L’indentification de la trajectoire pour le HMM génère la séquence D alignée de façon optimale par l’algorithme de Viterbi. La trajectoire permettant de maximiser des probabilités lors du parcours du HMM est indiquée en vert. L’alignement optimal pour la séquence D est indiqué en haut. (Source : thèse de V. Meyer)

2.4.3 Comparaison de deux structures

Après avoir abordé les comparaisons des séquences primaires issues des bases de données, il est intéressant de s’attarder à la comparaison de structure. Les techniques de comparaison de structures protéiques sont essentielles dans beaucoup de domaines de recherche, notamment dans la prédiction de structure d’une protéine et dans la compréhension de l’évolution des structures protéique. Initialement, les première méthodes de comparaison servaient à comparer une structure avec elle-même : il s’agissait tout simplement de comparaison de postions atomiques. Très vite, ces méthodes se sont montrées limitées : lors de comparaison de structures différentes, un problème de choix de correspondance entre les éléments à comparer se posait : comme deux protéines ne sont pas composées de la même séquence en acides aminés, il n’est pas possible de comparer tous les atomes, chaînes latérales comprises. Dans un premier temps, il a fallu ainsi se restreindre aux atomes du squelette peptidique. Toutefois, le rôle des chaînes latérales (dans le cas de reconnaissance ou fixation de ligand) ne pouvant être négligé, l’incorporation de ces atomes dans la comparaison devaient être également prise en compte. Par ailleurs, l’organisation des structures secondaires semblait être

Début Fin A-YET A-FET GSY-T A-F-T Seq A : Seq B : Seq C : Seq D : M1 M2 M3 M4 D1 D2 D3 D4 I0 I1 I2 I3 I4 M1 : pA=2/3 pG=1/3 M2 : pY=2/3 pF=1/3 M3 : pE=1 M4 : pT=1 I1 : pS=1 0 1/3 1 0 0 0 1 2/3 2/3 1 1 0 0 1/3 0 1 0

conservée dans les protéines – même lointaines – d’une même famille. Ne comparer que celles-ci serait donc plus pertinent, au moins pour des protéines assez différentes. Au final, trois niveaux de représentation ont pu être recensés : une représentation « tout atome », une représentation restreinte aux atomes du squelette peptidique et une représentation en termes de structures secondaires. A ces trois représentations, une dernière peut être ajoutée : il s’agit de la représentation qui tient compte la forme générale de la molécule.

De façon similaire à la comparaison des séquences, l’hypothèse sous-jacente à la comparaison de structures est généralement l’homologie supposée de ces structures (ou d’une de leurs sous-structures). Ainsi, on cherche à mettre en correspondance la position des acides aminés tout en tenant compte de leur séquence et de sa divergence. Dans le cas où l’on veut mesurer la convergence éventuelle des structures ou des sites, la comparaison ne doit pas prendre en considération la séquence des résidus.

Quelles que soient les méthodes utilisées, le principe dans la comparaison de structure demeure inchangé : il s’agit de mettre en correspondance un élément d’une structure avec un seul élément de l’autre structure. L’objectif recherché est le calcul d’une mesure quantitative de similarité entre deux structures protéiques et/ou de générer un alignement structural, souvent converti ensuite en alignement de séquences. Quatre points sont importants lors d’une comparaison structurale. Ceux-ci ont été définis par Holm et Sander (Holm et Sander, 1996).

- La représentation des structures : les structures protéiques sont toujours simplifiées mais les caractéristiques conservées doivent être suffisantes pour la comparaison. Exemples : les Cα sont décrits par leur coordonnées cartésiennes ou par leurs distances internes ; les Structures Secondaires sont décrites par des vecteurs ; etc…

- La mesure de similarité ou de dissimilarité : il faut pouvoir déterminer si un sous- alignement est meilleur qu’un autre pendant le processus d’alignement. Cette mesure est bien sûr totalement dépendante de la représentation ;

- L’algorithme de comparaison : un algorithme général bien connu peut être adapté au problème (recherche des cliques maximales dans un graphe, Monte Carlo…) ou un algorithme ad hoc peut être développé ;

- Les post-traitements : par exemple le calcul d’un score exprimant la significativité des résultats (il peut être empirique ou statistique, humain ou automatique).

Tout comme pour les séquences, les techniques et méthodes associées à ces comparaisons de structures sont extrêmement riches et diversifiées. Dans les sections qui suivent, ne seront présentées que succinctement les méthodes les plus usuelles et surtout celles qui ont servi pour cette thèse.

2.4.3.1 Description au niveau atomique

Les méthodes utilisant cette représentation permettent rarement de comparer des protéines entières. La majorité d’entre elles sont utilisées pour l’amarrage de molécules (docking). Elles se regroupent usuellement en deux catégories : les méthodes comparant des atomes ou des groupes d’atomes et les méthodes comparant des surfaces. La première catégorie est plus spécifique dans la comparaison de protéines entières tandis que la seconde est plus utilisée pour comparer des sites spécifiques. Dans ces catégories, il existe des méthodes de graphes, des méthodes de constructions de motifs structuraux, des méthodes par hachage géométrique mais également les méthodes fondées sur la forme, utilisées en morphométrie où l’on cherche à déceler des homothéties. Toutes ces méthodes permettent selon des principes et algorithmes différents de comparer deux structures entre elles, en prenant en compte tous les atomes.

Étant donné qu’aucune de ces méthodes n’a été utilisée dans mon travail de thèse, il n’est pas nécessaire de s’attarder d’avantage sur ces méthodes au niveau atomique.

2.4.3.2 Description au niveau du squelette peptidique

Les méthodes utilisées à ce niveau, déjà plus communes que celles décrites précédemment, présentent deux manières d’aborder cette description. Dans la première, le squelette peptidique est décrit par les coordonnées cartésiennes, dans la majeure partie du temps limitée à celles des Cα. Pour comparer deux structures à l’aide de cette description, il faut effectuer une transformation rigide d’une structure sur l’autre. Cette description est appelée « externe » par opposition aux descriptions internes où les deux structures peuvent être comparées directement. Les descriptions internes peuvent être des distances internes, des angles dièdres (φ,ψ) ou (α,τ) ou encore d’autres repères définis par des éléments des structures.

Mesures de similarité : les RMSD. Quelque soit les descriptions – externes ou internes – des mesures de similarités ont été mise en place afin de comparer deux structures. La plus usitée de toutes, est certainement le RMSD (Root Mean Square Deviation) sur les coordonnées. Il s’agit de la racine carrée de la moyenne des carrées des distances entre les atomes mis en correspondance dans les deux structures – décrits par leurs coordonnées cartésiennes –. Ce RMSDc est donc :

N b a D RMSD N i i i c

∑

= = 1 2 ) ' , (

où N est le nombre d’atomes mis en correspondance : dans la structure B, l’atome b’i est mis en correspondance avec l’élément ai de la structure A, et D(ai,b’i) est la distance entre les atomes ai et b’i

après superposition optimale de tous les atomes mis en correspondance (ensembles M(A) et M(B)). Une superposition optimale de M(A) et M(B) est donc une transformation rigide T (une translation- rotation) telle que le RMSDc est minimal. Il existe de nombreuses méthodes pour trouver cette

transformation optimale, comme celles faisant appel au formalisme fondé sur les quaternions (Kearsley, 1989) ou encore diagonalisation de matrices (Kabsch, 1976, 1978) itérations successives (Sippl et Stegbuchner, 1991) ou encore minimisation (McLachlan, 1979,1982). D’autres RMSD tels que le RMSDd et l’URMS et les RMSD pour les angles, existent mais ne seront pas présentées car elles

n’ont pas été utilisées durant ce travail de thèse.

Coordonnées cartésiennes des Cαααα. Les premières méthodes de comparaison de structures protéiques utilisent la description des coordonnées cartésiennes, sont généralement restreintes à la comparaison des Cα. Dans ces méthodes, qui sont plutôt des méthodes de comparaison globale, l’objectif est de minimiser la valeur du RMSDc avec un maximum de Cα en correspondance possible.

Deux types de méthodes exploitant ces propriétés se distinguent : (i) les méthodes itératives de superposition - alignement et (ii) les méthodes basées sur des fragments structuraux similaires. Dans un cas, il s’agit de processus itératifs où les meilleures correspondances d’un ensemble de paires P(A,B) entre les deux structures A et B sont recherchées. Ces processus se font en deux étapes, la première par correspondance des Cα, cherche une superposition optimale des deux ensembles de points de P(A,B), et la seconde, par programmation dynamique, détermine une nouvelle et meilleure correspondance en prenant en compte la superposition précédemment effectuée. Les programmes tels que SHEBA (Jung et Lee, 2000) TMalign (Zhang et Skolnick, 2005) ou encore MINAREA (Falicov et Cohen, 1996) illustrent cette catégorie de méthodes. Dans l’autre cas, il s’agit de travailler avec des fragments de taille donnée pour caractériser les paires de protéines similaires. Toutefois, ces méthodes-ci ne permettent pas l’alignement des deux structures entre elles. Ces méthodes basées sur les fragments structuraux similaires, sont décomposées en trois étape, comprenant dans la première étape une recherche de fragments similaires (AFP) dans les deux structures avec un RMSDc faible,

puis dans une seconde étape une recherche des meilleures séries de AFP, et enfin dans la dernière étape qui est similaire aux méthodes de superposition – alignement, un affinement de l’alignement ou

de la correspondance au niveaux des résidus. On retiendra ici les programmes tels que WHAT IF (Vriend, 1990 ; Vriend et Sander, 1991) ou encore Flexprot (Shatsky et al., 2002, 2004).

Coordonnées internes : les distances « internes ». L’utilisation des coordonnées internes dispense de l’étape de superposition. Les méthodes exploitant ces coordonnées entre atomes d’une même structure, ne prennent en compte que les Cα (ou quelques autres atomes) pour comparer les structures au niveau peptidique. Il y a N2/2 descripteurs pour chaque structure (N étant le nombre d’atomes) au lieu des 3 x N paramètres de la description en coordonnées cartésiennes. Ces N2/2 descripteurs sont souvent présentés sous la forme d’une matrice (symétrique) dite de distances internes. Les matrices de contact sont aussi parfois utilisées : elles sont remplies par des 1 si la paire d’atomes satisfait à certaines conditions (par exemple si la distance interne est en dessous d’un seuil) 0 sinon. Les méthodes utilisant les coordonnées internes sont très coûteuses en temps de calcul, aussi, à l’image de celles vues pour les séquences, diverses heuristiques ont été utilisées. Ces différentes méthodes développées se classent entre trois grandes catégories : méthodes utilisant la programmation dynamique, méthode d’assemblage d’AFP, méthodes utilisant les graphes. Dans le cas des méthodes utilisant la programmation dynamique, le programme SSAP (Structure and Sequence Alignment Program) – ou ses dérivés – (Taylor et Orengo, 1989a, 1989b) en est le seul représentant. Son dérivé SAP (Structure Alignment Program) (Taylor, 1999) est d’ailleurs utilisé pour établir la classification CATH (cf. section 2.3.3.3, page 76). Il procède par une méthode dite de double programmation dynamique avec un score basé sur les distances internes et se servant également d’autres descripteurs comme l’information de séquence, l’accessibilité au solvant etc.… Pour ce qui concerne les méthodes d’assemblage d’AFP, le principe repose sur la recherche de petits fragments similaires (AFP) puis de la meilleure série d’AFP par assemblage d’AFP entre eux. Les deux programmes les plus connus, DALI (cf. section 2.3.3.1 page 75) et CE (Combinatorial Extension Shindyalov et Bourne, 1998) utilisent ce principe. Enfin, dans le cas des méthodes utilisant les graphes, les distances internes sont considérées comme des « relations » entre atomes : chaque structure est représentée par un graphe ayant pour sommet les atomes et les distances pour arêtes pondérées. Par ailleurs, dans cette méthode,

Dans le document Relations structure - Fonction dans la superfamille des Cytochromes P450 (Page 99-119)