Méthodes basées sur la cohérence - Alignements multiples : plus de deux séquences

2.3 Alignements multiples : plus de deux séquences

2.3.3 Méthodes basées sur la cohérence

Une façon très différente de procéder a été introduite par Cédric Notredame avec T- COFFEE [Notredame et al., 2000], puis poursuivie dans les logiciels PROBCONS [Do et al., 2005] et MAFFTdans ses versions L-INS-i, G-INS-i et E-INS-i [Katoh et al., 2005; Katoh et Toh, 2008]. Il s’agit pour ces logiciels de défendre le point de vue suivant : le meilleur alignement est celui qui respecte au mieux les contraintes provenant des alignements deux- à-deux de toutes les séquences impliquéees. Dans le meilleur des cas, les alignements en question sont tous compatibles : les résidus alignés entre eux forment des cliques (une arête entre les résidus xi et yj signifiant que la position i de la séquence x est alignée à

la position j de la séquence y dans l’alignement de x avec y). Mais bien souvent, dans les alignements non triviaux tout au moins, ce n’est pas toujours le cas. on aura par exemple les liens xi ↔ yj et yj ↔ zk sans que xi ne soit aligné à zk dans l’alignement de x avec z.

C’est l’examen complet de l’ensemble de ces relations entre résidus qui permet aux mé- thodes dites«basées sur la cohérence»de déterminer un alignement optimal, c’est-à-dire

qui soit le plus en accord possible avec les alignements deux-à-deux. La décision de privi- légier telle relation entre résidus plutôt que telle autre se prend par exemple en attribuant à chaque relation un poids égal au pourcentage d’identité de séquence de la paire alignée dont ils proviennent.

T-Coffee

Publié en 2000 [Notredame et al., 2000], T-Coffee est un logiciel reprenant l’idée des méthodes progressives mais intégrant tout au long du processus la prise en compte de contraintes issues des alignements deux-à-deux des séquences composant l’ensemble à aligner. Bien que plusieurs évolutions soient venues enrichir le programme depuis sa première version, nous résumons ici la méthode publiée en 2000.

T-Coffee commence par aligner toutes les paires de séquences, à la fois par une mé- thode d’alignement global (ClustalW [Thompson et al., 1994a]) et par une méthode de recherche de similarités locales (programme Lalign de la suite FASTA [Huang et Miller, 1991]). Les auteurs désignent par le nom«librairie»un ensemble de contraintes pondé-

30 CHAPITRE 2. ALIGNER DES SÉQUENCES HOMOLOGUES

rées, chacune correspondant à l’alignement d’un caractère précis au sein d’une séquence donnée, contre un autre caractère présent dans une autre séquence. On obtient donc deux librairies, le poids de chacune des contraintes étant donné par le pourcentage d’identité entre les deux séquences en jeu, calculé sur les segments sans gap de l’alignement pairwise en question. On combine les deux librairies (l’une issue des alignements deux-à-deux glo- baux et l’autre issue des alignements deux-à-deux locaux) en sommant les poids associés à une contrainte particulière lorsque cette contrainte se trouve à la fois dans l’une et dans l’autre des deux librairies.

Une fois la librairie construite, une idée originale de Cédric Notredame consiste à l’étendre en examinant pour chaque élément de la librairie (c’est-à-dire pour chaque contrainte, donc chaque paire (si, tj) de caractères alignés) sa cohérence avec les autres

contraintes de la librairie. Ceci se fait en examinant les alignements de triplets de sé- quences : les paires de caractères alignés entre les séquences s et t sont évalués à l’aune de tous les triplets formés en superposant les alignements de s avec une séquence s′_{6= t}

et de s′_{avec t. Si s}_i _{est aligné avec s}′

k et que s′kest aligné avec tj, alors la paire (si, tj) voit

son poids augmenter du minimum des pourcentages d’identité de séquence entre s et

s′_{et entre s}′ _{et t. Ainsi}_«_étendue_»_{, la librairie des contraintes est telle que chacune des}

contraintes possède un poids qui résume une partie de l’information issue de toutes les séquences de l’ensemble, et pas seulement des 2 séquences dont est issue la paire en jeu.

L’alignement se fait ensuite de manière progressive classique en suivant un arbre guide, mais le point essentiel est que la matrice de similarité utilisée n’est pas une matrice générique du type BLOSUM, mais est la matrice des scores que sont les poids des paires alignées issues de la librairie étendue. Ainsi, le score d’alignement entre, par exemple, un tryptophane et une tyrosine, n’est pas donné de manière absolue. On évalue séparément le score d’alignement entre le tryptophane situé en position i dans la séquence s et la tyrosine en position j dans la séquence t, etc.

L’une des caractéristiques de T-Coffee qui en rendent l’usage particulièrement appré- ciable est sa grande flexibilité. T-Coffee fournit une multitude d’options à l’utilisateur, et accepte en particulier qu’on lui fournisse en entrée une ou des librairies partielles, par exemple pré-calculées à partir d’alignements structuraux deux-à-deux. Cette approche peut se révéler la plus fructueuse lorsqu’il s’agit de construire des alignements multiples d’homologues très distants, et nous l’utiliserons ici dans l’un de nos bancs de test.

ProbCons

Les auteurs se servent de manière centrale d’un pair-HMM [Durbin et al., 1998] pour calculer les probabilités des différents alignements pairwise impliquant deux séquences

2.3. ALIGNEMENTS MULTIPLES : PLUS DE DEUX SÉQUENCES 31

gné avec tj. En faisant l’hypothèse que la distribution des probabilités des alignements

pairwise donnée par le pair-HMM est une bonne approximation de la probabilité pour un

alignement donné de correspondre à l’alignement biologiquement«juste», les auteurs

calculent pour chaque alignement pairwise une valeur appelée «précision attendue»

censée être une mesure probabiliste de la corrélation entre l’alignement en question et l’alignement«correct». De tous les alignements pairwise entre les séquences s et t, celui

qui maximise la précision attendue définit la mesure de similarité entre s et t dont les auteurs se servent pour construire l’arbre guide de l’alignement progressif.

Un peu à la manière de T-Coffee, Do et Batzoglou réestiment pour toutes les paires de séquences s et t et pour toutes les positions i de s et toutes les potisions j de t, la pro- babilité postérieure d’avoir si aligné avec tj en examinant toutes les séquences tierces z,

selon : Pr (si∼ tj∈ a∗|s, t) ← 1 |S| X z∈S X zk Pr(si∼ zk∈ a∗|z,k)Pr(zk∼ tj ∈ a∗|z, t)

L’alignement progressif utilise ensuite comme score d’alignement entre résidus les expressions Pr (si ∼ tj ∈ a∗|s, t), puis une procédure itérative (voir ci-avant) est utilisée

pour raffiner l’alignement.

Dans le document Combinaison de modèles phylogénétiques et longitudinaux pour l'analyse des séquences biologiques : reconstruction de HMM profils ancestraux (Page 50-52)