Principe g´ en´ eral - Alignement de s´ equences

2.2 Alignement de s´ equences

2.2.1 Principe g´ en´ eral

Au fil des générations une séquence nucléotidique subit diverses modifications ap-pelées mutations. Trois événements évolutifs majeurs sont à l’origine des variabilités observées : la substitution, l’insertion et la délétion. Une mutation par substitution correspond à la modification ponctuelle d’un résidu de la molécule d’ADN. Une insertion, (respectivement une délétion), correspond à l’ajout, (respectivement la suppression), d’un ou plusieurs résidus. Ainsi, les séquences homologues étudiées peuvent présenter des différences de contenu mais également de longueurs. L’aligne-ment de celles-ci vise à organiser les séquences de fa¸con à ce que les sites dérivant d’un même résidu dans le gène ancestral apparaissent dans une même colonne. Cette étape est donc indispensable afin d’identifier et de faire correspondre les sites homologues entre eux.

a) Alignement de deux s´equences

Soit deux s´equences A = [a₁a₂...an] et B = [b₁b₂...bm]. Pour chaque r´esidu ai (1 ≤ i ≤ n) de A, il existe deux possibilit´es : soit ce résidu est homologue à un r´esidu b_j (1 ≤ j ≤ m) de B, soit il ne l’est pas. Les gaps sont donc des br`eches introduits dans A ou dans B lors de l’alignement afin de traduire une absence d’homologie due à une insertion ou à une délétion.

Le nombre d’alignements possibles entre deux séquences croissant de manière exponentielle avec le nombre de résidus des séquences [140], la principale difficulté est de déterminer quel est l’alignement optimal. Pour cela, un système de score a été mis en place. Tout d’abord, les insertions et les délétions étant des év´

ene-ments évolutifs moins fréquents que les substitutions [141], une pénalisation plus importante a été attribuée à la création ainsi qu’à l’expansion des gaps dans les alignements [142,143]. Par ailleurs, initialement traitées de manière égale, il est ap-paru que les substitutions de résidus ne sont pas toutes équiprobables. En effet, bien qu’à partir d’un nucl´eotide il existe deux fois plus de transversions (C, T ←→ A, G) possibles que de transitions (C ←→ T et A ←→ G), ces dernières sont plus fr´ e-quemment observées [144, 145, 146, 121]. Ainsi, des matrices de substitutions ont été développées permettant d’attribuer des scores différents selon la nature des sub-stitutions. Dans le cas des acides aminés, ces matrices étaient initialement fondées sur leurs propriétés physico-chimiques mais très vite, ce sont sur des critères phy-logénétiques qu’elles ont été calculées. Ainsi, les matrices PAM (Point Accepted Mutation) [147] et BLOSUM (BLOcks SUbstitution Matrix ) [148] sont les ma-trices de substitutions protéiques les plus utilisées de nos jours. Parmi les différentes matrices BLOSUM, la matrice BLOSUM62 est la plus fréquemment utilisée par d´ e-faut dans les logiciels [136,149,150,151,152]. En effet, sur leur jeu de données test de 1992, Henikoff et al. ont déterminé qu’il s’agissait de la matrice produisant en moyenne les meilleurs résultats. Néanmoins, le choix de la matrice de substitution dépend des caractéristiques du jeu de données étudié et reste un point délicat dans le processus d’alignement.

Enfin, deux stratégies sont possibles lors de l’alignement de deux séquences : essayer d’aligner les séquences sur toute leur longueur ou bien rechercher les simi-larités locales (Figure 2.5).

A1 B1 C1 A'1 A2 C2 B2 Séquence 1 Séquence 2 A1 B1 C1 A'1 A2 C2 B2 Needleman et Wunsch B1 B2 A1 A2 A'1 A2 C1 C2 Smith et Waterman

Figure 2.5 – Alignement global et alignement local [¹⁵³^].Ai, Biet Ci

repr´esentent des fragments homologues.

La première méthode, dite d’alignement global, fut développée en 1970 par Need-leman et Wunsch [154] et appliquée à l’alignement de deux séquences protéiques.

La seconde stratégie, dite d’alignement local, fut initialement publiée par Smith et Waterman en 1981 [155] et consiste à trouver les paires de segments de similarité maximale. L’alignement global conduira à un alignement de qualité uniquement si A et B sont de longueurs similaires et n’ont pas subit d’inversions ni d’inser-tions/délétions majeures.

b) Alignement multiple

Les alignements dits multiples (i.e. de plus de deux séquences), ou MSA (Multiple Sequences Alignment ), seront pratiquement toujours effectués à l’aide d’heuris-tiques produisant une approximation de l’alignement optimal. En effet, bien que théoriquement généralisable à l’alignement de plus de deux séquences, la complexité des deux algorithmes précédents implique une augmentation exponentielle du temps de calculs en fonction du nombre de séquences [121]. Ainsi, la méthodologie la plus couramment utilisée de nos jours est celle d’un alignement dit progressif.

Introduit en 1984 par Hogeweg et Hesper [156], la première étape consiste à inf´ e-rer une matrice de distances à partir des alignements deux `a deux des n s´equences du jeu de données. Les séquences sont ensuite divisées en groupes selon leur similarité `

a l’aide d’une m´ethode de clustering [157, 158] ou d’un arbre guide [141, 159,160]. A partir de l’alignement des deux s´equences les plus similaires, l’algorithme consiste alors `a incorporer progressivement dans l’alignement les n − 2 s´equences restantes (Figure 2.6).

Calcul de tous les alignements simples et construction de la

matrice de distance

Arbre guide par

Neighbour-joining Alignement progressif SéqB 0.17 SéqC 0.59 0.60 SéqD 0.59 0.59 0.13 SéqE 0.77 0.77 0.75 0.75 SéqA SéqB SéqC SéqD SéqA SéqB SéqD SéqC SéqE 1 2 3 4 A PEEKSAVTALWGKVN--VDEVGG B GEEKAAVLALWDKVN--EEEVGG C PADKTNVKAAWGKVGAHAGEYGA D AADKTNVKAAWSKVGGHAGEYGA E EHEWQLVLHVWAKVEADVAGHGQ Hélices ! 1 2 3 4 clustal

Figure 2.6 – Proc´^{edure d’alignement progressif utilisant un arbre} guide calculé à partir de la matrice des scores d’alignements des paires de séquences [121].Méthodologie utilisée par le programme CLUS-TALW [143].

Dans le document Étude de l'histoire évolutive des PI3K et des voies de signalisation associées (Page 50-53)