• Aucun résultat trouvé

2.2 Alignement de s´ equences

2.2.1 Principe g´ en´ eral

Au fil des g´en´erations une s´equence nucl´eotidique subit diverses modifications ap-pel´ees mutations. Trois ´ev´enements ´evolutifs majeurs sont `a l’origine des variabilit´es observ´ees : la substitution, l’insertion et la d´el´etion. Une mutation par substitution correspond `a la modification ponctuelle d’un r´esidu de la mol´ecule d’ADN. Une insertion, (respectivement une d´el´etion), correspond `a l’ajout, (respectivement la suppression), d’un ou plusieurs r´esidus. Ainsi, les s´equences homologues ´etudi´ees peuvent pr´esenter des diff´erences de contenu mais ´egalement de longueurs. L’aligne-ment de celles-ci vise `a organiser les s´equences de fa¸con `a ce que les sites d´erivant d’un mˆeme r´esidu dans le g`ene ancestral apparaissent dans une mˆeme colonne. Cette ´etape est donc indispensable afin d’identifier et de faire correspondre les sites homologues entre eux.

a) Alignement de deux s´equences

Soit deux s´equences A = [a1a2...an] et B = [b1b2...bm]. Pour chaque r´esidu ai (1 ≤ i ≤ n) de A, il existe deux possibilit´es : soit ce r´esidu est homologue `a un r´esidu bj (1 ≤ j ≤ m) de B, soit il ne l’est pas. Les gaps sont donc des br`eches introduits dans A ou dans B lors de l’alignement afin de traduire une absence d’homologie due `a une insertion ou `a une d´el´etion.

Le nombre d’alignements possibles entre deux s´equences croissant de mani`ere exponentielle avec le nombre de r´esidus des s´equences [140], la principale difficult´e est de d´eterminer quel est l’alignement optimal. Pour cela, un syst`eme de score a ´et´e mis en place. Tout d’abord, les insertions et les d´el´etions ´etant des ´ev´

ene-ments ´evolutifs moins fr´equents que les substitutions [141], une p´enalisation plus importante a ´et´e attribu´ee `a la cr´eation ainsi qu’`a l’expansion des gaps dans les alignements [142,143]. Par ailleurs, initialement trait´ees de mani`ere ´egale, il est ap-paru que les substitutions de r´esidus ne sont pas toutes ´equiprobables. En effet, bien qu’`a partir d’un nucl´eotide il existe deux fois plus de transversions (C, T ←→ A, G) possibles que de transitions (C ←→ T et A ←→ G), ces derni`eres sont plus fr´ e-quemment observ´ees [144, 145, 146, 121]. Ainsi, des matrices de substitutions ont ´et´e d´evelopp´ees permettant d’attribuer des scores diff´erents selon la nature des sub-stitutions. Dans le cas des acides amin´es, ces matrices ´etaient initialement fond´ees sur leurs propri´et´es physico-chimiques mais tr`es vite, ce sont sur des crit`eres phy-log´en´etiques qu’elles ont ´et´e calcul´ees. Ainsi, les matrices PAM (Point Accepted Mutation) [147] et BLOSUM (BLOcks SUbstitution Matrix ) [148] sont les ma-trices de substitutions prot´eiques les plus utilis´ees de nos jours. Parmi les diff´erentes matrices BLOSUM, la matrice BLOSUM62 est la plus fr´equemment utilis´ee par d´ e-faut dans les logiciels [136,149,150,151,152]. En effet, sur leur jeu de donn´ees test de 1992, Henikoff et al. ont d´etermin´e qu’il s’agissait de la matrice produisant en moyenne les meilleurs r´esultats. N´eanmoins, le choix de la matrice de substitution d´epend des caract´eristiques du jeu de donn´ees ´etudi´e et reste un point d´elicat dans le processus d’alignement.

Enfin, deux strat´egies sont possibles lors de l’alignement de deux s´equences : essayer d’aligner les s´equences sur toute leur longueur ou bien rechercher les simi-larit´es locales (Figure 2.5).

A1 B1 C1 A'1 A2 C2 B2 Séquence 1 Séquence 2 A1 B1 C1 A'1 A2 C2 B2 Needleman et Wunsch B1 B2 A1 A2 A'1 A2 C1 C2 Smith et Waterman

Figure 2.5 – Alignement global et alignement local [153].Ai, Biet Ci

repr´esentent des fragments homologues.

La premi`ere m´ethode, dite d’alignement global, fut d´evelopp´ee en 1970 par Need-leman et Wunsch [154] et appliqu´ee `a l’alignement de deux s´equences prot´eiques.

La seconde strat´egie, dite d’alignement local, fut initialement publi´ee par Smith et Waterman en 1981 [155] et consiste `a trouver les paires de segments de similarit´e maximale. L’alignement global conduira `a un alignement de qualit´e uniquement si A et B sont de longueurs similaires et n’ont pas subit d’inversions ni d’inser-tions/d´el´etions majeures.

b) Alignement multiple

Les alignements dits multiples (i.e. de plus de deux s´equences), ou MSA (Multiple Sequences Alignment ), seront pratiquement toujours effectu´es `a l’aide d’heuris-tiques produisant une approximation de l’alignement optimal. En effet, bien que th´eoriquement g´en´eralisable `a l’alignement de plus de deux s´equences, la complexit´e des deux algorithmes pr´ec´edents implique une augmentation exponentielle du temps de calculs en fonction du nombre de s´equences [121]. Ainsi, la m´ethodologie la plus couramment utilis´ee de nos jours est celle d’un alignement dit progressif.

Introduit en 1984 par Hogeweg et Hesper [156], la premi`ere ´etape consiste `a inf´ e-rer une matrice de distances `a partir des alignements deux `a deux des n s´equences du jeu de donn´ees. Les s´equences sont ensuite divis´ees en groupes selon leur similarit´e `

a l’aide d’une m´ethode de clustering [157, 158] ou d’un arbre guide [141, 159,160]. A partir de l’alignement des deux s´equences les plus similaires, l’algorithme consiste alors `a incorporer progressivement dans l’alignement les n − 2 s´equences restantes (Figure 2.6).

Calcul de tous les alignements simples et construction de la

matrice de distance

Arbre guide par

Neighbour-joining Alignement progressif SéqB 0.17 SéqC 0.59 0.60 SéqD 0.59 0.59 0.13 SéqE 0.77 0.77 0.75 0.75 SéqA SéqB SéqC SéqD SéqA SéqB SéqD SéqC SéqE 1 2 3 4 A PEEKSAVTALWGKVN--VDEVGG B GEEKAAVLALWDKVN--EEEVGG C PADKTNVKAAWGKVGAHAGEYGA D AADKTNVKAAWSKVGGHAGEYGA E EHEWQLVLHVWAKVEADVAGHGQ Hélices ! 1 2 3 4 clustal

Figure 2.6 – Proc´edure d’alignement progressif utilisant un arbre guide calcul´e `a partir de la matrice des scores d’alignements des paires de s´equences [121].M´ethodologie utilis´ee par le programme CLUS-TALW [143].