• Aucun résultat trouvé

2.2 Alignement de s´ equences

2.2.2 Principaux logiciels d’alignements

CLUSTAL

Publi´e en 1988 par Higgins et Sharp [160], CLUSTAL est l’un des premiers lo-giciels `a utiliser un arbre guide pour l’alignement conjoint de plusieurs s´equences. La premi`ere ´etape d’alignement deux `a deux de s´equences est r´ealis´ee `a l’aide de l’heuristique de Wilbur et Lipman [161], permettant un gain de calcul par rapport `

a l’algorithme exact de Needleman et Wunsch. La matrice des scores est ensuite d´ e-finie par le nombre de r´esidus identiques entre les deux s´equences moins la p´enalit´e due aux gaps introduits. Dans la version originale du programme, l’incorporation progressif des s´equences dans l’alignement multiple est effectu´e selon l’ordre du den-dogramme obtenu par la m´ethode UPGMA (Unweighted Pair Group Method with Arithmetic mean) [162]. D`es la version de CLUSTAL sortie en 1994, l’inf´erence de l’arbre guide est effectu´ee grˆace `a la m´ethode NJ (Neighbour-Joining), permettant ainsi un gain de robustesse face `a l’h´et´erog´en´eit´e des taux d’´evolution sans perte de vitesse de calcul [143]. Dans le cas de l’ajout `a l’alignement en cours d’un groupe de s´equences et non d’une s´equence unique, CLUSTAL construit pr´ealablement une s´equence consensus repr´esentant ce sous-alignement, comme par exemple lors de l’ajout `a l’alignement du groupe n 2 dans la Figure 2.6.

La version actuelle de CLUSTAL, nomm´ee CLUSTALO (pour CLUSTAL Ω), a ´et´e sp´ecialement d´evelopp´ee pour permettre l’alignement rapide de volumineux jeux de donn´ees. Ainsi, plusieurs milliers de s´equences peuvent en th´eorie ˆetre align´ees en quelques heures [163]. Parall´elis´e, l’algorithme de CLUSTALO utilise une ap-proximation de la matrice des distances (nomm´ee mBed [164]) afin d’´eviter la phase chronophage d’alignement de chaque paire de s´equences possibles. A partir de cette matrice, des sous-groupes sont form´es `a l’aide de l’algorithme K-means [165, 166] et des matrices de distances compl`etes sont calcul´ees pour chacun de ces derniers. Enfin, les sous-arbres associ´es sont inf´er´es par la m´ethode UPGMA [162]. L’aligne-ment est ensuite r´ealis´e de mani`ere it´erative en utilisant des profils de chaˆınes de Markov cach´ees (ou HMM pour Hidden Markov Model ).

T-COFFEE

D´evelopp´e en 2000 par Notredame et al., T-COFFEE (Tree-based Consistency Objective Function For alignment Evaluation) est un logiciel permettant de com-biner alignement local et alignement global [167]. En effet, lors de la premi`ere phase et contrairement aux autres logiciels disponibles `a cette ´epoque, T-COFFEE cr´e´e

une biblioth`eque compos´ee d’alignements globaux (obtenus avec l’algorithme de CLUSTALW) et d’alignements locaux (obtenus avec LALIGN [168]) de paires de s´equences. A partir de ces derniers, le logiciel ´evalue les distances entre s´equences en calculant un score position-sp´ecifique, s’affranchissant ainsi de l’utilisation d’une matrice de substitutions. Malgr´e un gain certain sur la qualit´e des alignements, notamment pour les jeux de donn´ees avec moins de 30% de similarit´e [167], T-COFFEE reste un programme beaucoup plus lent que les autres [163]. N´eanmoins, comme son nom l’indique, le point fort de T-COFFEE est l’introduction d’une contrainte de consistante qui n’existe pas dans les autres logiciels disponibles.

MAFFT

Le logiciel MAFFT (Multiple Alignment using Fast Fourier Transform) est fond´e sur l’hypoth`ese que les substitutions entre acides amin´es aux propri´et´es physico-chimiques proches sont plus fr´equentes [169]. Ainsi, la premi`ere version de MAFFT, publi´ee 2002, n’utilise pas de matrice de substitution mais repose sur le calcul de corr´elations entre les s´equences fond´ees sur la volum´etrie et la polarit´e des acides amin´es la composant [170]. Afin d’am´eliorer le temps de calcul, Katoh et al. se sont servi des transform´ees de Fourier des deux grandeurs pr´ec´edentes ainsi que d’une matrice de similarit´e normalis´ee. L’arbre guide pour l’alignement progressif est inf´er´e `a l’aide de la matrice de substitutions JTT (Jones, Taylor and Thorton) [171] et de l’algorithme UPGMA. En 2005, de nouveaux algorithmes bas´es sur une approximation des transform´ees de Fourier ou l’utilisation d’un ali-gnement local ont ´et´e int´egr´es `a la suite de programmes de MAFFT [172]. Par ailleurs, sa parall´elisation en 2010 a permis un important gain en terme de temps de calcul [173]. Dans sa version actuelle, MAFFT propose une dizaine d’algorithmes diff´erents ainsi que diverses options `a choisir selon les caract´eristiques du jeu de donn´ees `a analyser [152].

MUSCLE

Publi´e par Edgar en 2004 sous forme de deux articles [174, 175], le logiciel MUSCLE (MUltiple Sequence Comparison by Log-Expectation) utilise un algo-rithme it´eratif divis´e en trois grande ´etapes. La premi`ere est celle d’un alignement progressif classique : une matrice de distances fond´ee sur la fr´equence de k-mers (i.e. des segments de longueur k) dans les s´equences est calcul´ee, un arbre guide est inf´er´e par la m´ethode UPGMA et un alignement progressif est produit en suivant l’ordre de branchement de cet arbre. La deuxi`eme ´etape consiste `a am´eliorer l’alignement

obtenu en utilisant une nouvelle matrice fond´ee sur la distance de Kimura [176] au lieu des pr´ec´edents k-mers. Enfin, lors de la troisi`eme ´etape, MUSCLE scinde al´eatoirement en deux l’arbre guide et r´ealigne les deux sous-alignements corres-pondants `a l’aide de profils. Si l’alignement des deux blocs produit un meilleur score global, il est gard´e, sinon il est rejet´e (Figure 2.7).

Séquences non alignées

Matrice de distance des mots

Arbre guide 1 Alignement 1 (S1)

! ! "

#

Matrice de distance de Kimura

Alignement 2 (S2) Arbre guide 2

$

%

Sous-arbres de l’arbre 2

!

Profils des deux sous-arbres Alignement 3 (S3) S3 > S2 ? Non ! arrêt Oui ! % " # & muscle

Figure 2.7 – Algorithme impl´ement´e dans MUSCLE [175].

PRANK

L’algorithme impl´ement´e dans le logiciel PRANK (PRobabilistic AligNment Kit ) a ´et´e d´evelopp´e afin de proposer des alignements non biais´es vers l’inf´erence syst´ematique de d´el´etions dans la s´equence ancestrale [177]. En effet, lors de l’ajout d’une nouvelle s´equence `a l’alignement multiple en cours, les algorithmes progressifs pr´ec´edents ont tendance `a forcer l’insertion des gaps pr´e-existants dans cette s´ e-quence. Ce biais est `a l’origine de l’inf´erence syst´ematique de s´equences ancestrales de grande taille. Afin d’´equilibrer les probabilit´es d’occurrence d’une insertion et d’une d´el´etion au long de l’´evolution des g´enomes, le logiciel PRANK utilise un profil HMM dans lequel la probabilit´e d’ouverture d’un gap est la mˆeme pour les deux groupes de s´equences `a aligner. Par ailleurs, cette probabilit´e est exponen-tiellement proportionnelle `a la distance ´evolutive qui s´epare ces deux groupes de s´equences. Ainsi PRANK est particuli`erement utilis´e pour l’inf´erence de s´equences et g´enomes ancestraux [178, 179, 180].

FSA

Le programme probabiliste d’alignement FSA (Fast Statistical Alignment ), d´ e-velopp´e en 2009 par Bradley et al. [181], permet quant `a lui de ne pas utiliser d’arbre guide pour l’alignement multiple. En effet, ce logiciel repose sur le calcul des probabilit´es que deux r´esidus issus de deux s´equences soient homologues entre eux. Celles-ci sont d´etermin´ees grˆace `a l’utilisation de profils HMM `a trois ou cinq ´etats : homologie, insertion ou d´el´etion dans chacune des deux s´equences consi-d´er´ees. A partir de ces probabilit´es, l’alignement multiple est ensuite effectu´e par approche it´erative dite de sequence annealing. A noter que FSA propose un r´esultat graphique permettant `a l’utilisateur de visualiser la fiabilit´e des positions align´ees et ainsi v´erifier manuellement l’alignement multiple obtenu.

MACSE

MACSE (Multiple Alignment of Coding SEquences) est un logiciel d’alignement d´evelopp´e en 2011 par Ranwez et al. [182] dans le but d’aligner des s´equences nucl´eotidiques codantes en prenant en compte les changements de cadre de lecture lors d’insertion de gaps. Ce programme est divis´e en trois grandes ´etapes : i) la traduction des s´equences nucl´eotidiques en s´equences prot´eiques, ii) l’alignement de ces s´equences prot´eiques et iii) l’alignement des s´equences nucl´eotidiques guid´e par l’alignement prot´eique obtenu lors de la deuxi`eme ´etape. Cette approche permet en particulier d’am´eliorer la qualit´e des alignements nucl´eotidiques lorsque des pseudo-g`enes sont pr´esents dans le jeu de donn´ees. MACSE peut ´egalement ˆetre utilis´e sur des donn´ees de s´equen¸cage haut d´ebit afin de d´etecter et de corriger les potentielles erreurs r´ealis´ees par les s´equenceurs.

Comparaison

Chacun de ces logiciels ont ´et´e d´evelopp´es dans le but de r´esoudre un probl`eme en particulier. Ainsi CLUSTALO a permis une r´eduction drastique du temps de calcul pour les gros jeux de donn´ees, PRANK a ´et´e construit de mani`ere `a prendre en compte les relations ´evolutives entre les s´equences et T-COFFEE a introduit des contraintes de consistance dans le calcul des alignements. Ainsi, tout le pro-bl`eme de la comparaison de ces logiciels est de d´eterminer en quoi un alignement sera meilleur qu’un autre. En effet, le « vrai » alignement n’´etant pas disponible, on ne peut pas d´eterminer quel est le meilleur logiciel tant au niveau du r´ esul-tat qu’au niveau du temps de calcul. Dans le but d’avoir des alignements de r´ef´ e-rence, Thompson et al. [183] ont publi´e une banque de donn´ees nomm´ee BAliBASE

(Benchmark Alignment dataBASE ) qui r´epertorie des alignements multiples cor-rig´es manuellement et calibr´es sur la structure 3D des prot´eines. La plupart des ´etudes comparatives ont ´et´e effectu´ees `a l’aide de cette banque.

0.35 0.4 0.45 0.5 0.55 0.6 0.65 10 100 1000 10000 100000 1e+06

Total Column Score

Time [s]

BAliBASE

MSAprobs Probalign Mafft-auto

ClustalOmega Probcons T-COFFEE

SATe Opal Muscle Kalign Mafft-default Dialign Fsa Prank ClustalW2

Figure 2.8 – Performances des principaux logiciels d’alignements en 2011 [163]. Plus le score par colonne est ´elev´e, meilleur est l’alignement.

Dans l’article consacr´e `a CLUSTALO [163] MAFFT (avec le choix automatique de la m´ethode), ProbAlign [184], MSAprobs [185] et ProbCons [186] produisent de meilleurs alignements mais n´ecessitent des temps de calculs beaucoup plus longs que CLUSTALO(Figure 2.8). Dans cette ´etude, PRANK [187] et FSA [181] pr´ e-sentent les plus mauvais rapport r´esultat/temps de calcul. Dans un article de 2011, Thompson et al. [188] montrent que pour les jeux de s´equences tr`es divergents, T-COFFEE, ProbCons et MAFFT (avec l’option L-INS-i) produisent les meilleurs r´esultats mais que les deux premiers n´ecessitent 2.7 jours de calculs contre 1h12 pour le troisi`eme. De mani`ere g´en´erale, les auteurs observent une baisse des capaci-t´es des logiciels en fonction du degr´e de divergence entre les s´equences. Plus r´ ecem-ment, une ´etude de 2014 recommande l’utilisation de ProbCons, T-COFFEE, Pro-bAlign et MAFFT tout en soulignant la rapidit´e de CLUSTALW et MUSCLE [189]. Enfin, la mˆeme ann´ee, Pervez et al. [190] d´esignent SATe [191] comme le logiciel poss´edant le meilleur rapport pr´ecision/temps de calcul parmi dix logiciels test´es sur la version 3.0 de BAliBASE [192].

Sur la base des r´esultats obtenus dans ces ´etudes de comparaison mais ´egalement `

a la suite de tests sur mes jeux de donn´ees, j’ai principalement utilis´e MAFFT dans le cadre de ce travail.