Principaux logiciels d’alignements - Alignement de s´ equences

2.2 Alignement de s´ equences

2.2.2 Principaux logiciels d’alignements

CLUSTAL

Publié en 1988 par Higgins et Sharp [160], CLUSTAL est l’un des premiers lo-giciels à utiliser un arbre guide pour l’alignement conjoint de plusieurs séquences. La première étape d’alignement deux à deux de séquences est réalisée à l’aide de l’heuristique de Wilbur et Lipman [161], permettant un gain de calcul par rapport `

a l’algorithme exact de Needleman et Wunsch. La matrice des scores est ensuite d´ e-finie par le nombre de résidus identiques entre les deux séquences moins la pénalité due aux gaps introduits. Dans la version originale du programme, l’incorporation progressif des séquences dans l’alignement multiple est effectué selon l’ordre du den-dogramme obtenu par la méthode UPGMA (Unweighted Pair Group Method with Arithmetic mean) [162]. Dès la version de CLUSTAL sortie en 1994, l’inférence de l’arbre guide est effectuée grâce à la méthode NJ (Neighbour-Joining), permettant ainsi un gain de robustesse face à l’hétérogénéité des taux d’évolution sans perte de vitesse de calcul [143]. Dans le cas de l’ajout à l’alignement en cours d’un groupe de séquences et non d’une séquence unique, CLUSTAL construit préalablement une séquence consensus représentant ce sous-alignement, comme par exemple lors de l’ajout à l’alignement du groupe n^◦ 2 dans la Figure 2.6.

La version actuelle de CLUSTAL, nommée CLUSTALO (pour CLUSTAL Ω), a été spécialement développée pour permettre l’alignement rapide de volumineux jeux de données. Ainsi, plusieurs milliers de séquences peuvent en théorie être alignées en quelques heures [163]. Parallélisé, l’algorithme de CLUSTALO utilise une ap-proximation de la matrice des distances (nommée mBed [164]) afin d’éviter la phase chronophage d’alignement de chaque paire de séquences possibles. A partir de cette matrice, des sous-groupes sont formés à l’aide de l’algorithme K-means [165, 166] et des matrices de distances complètes sont calculées pour chacun de ces derniers. Enfin, les sous-arbres associés sont inférés par la méthode UPGMA [162]. L’aligne-ment est ensuite réalisé de manière itérative en utilisant des profils de chaˆınes de Markov cachées (ou HMM pour Hidden Markov Model ).

T-COFFEE

Développé en 2000 par Notredame et al., T-COFFEE (Tree-based Consistency Objective Function For alignment Evaluation) est un logiciel permettant de com-biner alignement local et alignement global [167]. En effet, lors de la première phase et contrairement aux autres logiciels disponibles à cette époque, T-COFFEE créé

une bibliothèque composée d’alignements globaux (obtenus avec l’algorithme de CLUSTALW) et d’alignements locaux (obtenus avec LALIGN [168]) de paires de séquences. A partir de ces derniers, le logiciel évalue les distances entre séquences en calculant un score position-spécifique, s’affranchissant ainsi de l’utilisation d’une matrice de substitutions. Malgré un gain certain sur la qualité des alignements, notamment pour les jeux de données avec moins de 30% de similarité [167], T-COFFEE reste un programme beaucoup plus lent que les autres [163]. Néanmoins, comme son nom l’indique, le point fort de T-COFFEE est l’introduction d’une contrainte de consistante qui n’existe pas dans les autres logiciels disponibles.

MAFFT

Le logiciel MAFFT (Multiple Alignment using Fast Fourier Transform) est fondé sur l’hypothèse que les substitutions entre acides aminés aux propriétés physico-chimiques proches sont plus fréquentes [169]. Ainsi, la première version de MAFFT, publiée 2002, n’utilise pas de matrice de substitution mais repose sur le calcul de corrélations entre les séquences fondées sur la volumétrie et la polarité des acides aminés la composant [170]. Afin d’améliorer le temps de calcul, Katoh et al. se sont servi des transformées de Fourier des deux grandeurs précédentes ainsi que d’une matrice de similarité normalisée. L’arbre guide pour l’alignement progressif est inféré à l’aide de la matrice de substitutions JTT (Jones, Taylor and Thorton) [171] et de l’algorithme UPGMA. En 2005, de nouveaux algorithmes basés sur une approximation des transformées de Fourier ou l’utilisation d’un ali-gnement local ont été intégrés à la suite de programmes de MAFFT [172]. Par ailleurs, sa parallélisation en 2010 a permis un important gain en terme de temps de calcul [173]. Dans sa version actuelle, MAFFT propose une dizaine d’algorithmes différents ainsi que diverses options à choisir selon les caractéristiques du jeu de données à analyser [152].

MUSCLE

Publié par Edgar en 2004 sous forme de deux articles [174, 175], le logiciel MUSCLE (MUltiple Sequence Comparison by Log-Expectation) utilise un algo-rithme itératif divisé en trois grande étapes. La première est celle d’un alignement progressif classique : une matrice de distances fondée sur la fr´equence de k-mers (i.e. des segments de longueur k) dans les s´equences est calculée, un arbre guide est inféré par la méthode UPGMA et un alignement progressif est produit en suivant l’ordre de branchement de cet arbre. La deuxième étape consiste à améliorer l’alignement

obtenu en utilisant une nouvelle matrice fondée sur la distance de Kimura [176] au lieu des préc´edents k-mers. Enfin, lors de la troisi`eme étape, MUSCLE scinde aléatoirement en deux l’arbre guide et réaligne les deux sous-alignements corres-pondants à l’aide de profils. Si l’alignement des deux blocs produit un meilleur score global, il est gardé, sinon il est rejeté (Figure 2.7).

Séquences non alignées

Matrice de distance des mots

Arbre guide 1 Alignement 1 (S₁)

! ! "

Matrice de distance de Kimura

Alignement 2 (S₂) Arbre guide 2

Sous-arbres de l’arbre 2

!

Profils des deux sous-arbres Alignement 3 (S₃) S₃ > S₂ ? Non ! arrêt Oui ! % " # & muscle

Figure 2.7 – Algorithme impl´^ement´^{e dans MUSCLE [}¹⁷⁵^].

PRANK

L’algorithme implémenté dans le logiciel PRANK (PRobabilistic AligNment Kit ) a été développé afin de proposer des alignements non biaisés vers l’inférence systématique de délétions dans la séquence ancestrale [177]. En effet, lors de l’ajout d’une nouvelle séquence à l’alignement multiple en cours, les algorithmes progressifs précédents ont tendance à forcer l’insertion des gaps pré-existants dans cette s´ e-quence. Ce biais est à l’origine de l’inférence systématique de séquences ancestrales de grande taille. Afin d’équilibrer les probabilités d’occurrence d’une insertion et d’une délétion au long de l’évolution des génomes, le logiciel PRANK utilise un profil HMM dans lequel la probabilité d’ouverture d’un gap est la même pour les deux groupes de séquences à aligner. Par ailleurs, cette probabilité est exponen-tiellement proportionnelle à la distance évolutive qui sépare ces deux groupes de séquences. Ainsi PRANK est particulièrement utilisé pour l’inférence de séquences et génomes ancestraux [178, 179, 180].

FSA

Le programme probabiliste d’alignement FSA (Fast Statistical Alignment ), d´ e-veloppé en 2009 par Bradley et al. [181], permet quant à lui de ne pas utiliser d’arbre guide pour l’alignement multiple. En effet, ce logiciel repose sur le calcul des probabilités que deux résidus issus de deux séquences soient homologues entre eux. Celles-ci sont déterminées grâce à l’utilisation de profils HMM à trois ou cinq états : homologie, insertion ou délétion dans chacune des deux séquences consi-dérées. A partir de ces probabilités, l’alignement multiple est ensuite effectué par approche itérative dite de sequence annealing. A noter que FSA propose un résultat graphique permettant à l’utilisateur de visualiser la fiabilité des positions alignées et ainsi vérifier manuellement l’alignement multiple obtenu.

MACSE

MACSE (Multiple Alignment of Coding SEquences) est un logiciel d’alignement développé en 2011 par Ranwez et al. [182] dans le but d’aligner des séquences nucléotidiques codantes en prenant en compte les changements de cadre de lecture lors d’insertion de gaps. Ce programme est divisé en trois grandes étapes : i) la traduction des séquences nucléotidiques en séquences protéiques, ii) l’alignement de ces séquences protéiques et iii) l’alignement des séquences nucléotidiques guidé par l’alignement protéique obtenu lors de la deuxième étape. Cette approche permet en particulier d’améliorer la qualité des alignements nucléotidiques lorsque des pseudo-gènes sont présents dans le jeu de données. MACSE peut également être utilisé sur des données de séquen¸cage haut débit afin de détecter et de corriger les potentielles erreurs réalisées par les séquenceurs.

Comparaison

Chacun de ces logiciels ont été développés dans le but de résoudre un problème en particulier. Ainsi CLUSTALO a permis une réduction drastique du temps de calcul pour les gros jeux de données, PRANK a été construit de manière à prendre en compte les relations évolutives entre les séquences et T-COFFEE a introduit des contraintes de consistance dans le calcul des alignements. Ainsi, tout le pro-blème de la comparaison de ces logiciels est de déterminer en quoi un alignement sera meilleur qu’un autre. En effet, le « vrai » alignement n’étant pas disponible, on ne peut pas déterminer quel est le meilleur logiciel tant au niveau du r´ esul-tat qu’au niveau du temps de calcul. Dans le but d’avoir des alignements de réf´ e-rence, Thompson et al. [183] ont publié une banque de données nommée BAliBASE

(Benchmark Alignment dataBASE ) qui répertorie des alignements multiples cor-rigés manuellement et calibrés sur la structure 3D des protéines. La plupart des études comparatives ont été effectuées à l’aide de cette banque.

0.35 0.4 0.45 0.5 0.55 0.6 0.65 10 100 1000 10000 100000 1e+06

Total Column Score

Time [s]

BAliBASE

MSAprobs Probalign Maﬀt-auto

ClustalOmega ^Probcons _T-COFFEE

SATe Opal Muscle Kalign Maﬀt-default Dialign Fsa Prank ClustalW2

Figure 2.8 – Performances des principaux logiciels d’alignements en 2011 [163]. Plus le score par colonne est ´elev´e, meilleur est l’alignement.

Dans l’article consacré à CLUSTALO [163] MAFFT (avec le choix automatique de la méthode), ProbAlign [184], MSAprobs [185] et ProbCons [186] produisent de meilleurs alignements mais nécessitent des temps de calculs beaucoup plus longs que CLUSTALO(Figure 2.8). Dans cette étude, PRANK [187] et FSA [181] pr´ e-sentent les plus mauvais rapport résultat/temps de calcul. Dans un article de 2011, Thompson et al. [188] montrent que pour les jeux de séquences très divergents, T-COFFEE, ProbCons et MAFFT (avec l’option L-INS-i) produisent les meilleurs résultats mais que les deux premiers n´ecessitent 2.7 jours de calculs contre 1h12 pour le troisième. De manière générale, les auteurs observent une baisse des capaci-tés des logiciels en fonction du degré de divergence entre les séquences. Plus r´ ecem-ment, une étude de 2014 recommande l’utilisation de ProbCons, T-COFFEE, Pro-bAlign et MAFFT tout en soulignant la rapidité de CLUSTALW et MUSCLE [189]. Enfin, la même année, Pervez et al. [190] désignent SATe [191] comme le logiciel possédant le meilleur rapport précision/temps de calcul parmi dix logiciels testés sur la version 3.0 de BAliBASE [192].

Sur la base des résultats obtenus dans ces études de comparaison mais également `

a la suite de tests sur mes jeux de donn´ees, j’ai principalement utilis´e MAFFT dans le cadre de ce travail.

Dans le document Étude de l'histoire évolutive des PI3K et des voies de signalisation associées (Page 53-58)