• Aucun résultat trouvé

Discussion et perspectives de ce travail sur les alignements

Chapitre 3 : Le problème de l’alignement des séquences en vue de la modélisation

3.5 Discussion et perspectives de ce travail sur les alignements

3.5.1 HmmKalign : une méthode de génération d’alignements alternatifs novatrice.

Le problème de la génération d’alignements alternatifs n’avait jusque récemment été abordé que dans le cadre des alignements séquence-séquence. Des travaux très récents ont proposé la ré-introduction de cette problématique dans le contexte des alignements profil-profil et séquence-structure (Chivian and Baker, 2006; Jaroszewski et al., 2002). Deux approches heuristiques ont été testées :

• Lukasz Jaroszewski, Weizhong Li et Adam Godzik ont ré-introduit au sein d’une méthode d’alignement profil-profil l’algorithme développé par Saqi et Sternberg en 1991 (Iterative Elimination Method). Pour une exploration encore plus importante de l’espace des séquences, cette méthode a été couplée à une heuristique paramétrique. Ainsi, pour chacune des 256 combinaisons de paramètres, 1000 alignements sont produits avec l’Iterative Elimination Method ; au final, 256000 alignements sont donc produits ! Les auteurs mettent en évidence que cette approche permet dans 48% des cas de générer au moins un alignement parmi les 256000 qui soit plus précis que l’alignement optimal classique.

• Dylan Chivian et David Baker ont introduit K*SYNC, un programme d’alignement séquence-structure au sein duquel la procédure classique de programmation dynamique est perturbée par la variation des paramètres en fonction des insertions/délétions, des prédictions de structures secondaires, etc… Pour produire encore davantage d’alignements, différentes matrices de substitutions sont utilisées. Ainsi pour aligner deux séquences du concours CASP, les auteurs produisent plus de 46000 alignements qu’ils réduisent à un ensemble non redondant comptant en moyenne 2500 alignements (Chivian and Baker, 2006). Cette opération est très coûteuse en temps : environ 10 minutes par couple de séquences sur un cluster de 54 processeurs AMD Athlon MP1600+.

Ces travaux n’ont cependant pas donné lieu à la mise à disposition de la communauté scientifique d’un programme permettant de réaliser ces alignements alternatifs.

La fonction HMMKALIGN implémentée au sein de HMMer est la première fonction permettant de générer un ensemble d’alignements alternatifs distribuée librement. Elle présente plusieurs avantages comparée aux études précédentes. Tout d’abord, l’ensemble des κ alignements générés est constitué des κ alignements dont les scores probabilistes sont les plus élevés. Ainsi, l’exploration est focalisée sur les alignements les plus probables. De plus, son exécution est particulièrement rapide. A titre d’exemple, il est possible de produire jusqu’à 800 alignements sous-optimaux, tous distincts et avec des scores néanmoins élevés, en moins d’une minute pour une séquence de 130 acides aminés de long.

3.5.2 Comparaison avec les autres méthodes de génération d’alignements alternatifs dans le cadre des alignements séquence-profil.

La publication décrivant le développement de HmmKalign est en cours de révision pour la revue Bioinformatics (Article 2). Une remarque d’un des referee nous a conduit à comparer la fonction HmmKalign aux approches heuristiques citées dans la section précédente pour générer des alignements alternatifs. Pour cela, nous avons implémenté la méthode paramétrique et l’Iterative Elimination Method au sein de HMMer.

• L’approche paramétrique classique consiste à faire varier les paramètres (u,v) gérants les pénalités d’ouverture et d’extension des insertions et délétions pour produire des alignements alternatifs. Pour adapter la méthode paramétrique dans le cadre rigoureux des modèles de Markov cachés, nous avons implémenté une fonction qui modifie les probabilités de transitions pour favoriser (ou défavoriser) les transitions vers les états d’insertions et de délétions au détriment (ou à l’avantage) des transitions entre états d’appariement successifs.

• Dans le cadre des alignements par paires, l’Iterative Elimination Method consiste à modifier la matrice de similarité pour défavoriser toutes les cellules par lesquelles passe l’alignement optimal. Dans le cadre des modèles de Markov cachés, il nous a semblé que la solution la plus adéquate pour implémenter cette méthode était d’écrire une fonction qui modifie les probabilités d’émission des états d’appariement, de façon à ce que si dans l’alignement de séquence optimal l’acide aminé x a été émis

dans l’état qi, alors la probabilité d’émettre x dans l’état qi diminue tandis que celle

des autres acides aminés augmente.

Ces fonctions ont été implémentées au sein de HMMer et nous étudions actuellement les résultats de ces approches. Il nous faut tout d’abord choisir de façon adéquate les différents paramètres utilisés dans ces approches, c'est-à-dire l’amplitude des pénalités à appliquer aux probabilités de transition (Méthode Paramétrique) et d’émission (Iterative Elimination

Method). Nous comparerons alors les résultats à ceux de la fonction HMMKALIGN sur les 115 alignements hautement divergents qui constituent notre base de test.

3.5.3 Le problème de la discrimination entre alignements corrects et incorrects. Il serait intéressant de mettre au point une stratégie d’évaluation des alignements alternatifs obtenus qui soit capable de discriminer les alignements corrects (voir figure 33). Pour cela, la méthode la plus adéquate nous semble être de produire un modèle structural à partir de chaque alignement sous-optimal, et d’évaluer ce modèle à l’aide de fonction de scores classiques (PROSA, ANOLEA, MAXSUB, etc…). On peut en effet supposer que lorsque l’alignement structural fait partie des alignements sous-optimaux proposés par HMMKALIGN, les modèles produits à l’aide de cet alignement sont mieux évalués que les autres.

Ce procédé de sélection présente néanmoins des inconvénients. Lorsque l’alignement structural exact ne fait pas partie de l’ensemble des alignements sous-optimaux proposés, le score d’évaluation global ne permet pas de discriminer un alignement proche de l’alignement structural des autres alignements qui en sont très éloignés. Cette absence de gradient entre la qualité progressive de l’alignement et les scores de l’évaluation structurale nous a conduit à explorer des stratégies d’optimisation complémentaires. Parmi celles envisagées, une approche itérative s’inspirant du protocole qui suit est en cours d’étude (1) calcul des scores d’évaluation pour un ensemble de modèles le long de la séquence pour identifier les régions mal alignées (2) seules les régions a priori mal alignées sont soumises à une exploration « sous-optimale » (3) suite à la génération de nouveaux modèles, les améliorations observées permettent de bloquer de proche en proche les régions bien alignées. L’exploration ciblée d’une sous partie d’un alignement est déjà possible avec HmmKalign (cf article 2). Reste à élaborer l’algorithme qui permet de coupler l’évaluation

figure 33 : Procédure permettant de discriminer automatiquement les alignements corrects et incorrects. (1) Dans un premier temps, on paramétrise le HMM sur lequel on souhaite aligner la séquence cible. (2) A l’aide de la fonction HmmKalign, on produit κ alignements sous-optimaux. (3) Avec chacun de ces alignements, on produit plusieurs modèles par homologie. (4) Ces modèles sont évalués, et (5) on identifie le meilleur modèle, que l’on suppose provenir du meilleur alignement.

3.5.4 Adaptation de HmmKalign aux alignements HMM-HMM ?.

La fonction HMMKALIGN utilise l’algorithme de Viterbi généralisé permettant de trouver la meilleure façon d’aligner une séquence sur un HMM donné, et s’applique donc naturellement dans le cadre des alignements séquence-profil. Nous envisageons pour des travaux futurs d’implémenter ce même algorithme dans le cadre de certaines méthodes de comparaison profil-profil dont le formalisme sous-jacent est basé sur les modèles de Markov caché, comme HHPRED par exemple. Il nous faudra cependant attendre que les codes sources de ces programmes soient librement distribués.

Chapitre 4 : Détection des sites de liaison des