• Aucun résultat trouvé

7.2 Utilisation de S hinobi N injas : modélisation d’une question biologique

7.4.2 Exemple : 1U42(A) versus 1U36(A)

Cet exemple, tiré de [102] illustre les différences entre alignements rigides (tmalign), hyperflexible(apurva), flexible (flexsnap) et mixte(shinobi). En effet, A_purva, alignant les structures selon une somme de similarités locales, détecte un bon alignement global (couverture de la structure requête à 100 % et un score de l’outil égal à 0.79, pour une variation allant de 0 à 1). Tmalign, qui est un outil séquentiel rigide, retourne une comparaison qui recouvre la requête à moins de 60 %,pour un RMSDc égal à 2.0Ået un TMscore= 0.53. FlexSnap qui lui est un outil dédié à la recherche de flexibilités sous forme de charnières au sein des structures protéiques a aligné 100 résidus (soit la quasi totalité des structures) avec un RMSDc associé de 0.89Åen insérant une charnière. De même notre outil SNa renvoyé deux alignements structuraux pertinents en premiers résultats : l’un comprenant 55 résidus pour un RMSDc de 0.55Ået l’autre de 45 résidus (RMSDc=0.81Å)

S hinobi N injas renvoie plusieurs alignements rigides avec de faibles déviations, l’association des deux meilleurs (cf figure couleur 1, couleur2 pour les différents aligne- ments) correspond à l’alignement global des deux structures. Il aligne chacune des parties séparées par la charnière.

7.5

Discussion

Ce chapitre montre que S hinobi N injas est un outil rivalisant, en terme de qua- lité, avec les autres outils disponible. Il est capable de détecter des alignements non- séquentiels mais également flexibles. La contrainte de superposition (τ ) garantit la faible déviation globale après superposition et donc un bon alignement.S hinobi N injas est un outil rigide qui permet de détecter des flexibilités en combinant les résultats d’une même instance.

Le nombre de résultats, d’alignements produits pour une même instance repose la question de l’alignement optimal. En effet, tous les alignements sortis sont géométri- quement bons. Une amélioration, un tri dans ces alignements va être effectué pour mi- nimiser le nombre de gaps dans l’alignement car ceux-ci sont considérés comme moins probables. Cela car un alignement hyperfragmenté sous entend une grosse recombinaison au sein des structures et à l’heure actuelle, aucune étude ne va dans ce sens. Par contre nous avons obtenus plusieurs alignements peu fragmentés pour une même comparaison et ainsi la question de l’alignement optimal ressurgit. Pour trancher entre ces aligne- ments deS hinobi N injas (entre eux et face à d’autres outils), nous avons implémenté S amourai , un outil qui, pour un alignement donné, calcule une dizaine de scores. Cela a montrer que nos outils détectaient des alignements structuraux bons quelque soit le score. Comparer ces scores pour une même instance, sans que les alignements aient été optimisés pour ces scores, montre les limites des méthodes actuelles. Chacune est opti- misée pour un score donné, ainsi une même comparaison peut donner des alignements, et donc des scores assez différents d’un outil à l’autre. La solution serait donc de choisir l’alignement qui est optimal pour un maximum de scores.

Mais, la comparaison des superpositions optimales associées à ces alignements montre une perspective différente : certaines méthodes convergent vers la même superposition. Cela impliquerait que l’alignement n’est qu’une variable soumise à une fonction de score, les méthodes ont détecté la même similarité mais l’expriment différemment. Cette étude manque de tests statistiques à plus grande échelle pour réellement conclure sur ce sujet mais observer les superpositions des méthodes existantes pourrait permettre de caté- goriser des méthodes différentes convergentes. Si cette hypothèse est avérée, il va être nécessaire de déterminer un nouvel angle d’approche pour créer l’alignement optimal à partir de la superposition. Une possibilité est de maintenir l’effet de seuil de déviation en sélectionnant toutes les paires de résidus à moins de τ Å et en cherchant au sein des ces paires l’alignement minimisant les sauts.

7.6

Résumé du chapitre

S hinobi N injas est un outil permettant de comparer deux structures protéiques en définissant une question biologique au préalable.

(a) (b) (c)

(d) (e) (f)

(g) (h) (i)

(j) (k) (l)

Figure 7.2 – Dispersion des scores des alignements issus de FlexSnap, MICAN, TMalign etS hinobi N injas ainsi que les scores basés sur les alignements de référence.

Les scores et valeurs suivantes sont à maximiser : ALI : longueur de l’alignement, MI : Score MI??, Qscore (??), TMscore ?? (TMP1/TMP2 : TMscore relatif à la longueur de la protéine P1 (resp. P2), TMmoy : TMscore relatif à la longueur moyenne des protéines), Normsim : Valeur de similarité normalisée ??, Seqid : pourcentage d’identité de séquence. Les valeurs de RMSDc ?? , RMSDd??, SI??, SAS?? sont considérées meilleures quand minimisées

Figure 7.3 – Distances inter-résidus après superposition du domaine d1a4pa_

Figure 7.4 – Dispersion des alignements et des RMSDc associés en fonction de l’outil de comparaison.

Figure 7.5 – Superposition des squelettes selon MICAN (Cα )(g) et S hinobi N injas (FG) (d)

Détection automatique de

répétitions structurales internes

au sein des protéines avec

K unoichi

8.1

Introduction

L’un des premiers résultats de S hinobi N injas fut un test de comparaison d’une protéine sur elle-même dans le but de vérifier que l’outil détectait correctement l’ali- gnement optimal d’une structure avec elle-même. Nous avons donc utilisé 2BNH,A, une protéine de de 456 résidus et l’avons comparé avec elle-même en nous basant sur ses Cα et récupéré les 40 meilleurs alignements. 17 furent supprimés car présentaient un pourcentage de gap supérieur à 50 %. Les autres furent intégrés à la matrice de la figure 8.1. On observe que, à 4.0Å, de nombreux résidus s’alignent avec une quinzaine d’autres résidus en plus d’eux-mêmes. La figure présente tout d’abord la diagonale qui correspond à l’alignement des résidus avec eux-mêmes. Cela montre que SN détecte bien le meilleur alignement d’une protéine avec elle même. Puis on remarque de nombreux alignements en parallèle. Ces alignements correspondent au motif répété qui compose la protéine solénoïde. A partir de ce constat, nous avons cherché à savoir si S hinobi N injas pouvait être utilisé dans le cadre d’un protocole de détection automatique de ces répétitions internes.

La comparaison d’une structure avec elle-même pour notre outil est une tâche longue, de plusieurs heures pour la version initiale deN injas (accélérée depuis), de plus s’est posé le problème de la découpe des alignements. En effet, un alignement ne correspond pas à un motif structural répété mais à une sous-structure présente deux fois. Cette sous- structure peut-être composée du motif seul mais les longs alignements sont composés, notamment dans le cas de l’exemple, par plusieurs motifs successifs. Le problème de la découpe des alignements étant encore un sujet ouvert, nous avons testé une version plus

simple de la détection de structures répétées avec une méthode naïve qui consiste à créer des motifs structuraux continus dans la séquence. Ces motifs servent de dalles et sont ensuite chaînés pour tenter de reconstruire la protéine selon une couverture donnée.

Figure 8.1 – Matrice modélisant l’apparition de paires de résidus alignés dans les ali- gnements de2BNH,A

Un point en position [i, j] de la matrice correspond à l’appariement des ièmeetjèmerésidus de la protéine.

Dans ce chapitre nous présentons une version simplifiée du graphe d’alignement, nommé graphe de dalles qui découpe une protéine en fragments continus et relie les fragments indépendants. Ce graphe est ensuite résolu pour y détecter tous les ensembles de dalles similaires correspondants à des répétitions internes.

Notre exemple filé 2BNH,A est une protéine inhibitrice de la ribonucléase chez le porc constituée de 456 résidus. C’est un solénoïde, plus précisément une protéine à répétitions riches en leucine, LRR (« leucine-rich repeats » ). Sa forme en fer à cheval (figure 8.4) se décompose en agencements d’hélices α et de feuillets β répétés. Nous avons sélectionné cette protéine pour illustrer ce chapitre car plusieurs résultats sont disponibles dans la littérature :

Parra et al. [95] ont dénombré 8 répétitions d’un élément contenant 57 résidus tandis que Murray et al. en ont trouvé entre 15 et 16 avec leur outil DAVROS [81] et à l’aide de l’outil ConSole de Hrabe et Godzik [53] nous avons détecté 15 répétitions de longueur 28 au sein de cette protéine.

Ces travaux ont donné lieu à une publication dans la conférence JOBIM 2015 [70] (publication numéro 2.).

8.2

Modélisation simplifiée d’un protéine : Graphe de dalles