• Aucun résultat trouvé

Nos expérimentations ont montré qu’utiliser la mesure max-CMO avec un proto- cole exact et une mesure de distance métrique permettrait de correctement prédire la famille d’un domaine structural de manière automatique et efficace. L’introduction des dominances dans les protocoles diminue le temps global moyen nécessaire pour qu’un domaine requête soit assigné à une superfamille. Nos évaluations sur des jeux de don- nées dont la taille se rapproche de celles des classifications hiérarchiques existantes a servit à estimer la pertinence d’un tel protocole en conditions réelles. Les études sur le nombre de plus proches voisins (kNN) tendent à montrer qu’il vaut mieux choisir le plus proche voisin. Mais les cas de mauvaises prédictions persistent et nécessitent une étude plus poussée pour déterminer le point de faiblesse. En conclusion les résultats obtenus montrent que la version actuelle du protocole est assez fiable et rapide pour être utilisée par la communauté. Il reste encore des améliorations à intégrer, notamment pour détecter automatiquement qu’un domaine a été mal assigné. A défaut de connaître

la bonne superfamille, cela permettra au moins de connaître le cas d’erreur et de sou- mettre le domaine à d’autres protocoles utilisant une autre méthode de comparaison de structures.

3.6

Résumé du chapitre

Ce chapitre fut dédié à la présentation des notions de dominances entre instances, une instance étant la comparaison de deux structures, dans un but d’assignation d’une struc- ture à une famille/superfamille protéique. Le protocole standard d’assignation nécessite de comparer un domaine structural requête à tous les domaines de la classification. Les dominances permettent de restreindre ce nombre de comparaisons tout en garantissant de n’élaguer que des domaines ne pouvant prétendre à influer sur l’assignation. Les mé- thodes initiales sont basées sur un score de similarité mais nous avons introduit une mesure de distance, qui est une métrique et permet ainsi d’utiliser des relations fortes comme l’inégalité triangulaire. Elle permet aussi de caractériser l’espace des protéines.

Nous avons présenté différents protocoles intégrant les différentes notions de do- minances exactes, directes et indirectes entre instances ainsi que la dominance entre superfamilles protéiques.

Comparaison fine de structures

protéiques, alignements

structuraux

structures

Comparer deux structures protéiques, c’est avant tout comparer deux objets tri- dimensionnels. Il s’agit donc de comparer deux ensembles de points dans l’espace. Ce- pendant, lorsque l’on s’intéresse aux protéines, plus exactement à leurs fonctions, il faut ajouter une étude de la biochimie des structures afin de parvenir à une analyse complète. C’est pourquoi le coeur de cette thèse est composé de deux aspects représentés par deux modules : S hinobi et N injas . S hinobi modélise une question biologique dans un graphe d’alignement tandis que N injas compare deux ensembles de points dans l’espace tri-dimensionnel (3D) modélisés par un graphe d’alignement.

Ensuite se pose la question de la pertinence de l’alignement obtenu. Dans la partie précédente on cherchait à mesurer, à capter une similarité entre deux structures. Dans cette partie on cherche à comprendre les alignements, la manière dont les outils captent les similarités et les traduisent dans leurs alignements. On verra notamment que deux outils retournant des alignements différents peuvent avoir capté la même similarité mais l’exprimer différemment.

Cette partie se divise en plusieurs chapitres : un état de l’art ayant permis de choisir des outils portant sur différents aspects de la comparaison de structures, quatre chapitres portés sur nos méthodes : la recherche d’éléments similaires ou divergents entre deux protéines correspondants à des alignements structuraux ainsi qu’une discussion générale sur la qualité des alignements et les poursuites d’études à effectuer pour obtenir une analyse globale.

Nous avons utilisé un outil présenté dans la section précédente : S amourai , qui permet de calculer de nombreux scores pour un alignement donné, cela nous permet de comparer deux alignements mais également de noter les divergences entre les scores. Comme écrit précédemment nous présenterons ici nos outils nous ayant permis de tester nos différentes hypothèses et méthodes :

— Comment modéliser la comparaison de deux structures en faisant ressortir des caractéristiques à la fois géométriques et physico-chimiques ?

Nous avons choisi d’utiliser le formalisme des graphes qui permet d’ajouter au mo- dèle de base (un graphe étant initialement un ensemble de sommets et d’arêtes) des propriétés de tout type.

S hinobi ("l’homme ninja") va modéliser les structures protéiques dans un graphe 81

en tenant compte des informations intégrées issues de la séquence et des structures secondaires pour optimiser le graphe créé et répondre au mieux à la probléma- tique.

— Comment détecter des éléments communs à deux structures protéiques ?

Le graphe créé contient ces informations qui, après détection, constituent des alignements structuraux. N injas , qui parcourt le graphe créé par S hinobi et renvoie des pseudocliques. Ces pseudocliques correspondent à de nombreux alignements pour une comparaison donnée, ce qui soulève la question du meilleur alignement et des alignements alternatifs.

— Comment détecter les protéines solénoïdes ? Comment trouver un motif structural qui, répété x fois, recouvre une protéine ?

Toujours avec une modélisation par un graphe, représentant non plus une protéine comparée à une autre mais face à elle-même, nous recherchons ici des ensembles d’alignements structuraux tous similaires. Dans un graphe, ils correspondent à une clique, non plus à une pseudoclique. K unoichi ("la femme ninja") utilise des principes des deux outils précédents pour rechercher des répétitions internes au sein des structures protéiques

— Comment trouver des divergences au sein de structures fortement similaires ? L’alignement des structures n’est plus ici la finalité mais le point de départ de l’analyse, à partir de la superposition en 3D des structures, on cherche à iden- tifier et caractériser toutes les fonctions biochimiques d’une structure à l’autre. Implémentation au sein deDaijinushi ("l’écuyer"), une extension Chimera.

Outils pour l’alignement 3D de

protéines

4.1

Introduction

L’analyse locale, par comparaison à la comparaison globale de protéines, se focalise sur les sous-structures similaires mais surtout sur la compréhension de ces similarités avec une étude affinée. Là où une comparaison globale va conclure que deux protéines sont similaires à mettons 70%, l’analyse locale va identifier les sous-structures impliquées précisément. De plus, les comparaisons locales ont également pour but la détection des sous-structures « importantes » comme les sites de liaisons ou les sites catalytiques des protéines. Enfin, ces analyses ont pour but la mise en évidence des mouvements de struc- tures, qu’ils soient dûs à des charnières ou bien à permutations de structures. Certaines analyses ont également été dédiées à la recherche des répétitions internes chez les pro- téines. Les sections suivantes présentent les principaux algorithmes d’alignements ainsi qu’une discussion autour des modèles utilisés pour représenter les protéines ainsi qu’une réflexion centrée sur le sacro-saint RMSDc. Il existe de nombreux outils d’alignements structuraux, et presque chaque outil a sa propre fonction objectif. Les premiers ont maintenant plus de vingt ans et de nouveaux apparaissent régulièrement sans qu’aucun ne devienne la référence dans la communauté scientifique. C’est à la fois un bon point car la recherche avance toujours plus, les alignements réputés difficiles mettent à rude épreuve les outils qui évoluent et l’on s’aperçoit qu’à défaut d’avoir un outil capable de résoudre l’ensemble des cas, beaucoup d’outils résolvent chacun un cas. Une avancée notable dans l’évolution des algorithmes est la prise en considération de l’indépendance de la structure par rapport à la séquence : les structures étaient initialement considérées linéairement et qu’il suffisait de trouver le meilleur alignement structural en « suivant » l’ordre d’apparition des acides aminés le long de la séquence (de l’extrémité N-terminale à l’extrémité C-terminale). Ce postulat a mené à ce que l’on a nommé les alignements ordre-dépendants ou alignements séquentiels . La découverte des permutations circu- laires au sein de certaines protéines a mis à mal ce postulat et la plupart des outils d’alignements structuraux séquentiels (notamment ceux qui contraignent leur modèle

avec ce critère de suivi de la séquence et qui ont optimisé leurs algorithmes en fonction). Car si les nouveaux algorithmes, ordre-indépendants ou non-séquentiels traitent indiffé- remment les deux cas, les algorithmes séquentiels ne retournent qu’un alignement partiel correspondant à la plus longue sous-structure linéaire trouvée.

Les alignements structuraux ne prennent généralement en considération que le car- bone central (Cα ) de chaque acide aminé, réduisant les protéines à des ensembles de points ordonnés. Initialement, chaque résidu d’une protéine peut être aligné avec n’im- porte quel autre résidu de la seconde protéine mais certains outils réduisent ces possibi- lités en se basant sur des critères d’appariements basés sur les structures secondaires ou des cartes de contacts ou encore des motifs d’interactions [37]

Ce chapitre présente les grandes catégories d’algorithmes de comparaison d’une paire de structures de manière non-exhaustive avec leurs caractéristiques, leurs forces et leurs faiblesses. Nous avons sélectionné et décrit plus en détail quelques outils repré- sentatifs : A_purva(présenté dans la partie précédente), TM_Align[126],MICAN [80], FlexSnap[102] et PROBIS [63] et observer leurs résultats sur différentes instances issues de la littérature. Ces méthodes ont des scores différents, présentés en section 2.3 si bien qu’il est difficile de comparer leurs résultats.

4.2

Alignements séquentiels basés sur la minimisation des