Détection de répétitions structurales internes aux protéines

Le problème de détection des répétitions structurales est un peu différent du problème précédent (la comparaison de deux structures différentes) puisqu’ici c’est une étude locale de la même protéine. Ces répétitions peuvent s’observer au niveau de la séquence lorsque celle ci n’a pas trop évolué, d’où l’apparition d’outils de détection de séquences répétées tels que REPRO [35] ou IRIS [58] ou encore T-REKS [56]r les répétitions en tandem. La fiabilité de ces méthodes est étroitement liée à la conservation primaire des motifs structuraux, plus la similarité de séquence entre motifs diminuera (soit plus les séquences divergeront), moins ces méthodes seront fiables. Or l’identité de séquence entre motifs peut être relativement faible (˜15%) ce qui a justifié le développement d’outils de détection de répétitions basé sur la structure tertiaire tels DAVROS [81], SWElFE [1], ConSole [53], PRIGSA [24] ou encore l’outil de dallage (« tessellation » ) de Parra et al. [95].

Nous avons principalement orienté nos études vers l’outil de Parra [95] car notre méthodologie est assez proche de la leur. En effet, ils commencent par rechercher des alignements locaux partiels à partir de fragments continus qu’ils nomment tuiles. Toutes les tuiles possibles sont créées, de la tuile contenant la protéine entière aux tuiles de longueur 1. Chaque longueur de tuile correspond à un niveau indépendant, ainsi l’outil effectue les étapes suivantes pour toutes les tailles de tuiles. Ils utilisent ensuite ces tuiles comme requêtes dans l’outil TopMatch[109] qui retourne l’ensemble des sous-structures de la protéine qui s’alignent bien avec la tuile en les triant selon le score de TopMatch. Ces alignements permettent de trouver ensuite le plus grand ensemble de tuiles similaires recouvrant la protéine.

4.8 Discussion

L’alignement de structures protéiques de manière séquentielle est encore très utilisé car concerne une majorité des comparaisons de structures mais on connaît aujourd’hui l’étendue de la variété des alignements. TMalign reste l’une, voire la référence en terme de comparaison de structures, cette heuristique rapide fournit de très bons résultats et est ainsi un outil de référence pour tester la puissance des nouveaux outils. Les cas où TMa- lign "se trompe" sont les cas de permutations circulaires et les cas de grandes flexibilités. Et même dans ces cas, on ne peut pas vraiment parler d’erreur puisqu’il s’agit de cas que l’outil n’est pas conçu pour détecter. Les cas de permutations circulaires et de charnières ont été découverts bien plus tard que les cas "standards", cela explique le faible nombre d’outils disponibles. Néanmoins les outils actuels montrent l’intérêt de la communauté

pour ces cas et les différentes études ajoutent de plus en plus d’exemples à ces types de comparaisons. Les cas de permutations circulaires notamment apparaissent de plus en plus. MICAN [80] est une heuristique assez puissante qui a montré de bons résultats sur ses jeux de données test notamment (MALIDUP, MALISAM), ce qui nous a poussé à la sélectionner pour nos comparaisons. Néanmoins nous avons fait une étude compa- rant les résultats de manière purement géométrique (longueur de l’alignement/RMSDc) sur MALIDUP-NS (non séquentiel) de différents outils (GANGSTA, CECP, MICAN, SANA, nos outils). Cette étude montre de meilleurs résultats pour SANA sur ce jeu de données mais cela pose la question de la pertinence de la question : est-ce qu’avoir le plus long alignement avec le plus faible RMSDc correspond au meilleur alignement ? Nous tenterons de répondre à cette question dans le chapitre dédié aux applications. Ce chapitre avait pour but de présenter une partie de l’état de l’art et plus particulièrement les outils d’alignements que nous avons utilisé pour nous comparer nos outils et trouver des pistes d’améliorations au sein des méthodes existantes. FlexSnap et l’outil de « tiling » (découpe en tuiles) montrent la pertinence de décomposer une comparaison de structures en petits alignements locaux robustes, TMalign et MICAN l’utilité des outils basés sur un alignement rigide de structures. La tendance qui se dégage est la modélisation de la flexibilité par la présence de point de charnière dans les alignements. Le relâchement de la contrainte de séquentialité est également un point important dans les nouveaux outils, que ce soit CECP (une modification de CE pour intégrer cet aspect non séquentiel), GANGSTA ou encore MICAN.

En conclusion nous avons des outils de comparaison qui nous permettent de détecter un grand nombre de cas différents d’alignements de structures et nous espérons ainsi avoir un aperçu global des capacités de nos outils.

4.9 Résumé du chapitre

Ce chapitre a permis d’observer l’état de l’art en matière d’outils de comparaisons de structures. Les premiers outils sont limités par la contrainte de linéarité de la séquence protéique, TM-Align n’en reste pas moins l’un des outils les plus utilisés. Depuis, des outils de comparaisons comme MICAN détectent ces permutations de séquences et en- globent donc les cas de permutations circulaires. En revanche MICAN est un outil rigide, par conséquent les cas de charnières ne sont pas détectés. Les algorithmes de chaînages de fragments comme FlexSnap détectent ces charnières et retournent des alignements non-séquentiels. Enfin il existe aussi des outils dédiés à la comparaison de structures face à elles-mêmes comme DAVROS. Nous avons une observation non exhaustive de l’état de l’art qui nous a permis de sélectionner trois outils : TM-Align, MICAN et FlexSnap. Chacun symbolise une catégorie d’alignements (séquentiel, non-séquentiel, flexible) et ils vont nous permettre de comparer nos résultats aux leurs afin de comprendre et d’évaluer la pertinence des alignements structuraux renvoyés par nos outils.

Recherche d’éléments similaires

par comparaison d’objets 3D

modélisés dans un graphe

Ce chapitre est consacré à la présentation de N injas , un module de parcours de graphe qui recherche des pseudocliques (cf définition 5.7) à partir de graines (définition 5.5) au sein d’un graphe d’alignement (définition 5.3). Les premiers résultats liés à ce chapitre ont fait l’objet d’une publication dans [26].

5.1 Graphe d’alignement de deux objets 3D

Soient A et B deux ensembles de points représentants deux objets 3D dans un espace euclidien tri-dimensionnel. Leur analogie sera effectuée dans ce mémoire à travers un graphe d’alignement G = (VG, EG) avec VG l’ensemble des sommets et EG l’ensemble

des arêtes de G (définition 5.3), dont la construction sera décrite formellement dans le chapitre suivant .

5.1.1 Sommets du graphe d’alignement

Chaque sommet vp,p0 ∈ V_G correspond à l’appariement d’un point p de A avec un point p’ de l’ensemble B. La création du sommet v_p,p0, dépend de la propension des points p ∈ A et p0 ∈ B à se coupler et nous la définissons ici par la compatibilité de sommet (définition 5.1). VG représente donc l’ensemble des appariements compatibles

entre paires de points issus respectivement de A et de B.

Définition 5.1 (Compatibilité de sommet, ou compatibilité d’une paire de points). Un sommet vp,p0 est dit compatible si les points correspondant peuvent s’appareiller.

Cette définition caractérise le graphe qui ne contient donc que les sommets compatibles, ce qu’illustre la figure 5.1.

Figure 5.1 – Sommets du graphe d’alignement G = (VG, EG), ensemble des apparie-

ments possibles entre deux ensembles de points A et B.

VG= {ai, bj; ai, bk; aj, bi; aj, bj; ak, bk; ak, bk}

Les sommets indiqués par une croix ne sont pas compatibles ; à l’inverse : un sommet indiqué

aj, bj est compatible

Remarque 5.1. La compatibilité de sommet est relative à la nature des points considé- rés et traitée en amont de ce module. Nous négligeons donc dans ce chapitre les critères qui ont autorisé les sommets et utilisons ces sommets tels quels. La définition et l’emploi des critères sont décrits dans le chapitre consacré à S hinobi (chapitre 6).

5.1.2 Arêtes du graphe d’alignement

Une arête e ∈ EG existe entre deux sommets v, w ∈ VG si et seulement si les som-

mets respectent des critères spécifiques. Nous nommons cela la compatibilité d’arête (cf définition 5.2), elle correspond à la possibilité de créer ou non une arête dans le graphe selon la paire de sommets considérée.

Définition 5.2 (Compatibilité d’arête ou compatibilité d’une paire de sommets). Une arête ev,west dite compatible si et seulement si les sommets correspondants (v,w) peuvent

se lier.

A l’instar des sommets, le graphe ne contient que les arêtes dites compatibles (cf figure 5.2). Les critères de compatibilité sont divers mais chaque arête du graphe pré- sente par construction deux propriétés relatives à des mesures de distance (mesurée ici en angströms) décrites ci-dessous.

Soient quatre points a(xa, ya, za), a0(xa0, y_a0, z_a0) deux points issus de l’ensemble A et b(xb, yb, zb) et b0(xb0, y_b0, z_b0) deux points issus de l’ensemble B. Et soient deux sommets va,b et wa0_,b0 ∈ V_G du graphe d’alignement G(A, B). L’arête e_v,w ∈ E_G possède les propriétés suivantes :

Figure 5.2 – Construction des arêtes du graphe d’alignement G = (VG, EG) une arête dans le graphe est fonction de la compatibilité entre paires de points dans les ensembles A et B, ici la compatibilité est symbolisée par la présence d’arêtes entre les points. Une arête dans le graphe existe si les paires de points correspondantes sont reliées par des arêtes. Ici, le critère de création d’une arête est la différence de distances (placées sur les arêtes des graphes de structures en abscisse et ordonnées). Si la différence entre les distances est supérieure à λ(= 1) alors les paires de sommets ne sont pas compatibles et l’arête n’existe donc pas.

à une valeur seuil ζ (équation 5.1).

dist(va, wa0) ≤ ζ (resp. dist(v_b, w_b0)) (5.1) — les distances entre paires de points issus du même ensemble sont identiques avec

une erreur λ (équation 5.2)

|dist(va, wa0) − dist(v_b, w_b0| ≤ λ (5.2) En résumé, une arête entre deux sommets de G(A, B) signifie (entre autres) que les paires de points issues de A et B considérées ont une distance identique plus ou moins λÅet que leurs distances n’excèdent pas ζÅ. Par conséquent ce que l’on nomme la compatibilité d’arête, c’est à dire la compatibilité d’une paire de sommets correspond à la compatibilité de paires de couples de points.

Remarque 5.2. Tout comme les critères de compatibilité de sommet, les valeurs ζ et λ sont choisies lors de la création du graphe et ne sont donc pas discutées ici.

5.1.3 Définition du graphe d’alignement

Les définitions précédentes (5.1, 5.2) permettent de définir le graphe d’alignement de manière générique comme suit.

Définition 5.3 (Graphe d’alignement.). Le graphe d’alignement de deux ensembles de points G(A, B) = (V_G, EG) est un graphe non-orienté dont les sommets v ∈ VG modé-

lisent l’ensemble des compatibilités entre paires de points issus de A et B respectivement et dont une arête e ∈ EG entre deux sommets v, w ∈ VG existe si les sommets sont

compatibles.

5.2 Graphe implicite du graphe d’alignement ou graphe de

Dans le document Similarités et divergences, globales et locales entre structures protéiques (Page 120-125)