Recherche orientée de répétitions structurales au sein des protéines

La recherche de répétitions est ici restreinte à la recherche d’une dalle, qui, répétée x fois, va constituer la protéine. Par conséquent, à la taille des dalles et au nombre de répétitions s’ajoute un troisième paramètre : la couverture C.

Définition 8.5 (Couverture (des dalles)) La couverture est la proportion de la protéine que l’ensemble de dalles similaires doit constituer.

La couverture sert à donner un certain de tolérance à l’algorithme. Cela laisse la possibilité qu’une répétition ait été dégradée, qu’il y ait une petite flexibilité dans les motifs ou tout simplement que la protéine ne soit pas entièrement constituée d’un unique motif répété.

Le protocole de recherche orientée s’applique dans un contexte où l’on connait par avance le nombre de répétitions (R) recherchées( via la littérature ou encore un outil), il est éga-lement nécessaire de fournir le pourcentage minimal de recouvrement (C) de la protéine attendu.

8.5.1 Méthode

Le protocole utilise en premier lieu la longueur de la protéine, le nombre de répétitions re-cherchées et le pourcentage minimal de recouvrement pour calculer un intervalle de longueurs de dalles candidates. La longueur des dalles k est contrainte par l’inégalité suivante :

d^{C ∗ N}

R ^{e ≤ k ≤ b} N

R^c ^(8.2)

avec k = dN/Re la longueur maximale que la dalle correspondant à l’unité répétée peut atteindre et k = ^C∗N_R la longueur minimale des dalles pour couvrir C% de la protéine une fois assemblés. Le protocole lance Kunoichisuivi du solveur et du module d’analyses pour la taille de dalle la plus élevée et en cas d’absence de solution recommence en diminuant la longueur du dalle jusqu’à obtention d’une solution ou avoir parcouru l’ensemble des longueurs de dalles possibles comme le montre l’agorithme 6.

8.5.2 Résultats de la recherche orientée

Nous nous sommes basé sur les résultats préliminaires de ShiNi sur 2BNH,A qui mon-traient 15/16 répétitions et la littérature qui en dénombrait huit ([95]) pour définir notre paramètre R. De même nous avons défini la couverture minimale )à 80% et une valeur de RMSDc τ variant entre 3.0 et 5.0Å.

Algorithme 6 Recherche simple de répétitions avec Kunoichiet un solveur

Require: R . Nombre de répétitions recherchées

Require: P (N ) . Une protéine de taille (N )

Require: τ . valeur limite de RMSDc entre dalles autorisée k_max = ^N_R . Taille maximale des dalles autorisés kmin = ^C∗N_R . Taille minimale des dalles autorisés for k = k_max; k ≥ k_min; k − − do

graphe_courant=Kunoichi(P, R, τ, k) ; . Création du graphe de dalles avec Kunoichi . Recherche de toutes les cliques (all) maximales (max) de taille au moins égale à R (R) dans le graphe courant

clique_set=(solve(all, max, R, graphe_courant) . stockage des cliques trouvées if is_empty(clique_set) == false then

return clique_set and k ; . retourne les cliques trouvées pour une taille de dalle k else

continue ; end if end for

Table 8.1 – Recherche orientée de répétitions chez 2BNH,A

Nb répétitions τ (Å) Couverture (%) Nb résultats trouvés Taille de dalles

8 3.0 80 0

-8 4.0 80 1 48

8 5.0 80 2 55

15 3.0 80 9 27

16 3.0 80 2 24

La recherche de 8, 15 et 16 répétitions avec Kunoichi(via l’algorithme simple 6) a retourné les résultats décrits dans le tableau 8.1. Les résultats montrent qu’avec un seuil τ = 3.0Å, Kunoichine trouve aucune clique, aucun ensemble de dalles recouvrant au moins 80% de la structure. En revanche, si on augmente ce seuil à 4.0Å, Kunoichitrouve une dalle, de longueur 48 (soit composée de 48 résidus successifs), correspondant à ces critères.

Le nombre de répétitions et la couverture définissent un intervalle discret de taille de dalles. Pour 15 répétitions, cet intervalle varie entre 30 et 25. Les premières recherches à 3.0Å (pourk = 30, 29, 28) furent infructueuses mais pour k = 27 le protocole a bien trouvé 15 dalles superposables à 3.0Å visualisées sur la figure 8.4.

On remarque qu’avec un seuil de RMSDc de superposition de dalles assez faible (3.0 Å), Kunoichine retrouve pas les résultats de Parra et al. (8 répétitions), cependant, en augmentant ce seuil d’un point les résultats concordent mieux même si la longueur de dalles continue à différer (57 pour [95] contre 48 pour nous). Cela s’explique par une flexibilité plus importante de leur outil, flexibilité que Kunoichipeut exprimer si l’on augmente son seuil de

Figure 8.4 – Représentation des 15 dalles au sein de 2BNH.

En dégradé du bleu au rose sont représentés les dalles (un par couleur), en beige on retrouve les résidus qui n’appartiennent à aucune répétition.

superposition.

Et en effet si le seuil est placé à 5.0 Å la longueur de dalles obtenue est de 55 résidus. De même lors de la recherche de 15 et 16 répétitions au sein de la structure.

On notera que dans plusieurs cas, Kunoichiretrouve plusieurs résultats, la figure 8.5 montre les différents pourcentages moyens d’identité de séquence et de structure secondaire pour chaque résultat. Au niveau des structures secondaires, le pourcentage moyen est entre 75 et 78% tandis que les pourcentages moyens d’identité de séquences sont faibles (environ 30%). Les résultats sont très similaires, au niveau des valeurs, le numéro 7 a un SSE_id = 74.62% (contre 74.52% pour les deux résultats suivants) et un Seq_id = 29.45% ce qui en fait le meilleur selon notre protocole et ce bien que son pourcentage moyen d’identité de séquence ne soit pas le plus grand.

8.5.3 Discussion

La principale faiblesse de cet algorithme (discutée plus longuement dans la section 8.6.3) est la nécessité de connaître à l’avance le nombre de répétitions recherchées. C’est un gros point noir car dans une utilisation concrète il est impossible de connaître à l’avance le nombre de répétitions recherchées. Mais ce protocole avait pour but de tester les performances, en terme de qualité de résultats, de la construction et de la résolution du graphe. Et dans ce cadre, les résultats sont encourageants, la recherche de cliques dans un graphe de dalles permet de retrouver le motif structural répété composant la protéine.

En conséquence, nous avons conservé la base de cet algorithme en relâchant la contrainte causée par le nombre de répétitions via un algorithme de détection de novo de répétitions.

Figure 8.5 – Analyse des neuf cliques trouvées chez 2BNH,A Avec tau = 3.0Å, une couverture = 80% et un nombre de répétitions égal à 15. Les pointillés noirs correspondent aux résidus appartenant à chaque clique.

8.6 Détection de novo de répétitions dans les structures

Dans le document Similarités et divergences, globales et locales, entre structures protéiques (Page 163-166)