Identification de superfamilles protéiques par dominance directe

L’un de nos objectifs a été de réduire le temps de calculs global tout en maintenant les performances de la méthode et son exactitude, pour cela nous utilisons la propriété de bornes d’A_purvaqui, pour chaque temps de comparaison, retourne deux valeurs encadrant avec certitude le nombre maximal de contacts communs entre les cartes de contacts considérées. Nous ajoutons également la notion de dominance entre instances.

3.2.1 Dominance exacte et dominance directe entre instance

Soient q, un domaine structural requête, T = {t1, t2, . . . , tn} un ensemble de domaines

structuraux et S : q × T →_R+ une fonction de score. La dominance exacte a déjà été implicitement introduite dans la section précédente, en effet, on dit qu’une instance (q, ti)

domine exactement une instance (q, tj) si s(q, ti) > s(q, tj).

Définition 3.1 (Dominance exacte). Soient deux protéines ti et tj ainsi qu’une protéine

requête q et un score de similarité s. On dit que ti domine tj selon q si et seulement si :

s(ti, q) > s(tj, q) (3.1)

Le plus proche voisin correspondait donc à l’instance dominant exactement toutes les autres, ce quelque soit la fonction de score S.

A partir de maintenant, S doit admettre pour toute instance q, tideux bornes s(q, ti)

ets(q, ti) telles que :

s(q, ti) ≤ s(q, ti) ≤ s(q, ti) (3.2)

Lorsque l’instance q, ti est résolue, on a :

s(q, ti) = s(q, ti) = s(q, ti) (3.3)

Les propriétés du score définies par les équations 3.2,3.3 permettent de définir la notion de dominance directe entre deux instances (q, t_i), (q, t_j).

Définition 3.2. Dominance directe entre instances Soient q, ti, tj trois structures et s

un score aux propriétés 3.2,3.3. L’instance (q, t_i) domine l’instance (q, t_j) si et seulement si :

s(q, ti) ≥ s(q, tj) (3.4)

3.2.2 Insertion de la dominance dans le protocole d’identification des superfamilles

Le précédent protocole, exhaustif, nécessitait de résoudre l’ensemble des instances avant de pouvoir déterminer le plus proche voisin (NN). L’insertion de la dominance ôte ce besoin car permet d’élaguer au fur et à mesure les instances dominées. Ainsi, ne sont résolues que les instances pour lesquelles la dominance ne peut être établie. On introduit donc dans ce nouveau protocole un paramètre de temps u qui va limiter la durée accordée à la résolution d’une instance, ainsi, à la fin du temps imparti, si l’instance n’est pas résolue, les bornes du scores seront retournées et permettront l’élaguage par dominance. L’utilisation de la dominance directe accélère la résolution du problème FIP de la manière suivante (résumée par l’algorithme 3.2.2) :

1. Toutes les instances (q, ti) sont initialisées dans une queue I. Le paramètre temps

Algorithm 2 Algorithme de recherche du plus proche voisin (NN) par dominance directe

function main

q, T = {t1, ..., tn} . domaine requête, ensemble de domaines cibles

u . temps de calcul restreint

I = {(q, t1) : [s(q, t1), s(q, t1)], (q, t2) : [s(q, t2), s(q, t2)], . . . , (q, tn) :

[s(q, t_n), s(q, t_n)]} . Ensemble des instances initialisées while |I| > 1 do

s(q, ti), s(q, ti) = compute_score(q, ti, u)∀Ii∈ I . Calcul des instances pour

un temps d apply_dominance(I) increase d end while return N Ni = I[0] end function function apply_dominance(I)

max = max(s(q, ti)), (q, ti) ∈ I . recherche du meilleur score atteint

for (q, ti) ∈ I do

if s(q, ti) < max then

remove_instance(I) . élagage de l’instance

end if end for end function

2. L’outil de comparaison calcule toutes les instances (q, ti), limitées par u et retourne

les scores s(q, ti), s(q, ti) correspondants.

3. L’instance ayant le meilleur s(q, ti) est considérée comme le plus proche voisin

temporaire (N N_t)et sert de base pour la dominance directe.

4. Les instances (q, t_j), t_j ∈ T telles que : s(q, t_j) < s(N N_t) sont retirées de la queue 5. Si la queue ne contient plus qu’une instance, alors le plus proche voisin est trouvé,

sinon les étapes 2,3 et 4 sont répétées en augmentant graduellement u.

3.2.3 Résultats de la méthode sur le jeu de données SHREC’10

Nous avons à nouveau résolu le problème d’identification des superfamilles (SFIP) pour les 50 domaines structuraux de SHREC’10 en utilisant le nouveau protocole. Soient Gi (respectivement Gj) la carte de contacts de la protéine ti (respectivement tj). L’outil

de comparaison est A_purva, il permet de calculer le score S_sum(G_i, Gj) = 2×CM O(G_|E_i_|+|E_ji,G_| j)

Le paramètre de temps a été initialisé à 2 secondes puis augmenter à 10 et 50 secondes ce qui donne les résultats du tableau .

Table 3.2 – Résolution du problème FIP en utilisant la dominance directe avec A_purva Pour chaque temps limite, le nombre d’instances calculées, le nombre d’instances domi- nées, le nombre d’instances restantes et le nombre de requêtes assignées au sein de la classification de SHREC.

Temps limite (s) # instances # instances dominées # instances restantes # requêtes assignées

2 50 000 49 721 229 43/50

10 229 227 2 48/50

50 2 2 0 50/50

Le temps total de calcul s’élève à présent à moins de 29 heures (contre plus d’un an avec le protocole exhaustif), ce tout en maintenant la qualité des résultats (46 des cinquante requêtes ont été correctement prédites, tout comme précédemment).

3.2.4 Discussion, critique et pistes envisagées

Deux critiques majeures s’imposent concernant ce protocole : tout d’abord même avec un élagage efficace, toutes les instances sont au minimum calculées une fois pour un laps de temps réduit. Ensuite la qualité de prédiction du protocole en utilisant le score de A_purvaest bonne mais peut être améliorée, par conséquent nous avons cherché d’autres mesures basées sur CMO.

Plusieurs pistes ont été évoquées, la première concerne l’élagage avant résolution de certaines instances en calculant un score dit trivial.

Borne triviale de CMO

Soient deux domaines structuraux modélisés sous forme de cartes de contacts par leurs graphes respectifs G_i = (V_i, Ei) et Gj = (Vj, Ej). V étant l’ensemble des som-

mets (correspondant aux résidus du domaine) et E l’ensemble des contacts réperto- riés dans le domaine. Notre protocole se basant sur la mesure CMOet la maximi- sation de nombre de contacts communs (CM O(G_i, Gj), nous savons d’emblée que,

CM O(Gi, Gj) ≤ min(Ei, Ej). Le nombre de contacts communs ne peut effectivement

pas excéder le nombre de contacts présents dans la structure en comptant le moins. Donc, sachant cela nous pouvons d’ors et déjà affecter une valeur à la borne supérieure de CM O : UB que nous nommons UBtrivial.

UBtrivial= min(Ei, Ej) (3.5)

Cette borne va pouvoir servir à calculé un score trivial : s(Gi, Gj)trivial =

2 × UBtrivial

|Ei| + |Ej|

(3.6) A partir de ce score, une fois le début des résolutions lancés, les instances non calculées mais bornées vont être potentiellement élaguées. Ainsi certaines instances ne seront pas du tout résolues mais à partir de ce score trivial seront élaguées.

Caractérisation de l’espace des protéines

Le problème d’identification des superfamilles suggère une classification initiale connue, invariable ou presque. Par conséquent, nous avons cherché à utiliser cette connaissance en calculant de prime abord des scores entre domaines d’un même groupe au sein de la classification puis cherche à déterminer si, à partir d’une mesure entre le domaine requête et l’un des domaines classés, il était possible de calculer sans passer par une résolution classique, le score de la requête avec un autre domaine en connaissant le score domaine-domaine. Cette recherche, décrite ultérieurement, a mené à une caractérisation de l’espace des protéines par une nouvelle mesure.

Recherche de scores et optimisation du protocole par vote

La volonté d’améliorer la qualité de prédiction du protocole ainsi que la recherche d’un score qui nous permettrait de caractériser l’espace des protéine a mené à l’utilisa- tion de la distance D_max définie dans le chapitre précédent. Ensuite, l’observation des résultats a montré que le plus proche voisin était souvent suivi par d’autres domaines issus de la même superfamille, par conséquent, une optimisation de l’algorithme envisagé est non pas de stopper les calculs lorsque le plus proche voisin domine les autres mais lorsqu’il ne reste dans la queue uniquement des domaines du même groupe.

3.3 Identification de superfamilles protéiques par domi-

Dans le document Similarités et divergences, globales et locales entre structures protéiques (Page 86-90)