Résumé du chapitre - Similarités et divergences, globales et locales entre structures protéique

Cet état de l’art débute par la présentation de deux bases de données hiérarchi- sées de domaines structuraux dans lesquelles nous allons essayer d’introduire de manière automatique et sans erreur de nouveaux domaines. CATH et SCOP sont deux classifications hiérarchiques des domaines structuraux largement utilisées, elles concordent sur la classification d’une majorité de domaines ce qui tend à conforter leurs classifications respectives.

Ce chapitre présente également quelques uns des nombreux scores de similarité qu’il est possible de calculer pour entre deux structures et pose la question de déterminer le meilleur d’entre eux. Ces scores tendent à mesurer la similarité entre deux protéines selon différents critères structuraux ce qui les rend difficiles à comparer. Nous avons développé un outil qui évalue ces scores pour un alignement donné, à défaut de déterminer le meilleur score, il va nous être possible d’observer le comportement de ces scores en fonction de la paire de structures initialement comparée.

Nous avons également présentéS amourai , un petit outil de calcul de ces scores à partir d’un alignement donné.

Figure 2.1 – Protocole d’identification de nouveaux domaines structuraux et assignation à une famille structurale.

Figure 2.2 – Représentations d’une protéine par une carte de contact, (a) sous forme de matrice binaire avec 1 : contact, 0 sinon (à gauche) ou (b) sous forme de graphe (à droite.)

Résolution du problème

d’identification de la superfamille

structurale d’un domaine

protéique

Ce chapitre est dédié à la présentation d’un protocole d’identification qui utilise les propriétés d’A_purva??, un outil de mesure de similarités exact, pour identifier le plus proche voisin (« Nearest Neighbour » , noté N N ) d’un domaine sans que la totalité des comparaisons soient effectuées jusqu’à optimalité. Nous présenterons tout d’abord le protocole initial, naif, incluant le calcul de toutes les instances à la comparaison linéaire de leurs scores puis nous proposerons ici la notion de dominance entre instances, où une instance réfère à une comparaison entre deux domaines. Nous montrerons également précision de la méthode en terme de prédiction de superfamille structurale. La dominance permet d’élaguer un certain nombre d’instances qui, même une fois résolues, n’auront pas une similarité suffisante pour que leurs domaines cibles soient les plus proches voisins de la requête. La dominance diminue drastiquement le nombre de comparaisons à effectuer tout en conservant le caractère exact.

3.1 Méthode exhaustive ou « one to al l »

Les scores utilisés dans ce chapitre sont commutatifs : s(A, B) = s(B, A) Soit q un domaine structural requête et T = {t₁, t2, . . . , tn} un ensemble de domaines structuraux

cibles issus d’une base de données hiérarchique et Sq×T →_R+une fonction de similarité qui associe à toute instance (q, ti), ti ∈ T , un score de similarité s(q, ti). La recherche

exhaustive, nommée méthode « one to all » , du plus proche voisin de la requête q consiste à calculer pour toutes les instances (q, ti) le score de similarité associé puis de

rechercher l’instance pour laquelle ce score est maximal (cf équation 2.1). Cette méthode, résumée par l’algorithme 3.1, est utilisable avec n’importe quelle mesure de similarité s.

Algorithm 1 Méthode one-to-all, recherche du plus proche voisin (NN)

q, T = {t1, ..., tn} . domaine requête, ensemble de domaines cibles

for ti ∈ T do

s(q, ti) = S : q × ti→ R+

end for

N Ni = arg max(s(q, ti))

Parmi tous les scores de similarité proposés, nous utilisons CMO [37] , via l’outil A_purvaqui dénombre le nombre maximal de contacts communs entre deux domaines structuraux. A titre de comparaison nous avons utilisé le TMscore (via TMalign), qui est une mesure largement répandue. Ces deux méthodes nous permettent également d’observer les différences de comportements entre une méthode exacte et une heuristique.

3.1.1 Exemple d’application

La méthode a été testée sur le jeu de données SHREC’10 : le concours SHREC’10 Protein Models Classification Track (SHape REtrieval Contest 10 ). L’objectif de ce concours était d’observer l’efficacité des algorithmes de comparaison de structures 3D des protéines dans le cadre d’une classification [79].

Le jeu de données SHREC’10 est composé de mille domaines structuraux protéiques issus de la classification hiérarchique CATH [88]. Chacun d’eux appartient à une famille protéique différente et les mille domaines se répartissent par groupe de dix dans cent superfamilles (niveau H). Ceci constitue la base de données à laquelle il faut ajou- ter cinquante domaines appartenant à cinquante des cent superfamilles qu’il va falloir retrouver.

L’objectif ici est donc de classer correctement les cinquante requêtes au sein de leur superfamille en utilisant la méthode présentée dans cette section. Deux points ont été particulièrement observés :

— Le nombre de requêtescorrectement insérées dans la base. — Le temps nécessaire à la réalisation de l’objectif

Nous avons appliqué la méthode avec deux mesures de similarité : la mesure issue de CMO( via A_purva, une méthode exacte) et le T M − Score normalisé par la longueur de la requête ( via l’outil TM_Align, une heuristique).

Table 3.1 – Comparaison des performances des deux mesures en termes de temps de calculs nécessaires et de fiabilité des résultats

Score Pourcentage de requêtes classées Taux de précision Temps de calcul global

Ssum(CM O) 100 92% > 1 an

T M − Score 100 96% 1h42m58s

Le taux de précision représente le pourcentage de requêtesqui ont été correctement classées par la méthode.

plus faible mais correct pour la méthode basée sur le score exact, néanmoins chacune des méthodes présente une très bonne qualité de classification (92% et 96%). En revanche, les temps de calculs nécessaires divergent énormément. En utilisant l’heuristique, moins de deux heures ont suffi à obtenir une classification, en revanche, il a fallu plus d’un an (en temps de calculs cumulés) à la méthode exacte pour le même protocole.

3.1.2 Analyse critique de la méthode, perspectives

Cette première méthode de classification présente le grand avantage de pouvoir être utilisée avec n’importe quelle mesure de similarité (issue d’une méthode heuristique ou exacte) mais présente quelques défauts :

- Chaque instance doit être résolue, cela est globalement rapide pour une heuristique mais l’utilisation d’une méthode de comparaison exacte requiert parfois des temps de calcul assez longs

- Si la similarité est déterminée par une heuristique, il n’y a pas de garantie que celle-ci ait produit la (ou l’une des) solution(s) optimale(s).

— Le nombre de données dans les bases ne cesse de croître, ainsi, rester sur une méthode obligeant une comparaison avec toute la base tend à devenir limitant, même avec une méthode très rapide.

Les tests ont montré que l’heuristique était plus puissante et surtout beaucoup plus rapide que la méthode exacte, cela dit, elle présente les défauts d’une heuristique. La méthode exacte quant à elle est satisfaisante au niveau de la qualité de classification ( mais néanmoins améliorable) mais présente des temps de calculs trop longs pour être qualifiés de raisonnables. Par conséquent, deux solutions sont envisageables : la première est de réduire les temps de calculs d’instances, la seconde de réduire le nombre d’instances à résoudre. La première solution dépend de l’algorithme d’A_purva que nous ne toucherons pas mais la seconde dépend de la méthode de recherche.

En conclusion, la recherche brutale du plus proche voisin est qualitativement ac- ceptable mais la comparaison de notre méthode de comparaison CMO avec l’une des heuristiques les plus utilisées en a montré les limites temporelles.

3.2 Identification de superfamilles protéiques par domi-

Dans le document Similarités et divergences, globales et locales entre structures protéiques (Page 80-86)