Résumé du chapitre - Similarités et divergences, globales et locales, entre structures protéiqu

Cet état de l’art débute par la présentation de deux bases de données hiérarchisées de domaines structuraux dans lesquelles nous allons essayer d’introduire de manière automatique et sans erreur de nouveaux domaines. CATH et SCOP sont deux classifications hiérarchiques des domaines structuraux largement utilisées, elles concordent sur la classification d’une majorité de domaines ce qui tend à conforter leurs classifications respectives.

Ce chapitre présente également quelques uns des nombreux scores de similarité qu’il est possible de calculer pour entre deux structures et pose la question de déterminer le meilleur d’entre eux. Ces scores tendent à mesurer la similarité entre deux protéines selon différents critères structuraux ce qui les rend difficiles à comparer. Nous avons développé un outil qui évalue ces scores pour un alignement donné, à défaut de déterminer le meilleur score, il va nous être possible d’observer le comportement de ces scores en fonction de la paire de structures initialement comparée.

Nous avons également présenté Samourai, un petit outil de calcul de ces scores à partir d’un alignement donné.

Figure 2.1 – Protocole d’identification de nouveaux domaines structuraux et assignation à une famille structurale.

Figure 2.2 – Représentations d’une protéine par une carte de contact, (a) sous forme de matrice binaire avec 1 : contact, 0 sinon (à gauche) ou (b) sous forme de graphe (à droite.)

Résolution du problème

d’identification de la super-famille

structurale d’un domaine protéique

Ce chapitre est dédié à la présentation d’un protocole d’identification qui utilise les propriétés d’Apurva, un outil de mesure de similarités exact, pour identifier le plus proche voisin (Nearest Neighbour, noté NN) d’un domaine sans que la totalité des comparaisons soient effectuées jusqu’à optimalité. Nous présenterons tout d’abord le protocole initial, naïf, incluant le calcul de toutes les instances à la comparaison linéaire de leurs scores puis nous proposerons ici la notion de dominance entre instances, où une instance réfère à une comparaison entre deux domaines. Nous montrerons également précision de la méthode en terme de prédiction de superfamille structurale. La dominance permet d’élaguer un certain nombre d’instances qui, même une fois résolues, n’auront pas une similarité suffisante pour que leurs domaines cibles soient les plus proches voisins de la requête. La dominance diminue drastiquement le nombre de comparaisons à effectuer tout en conservant le caractère exact.

3.1 Méthode exhaustive ou one to all

Les scores utilisés dans ce chapitre sont commutatifs : s(A, B) = s(B, A). Soit q un domaine structural requête et T = {t1, t2, . . . , tn} un ensemble de domaines structuraux cibles issus d’une base de données hiérarchique et S : q × T → R+ une fonction de similarité qui associe à toute instance (q, ti), ti ∈ T , un score de similarité s(q, t_i). La recherche exhaustive, nommée méthode one to all, du plus proche voisin de la requête q consiste à calculer pour toutes les instances (q, ti) le score de similarité associé puis de rechercher l’instance pour laquelle ce score est maximal. Cette méthode, décrite par l’algorithme 3.1, est utilisable avec n’importe quelle mesure de similarité s.

Parmi tous les scores de similarité proposés, nous utilisons CMO [38], via l’outil Apurva qui dénombre le nombre maximal de contacts communs entre deux domaines structuraux. A titre de comparaison nous avons utilisé le TMscore (via TMalign), qui est une mesure

Algorithme 1 Méthode one-to-all, recherche du plus proche voisin (NN)

Require: q, T = {t₁, ..., t_n} . domaine requête, ensemble de domaines cibles for ti ∈ T do

compute s(q, t_i) end for

N N = arg max(s(q, t_i)), argmax ∈ [0, 1]

largement répandue. Ces deux méthodes nous permettent également d’observer les différences de comportements entre une méthode exacte et une heuristique.

3.1.1 Exemple d’application

La méthode a été testée sur le jeu de données SHREC’10 : le concours SHREC’10 Protein Models Classification Track (SHape REtrieval Contest 10 ). L’objectif de ce concours était d’observer l’efficacité des algorithmes de comparaison de structures 3D des protéines dans le cadre d’une classification [79].

Le jeu de données SHREC’10 est composé de mille domaines structuraux protéiques issus de la classification hiérarchique CATH [88]. Chacun d’eux appartient à une famille protéique différente et les mille domaines se répartissent par groupe de dix dans cent superfamilles (niveau H). Ceci constitue la base de données à laquelle il faut ajouter cinquante domaines appartenant à cinquante des cent superfamilles qu’il va falloir retrouver.

L’objectif ici est donc de classer correctement les cinquante requêtes au sein de leur superfamille en utilisant la méthode présentée dans cette section. Deux points ont été par-ticulièrement observés :

– le nombre de requêtes correctement insérées dans la base. – le temps nécessaire à la réalisation de l’objectif.

Nous avons appliqué la méthode avec deux mesures de similarité : la mesure issue de CMO ( via Apurva, une méthode exacte) et le T M − Score normalisé par la longueur de la requête (via l’outil TMalign, une heuristique).

Table 3.1 – Comparaison des performances des deux mesures en termes de temps de calculs nécessaires et de fiabilité des résultats

Score requêtes classées requêtes correctement classées Temps de calcul global

S_sum(CM O) 50 46 > 1 an

T M score 50 48 1h42m58s

Le taux de précision représente le pourcentage de requêtes qui ont été correctement classées par la méthode.

Le tableau 3.1 résume les deux expériences, on observe un taux de précision un peu plus faible mais correct pour la méthode basée sur le score exact, néanmoins chacune des méthodes présente une très bonne qualité de classification (92% et 96%). En revanche, les temps de calculs nécessaires divergent énormément. En utilisant l’heuristique, moins de deux

heures ont suffi à obtenir une classification, en revanche, il a fallu plus d’un an (en temps de calculs cumulés) à la méthode exacte pour le même protocole.

3.1.2 Analyse critique de la méthode et perspectives

Cette première méthode de classification présente le grand avantage de pouvoir être utilisée avec n’importe quelle mesure de similarité (issue d’une méthode heuristique ou exacte) mais présente quelques défauts.

- Chaque instance doit être résolue, cela est globalement rapide pour une heuristique mais l’utilisation d’une méthode de comparaison exacte requiert parfois des temps de calcul assez longs

- Si la similarité est déterminée par une heuristique, il n’y a pas de garantie que celle-ci ait produit la (ou l’une des) solution(s) optimale(s).

- Le nombre de données dans les bases ne cesse de croître, ainsi, rester sur une méthode obligeant une comparaison avec toute la base tend à devenir limitant, même avec une méthode très rapide.

Les tests ont montré que l’heuristique était beaucoup plus rapide que la méthode exacte, cela dit, elle présente les défauts d’une heuristique. La méthode exacte quant à elle est satisfaisante au niveau de la qualité de classification (mais néanmoins améliorable) mais présente des temps de calculs trop longs pour être qualifiés de raisonnables. Par conséquent, deux solutions sont envisageables : la première est de réduire les temps de calculs d’instances, la seconde de réduire le nombre d’instances à résoudre. La première solution dépend de l’algorithme d’Apurva que nous ne toucherons pas mais la seconde dépend de la méthode de recherche.

En conclusion, la recherche brutale du plus proche voisin est qualitativement acceptable mais la comparaison de notre méthode de comparaison CMO avec l’une des heuristiques les plus utilisées en a montré les limites temporelles.

3.2 Identification de superfamilles protéiques par dominance

Dans le document Similarités et divergences, globales et locales, entre structures protéiques (Page 78-84)