• Aucun résultat trouvé

Recouvrement de cartes de contacts et mesures de similarité

2.3 Estimer la similarité structurale entre deux protéines

2.3.5 Recouvrement de cartes de contacts et mesures de similarité

Les protéines sont modélisées par une carte en 2 dimensions qui modélise des contacts entre résidus. Le principe de la méthode est d’associer les résidus de deux protéines de telle sorte que le nombre de contacts communs soit maximisé. Cela reflète une similarité géométrique entre les deux protéines considérées. Nous présenterons cette approche en détail ainsi qu’un outil (A_purva) implémentant cette approche et ses fonctionnalités qui permettent d’optimiser la mesure du nombre de contacts communs et différents scores de similarité qui en découlent.

Le recouvrement de cartes de contacts de protéines CMO, « Contact Map Overlap » , et le problème qui lui est associé : maxCM O (la maximisation du recouvrement de cartes de contacts) ont été introduits par Godzik en 1996 [37].

Une carte de contacts est une représentation en deux dimensions d’une protéine soit sous forme de graphe (cf définition2.2) sous forme soit de matrice binaire carrée N2où N est le nombre de résidus constituants la protéine. Une case i, i de la matrice correspond au contact entre les ième et jème résidus de la protéine, si la distance entre ceux-ci est inférieure ou égale à un seuil µ, alors la case contient la valeur 1 ; 0 sinon. La figure 2.2 illustre les deux représentations d’une carte de contacts.

Définition 2.2. Carte de contacts

La carte de contacts d’une protéine P est un graphe G = (VG, EG)avec VG= {v1, v2, . . . , vn}

l’ensemble des sommets symbolisant les résidus de la protéine (centrés en leurs Cα respectifs) et il existe une arête evi,vj entre deux sommets vi, vj ∈ VG si et seulement si la distance

entre les résidus correspondants respecte :

dist(i, j) ≤ µ i, j ∈ P (2.19) La taille |VG| := |EG| d’une carte de contacts correspond au nombre de contacts au sein

de la protéine modélisée par G = (VG, EG).

Cette représentation permet d’identifier rapidement et visuellement les résidus qui sont proches dans l’espace mais pas forcément dans la séquence. Cela offre donc un aperçu du repliement de la protéine.

La comparaison de deux cartes de contacts est appelée recouvrement de cartes de contacts (« contact map overlap » ), CMO, [38]). L’idée sous-jacente est que lorsque deux structures sont similaires, leurs cartes de contacts aussi. Par conséquent, mesurer la similarité de deux cartes de contacts permet d’estimer la similarité de deux protéines sans superposition. Le problème associé est le problème de maximisation du recouvrement de cartes de contacts, maxCM O qui consiste à trouver le nombre maximal de contacts communs aux deux cartes. Ce problème est un problème NP-difficile pour certaines approches, [69], il existe par ailleurs d’autres méthodes non polynomiales. Mais nous nous sommes intéressés à celle-ci car cette mesure s’est avérée efficace dans le cadre de la comparaison de structures protéiques [21, 4].

Dénombrer le nombre de contacts communs entre deux protéines permet de calculer différents scores de similarité/distance entre deux protéines et permet ainsi une compa- raison globale de leurs structures.

La résolution du problème consiste à trouver l’alignement linéaire de résidus qui maximise le nombre de contacts communs entre les deux cartes de contacts.

A_purva : un outil pour la résolution du problème maxCMO

Soient deux protéines P1, P2 et soit G1 = (V1, E1) et G2 = V (V2, E2) deux cartes de

contacts contacts où V1(resp. V2) correspond à l’ordonnancement linéaire des résidus de P1. Il existe une arête ev,w∈ EG1 (resp. EG2) entre deux sommets v, w ∈ VG1 (resp. VG2) si et seulement si la distance entre les résidus correspondant est inférieure à un même seuil µ.

A_purvaest une méthode exacte de comparaison de cartes de contacts basée sur un algorithme de « branch and bound » qui, pour un temps de calcul donné, retourne le plus grand nombre de contacts communs (LB(G1, G2)) qu’il a trouvé au terme du temps

imparti plus une estimation du nombre de contacts communs maximal (UB(G1, G2))

qu’il va pouvoir atteindre. Lorsque LB, UB convergent, A_purvaa terminé l’exploration et retourne CM O(G1, G2), le nombre maximal de contacts communs entre les protéines

P1, P2. LB, UB et CM O respectent l’équation 3.2 suivante :

LB(G1, G2) ≤ CM O(G1, G2) ≤ UB(G1, G2) (2.20)

Scores de similarités basés sur la mesure CM O

La recherche et la mesure du nombre maximal de contacts communs (CM O(P1, P2)

est nécessaire mais non suffisante pour estimer la similarité de deux protéines. Il manque la relation avec les nombres de contacts E1, E2 présents au sein des protéines P1, P2.

Par conséquent trois scores sont proposés pour évaluer cette similarité : 1. Proportion de contacts communs sur le nombre moyen de contacts :

Smoy=

2 × CM O(G1, G2)

|E1| + |E2| (2.21)

2. Proportion de contacts communs sur le nombre minimal de contacts : Smin =

CM O(G1, G2)

min(|E1|, |E2|)

(2.22)

3. Proportion de contacts communs sur le nombre maximal de contacts : Smax=

CM O(G1, G2)

max(|E1|, |E2|)

(2.23)

Ces scores ont pour point faible principal le fait qu’ils ne soient pas une mesure mé- trique, de plus nos expérimentations ont montré les limites qualitatives de ces scores. Nous avons donc chercher à estimer la distance entre deux protéines plutôt que la simi- larité.

Scores de distances basés sur CM O

Plusieurs distances ont été testées (voir l’article [115] pour plus de détails ) : CM O(A, B) est le nombre de contacts communs entre les cartes de contacts A et B, et |EA| (respec-

tivement |EB|) est le nombre de contacts de la carte A (B). Dsum = 1 − 2 × CM O(A, B) |EA| + |EB| (2.24) Dmin= 1 − CM O(A, B) min(|EA|, |EB|) (2.25) Dmax= 1 − CM O(A, B) max(|EA|, |EB|) (2.26) Les trois distances sont normalisées, cependant les distances Dmin et Dsum ne sa- tisfont pas l’inégalité triangulaire (preuve dans [115]), par conséquent ce ne sont pas des distances métriques et nous ne pouvons donc les utiliser. Cependant, la distance Dmax (eq. 2.26) s’est avérée posséder la propriété d’être une distance métrique, ce qui

induit la possibilité de caractériser l’espace des protéines à partir de cette distance. Par conséquent, cette nouvelle mesure peut être utilisée dans nos protocoles.