• Aucun résultat trouvé

Dans cette section nous montrons d'un point de vue théorique les propriétés inté-ressantes dont bénécie l'ASD.

5.2.1 Propriétés essentielles pour la comparaison de structures

Invariance par isométrie On souhaite que la mesure de similarité entre structures de protéine soit indépendante du repère choisi. On appelle cela formellement l'invariance par isométrie directe (toute combinaison de translation et de rotation).

Cette propriété est relativement immédiate étant donné que l'ASD utilise unique-ment les distances internes entre les atomes Cα. Ainsi DF P = DP pour toute isométrie F, et par conséquent ASD(F P, Q) = ASD(P, Q) pour toutes protéines P et Q.

On voit par ailleurs que cette propriété reste vraie pour les isométries indirectes et donc par symétrie (i.e. miroir). Ainsi, nous avons ASD(S P, Q) = ASD(P, Q) pour toute symétrie S. Cette caractéristique est commune à tous les scores se basant sur les distances internes. Si on désire diérencier une structure et son miroir, on peut le faire simplement en calculant le signe du déterminant det(P>Q)où P et Q sont les matrices N × 3 des coordonnées des atomes de Cα. En eet, un déterminant positif signie que les structures P et Q ne sont pas miroir l'une de l'autre, alors qu'un déterminant négatif signie que leur superposition sera meilleure en prenant le symétrique de l'une d'entre elles [GT10].

Borne Euclidienne et cohérence avec le RMSDd Nous montrons ici une borne théorique par rapport au RMSDd : si deux fragments sont considéré comme similaires avec le RMSDd , alors ils seront considérés comme similaires par l'ASD.

Propriétés 57 Formellement, soit P, Q deux structures considérées comme similaires (i.e. on aligne les acides-aminés un-à-un). Le RMSDd vaut alors :

RMSDd(P, Q) := s 1 N 2  X i<j<n (DP i,j− DQi,j)2 (5.6) On peut alors borner l'ASD proportionnellement à RMSDd(P, Q):

ASD(P, Q) = || |FDP| − |F DQ| ||2 ≤ || F DP − F DQ||2

≤ || DP − DQ ||2 car F est une unitaire ≤

q

N

2 RM SDd(P, Q)par déf. du RMSDd

(5.7) Ainsi, si RMSDd(P, Q) ≈ 0, alors ASD(P, Q) ≈ 0.

Faible sensibilité aux faibles changements L'ASD peut se qualier de score gra-duel car si on applique une faible distorsion à une structure, il en résultera au plus un changement proportionnel dans la valeur de l'ASD.

Formellement, une faible déformation peut-être décrit mathématiquement par une fonction continue f : R3 −→ R3 telle que ∀x ∈ R3, ||x − f (x)||2 ≤ .

Ainsi, pour deux structures arbitraires P, Q et pour tout faible déformation f on peut montrer que :

ASD(P, Q) − 2N ≤ ASD(f P, Q) ≤ ASD(P, Q) + 2N (5.8) Démonstration. En eet, pour tout x, y ∈ R3 :

||f (x) − f (y)||2 = ||f (x) − x + x − y + y − f (y)||2

≤ ||f (x) − x||2+ ||x − y||2+ ||y − f (y)||2 ≤ ||x − y||2+ 2 × 

(5.9) Et de la même manière : ∀x, y ∈ R3||x − y||2≤ ||f (x) − f (y)||2+ 2 × 

On en déduit que : ||DP − Df P||2 = rP ij (DP ij− Df P ij)2rP ij (2)2 ≤ 2N  (5.10)

En utilisant la borne dénie dans la section précédente, on a :

ASD(P, f P ) ≤ 2N (5.11)

En utilisant l'inégalité triangulaire (voir plus loin section 5.2.2) on obtient l'inégalité voulue : pour deux structures arbitraires P, Q et pour toute -déformation f on a :

Ainsi, dans le cas de faibles variations de structures 2N ≈ 0 et donc ASD(f P, Q) ≈ ASD(P, Q).

5.2.2 Propriétés spéciques de l'ASD

Invariance par permutation circulaire On note DP  sla permutation circulaire de s acides-aminés de la matrice de distance DP de P :

(DQ s)i,j := DQi+s,j+s (5.13) En dénissant P s comme la protéine P permutée circulairement par s acides-aminés (i.e. telle que D(P s)= DP  s), on peut montrer que :

ASD(P, P  s) = 0 (5.14)

Démonstration. En eet, si on considère le cas plus simple d'un vecteur N-dimensionnel ~

x := (x0, ..., xN −1) de RN. On dénit sa permutation circulaire ~y ayant les coordonnées yk:= xk−s. On a alors : F~yn = √1 N P k yk.e−2iπkn/N = √1 N P k xk−s.e−2iπkn/N = √1 N P k xk.e−2iπ(k+s)n/N = √1 N P k xk.e−2iπkn/N.e−2iπsn/N = e−2iπsn/N.√1 N P k xk.e−2iπkn/N = e−2iπsn/N.F~xn (5.15) Ainsi, ∀n, |F~yn| = |F~xn| (5.16) Similairement, en dimension 2 on a : |F M | = |F (M  s)| (5.17)

Par conséquent, pour une structure P :

ASD(P, P  s) = 0 (5.18)

Cette propriété montrera son importance quand nous introduirons la variante "0-complétée" de l'ASD.

Propriétés 59 Invariance par inversion de séquence Comme exposé dans [MG99], la similarité de structure entre deux enzymes ayant convergé vers la même fonction peut se traduire par des similarités non-séquentielles : il se peut que deux structures puissent se superposer mais les structures secondaires ne seront pas liées dans le même ordre et potentiellement dans un sens opposé. Ainsi, il peut être intéressant de pouvoir comparer des similarités de structure à "sens de séquence près". Étant donné que l'ASD compare stricto sensu de manière globale une séquence de points dans un espace à trois dimensions, peu importe le sens de cette séquence de points, la valeur de l'ASD sera la même. L'ASD pourrait donc s'appliquer à ce type de comparaison.

Formellement, si on note P l'inversion de la séquence de la structure P = (p0, ..., pN −1), i.e. P = (pN −1, ..., p0). La matrice de distance d'une telle structure inversée en séquence est donnée par DP i,j= DP N −1−i,N −1−j. On montre alors :

ASD(P , P ) = 0 (5.19)

Et pour deux structures arbitraires P, Q, on obtient de la même manière :

ASD(P , Q) = ASD(P, Q) (5.20)

Démonstration. Comme dans le paragraphe précédent, an de simplier la démonstra-tion, considérons le cas unidimensionel d'un vecteur à N dimensions ~x := (x0, ..., xN −1) of RN. On note l'inversion séquentielle du vecteur ~x par ←x := (xN −1, ..., x0), i.e. ←−x i = ~xN −1−i. Alors, F ←xn = √1 N P k xN −k.e−2iπkn/N = √1 N P k xk.e−2iπ(N −k)n/N = √1 N P k xk.e−2iπN/N.e2iπkn/N = √1 N P k xk.e2iπkn/N = F~xn (5.21) Ainsi, ∀n, |F ←xn| = |F~xn| (5.22) De la même manière on obtient le même résultat en dimension 2 : si M0est l'inversion séquentielle de la matrice M, i.e. M0

i,j:= MN −1−i,N −1−j, alors on a :

|F M0| = |F M | (5.23)

La matrice de distance DP de la structure séquentiellement inversée de P est l'in-version séquentielle de la matrice DP. Par la précédente équation on obtient :

Et donc pour deux structures arbitraires P, Q, en utilisant l'inégalité triangulaire :

ASD(P , Q) = ASD(P, Q) (5.25)

Cette propriété permet de d'identier des structures ayant la même conformation sans tenir compte du sens de la séquence sous-jacente. Cette propriété n'apparaît que dans les aligneurs non-séquentiels comme MICAN [MSC13] qui sont lourds en calcul. Nous verrons plus loin quelques exemples de structures retrouvées grâce à l'ASD ayant la même conformation mais un sens de séquence inversé.

ASD est une pseudométrique Il est très intéressant pour une mesure de (dis)similarité d'être une pseudo-métrique. En eet, cela permet l'utilisation d'algorithmes ecaces étant donné que l'inégalité triangulaire est souvent requise pour réduire l'espace de re-cherche dans des algorithme de rere-cherche de plus proches voisins par exemple [CPZ97].

Si on considère trois structures arbitraires P ,Q,R, on peut montrer que :  ∀P, ASD(P, P ) = 0

 ∀P, Q, ASD(P, Q) = ASD(Q, P )  ∀P, Q, R,

ASD(P, R) ≤ ASD(P, Q) + ASD(Q, R) Ainsi,

Proposition 5.2.1. ASD est une pseudo-métrique.

Démonstration. Seule l'inégalité triangulaire mérite démonstration : ASD(P, R) = || |FDP| − |F DR| ||2

= || |F DP| − |F DQ| + |F DQ| − |F DR| ||2 ≤ || |F DP| − |F DQ| ||2+ || |F DQ| − |F DR| ||2 ≤ ASD(P, Q) + ASD(Q, R)

(5.26) Les autres propriétés étant immédiates.

ASD n'est pas une métrique proprement dite car la condition ASD(P, Q) = 0 ⇒ P = Qn'est pas respectée. En eet, en prenant par exemple P et Q comme étant miroir l'une de l'autre, on obtient que ASD(P, Q) = 0, mais P 6= Q).

5.3 Variantes de l'ASD