• Aucun résultat trouvé

Cette version dite 0-complétée de l'ASD permet d'une part de pouvoir comparer des fragments de tailles diérentes, et d'autre part de garantir une borne théorique sur la comparaison de fragments similaires à décalage de séquence près. Voyons dans un premier temps sa dénition. Nous noterons ]ASD cette variante dont la dénition

Variantes de l'ASD 61 formelle remplace les matrices de distances internes par des matrices 0-complétéesgDP

etgDQ :

]

ASD(P, Q) := || |FgDP| − |F gDQ| ||2 (5.27) g

DP etgDQsont des versions (toutes deux de dimensions N×N avec N = 2×max(NP, NQ)) des matrices DP et DQ (de dimensions respectives NP et NQ) entourées de 0.

On peut alors établir une borne théorique de l']ASD entre deux structures P and Q telles qu'elles se superposent exactement sur une sous-partie conséquente comme dans l'exemple de la gure ci-dessous :

Fig. 5.1: Représentation graphique de matrices de distances internes, plus un pixel est foncé, plus la distance di,jcorrespondante est faible. A : Matrice de distance 0-complétée pour les fragments 34 :54 du domaine Astral d1amk__ ; B : Matrice de distance 0-complétée pour les fragments 37 :57 du même domaine Astral ; C : Diérence entre les deux matrices dans leur alignement optimal

On peut alors montrer que : ]

ASD(P, Q) ≤ ||DP \Q||2 (5.28)

où DP \Q est la diérence des matrices de distance dans un alignement optimal sans indel des matrices de distances internes comme illustré sur la gure 5.1C. Ceci signie que au plus ]ASD mesure là où P et Q dièrent.

Démonstration. Dans un premier temps supposons que nous disposons de deux struc-tures P et Q qui se superposent parfaitement sur une sous-partie contiguë. Formelle-ment, cela signie qu'il existe a, b et un décalage s tels que DP i,j= DQi+s,j+s ∀i, j tels que a ≤ i, j ≤ b.

On rappelle qu'on note DQ  s la permutation circulaire de s acides-aminés de DQ :

(DQ  s)i,j := DQi+s,j+s (5.29) En utilisant l'invariance par permutation circulaire de la section 5.2.2 et la borne Euclidienne de la section 5.2.1, on obtient que :

ASD(P, Q) := || |FDP| − |F DQ| ||2 = || |F DP| − |F (DQ s)| ||2 ≤ || DP − DQ s ||2

Or, DP−DQ svaut zéro partout où P et Q sont superposés. Ainsi, l'ASD mesure au plus la diérence entre P et Q seulement là où ils dièrent.

Cette mesure peut être dénuée de sens car en permutant circulairement DQ on compare des parties des structures P et Q sans relations (i.e. le début de la structure P avec la n de la structure Q et inversement). An d'établir une borne plus censée, on introduit la version 0-complétée.

Considérons maintenant que nous complétons nos matrices de distances DP (de dimension NP × NP) et DQ (de dimension NQ× NQ) avec des zéros pour en faire des matricesgDP andDgQ de dimension N × N avec N = 2 × max(NP, NQ).

Comme dans l'équation 5.30, on obtient : ]

ASD(P, Q) ≤ ||gDP − gDQ  s ||2 (5.31) Mais cette fois-ci gDP − gDQ  s est non nul seulement où P et Q dièrent : c'est-à-dire hors du rectangle déni par a, b. En prenant s comme étant le décalage optimal pour al superposition de P et Q, on a au nal :

]

ASD(P, Q) ≤ ||DP \Q||2 (5.32)

où DP \Q est la diérence des matrices de distances internes dans l'alignement optimal sans indel de ces matrices (i.e. ayant un décalage minimisant le RMSDd).

Etant donné que ]ASD facilite l'utilisation que la dénition originale de l'ASD (car permettant notamment la comparaison de fragments de tailles diérentes) et respecte exactement les mêmes propriétés que précédemment, dans la suite de ce document nous noterons ASD cette version 0-complétée avec N valant deux fois la taille maximale des fragments considérés.

5.3.2 ASD normalisée

Comme montré sur la gure 5.2A, la distribution des valeurs de l'ASD dépend largement de la longueur des fragments considérés. Pour cela j'ai introduit une version normalisée de l'ASD, notée NASD (pour Normalized ASD).

On dénit NASD entre deux structures P et Q comme étant la pseudométrique suivante :

NASD(P, Q) := || |F DP| ||DP||2

|F DQ|

||DQ||2 ||2 (5.33) NASD réussit à normaliser les scores respectivement à la longueur des structures considérées comme on peut l'observer sur la gure 5.2B. Ceci vient au prix d'une perte d'information substantielle car on normalise a priori les matrices de distances internes. En eet, l'ASD présente de meilleurs résultats en pratique que NASD comme nous le verrons dans l'expérience sur la détection de fragment de Zinc Finger présenté plus loin. On observe notamment une corrélation de Pearson de 0.53 entre les valeurs de l'ASD et de NASD sur des fragments de strucure de taille 20, mais ce coecient augmente à 0.9

Variantes de l'ASD 63

Fig. 5.2: Densité de probabilité empirique (sur les jeux de données SkN de l'ASD (A) et de NASD (B) pour des longueurs de fragments de structure de N=20, 30, 40, 50 et 60 acides-aminés.

en ne considérant que les petites valeurs de l'ASD (en dessous de 1000 dans ce cas-ci). Ces résultats sont illustrés sur la gure ci-dessous :

Fig. 5.3: ASD vs NASD sur toutes les paires de fragments du jeu de données SkF20, corrélation de Pearson de 0.53, mais s'élevant à 0.9 en ne considérant que les valeurs de l'ASD en-dessous de 1000

5.3.3 ASD tronquée

Pour le calcul de l'ASD, on utilise la 2-norme sur la matrice formée par les modules des coecients de Fourier de la matrice des distances internes. Ainsi, on a besoin de calculer tous les coecients de Fourier et de les comparer un-à-un.

de calculer seulement certains coecients de Fourier et de comparer seulement ceux-ci pour obtenir une valeur approximative de l'ASD.

On observe que les premiers coecients (correspondant aux "basses fréquences") ont les valeurs les plus élevées. Comme on peut le voir sur la gure 5.4, en ne gardant que les 5 premiers coecients sur les 40 × 40 (soit une réduction de plus de 98%), on conserve une très bonne corrélation avec l'ASD standard (corrélation de Pearson de 0.95).

Fig. 5.4: ASD calculé sur toutes les paires de fragments du jeu de données SkF20

en considérant tous les 40 × 40 coecients de Fourier vs. variante tronquée de l'ASD calculée en utilisant seulement les 5 × 5 premiers coecients de Fourier, la corrélation de Pearson vaut 0.95.

5.4 Distribution de l'ASD