Résultats - Identification de superfamilles protéiques par dominance directe et indirecte

3.3 Identification de superfamilles protéiques par dominance directe et indirecte

3.3.6 Résultats

Pour analyser et comparer notre protocole, nous avons effectué un protocole « one to all » semblable à celui de la section 3.1. Seule différence, les kNN ont été sélectionnés et la requête a été assignée à la famille majoritaire. Nous avons testé le protocole pour des valeurs de k allant de 1 à 10. Cela a fait l’objet de deux articles : l’article 1. (journal) et l’article 8. (conférence)[115] de l’annexe "Contributions" dont sont issus ces résultats.

Jeu de données SCOPCATH (236 requêtes, 6759 structures)

Le tableau 3.4 résume les résultats des assignations au niveau des familles. On observe que globalement le protocole permet de classer correctement plus de 85% des domaines requêtes. Ce pourcentage augmente avec la réduction du nombre de kNN. Cela tend à montrer qu’il est plus judicieux de se restreindre à la meilleure concordance plutôt qu’à un vote majoritaire. La ligne du tableau consacrée aux classifications exactes, c’est à dire aux requêtes pour lesquelles la kNN dominance a été totalement établie, que pour k = 1, dix requêtes ont été classées exactement mais dans la mauvaise famille. Ces exemples sont particulièrement intéressants car montre le pourcentage de limite de la méthode. L’explication de ces erreurs est soit au niveau de max-CMOqui ne permet pas d’estimer correctement la similarité entre les structures. La seconde option se situe au niveau du score Dmax qui, dans le cas de ces structures ne permettrait pas de correctement capter

la distance entre les structures.

De même, TMalign qui est légèrement meilleur ne réussit pas à tout classer correctement.

on remarque qu’une forte proportion d’assignations de requêtes est une approximation et non le fruit d’une dominance totale. De même le nombre d’égalité, c’est à dire les cas où deux ou plusieurs familles ont reçu le même nombre de votes et par conséquent l’assignation n’est pas possible, n’est pas négligeable pour les deux méthodes (max- CMOet TMalign).

Table 3.4 – Résumé des assignations des 236 requêtes de SCOPCATH pour max-CMOet TMalign.

Le tableau montre le nombre de requêtes correctement classées (correct), le nombre de cas où la dominance est totale (exact), les requêtes correctement et exactement classées (correct et

exact) ainsi que les cas d’égalité (égalité).

k 10 9 8 7 6 5 4 3 2 1 # correct 210 211 213 213 214 217 217 219 213 224 # exact 117 143 156 165 188 206 204 211 209 234 # correct et exact 110 134 149 155 178 198 195 205 206 224 # égalité 10 9 11 8 10 10 10 10 20 0 # TM-align correct 219 220 220 225 225 228 226 227 226 228 # TM-align égalité 4 4 9 5 5 3 8 5 8 0 tableau issu de [115]

Pour cette expérimentation, nous avons paramétré le protocole pour lancer six fois la dominance indirecte (triangulaire) en augmentant le temps de calcul à chaque itération de 1 à 32 secondes CPU. Les même paramètres ont ensuite été utilisés pour la dominance directe. A cette étape la distance d(q, t) est calculée directement. Nous avons voulu observer le nombre d’instances élaguées par chaque étape.

La figure 3.2 montre le pourcentage d’instances élaguées à chaque tour pour les dominances indirecte (triangulaire) et directe. Pour certaines requêtes, la dominance indirecte suffit à élaguer un grand nombre d’instances mais pour la majorité des requêtes il reste plus de 50 % des instances après cette étape.

La dominance directe est beaucoup plus efficace, mais également beaucoup plus coû- teuse puisque les instances sont résolues (partiellement ou totalement) avec A_purvaalors qu’il s’agit d’une simple opération mathématique dans le cas de la dominance indirecte. Pratiquement 100 % des instances sont élaguées à la fin de cette étape. Il reste néan- moins quelques cas où moins de 40 % des instances sont élaguées, la dominance n’est ici pas totale.

1 2 3 4 5 6 0 20 40 60 80 100 % triangle dominance 1 2 3 4 5 6 iteration 0 20 40 60 80 100 % pairwise dominance

Figure 3.2 – Pourcentages d’instances élaguées lors des étapes de dominance indirecte (triangulaire) et directe (« pairwise » ) pour les 236 requêtes du jeu de données SCOP- CATH

figure issue de [115]

En conclusion, sur ce petit jeu de données, on remarque que la dominance indirecte permet d’élaguer un nombre non-négligeable d’instances et que la dominance directe, même partielle, permet d’obtenir plus de 85% de bonnes prédictions des requêtes.

Jeu de données SCOPCATH étendu (1369 requêtes, 67 609 structures)

Les tests sur le jeu de données précédent ayant produits des résultats satisfaisants, nous avons testé le protocole sur un jeu de données dont la taille se rapproche de celles des classifications hiérarchiques existantes. Ici le nombre de requêtes correctement prédites est au minimum de 1303 sur 1369, soit 95% et de même la grande majorité des requêtes est classée via une dominance totale. Le tableau 3.5 résume les résultats du protocole. Les pourcentages de requêtes correctement assignées et de manière exacte (ou totale) ont augmenté par rapport au jeu de données précédent. Les temps de calculs varient entre 0.15 et 85.63 heures selon les requêtes (temps d’assignation), la durée moyenne étant de 3.8 heures.

Table 3.5 – Résumé des assignations des 1369 requêtes de SCOPCATH étendu pour max-CMO et TMalign.

Le tableau montre le nombre de requêtes correctement classées (correct), le nombre de cas où la dominance est totale (exact), les requêtes correctement et exactement classées (correct et

exact) ainsi que les cas d’égalité (égalité). [115]

k 10 9 8 7 6 5 4 3 2 1 # correct 1303 1331 1334 1341 1341 1346 1344 1351 1348 1361 # exact 1120 1182 1228 1271 1286 1339 1341 1352 1347 1368 # exact et correct 1104 1166 1215 1257 1276 1329 1330 1341 1343 1360 # égalité s 35 5 12 6 11 7 9 3 17 0 # TM-align correct 1311 1347 1346 1350 1351 1354 1352 1353 1351 1361 # TM-align égalités 39 4 7 4 6 4 4 5 15 0

On remarque que pour k = 1, TMalign et notre protocole retournent le même nombre de prédictions correctes, de plus une seule requête est classée par approximation (mais correctement). Cela signifie qu’il existe 8 requêtes classées après une dominance totale mais faussement.

La figure 3.3 présente l’élagage des instances selon les étapes de dominance indirecte (triangulaire) et directe. Comme précédemment, une bonne partie (60% ici) des structures sont élaguées durant la première étape. De plus, le premier tour de la dominance directe permet d’obtenir une dominance totale pour plus de 70% des requêtes.

1 2 3 4 5 6 0 20 40 60 80 100 % triangle dominance 1 2 3 4 5 6 iteration 0 20 40 60 80 100 % pairwise dominance

Figure 3.3 – Pourcentages d’instances élaguées lors des étapes de dominance indirecte (triangulaire) et directe (« pairwise » ) pour les 1369 requêtes du jeu de données SCOP- CATH étendu

Dans le document Similarités et divergences, globales et locales entre structures protéiques (Page 96-100)