Cas d’application et reclassements consensus

4. Objectifs de thèse

1.2. Screening Explorer : Un outil interactif pour l’évaluation des méthodes de criblage

1.2.2.1. Cas d’application et reclassements consensus

Dans cet article, nous avons décrit les fonctions de Screening Explorer à travers l’analyse de trois expériences de criblage virtuel « structure-based ». Les deux premiers cas d’application ont été réalisés sur des données de la banque DUD159 (PPAR gamma et AR), tandis que le troisième cas évalue la capacité des logiciels à reproduire des résultats de HTS expérimentaux (Thrombine alpha, Pubchem AID 1046).473 Pour les cibles PPAR gamma et AR, trois méthodes de criblage ont été appliquées : Surflex-dock,349,350 ICM359 et Autodock Vina.457 Le jeu de données de la Thrombine alpha comportant un plus grand nombre de composés, nous avons utilisé uniquement Surflex-dock^349,350 et Autodock Vina⁴⁵⁷ sur cette cible afin de réduire les temps de calcul associés. Cette étude est toutefois restée peu concluante, puisque les logiciels n’arrivaient pas à classer correctement les composés actifs dans les conditions de cette expérience. Comme cas complémentaire, nous ajoutons ici l’analyse des résultats des trois logiciels précités sur le jeu de données ER (Estrogen Receptor) agoniste de la banque DUD.¹⁵⁹

Lors de l’étude réalisée sur le jeu de données PPAR gamma, les trois logiciels ont permis de bonnes reconnaissances précoces et des classements satisfaisants des ligands, associés à des variations de score pertinentes (AUCs > 0.748, BEDROCs > 0.447, TGs > 0.415). Les résultats étaient comparables pour le jeu de données ER agoniste, avec une reconnaissance précoce moins marquée (AUCs > 0.708, BEDROC > 0.299, TGs > 0.301) (Tableau 14 et Figure 76A). Pour l’expérience réalisée sur le jeu de données AR les performances obtenues étaient plus mitigées, mais restent supérieures à un tirage aléatoire des composés (AUCs > 0.684, BEDROC > 0.257, TGs > 0.067).

171

Dans le cas de PPAR gamma, nous avons pu observer que les combinaisons consensus des résultats des trois logiciels ne produisaient pas automatiquement de meilleures performances que leurs combinaisons deux à deux. Les consensus obtenus en utilisant trois logiciels améliorent la reconnaissance précoce des ligands ainsi que leur classement global, en utilisant le minimum des rangs ou le maximum des z-scores et par rapport au logiciel le plus performant (Surflex-dock). Cependant, avec ces mêmes méthodes consensus, la combinaison des deux logiciels les plus et moins efficaces (respectivement, Surflex-dock et ICM) permet d’obtenir une reconnaissance précoce encore meilleure. Ce résultat s’explique par le fait que les fractions précoces identifiées par Surflex-dock et ICM comportent une grande part de ligands différents, tandis que Surflex-dock et Autodock Vina tendent à attribuer de bons scores aux mêmes ligands.

Inversement, dans le cas de l’expérience réalisée sur le récepteur AR, les stratégies visant à reclasser les composés selon leur meilleur rang, z-score ou score normalisé sont inefficaces. Par contre, l’utilisation de consensus moyens (moyenne des rangs, z-scores ou scores normalisés) améliore les résultats de manière marquée, particulièrement concernant la reconnaissance précoce et lorsque les résultats des trois logiciels sont combinés. Le succès des consensus moyens dans cette expérience indique une complémentarité des méthodes de criblage virtuel dans la prise en compte des phénomènes régissant les interactions récepteur-ligand, aboutissant à une meilleure approximation des phénomènes d’affinité.

Dans le cas du jeu de données ER agoniste, les consensus utilisant les rangs et les z-scores permettent tous d’améliorer les résultats par rapport à la méthode criblage la plus performante, Autodock Vina, particulièrement concernant la reconnaissance précoce (Tableau 15 et Figure 76). La moyenne des scores normalisés est également efficace, contrairement au maximum des scores normalisés. Ce résultat s’explique par la grande sensibilité aux valeurs extrêmes de ces deux dernières stratégies.

AUC RIE BEDROC TG

Surflex-dock 0.708 4.682 0.299 0.301

ICM 0.772 7.776 0.496 0.462

Autodock Vina 0.833 8.066 0.514 0.533

Tableau 14. Métriques AUC, RIE et BEDROC obtenues sur le jeu de données ER agoniste de

172

Figure 76. Courbes de ROC des résultats obtenus sur le jeu de données ER agoniste de la

banque DUD.159 (A) Criblages virtuel réalisés avec Surflex-dock,349,350 ICM359 et Autodock Vina.⁴⁵⁷ (B) Reclassements consensus obtenus en combinant les résultats des trois logiciels. (C-E) Reclassements consensus obtenus en combinant les résultats des logiciels deux à deux.

3 méthodes Surflex-dock, ICM ICM, Vina Surflex-dock, Vina AUC BEDROC AUC BEDROC AUC BEDROC AUC BEDROC Minimum des rangs 0.879 0.577 0.771 0.450 0.863 0.622 0.839 0.513 Moyenne des rangs 0.823 0.549 0.774 0.436 0.837 0.575 0.817 0.468 Maximum des z-scores 0.881 0.600 0.770 0.470 0.864 0.619 0.841 0.526 Moyenne des z-scores 0.840 0.600 0.788 0.476 0.848 0.619 0.834 0.543 Maximum des scores

normalisés ^0.828 ^0.505 ^0.775 ^0.459 ^0.822 ^0.543 ^0.796 ^0.405 Moyenne des scores

normalisés ^0.853 ^0.596 ^0.785 ^0.460 ^0.860 ^0.604 ^0.845 ^0.551

Tableau 15. Métriques AUC et BEDROC obtenues sur le jeu de données ER agoniste de la

banque DUD159 en combinant les résultats de Surflex-dock,349,350 ICM359 et Autodock Vina457

grâce aux méthodes consensus de Screening Explorer.

Les méthodes consensus constituent donc un outil intéressant, notamment du fait de leur efficacité et de leur simplicité. Cependant, leur application ne peut pas être envisagée de manière systématique dans le cadre d’études prospectives. Pour assurer leur succès, chaque méthode de criblage virtuel utilisée dans le consensus doit : (i) obtenir des résultats satisfaisants

173

de manière indépendante (supérieurs à un tirage aléatoire des composés et avec une reconnaissance précoce des ligands) et (ii) apporter une information unique au consensus. Hors de ces deux conditions, les approches consensus ne peuvent pas améliorer les résultats des criblages virtuels au-delà des performances de la méthode la plus efficace individuellement. Screening Explorer permet d’évaluer rapidement les résultats de méthodes consensus simples de manière rétrospective, afin d’estimer la complémentarité des logiciels de criblage virtuel et la pertinence de l’utilisation de consensus dans le cadre d’applications prospectives.

1.2.2.2. Autres applications

Bien que nous ayons présenté Screening Explorer en analysant exclusivement des expériences de criblage virtuel « structure-based », cet outil peut tout aussi bien être appliqué à l’analyse de résultats « ligand-based ». Rétrospectivement, les performances de chaque approche de criblage peuvent être évaluées et optimisées à partir des données issues des banques d’évaluation ou, souvent de manière plus exigeante, à partir de données issues de HTS expérimentaux.

174

Dans le document Développement d’outils statistiques d’évaluation de méthodes de criblage virtuel : courbes de prédictivité & Screening Explorer (Page 173-177)