1.1 SBVLS : Définition de critères basés sur les propriétés du site de liaison pour
1.1.4 Analyse critique de l’étude
1.1.4.1La banque d’évaluation DUD
La base de données DUD permet une évaluation des méthodes de criblage virtuel basées sur
la structure de grande qualité. Cependant, depuis sa création, des problèmes ont été soulevés
comme le manque de diversité des cibles et des structures des ligands
424 ou la sélection des
decoys
364 , 408 , 425, 426. Une nouvelle version de la DUD, la DUD_E a alors été proposée pour
prendre en compte les critiques précédentes. Au cours de notre étude, nous avons identifié
deux nouveaux points dont la prise en compte, jusque là ignorée, devrait permettre
d’améliorer la qualité des banques d’évaluation.
Le premier s’intéressait au profil pharmacologique des ligands. En effet, dans la version 2 de
la DUD, le récepteur nucléaire des œstrogènes alpha (ER_alpha) possède un jeu de données
agoniste et un jeu de données antagonistes. Cette distinction, très intéressante aux vues des
différences de conformations du site de liaison en fonction du profil pharmacologique des
ligands co-cristallisés, n’est cependant pas réalisée pour les six autres récepteurs nucléaires de
la DUD (récepteurs des androgènes AR, des glucocorticoïdes GR, des minéralocorticoïdes
MR, activé par les proliférateurs de peroxysomes gamma PPAR_gamma, de la progestérone
PR et des rétinoïdes X alpha RXR_alpha) et est même totalement ignorée dans la DUD_E,
même pour le récepteur ER_alpha. Pour étudier l’impact de la prise en compte du profil
pharmacologique des ligands, nous avons choisi deux récepteurs nucléaires de la DUD, AR et
GR, car ils présentaient tous les deux un nombre suffisants d’agonistes et d’antagonistes (et
189
de modulateurs). L’analyse des distributions de score a montré des différences significatives
pour chaque jeu de données séparé, en fonction notamment du profil pharmacologique du
ligand co-cristallisé dans la structure étudiée. Nous avons donc suggéré que la qualité des
banques d’évaluation pourrait être amélioré par création de jeux de données séparés pour les
agonistes et les antagonistes et par prise en compte du profil pharmacologique du ligand dans
le site de liaison étudié.
Le second problème concernait la sélection des actifs. En effet, les données pour les actifs de
la DUD ont été obtenues à partir de différentes bases de bioactivité (KiBank
445, PDBbind
database
446, PubChem
41 ou encore ChEMBL
42 pour la DUD_E) ou d’études précédentes
355,
358, 419, 447-451, 452 , 453-464
sans aucune vérification. La fiabilité des données ainsi collectées est
donc à remettre en question. Nous avons notamment pu mettre en évidence que des ligands de
la GPB (Figure 69) étaient systématiquement associés à des mauvaises valeurs
d’enrichissement (données non présentées dans la publication). Une recherche
bibliographique nous a permis d’expliquer simplement cette observation. En effet, les ligands
mis en causes étaient bien des ligands de la GPB mais ne se fixaient pas au site de liaison
étudié (le site catalytique de type purine) mais à un deuxième site de liaison allostérique
465,
466
. Cet exemple précis et probablement non isolé, illustrait parfaitement le besoin de
vérification des ligands proposés comme actifs dans les banques d’évaluation.
Figure 69. Ligands de la GPB inclus dans la DUD mais ne se fixant pas au site catalytique
étudié mais à un site allostérique.
1.1.4.2Déroulement de l’étude
Pour pouvoir mener cette étude, plusieurs stratégies pouvaient être adoptées à différents
niveaux. Il est donc possible de discuter des différents choix que nous avons faits, et
notamment de leur adéquation et des alternatives que nous aurions pu utiliser.
190
Ainsi, nous avons décidé de prendre en compte la flexibilité de la protéine par l’intermédiaire
de la sélection de plusieurs conformations. Cependant, ceci représente une option parmi de
nombreuses autres, et nous n’avons pas encore testé les conclusions de ce travail avec d’autres
stratégies de prise en compte de la flexibilité.
Lors de la phase de sélection des structures des protéines à inclure dans l’étude nous avons
décidé d’éliminer les structures apo, c’est-à-dire non co-cristallisées avec un ligand. En effet,
si le choix de la structure de départ pour des études de docking est encore difficile et
complexe, il est cependant recommandé de préférer des structures holo
365 lorsque celles-ci
sont disponibles. Nous avons choisi de ne conserver parmi toutes ses structures que les
extrêmes en termes de volume et d’ouverture du site de liaison pour évaluer l’impact de ses
propriétés sur les performances du docking. En effet, nos capacités computationnelles limitées
ne nous permettaient pas de réaliser le docking sur toutes les structures afin de rechercher a
posteriori les propriétés communes favorables. Néanmoins, force nous est de reconnaître que
la sélection effectuée de 2 à 4 structures selon les cibles peut être une source de biais
d’interprétation. En effet, lorsque la structure associée aux meilleures performances
représente la structure extrême à la fois en termes de volume et d’ouverture du site de liaison,
il est possible de s’interroger sur la contribution respective de ses propriétés sur les
performances.
Pour réaliser une étude robuste, nous avons pris le parti d’utiliser deux logiciels de docking
différents et les 39 cibles de la DUD pour lesquelles il existait au moins une structure
expérimentale. Cependant, pour valider les tendances observées dans notre étude, le même
travail pourrait être mené à l’aide de logiciels de docking supplémentaires (et
complémentaires en termes d’algorithme de recherche et de fonctions de score) sur les jeux de
données de la DUD_E qui présente à la fois un plus grand nombre de cibles à évaluer mais
aussi de ligands et de decoys.
Pour analyser les résultats obtenus, nous avons là encore réalisé deux choix déterminants. Le
premier, comme expliqué précédemment, a été de séparer les cibles en quatre catégories en
fonction de leurs valeurs moyennes de volume et d’ouverture de site de liaisons. En effet, il
est peu probable que les prérequis pour assurer le succès d’un criblage virtuel soient les
mêmes lorsque les protéines sont très différentes. Nous avons donc fixé des seuils arbitraires à
350 Å pour le volume et 70 % pour l’hydrophobie qui nous permettaient de diviser de
manière homogène les cibles dans les différentes classes. Une autre solution possible aurait
été de considérer les grandes familles de protéines pour analyser les performances.
191
Malheureusement, les groupes ainsi constitués étaient trop petits (Figure 70) pour permettre
d’interpréter statistiquement les résultats. Enfin, nous avons choisi l’AUC comme métrique de
performance de notre étude. Cette métrique évaluant les performances globales d’une
méthode aurait pu être complétée par d’autres métriques telles que l’EF1% et l’EF10% pour
prendre en compte les performances précoces, ce qui a cependant été le cas en cas d’égalité
des valeurs d’AUC.
Figure 70. Classification des cibles de la DUD selon les grandes familles de protéines