• Aucun résultat trouvé

1.1 SBVLS : Définition de critères basés sur les propriétés du site de liaison pour

1.1.4 Analyse critique de l’étude

1.1.4.1La banque d’évaluation DUD

La base de données DUD permet une évaluation des méthodes de criblage virtuel basées sur

la structure de grande qualité. Cependant, depuis sa création, des problèmes ont été soulevés

comme le manque de diversité des cibles et des structures des ligands

424

ou la sélection des

decoys

364 , 408 , 425, 426

. Une nouvelle version de la DUD, la DUD_E a alors été proposée pour

prendre en compte les critiques précédentes. Au cours de notre étude, nous avons identifié

deux nouveaux points dont la prise en compte, jusque là ignorée, devrait permettre

d’améliorer la qualité des banques d’évaluation.

Le premier s’intéressait au profil pharmacologique des ligands. En effet, dans la version 2 de

la DUD, le récepteur nucléaire des œstrogènes alpha (ER_alpha) possède un jeu de données

agoniste et un jeu de données antagonistes. Cette distinction, très intéressante aux vues des

différences de conformations du site de liaison en fonction du profil pharmacologique des

ligands co-cristallisés, n’est cependant pas réalisée pour les six autres récepteurs nucléaires de

la DUD (récepteurs des androgènes AR, des glucocorticoïdes GR, des minéralocorticoïdes

MR, activé par les proliférateurs de peroxysomes gamma PPAR_gamma, de la progestérone

PR et des rétinoïdes X alpha RXR_alpha) et est même totalement ignorée dans la DUD_E,

même pour le récepteur ER_alpha. Pour étudier l’impact de la prise en compte du profil

pharmacologique des ligands, nous avons choisi deux récepteurs nucléaires de la DUD, AR et

GR, car ils présentaient tous les deux un nombre suffisants d’agonistes et d’antagonistes (et

189

de modulateurs). L’analyse des distributions de score a montré des différences significatives

pour chaque jeu de données séparé, en fonction notamment du profil pharmacologique du

ligand co-cristallisé dans la structure étudiée. Nous avons donc suggéré que la qualité des

banques d’évaluation pourrait être amélioré par création de jeux de données séparés pour les

agonistes et les antagonistes et par prise en compte du profil pharmacologique du ligand dans

le site de liaison étudié.

Le second problème concernait la sélection des actifs. En effet, les données pour les actifs de

la DUD ont été obtenues à partir de différentes bases de bioactivité (KiBank

445

, PDBbind

database

446

, PubChem

41

ou encore ChEMBL

42

pour la DUD_E) ou d’études précédentes

355,

358, 419, 447-451, 452 , 453-464

sans aucune vérification. La fiabilité des données ainsi collectées est

donc à remettre en question. Nous avons notamment pu mettre en évidence que des ligands de

la GPB (Figure 69) étaient systématiquement associés à des mauvaises valeurs

d’enrichissement (données non présentées dans la publication). Une recherche

bibliographique nous a permis d’expliquer simplement cette observation. En effet, les ligands

mis en causes étaient bien des ligands de la GPB mais ne se fixaient pas au site de liaison

étudié (le site catalytique de type purine) mais à un deuxième site de liaison allostérique

465,

466

. Cet exemple précis et probablement non isolé, illustrait parfaitement le besoin de

vérification des ligands proposés comme actifs dans les banques d’évaluation.

Figure 69. Ligands de la GPB inclus dans la DUD mais ne se fixant pas au site catalytique

étudié mais à un site allostérique.

1.1.4.2Déroulement de l’étude

Pour pouvoir mener cette étude, plusieurs stratégies pouvaient être adoptées à différents

niveaux. Il est donc possible de discuter des différents choix que nous avons faits, et

notamment de leur adéquation et des alternatives que nous aurions pu utiliser.

190

Ainsi, nous avons décidé de prendre en compte la flexibilité de la protéine par l’intermédiaire

de la sélection de plusieurs conformations. Cependant, ceci représente une option parmi de

nombreuses autres, et nous n’avons pas encore testé les conclusions de ce travail avec d’autres

stratégies de prise en compte de la flexibilité.

Lors de la phase de sélection des structures des protéines à inclure dans l’étude nous avons

décidé d’éliminer les structures apo, c’est-à-dire non co-cristallisées avec un ligand. En effet,

si le choix de la structure de départ pour des études de docking est encore difficile et

complexe, il est cependant recommandé de préférer des structures holo

365

lorsque celles-ci

sont disponibles. Nous avons choisi de ne conserver parmi toutes ses structures que les

extrêmes en termes de volume et d’ouverture du site de liaison pour évaluer l’impact de ses

propriétés sur les performances du docking. En effet, nos capacités computationnelles limitées

ne nous permettaient pas de réaliser le docking sur toutes les structures afin de rechercher a

posteriori les propriétés communes favorables. Néanmoins, force nous est de reconnaître que

la sélection effectuée de 2 à 4 structures selon les cibles peut être une source de biais

d’interprétation. En effet, lorsque la structure associée aux meilleures performances

représente la structure extrême à la fois en termes de volume et d’ouverture du site de liaison,

il est possible de s’interroger sur la contribution respective de ses propriétés sur les

performances.

Pour réaliser une étude robuste, nous avons pris le parti d’utiliser deux logiciels de docking

différents et les 39 cibles de la DUD pour lesquelles il existait au moins une structure

expérimentale. Cependant, pour valider les tendances observées dans notre étude, le même

travail pourrait être mené à l’aide de logiciels de docking supplémentaires (et

complémentaires en termes d’algorithme de recherche et de fonctions de score) sur les jeux de

données de la DUD_E qui présente à la fois un plus grand nombre de cibles à évaluer mais

aussi de ligands et de decoys.

Pour analyser les résultats obtenus, nous avons là encore réalisé deux choix déterminants. Le

premier, comme expliqué précédemment, a été de séparer les cibles en quatre catégories en

fonction de leurs valeurs moyennes de volume et d’ouverture de site de liaisons. En effet, il

est peu probable que les prérequis pour assurer le succès d’un criblage virtuel soient les

mêmes lorsque les protéines sont très différentes. Nous avons donc fixé des seuils arbitraires à

350 Å pour le volume et 70 % pour l’hydrophobie qui nous permettaient de diviser de

manière homogène les cibles dans les différentes classes. Une autre solution possible aurait

été de considérer les grandes familles de protéines pour analyser les performances.

191

Malheureusement, les groupes ainsi constitués étaient trop petits (Figure 70) pour permettre

d’interpréter statistiquement les résultats. Enfin, nous avons choisi l’AUC comme métrique de

performance de notre étude. Cette métrique évaluant les performances globales d’une

méthode aurait pu être complétée par d’autres métriques telles que l’EF1% et l’EF10% pour

prendre en compte les performances précoces, ce qui a cependant été le cas en cas d’égalité

des valeurs d’AUC.

Figure 70. Classification des cibles de la DUD selon les grandes familles de protéines