2.3. La recherche de la pose optimale - Développement et validation de la plateforme de criblag

Un système biologique réduit à la zone d’interaction protéine-ligand fait intervenir trois acteurs dans le phénomène de reconnaissance moléculaire : la protéine, le ligand et le solvant. Un algorithme de docking idéal prendrait en compte tous les paramètres associés à ces trois composantes, tels que la complète flexibilité du ligand et de la protéine, les effets de solvant, etc. Toutefois, une telle approche implique l’exploration d’un espace composé d’un nombre très important de degrés de liberté. La résolution du docking par une recherche exhaustive nécessiterait alors des temps de calcul considérables. Pour cette raison, la complexité du système est généralement réduite au niveau de la modélisation structurale. Les approximations les plus courantes à ce niveau consistent à considérer la protéine comme une entité rigide et à ne pas représenter explicitement les molécules du solvant.

On peut distinguer plusieurs niveaux de représentation du système dont les approximations évoluent conjointement avec le progrès des moyens informatiques au fil des ans. Au début des années 1980, quand l’approche de modélisation moléculaire par docking a été pour la première fois étudiée [175], Kuntz et ses collaborateurs ont proposé la stratégie du tout rigide dans laquelle l’exploration de l’espace des positions (discrétisé par l’emploi d’une grille) se limite au positionnement du ligand et n’exploite donc que six degrés de liberté élémentaires (rotations et translations). Depuis, l’essor des moyens de calcul a permis de considérer le système d’étude comme semi-flexible : la protéine est traitée de façon rigide, contrairement au ligand dont l’espace conformationnel est pris en compte. Cette approche reste la plus employée aujourd’hui, les algorithmes tenant compte explicitement de l’espace conformationnel du site actif étant encore en cours de développement.

Les différentes approches du docking que nous allons à présent détailler se distinguent au niveau de leurs conditions d'application et de la nature des informations qu'elles peuvent fournir. La pertinence du choix d'un programme de docking donné repose en premier lieu sur l'adéquation entre ces caractéristiques et celles du système étudié. L'efficacité de l'algorithme choisi sera par ailleurs un compromis entre rapidité d'exécution et précision des résultats.

Docking rigide

Dans le cas des méthodes de docking rigide, la recherche de la pose optimale se limite au positionnement. Cette opération consiste en la recherche exhaustive dans l’espace discrétisé des 6 degrés de liberté. Certains programmes, s’ils n’appartiennent pas à la famille des techniques de docking rigide, utilisent plusieurs étapes successives d’optimisation dont les premières peuvent s’apparenter à du docking rigide. Par exemple, le programme Glide [176] utilise initialement, dans son approche multi-étapes, une recherche systématique pour positionner le ligand de façon approchée au sein du site actif de la protéine.

Il est possible de considérer indirectement la flexibilité des ligands en utilisant des programmes de docking rigide. Pour cela, un jeu de conformères de basse énergie pour chaque molécule à tester sur le site actif ciblé peut être généré efficacement par les programmes tels qu’OMEGA [177] ou Catalyst [178]. Ces données sont calculées une fois pour toutes, réutilisables pour d’autres criblages une fois stockées. Certains programmes tels que FLOG [179], FRED [177] et EUDOC [180] travaillent sur un ensemble de conformères pré-calculés par un programme tiers ou générés à la volée par leurs algorithmes. Une telle approche est nécessaire dans le contexte du docking rigide car il est admis que la conformation complexée d’un ligand peut varier considérablement par rapport à sa conformation ”libre” [181].

Docking semi-flexible

Lorsque l’espace conformationnel des ligands est exploré, le nombre de degrés de liberté de l’espace de recherche peut être conséquent dans le cas de molécules très flexibles. Dans un tel contexte, l’emploi de méthodes de recherche exhaustives apparaît souvent inapproprié car nécessitant des simplifications importantes au niveau de l’échantillonnage. D’autres algorithmes, dits de fragmentation, sont employés pour construire de façon incrémentielle le ligand au sein du site actif de la protéine. L’espace des conformations du ligand est alors restreint au voisinage d’un ensemble initial d’états simplifiés. Cette stratégie de recherche par construction, qui se présente sous diverses variantes [132], est notamment adoptée par les programmes DOCK [175, 182], FLExX [183] et Hammerhead [184].

Les programmes de docking semi-flexible considérés comme les plus efficaces emploient des méthodes de recherche aléatoires ou stochastiques. L’exploration de l’espace de recherche se fait de façon plus ou moins aléatoire et les états générés sont soit acceptés, soit rejetés, suivant des règles spécifiques. On distingue trois principales classes de méthodes aléatoires : les méthodes de Monte

Carlo (cf. Partie 2, Section I), les méthodes évolutionnaires basées sur des algorithmes génétiques [185] et les méthodes de recherche Tabou [186].

Les algorithmes basés sur la méthode de Monte Carlo génèrent aléatoirement des états du système acceptés ou rejetés sur la base probabiliste de la fonction de Boltzmann. Les principaux programmes utilisant cette méthode sont ICM [187], QXP [188] et MCDOCK [189].

Les algorithmes génétiques [185] s’inspirent des théories de l’évolution pour sélectionner les états. Une population initiale aléatoire de confirmations du ligand dans le site actif de la protéine est définie et les degrés de liberté à explorer sont assimilés à un jeu de gènes. L’échantillonnage de l’espace se fait ensuite par des opérations génétiques (mutations, croisements et migrations) sur la population. La sélection des individus-conformères générés est basée sur leur capacité d’adaptation à l’environnement (la fonction de score). Malgré leur efficacité algorithmique, les algorithmes génétiques appliqués au docking ont parfois tendance à sélectionner des minima locaux. Pour pallier cela, une solution consiste à répéter un même calcul plusieurs fois afin de maximiser les chances d'obtenir, à l’issue de cette procédure, au moins un résultat satisfaisant (structure proche du minimum global). Les programmes de docking les plus connus implémentant un algorithme génétique sont AutoDock [190], GOLD [191] et DARWIN [192].

Le principe de base des méthodes de recherche Tabou, utilisées par exemple dans PRO_LEADS [193], est de pouvoir prendre en compte les régions de l’espace ayant déjà été visitées (par des calculs de similarité entre ligands, p. ex. calcul de RMSD). La recherche dans les régions inexplorées est privilégiée, réduisant considérablement la taille de l’espace à explorer.

Docking flexible

De nombreuses études utilisant le docking par l’approche ligand flexible/protéine rigide ont montré que cette stratégie semi-flexible conduisait à des résultats concluants [54, 55]. Toutefois, les réussites issues de son utilisation concernent surtout l’étude de protéines relativement rigides. À la suite de leur liaison avec un ligand, de nombreuses protéines peuvent pourtant subir des réarrangements structuraux de plus ou moins grande amplitude. Négliger cet aspect, désigné sous le terme d’"induced fit" [194], peut avoir des conséquences fâcheuses sur la pertinence des résultats issus d’un docking [195]. Même concernant des changements conformationnels mineurs, la flexibilité du site actif de la protéine peut avoir une grande influence dans le phénomène de reconnaissance moléculaire avec un ligand [196]. La mise au point d’algorithmes de docking prenant en compte explicitement la flexibilité de la protéine est toutefois une tâche délicate car le nombre de degrés de liberté associé à une telle représentation peut s’avérer très important (>> 50). Les programmes incorporant, au moins

partiellement, la flexibilité du site actif adoptent des stratégies assez diversifiées dont certaines d’entre elles sont évoquées ici à titre illustratif.

Le docking rigide permissif (dit "soft docking") considère la flexibilité de la protéine de manière indirecte, en atténuant certains termes de répulsion. Cela peut permettre au ligand de pénétrer légèrement la surface de la protéine en prévision des réarrangements qui auraient eu lieu lors de l’association de partenaires flexibles [197]. Une telle approche indirecte de la flexibilité de la protéine est cependant limitée pour couvrir le spectre des effets d’induced fit qui peuvent être observés, par exemple par dynamique moléculaire (cf. article #3 de ce travail).

Une librairie de rotamères pour un ensemble de chaînes latérales de la protéine autorisées à être flexibles peut être utilisée dans une approche plus explicite [198, 199]. ROSETTALIGAND [200] et Glide [176] sont deux exemples de programmes utilisant cette stratégie.

Enfin, de nouveaux programmes de docking qui traitent la flexibilité du site actif en employant la même stratégie que celle des ligands (chaque rotamère constitue un degré de liberté), sont actuellement en développement [201, 202]. Certains reposent sur des algorithmes innovants tels que la simulation de colonies de fourmis ou l’optimisation par essaims de particules [203].

Dans le document Développement et validation de la plateforme de criblage virtuel VSM-G et étude du domaine FAT de la kinase d'adhérence focale FAK (Page 62-65)