• Aucun résultat trouvé

au rouge (285 A3

). b. Les quatre conformations représentatives et leurs cavités. Les cavités, les résidus alentours et leur surface accessible au solvant sont représentés en vert pour la cavité enfouie, en bleu pour la cavité sous PHE37, en rouge pour cavité au dessus de PHE37 et en jaune pour la cavité sur le côté. Le résidu PHE37 est représenté en orange.

Pour définir la poche (les résidus entourant la cavité) de chaque représentant, les cavités ont été redétectées en utilisant une sonde interne de 1.1Å, afin de détecter les éventuels canaux très fins situés aux alentours des cavités. Les résidus situés à moins de 5Å sont considérés comme faisant partie de la poche.

3.4 Mise en place d’un échantillonnage de la ZINC

La ZINC[235] est une "méta-chimiothèque" : elle agrège une multitude de chimiothèques com-merciales dans un format unifié et donne des informations permettant de commander les composés. La version de la ZINC utilisé dans ce chapitre date de décembre 2013. J’utilise plus précisément le sous-ensemble instock, comprenant les composés a priori disponibles directement à la commande,

soit 10 125 419 composés. Le criblage complet de la ZINC sur les quatre conformations retenues sur 256 cœurs prendrait plusieurs mois ; pour accélérer le procédé, j’ai réalisé un échantillonnage représentatif de la ZINC, permettant de faire le criblage en deux étapes :

1. les représentants de chaque groupe déterminé par le partitionnement de la ZINC sont criblés sur chaque structure

2. les groupes pour lesquels les représentant semblent intéressants (pose correcte et énergie de docking suffisament basse) sont sélectionnés, et l’ensemble des composés appartenant à ces groupes sont criblés sur les structures correspondantes

De cette manière, le criblage est effectué sur les composés les plus pertinents a priori, en évitant de gaspiller des ressources sur des composés qui n’ont que peu de chance d’être actifs.

3.4.1 Partitionnement de la ZINC à l’aide d’une carte auto-organisatrice

Afin de partitionner une chimiothèque, il est nécessaire de définir une mesure de similarité (ou de distance) entre deux composés. Pour cela, les composés sont traduits en vecteurs de fonctions chimiques, les empreintes de Morgan, très utilisées dans la littérature et proches des empreintes ECFP4 et FCFP4. La sous-structure définie par l’environnement atomique de chaque atome à une et deux liaisons de distance est traduite en un bit, une valeur numérique variant de 0 à 232− 1 (figure IV.12.a). Le compte des bits de tous les atomes définit l’empreinte de Morgan d’un composé. L’empreinte peut être utilisée telle quelle ou compressée par modulo en un vecteur booléen de taille fixe (figure IV.12.b), ici 2048 bits. A noter que cette compression génère des "conflits" (un bit compressé peut représenter une multitude de sous-structures différentes) et perd le décompte des sous-structures. La fonction de similarité utilisée pour comparer deux empreintes non compressées est une extension de la similarité de Jaccard adaptée aux vecteurs de valeurs entières :

S(A, B) = P

imin(Ai, Bi) P

imax(Ai, Bi)

Les empreintes compressées sont elles comparées à l’aide d’une extension de la similarité de Jaccard aux valeurs réelles entre 0 et 1, afin de mesurer la distance au centroïde des nœuds auxquels ils sont affectés.

Scompress(A, B) = A · B A + B − A · B

N O O N O O 0 1 2 N O N O O C 0 1 2 Rayon 0 : Rayon 1 : Rayon 2 :

a.

b.

N O O C N N O O O O N O O O CC N N CC OO C N O N O O O N N O O N O N O O

Identifi eurs (bits) : -1266712900 -1216914295 78421366 -887929888 -276894788 -744082560 -798098402 -690148606 1191819827 1687725933 1844215264 -252457408 132019747 -2036474688 -1979958858 -1104704513 -1266712900 -1216914295 78421366 -887929888 -276894788 -744082560 -798098402 -690148606 1191819827 1687725933 1844215264 -252457408 132019747 -2036474688 -1979958858 -1104704513 010000000010000110000100001100000000010100000000000000000000000000100101001000000000000100000000000000 Fonction de hashage

Identifi eurs (bits) :

Vecteur de taille fi xe :

Collisions

FigureIV.12 – Description des composés par empreintes de Morgan. a. La molécule est décomposée en sous-structures centrées sur chaque atome. Les sous-structures sont associées à différentes valeurs entières (les bits). b. L’empreinte peut être compressée en un vecteur booléen "hashé".

La première étape de l’échantillonnage de la ZINC consiste à réaliser son partitionnement à l’aide d’une carte auto-organisatrice (l’algorithme est décrit section 3.3). Cet algorithme est en effet très bien adapté aux jeux de donnés massifs de grande dimension, car sa complexité est avantageuse (O(n × m × d) avec n le nombre de vecteurs d’entrée, d leur taille, et m le nombre de neurones composant la carte) tout en prenant en compte la densité des données d’entrée. L’ensemble des empreintes compressées des composés de la ZINC est passé deux fois durant la phase d’apprentissage, ce qui génère une carte de 2500 neurones dont 2150 sont effectivement associés à des composés.

3.4.2 Sous-partitionnement de la ZINC et définition des composés représentants Chaque composé est associé au neurone le plus proche. On appelera également neurone l’en-semble des composés associés à un neurone particulier. La deuxième étape du partitionnement de la ZINC consiste à utiliser l’algorithme des k-medoïdes (cf. annexes 3.1) pour partitionner chacun de ces neurones en groupes de composés en utilisant cette fois-ci les empreintes non compressées. Le nombre de groupe pour chaque neurone est proportionnel à la variance de l’ensemble des dis-tances entre les composés associés au neurone : plus un neurone regroupe des composés différents,

plus il sera subdivisés en groupes. Le médoïde de chaque groupe devient alors le représentant de ce groupe. Cette étape de partition permet de définir plus de 700 000 groupes et autant de représentants. Ces représentants sont utilisés pour la première étape du criblage.

neurone

groupe

chimique

1.

2.

représentant

Figure IV.13 – Partitionnement et échantillonnage de la ZINC. La carte SOM est composée d’une collection de neurones (étape 1) entrainés sur les composés de la ZINC. Les composés associés à chaque neurones sont partitionnés à l’aide de l’algorithme des k-médoïdes (étape 2). Le médoïde de chaque partition est considéré comme son composé représentant pour la 1reétape du criblage.

3.5 Criblages virtuels et présélection des composés

Les deux étapes de criblage ont été réalisées à l’aide des logiciels FlexX [60] et DOCK [52, 53] (voir section 2.2). Les poses des ligands provenant de DOCK sont rescorés en utilisant le score MMGBSA. Seule la pose de plus basse énergie est considérée. La première étape du criblage consiste à docker l’ensemble des représentants déterminés lors du sous-partitionnement de la ZINC. L’enfouissement de chaque ligand est déterminé comme suit :

— chaque atome du ligand est discrétisé en considérant les huits sommets du voxel de la grille utilisée pour détecter les cavités

— si l’un de ces sommets correspond à un point de la cavité, l’atome est considéré comme correctement placé à l’intérieur de la cavité

— la fraction du nombre d’atomes considérés comme correctement placés sur le nombre d’atomes du ligand définit le taux d’enfouissement e du ligand (0 ≤ e ≤ 1)

Les diagrammes représentant l’énergie du docking en fonction du taux d’enfouissement de chaque ligand sont donnés dans la figure IV.14. Il est possible de tirer plusieurs conclusions de ce dia-gramme. Tout d’abord, les poses de FlexX ont plus tendance à sortir du cadre de la cavité d’origine que celles de DOCK. Une des raisons est la réduction des rayons de van der Waals des atomes réalisée par FlexX, permettant de modéliser de façon très crue la flexibilité du récepteur. Cela permet au ligand de se glisser dans des interstices normalement trop petits et donc non compris

dans les cavités telles que calculées par mkgrid, donc d’être classé par FlexX alors qu’il est rejeté par DOCK. On remarque également que la cavité enfouie, la plus volumineuse des cavités sélec-tionnées, permet de docker un plus grand nombre de ligand avec une énergie et une pose bien enfouie. On retrouve ce comportement à moindre échelle pour la cavité au dessus de PHE37. A l’inverse, les cavité sous PHE37 et sur le côté sont beaucoup plus petites et ne permettent aux logiciels de ne docker correctement que les composés les plus petits. Le cas de la cavité sur le côté est particulièrement sensible puisque très peu de poses de bonne énergie et de bon enfouissement sont trouvées. Enfin, on peut relever que les composés ayant pu être dockés à la fois par DOCK et par FlexX ont un meilleur enfouissement et une meilleure énergie.

La sélection des représentants pour la deuxième étape du criblage se fait à l’aide de critères sur l’énergie de docking et le taux d’enfouissement (pointillés colorés dans la figure IV.14). Les valeurs des critères d’énergie et de taux d’enfouissement sont choisies afin d’équilibrer le nombre de composés issus de DOCK et FlexX et de chacune des cavités. Ces valeurs sont données en annexe, section 5.2.

Figure IV.14 – Diagramme score-taux d’enfouissement des poses des représentants après criblage à l’aide de FlexX et DOCK. De gauche à droite : docking sur la cavité enfouie (vert), la cavité sous PHE37 (bleu), la cavité au dessus de PHE37 (rouge) et la cavité sur le côté (jaune orangé). De haut en bas : docking réalisé avec FlexX, docking réalisé avec DOCK, composés effectivement dockés par FlexX et DOCK (en haut : diagrammes des poses de FlexX, en bas : diagramme des poses de DOCK). En abscisse, l’énergie de docking des poses (score FlexX ou énergie MMGBSA) ; en ordonnée, la fraction d’atomes effectivement contenus dans la cavité détectée précédemennt. Les lignes de niveau sont logarithmiques et donnent un aperçu de la "densité" de poses dans le graphe. Les traits pointillés verticaux et horizontaux correspondent aux critères (en énergie et taux d’enfouissement) de sélection des composés. Les composés situés dans le rectangle coloré seront sélectionnés pour l’étape suivante du criblage.

Figure IV.15 – Diagramme score-enfouissement des composés criblés lors du 2e criblage. Voir figure IV.14 pour la description des éléments de cette figure. A noter que dans le cadre "composé communs à FlexX et DOCK" les composés doivent vérifier à la fois les critères pour FlexX et pour DOCK pour être sélectionnés (ils doivent être situés dans les deux carrés à la fois).

Pour chaque cavité, l’ensemble des composés appartenant aux familles des représentants sé-lectionnés (soit plus de 700 000 composés) sont criblés à l’aide de FlexX et DOCK comme pour le premier criblage. Le diagramme score-enfouissement pour ce criblage est donné figure IV.15. Comparativement au criblage précédent, nous avons remarqué que les composés sont bien plus concentrés dans les zones "intéressantes" (basse énergie-enfouissement élevé). Cette observation justifie a posteriori l’utilisation d’un criblage en deux temps, car les composés sélectionnés via les représentants sont effectivement plus susceptibles de docker correctement. Les critères de sélec-tion des composés sont ici plus drastiques afin de réduire le nombre de composés à traiter. Les composés ayant pu être dockés à la fois par DOCK et par FlexX sont sélectionnés en priorité sur des critères d’énergie plus relachés. Ils doivent cependant obéir à l’ensemble des quatre critères pour être sélectionnés de cette façon. A noter que la méthode de classement des composés utilisée ici (voir section suivante) implique que les critères de sélection sur les composés issus uniquement de DOCK ou de FlexX n’ont pas vraiment d’importance. Les composés sélectionnés lors de cette deuxième étape doivent finalement être classés pour définir la liste des composés à commander et à tester.