2.2 Techniques d’imagerie de contraste de phase par rayonnement synchrotron . 33
2.2.6 Extraction de l’information pure de phase
A realização de rastreio virtual em base de dados tem como base, encontrar possíveis estruturas que poderão ter propriedades para modificar a actividade de um certo alvo biológico, ou passíveis de serem transportadas por este.
As bases de dados utilizadas foram as seguintes: Open NCI [81], DrugBank [82], ArrayBioPharm [83], BioBlocks [84] e ChemBridge [85]. As estruturas referentes a cada base de dados encontram-se num único ficheiro com formato sdf.
Na tabela seguinte é possível verificar o número de estruturas existentes em cada ficheiro de cada base de dados.
Tabela 4: Número de estruturas existentes em cada um dos ficheiros obtidos para a criação das bases de
dados.
Base de Dados Nº de Estruturas
ChemBridge 436793
NCI 260071
DrugBank 4886
BioBlocks 2000
ArrayBioPharm 941
Os ficheiros NCI e ChemBridge, como podemos verificar pela tabela anterior, contêm um número de moléculas muito elevado. Assim, houve a necessidade de dividi- los em grupos mais pequenos, de modo a evitar posteriores falhas como por exemplo
crash do programa de rastreio ou do próprio computador.
Alguma(s) estrutura(s) no ficheiro não estavam bem representadas, e tivemos de eliminá-las ou editá-las antes da sua manipulação. Para este efeito foi necessário utilizamos dois scripts. Um dos scripts serviu para transformar os ficheiros de entrada (NCI.sdf e ChemBridge.sdf) retirados das respectivas páginas Web, de entrada Unix em
45
MS-DOS. Sem esta transformação, os ficheiros após a divisão, não são reconhecidos no sistema operativo Windows e produzem um erro. O segundo script é então utilizado para a divisão dos ficheiros. Neste trabalho cada ficheiro de entrada foi dividido em 10 novos ficheiros de extensão sdf, onde cada ficheiro final contém o mesmo número estruturas químicas.
A primeira tarefa a ser efectuada antes da realização do rastreio foi a realização de um ajuste às estruturas existentes nos ficheiros, evitando assim possíveis erros durante o rastreio.
Os tratamentos efectuados foram a remoção de contra-iões (Na+, K+, …), a neutralização das cargas parciais (C, S, P, O-, NH+, …), a remoção de moléculas de solvente e de outras pequenas moléculas (HCl, H2O, …), também foi necessário proceder à conversão de cada estrutura 2D para 3D, uma vez que se trata de rastreio virtual utilizando um farmacóforo 3D. [86]
Para a realização deste tratamento às estruturas utilizou-se o programa Corina com uma GUI baseado em java, que aceita como ficheiro de entrada diversos formatos (sdf, rtf, SMILES, mol, mol2 e ctx), e também tem a capacidade de transformar os ficheiros de saída, em outros formatos para além dos iniciais (pdb e cif); isto é, o ficheiro de entrada pode ter extensão sdf e o ficheiro de saída ter extensão pdb. [86]
O ajuste acima mencionado foi realizado em todos os ficheiros que compõem as bases de dados grandes. Uma vez realizado o tratamento procedeu-se então à criação das bases de dados. O programa utilizado para o efeito foi o VLifeMDS versão 3.5, que também é o programa utilizado para a execução do rastreio utilizando os farmacóforos. Utilizando o programa VLifeMDS podemos aceder a diferentes módulos, como por exemplo o ChemDBS. É neste módulo que são criadas as bases de dados e realizado o respectivo rastreio. [87]
Os formatos das extensões dos ficheiros de entrada suportados para a criação da base de dados são os seguintes sdf, mol2, SMILES e mds. Como os ficheiros de entrada originais já se encontravam numa extensão compatível com o programa, não foi necessário proceder a nenhuma conversão. Uma vez iniciado o módulo utiliza-se a opção criar base de dados, e selecciona-se o(s) ficheiro(s) que se pretende utilizar para criar a base de dados. [87]
O tempo necessário para a criação de uma base de dados com 25000 moléculas foi, em média, de 15 minutos.
46
Uma vez criada a base de dados obtêm-se três ficheiros em formato Access. Aqui podemos encontrar: o ficheiro Molecule que contém as informações referentes ao nome do ficheiro de entrada e seu formato, assim como, o nome da molécula; o ficheiro
Descriptor que contém os valores dos descritores moleculares calculados pelo
programa, como por exemplo massa molecular, número de aceitadores e dadores de hidrogénio, número de ligações com rotação livre, número de átomos (C, H, S, N, …), índices de Balabam, entre outros, num total de 290 descritores moleculares; no terceiro ficheiro, StruturalKeys, podemos encontrar os descritores moleculares constitucionais. Estes dois últimos ficheiros Access podem ser muito úteis para outro tipo de estudos. [87]
Os ficheiros Microsoft Access podem ser acedidos e posteriormente adicionados novos campos com diversas informações referentes às moléculas assim como adicionar novas estruturas. [87]
Com a criação das bases de dados, podemos passar à fase seguinte, a realização do rastreio utilizando o farmacóforo.
Tabela 5: Número de estruturas que consta em cada base de dados após realização dos passos anteriores.
Ficheiro Número de Estruturas
Inicial Base de Dados NCI 260071 257342 ArrayBioPharm 941 941
DrugBank 4886 4825 ChemBridge 436793 436763
BioBlocks 2000 54
No mesmo módulo do programa, que utilizamos para a criação das bases de dados, encontra-se uma opção pharmacophore search, onde escolhemos a base de dados na qual pretendemos realizar o rastreio, onde definimos as características do farmacóforo de interesse para o alvo biológico em estudo (por cada par de características definida é estabelecida uma distância previamente calculada, e em relação a esta distância é atribuída uma percentagem de tolerância máxima e mínima, que pode ou não ser o mesmo valor para este estudo foi de 20%).
Uma vez que, já tínhamos realizado a preparação referida anteriormente, não se escolheu a opção de optimização das moléculas e a opção de gerar conformações das moléculas antes do rastreio.
47
No final de cada rastreio, obtemos uma tabela onde é possível visualizar os valores de RMSD (desvio quadrático médio) para cada molécula e a sua estrutura 2D, assim como, o nome ou código da molécula em questão.
Para uma melhor visualização e exploração dos resultados, procedeu-se à análise visual destes mesmos resultados.