De forma simplificada, podemos definir a bioinformática com uma área multidisciplinar da ciência que envolve tecnologia da informação, biologia, matemática, estatística, química, física e outras disciplinas, cuja aplicação principal é nas questões da biologia molecular. Neste sentido, a bioinformática faz uso de programas computacionais para reconhecer, caracterizar e mapear genes, decifrando a estrutura de suas respectivas proteínas (SABBATINI, 1999).
De acordo com Sabbatini (1999), a bioinformática surgiu devido à necessidade de acessar e manusear, de forma eficaz, grande quantidade de dados objetivando a geração de novos conhecimentos. De fato, com o surgimento dos sequenciadores automáticos e após o sequenciamento do genoma humano na década de 90, houve uma explosão na quantidade de sequências gênicas e proteicas, oriundas de diferentes projetos de pesquisa, a ser armazenada e, principalmente, analisada, o que tornava indispensável a utilização de plataformas computacionais eficientes para a interpretação dos resultados obtidos, direcionando os próximos passos e auxiliando as conclusões no final da pesquisa (ROUZÉ et al., 1999; PROSDOCINI et al., 2002).
Assim, com o objetivo, não apenas de armazenar a grande quantidade de dados gerados pelas diferentes ‘ômicas’, mas também de acessar de forma rápida e eficiente esse grande volume de dados, teve inicio a criação de bancos de dados públicos e privados e de redes de acesso que permitissem a interação entre estes grupos, bem como o acesso e depósito contínuo de dados (PROSDOCINI et al., 2002). Nas últimas décadas vários bancos de dados têm sido construídos visando armazenar e organizar esta grande quantidade de dados, ademais a maioria destas bases de dados disponibilizam ferramentas que permitem a análise das sequências. Embora existam muitos bancos de dados com acesso restrito,
34 atualmente a tendência é que estes dados sejam disponibilizados e estejam acessíveis a todos os pesquisadores, como é o caso do GenBank (Banco de Genes - http://www.ncbi.nlm.nih.gov/genbank), EMBL-Bank (European Molecular Biology Laboratory Databank; Banco de Dado do Laboratório de Biologia Molecular Europeu), DDBJ (DNA DataBank of Japan; Banco de Dados de DNA do Japão), dentre outros. O Genbank faz parte do Centro Nacional para Informação Biotecnológica (NCBI; National Center for Biotechnology Information – http://www.ncbi.nlm.nih.gov), sendo um banco de dados público integrativo e abrangente, contendo informações/dados de diferentes tipos e origens. Atualmente este banco comporta sequências nucleotídicas de mais 380.000 organismos, obtidas principalmente através da submissão de grupos de pesquisa individuais e também de projetos de sequenciamento em larga escala, que incluem ESTs e WGS (Whole Genome Shotgun; Fragmentação do Genoma Inteiro) (BENSON et al., 2011).
No que concerne aos esforços do Brasil no sequenciamento e construção de bancos de dados, alguns projetos de genoma expresso de plantas tiveram grande impacto no mundo científico, com destaque para os projetos: (i) Projeto de Etiquetas de Sequências Expressas de Cana-de-açúcar (Sugarcane Expressed Sequence Tags; SUCEST - http://watson.fapesp.br/sucest.htm); (ii) Projeto de Etiquetas de Sequências Expressas de Eucalipto (FORESTs - https://forests.esalq.usp.br); (iii) Projeto Genoma da Soja (Soybean Genome Project; GENOSOJA – http:// www.lge.ibi.unicamp.br/soja); e (iv) Projeto Transcriptoma do Feijão-Caupi (Cowpea Transcriptome Project; NordEST).
De forma geral, a identificação e caracterização dos dados surgidos a partir dos grandes projetos de sequenciamento são feitas através de análises comparativas; a similaridade existente entre genes presentes em diversos organismos é utilizada na anotação de sua função, estrutura, etc. Assim, um gene caracterizado numa levedura pode ajudar na identificação funcional do gene com a mesma função no homem, por exemplo (SANTOS e ORTEGA, 2003).
Com o objetivo de dar sentido à grande quantidade de sequências genômicas e de proteínas disponibilizadas nos diferentes bancos de dados, vários algoritmos foram desenvolvidos para facilitar o processo de anotação, identificação e caracterização em várias etapas; através destes algoritmos, por exemplo, é possível identificar vários tipos de sequências repetitivas (transposons, microssatélites, etc.), sequências estruturais (centrômeros, telômeros, etc.), sequências regulatórias (promotores, enhancers, etc.) e regiões transcritas que correspondem aos genes de cada organismo (SANTOS e ORTEGA, 2003).
A ferramenta mais popular de comparação de sequências (alinhamento local) é o BLAST (Basic Local Alignment Search Tool; Ferramenta Básica de Busca de Alinhamento Local) (ALTSCHUL et al.,
35 1990). Através deste algoritmo é possível comparar e alinhar uma sequência de DNA ou proteína com todas as sequências de um banco de dados público ou privado, sendo geralmente utilizado na busca por sequências similares. Esta ferramenta possui várias versões: (I) BLASTp, compara sequências de aminoácidos com o banco de proteínas; (II) BLASTn, compara sequências de nucleotídeos contra o banco de dados de DNA; (III) BLASTx, traduz a sequência de DNA para proteína e a compara com banco de dados proteico; (IV) tBLASTn, compara sequências proteicas com o banco de dados de DNA traduzido; (V) tBLASTx; traduz tanto a sequência nucleotídica quanto o banco de dados de DNA e os compara.
Uma vez selecionadas e/ou obtidas as sequências nucleotídicas de interesse, as mesmas podem ser traduzidas de forma que é possível avaliar suas prováveis proteínas. Várias ferramentas estão disponíveis gratuitamente para esta análise, como o ORF-Finder (Open Reading Frame Finder; Identificador de Quadros Abertos de Leitura), que é administrado pelo NCBI e gera uma análise gráfica indicando todos os quadros abertos de leitura de uma sequência de tamanho mínimo, e o Translate, disponibilizado através do site do Expasy (http://web.expasy.org/translate/), que é um portal de recursos de bioinformática, fornecendo acesso a bases de dados científicos e ferramentas em diferentes áreas, incluindo a proteômica, genômica, transcriptômica, filogenia, biologia de sistemas e genética de populações (SOARES-CAVALCANTI, 2007).
Para a análise comparativa global de sequências nucleotídicas ou proteicas o CLUSTAL (THOMPSON et al., 1997) é um dos softwares mais utilizados para efetuar estes alinhamentos múltiplos; um alinhamento múltiplo é uma hipótese de homologia posicional entre bases nucleotídicas ou aminoácidos de duas ou mais espécies. Além destas comparações, o programa permite a obtenção de árvores filogenéticas utilizando o algoritmo Neighbor-Joinning (Agrupamento de Vizinhos).
Vários programas para reconstrução filogenética e análise fenética também estão disponíveis on line e podem ser obtidos gratuitamente. Dentre eles destaca-se o MEGA (Molecular Evolutionary Genetics Analysis) (KUMAR et al., 1993), que pode ser utilizado na análise de sequências, marcadores moleculares, bem como para associá-las à características morfológicas e fisiológicas ou ainda variantes de uma característica. O programa permite a análise da matriz de dados através de métodos utilizados para cálculo de distâncias genéticas, como distância P (NEI, 1991), distância de Junkes-Cantor (JUNKES-CANTOR, 1969), distância de Tajima-Nei (TAJIMA e NEI, 1994), distância de Kimura-2- parâmetros (KIMURA, 1980), distância de Tamura (TAMURA, 1992). Além disso, o programa disponibiliza os algoritmos UPGMA (Unweighted Pair Group Method with Arithmetic Means; Método
36 não Polarizado de Agrupamentos aos Pares com Médias Aritméticas) (SNEATH e SOKAL, 1973), NJ (Neighbor-Joinning; Agrupamento por Vizinhança) (SAITOU e NEI, 1987) e Máxima Parcimônia (ECK e DAYHOFF, 1966; FITCH, 1971) para construção de dendrogramas. A versão 5.0, a mais recente do programa, além de disponibilizar os algoritmos citados, permite a análise por Máxima Verossimilhança, além de apresentar uma interface mais amigável (TAMURA et al., 2011).
A seleção de genes com dados de expressão variáveis é interessante para a análise de clusterização, a qual pode ser feita com auxílio dos programas integrados CLUSTER (EISEN et al., 1998) e TREEVIEW (PAGE, 1996). Estes programas são capazes de identificar genes com padrão de expressão semelhante para uma determinada situação, apresentando estes resultados na forma de gráficos e dendrogramas. Para cada gene, o perfil de expressão reflete seu comportamento dinâmico sob condições de estresse, estágios de desenvolvimento ou tecidos distintos; genes com perfil de expressão similar são considerados co-expressos.
As ferramentas acima descritas são apenas uma pequena amostra do que está disponibilizado gratuitamente na web. O universo de programas, ferramentas e algoritmos desenvolvidos para executar as mais variadas análises de sequências de DNA, RNA e/ou proteínas tem aumentado sobremaneira nos últimos anos; seja para atender a uma demanda por análises específicas ainda não disponíveis, seja vislumbrando a necessidade de tornar determinadas análises mais refinadas ou específicas. Além disso, esta grande variedade de recursos, muitos podem ser acessados gratuitamente através de suas homepages ou baixados para uso local, enquanto outros são de acesso restrito e podem ser acessados através da compra de licença de uso.
Em conjunto, a grande quantidade de sequências (DNA e proteína) disponíveis nos bancos de dados e a utilização dos diferentes programas e ferramentas de análise viabilizam a construção do painel de genes que participam das respostas aos estresses abióticos. A importância dos dados e informações obtidos através destes programas e ferramentas é percebida no momento do delineamento dos experimentos in vivo e in vitro visando ao melhoramento genético das plantas. A realização destes experimentos só é possível graças à caracterização dos genes e vias de interesse, assim como do conhecimento das particularidades e atributos intrínsecos do genoma de cada família ou gênero. Como discutido por Santos e Ortega (2003), à medida que o sequenciamento do genoma de espécies adicionais é finalizado, a genômica comparativa assume grande importância, tornando-se essenciais procedimentos computacionais para avaliar a correlação entre organismos em nível molecular. Dentre os procariotos foi demonstrado por genômica comparada que na história evolutiva vários segmentos de DNA foram
37 trocados entre espécies distintas, num processo de transferência horizontal. Outras aplicações das análises comparativas entre genomas estão emergindo e para cada um desses propósitos novas ferramentas de bioinformática são construídas, sendo muitas delas disponibilizadas via servidores www na internet (SANTOS e ORTEGA, 2003).