GENERALE DU PROJET
IV.12. Analyses statistiques
Desde a sua génese, há cerca de 20 anos, a ferramenta BLAST [100], analisada na secção anterior, é rotineiramente utilizada por cientistas de todo o mundo na pesquisa de similaridades e homologias inter e intra-genómicas ou proteómicas. Recentemente, com a sequenciação de genomas de seres eucariotas mais complexos, como é o caso do Homem, do rato, ou da galinha, correspondendo a genomas mais extensos, na ordem das Gigabases (109 bases), a ferramenta BLAST, mesmo com as melhorias introduzidas ao longo dos anos [136, 137], demonstra graves limitações ao nível do tempo de resposta se necessitarmos de elevada sensibilidade, e denota fraca sensibilidade, se pretendermos a resposta em tempo útil. Tornava-se premente desenvolver novos algoritmos e aplicações que permitissem que o avanço da genómica funcional não fosse entorpecido pelo fraco desempenho das aplicações de alinhamento e análise de similaridades de sequências genómicas, quer ao nível da sensibilidade, quer ao nível to tempo de resposta. O PatternHunter [118, 119], uma ferramenta de análise de similaridade de última geração, deu um grande contributo nesse sentido.
O algoritmo denominado de PatternHunter (PH) introduziu na análise de similaridade de sequências uma nova heurística, baseada no conceito de sementes espaçadas (spaced
seeds) [138, 139]. Na primeira versão da ferramenta [118], a metodologia recorria a spaced seeds isoladas e na segunda evolui-se para a utilização de spaced seeds múltiplas
e cooperativas [119]. O funcionamento algorítmico do PatternHunter é similar ao funcionamento do BLAST, realçando-se porém, diferenças fundamentais ao nível das
seeds utilizadas com repercussão evidente nos resultados obtidos. Assim, em oposição
às seeds exactas do BLAST, o PatternHunter usa seeds espaçadas, as quais intercalam caracteres especiais, denominados de don’t care, que permitem maior flexibilidade e sensibilidade à seed.
O BLAST usa seeds exactas de tamanho 11, por defeito, obrigando a ocorrências de segmentos de exact pattern-matching de, no mínimo, 11 bases consecutivas (11111111111), e a partir dessas seeds a zona de similaridade pode ser alargada para a esquerda e direita através da prospecção de similaridade bandeada usando programação dinâmica. O PatternHunter emprega seeds binárias do tipo 111010010100110111 (seed
0s a qualquer base. A seed apresentada contém tamanho 18, mas igualmente 11 bases exactas ainda que descontínuas, contudo pode detectar mais zonas de similaridade pois apresenta maior probabilidade de correspondência nas sequências a analisar. Para comprovar esta afirmação aporta-se, pela Figura 3.6, a análise comparativa da sensibilidade conseguida usando seeds contínuas de 10 e 11 bases, versus spaced seeds de 11 bases precisas [118]. De realçar que o melhor desempenho das spaced seeds ocorre para sequências com similaridades entre os 60 e 90%.
Sen si b ilid ad e Similaridade
Figura 3.6 – Sensibilidade das spaced seeds versus seeds exactas.
A área de desenho de seeds eficientes é uma área de investigação muito activa [138- 142], utilizar as melhores seeds permite mais sensibilidade e prospecção em menor tempo. Assim, pode considerar-se fundamental na eficiência dos algoritmos que usam as spaced seeds como recurso nuclear.
A probabilidade de hit (ocorrência da seed), revelando uma potencial região similar, é computada no PH, recorrendo a um algoritmo baseado em programação dinâmica. As ocorrências das seeds são registadas em estruturas de dados de elevado desempenho, tabelas de hash neste caso, que constituem o repositório das HSP. Posteriormente esse repositório é avaliado no sentido de o depurar de elementos redundantes. Finalmente, as HSP mais relevantes são analisadas nas suas imediações, por programação dinâmica localizada, de forma a obter a extensão completa da região de similaridade.
A versão mais recente do PatternHunter, referida por PH-II [119], utiliza o conceito de “spaced seed optimizada”, envolvendo múltiplas seeds em cooperação. A pesquisa das
seeds utiliza algoritmos de pesquisa de padrões múltiplos, que pode ser feita em
paralelo. Assim, o varrimento das sequência a analisar é virtualmente realizado em várias camadas, correspondendo cada camada ao estado da detecção de uma seed. Finalmente, as várias camadas proporcionam uma visão integrada das regiões de similaridade evidenciadas, aumentando, com esta redundância, o grau de sensibilidade do algoritmo, sendo que, no dizer dos seus autores, o desempenho conseguido se situa nos 98% de sensibilidade. Recorde-se que para obter os 100% de sensibilidade são necessárias as técnicas de programação dinâmica, porém impraticáveis em genomas da ordem das Gigabases. Importa igualmente referir que o tempo de resposta é afectado negativamente pelo acréscimo de seeds a pesquisar. Outro factor importante é a complexidade associada à obtenção do conjunto de seeds óptimas [143] ajustadas a cada sequência a analisar, neste caso as soluções óptimas são igualmente proibitivas, correspondendo a problemas de tipo NP, o PH-II usa uma solução de tipo ganancioso (greedy algorithm) para reduzir a complexidade do problema sem depauperar a qualidade da solução. Se bem que esta computação só é necessária uma vez para cada genoma a analisar, o tempo de processamento envolvido, pode, para os casos mais exigentes, prolongar-se por vários dias de CPU.
Para concluir a secção apresentam-se, na Figura 3.7, gráficos de desempenho comparado, em termos de tempo de processamento e recursos de memória utilizados, pelo PH e Megablast (a versão mais rápida do tradicional BLAST) na análise de similaridade entre os cromossomas 2 e 4 da Arabidopsis, usando os parâmetros mais favoráveis para o Megablast e os parâmetros standard do PH. Os referidos gráficos são originários do estudo de benchmark disponibilizado no sítio da Internet da empresa que desenvolve e comercializa o PH, em http://www.bioinformaticssolutions.com. O estudo aludido foi realizado num PC equipado com um processador Pentium III – 700MHz, 1GB de memória RAM, com o sistema operativo Linux Redhat 7.1. São patentes as diferenças de desempenho, mais impactantes ao nível do tempo necessário, onde a diferença, a favor do PH, é superior a factor 20.
Tempo de processamento necessário para comparar os cromossomas 2 e 4 da Arabidopsis
Recursos de memória necessários para comparar os cromossomas 2 e 4 da Arabidopsis
Figura 3.7 – Desempenho comparado entre o PH e o Megablast.
Utilizando 4 spaced seeds o PH-II ganha uma sensibilidade, em média, na ordem dos 85-95%, muito superior à do BLAST (em média 65-75%), consumindo o mesmo tempo para a análise de similaridade.