• Aucun résultat trouvé

Les technologies de localisation

O algoritmo MVS faz uso do aprendizado supervisionado. Então, seu treinamento exige, para a formulação de seu modelo preditivo, que sejam fornecidos dois conjuntos de dados rotulados, um positivo e um negativo. Especificamente para a aplicação do MVS ao problema dos ncRNAs, o positivo pode ser construído por exemplo a partir do UniProt Knowledge base (Wu et al, 2006a), que consiste em um repositório de seqüências de proteínas com alto nível de anotação, baixa redundância e alta integração a outros bancos de dados. No entanto, mesmo com um baixo nível de redundância, qualquer banco de dados de seqüências de proteínas possui uma redundância intrínseca, que ocorre devido à diferença na representatividade que certos domínios (ou famílias) possuem (Baldi e Brunak, 2001). Por exemplo, a família PS01033 (perfil da família de globinas) aparece em 1.934 proteínas no banco de dados PROSITE (Hulo et al, 2006); já a família de proteínas PS00295 (assinatura de arrestinas) possui somente 87 representantes. Isso pode ser reflexo de ancestralidade comum na herança desses domínios (Pandit et al, 2004; Lesk, 2002) ou de convergência evolutiva (Lesk, 2002); qualquer que seja o caso, essa redundância em domínios funcionais é um potencial gerador de overfitting em algoritmos de aprendizagem de máquina, já que a

35 saturação de exemplos repetidos induz um padrão indesejável no conjunto de treinamento que o algoritmo pode interpretar como um sinal relevante (Schölkopf e Smola, 2002).

Existem programas que lidam com a eliminação dessa redundância em bancos de dados, gerando conjuntos de dados contendo representantes únicos de cada família de proteínas. Exemplos desses programas são o UniqueProt (Mika e Rost, 2003), TribeMCL (Enright et al, 2002), SYSTERS (Krause et al, 2000), e o CD-HIT (Li e Godzik, 2006). O CD-HIT é um programa bastante utilizado em trabalhos com bancos de dados de seqüências biológicas, sendo adotado, por exemplo, para gerar conjuntos não-redundantes de seqüências do banco de dados UniProt (Wu et al, 2006a) e de diversos outros (Li e Godzik, 2006).

A redundância do banco de dados de nucleotídeos também deve ser eliminada. Programas disponíveis para esse fim são o CD-HIT-EST, componente do pacote CD-HIT (Li e Godzik, 2006), CleanUP (Grillo et al, 1996), e BLASTCLUST (McGinnis e Madden, 2004). Esses programas normalmente são usados para agrupar fragmentos de DNA (cDNAs) similares em contigs durante projetos de seqüenciamento, mas também podem ser usados como eliminadores de redundância de um conjunto de dados.

Os conjuntos de dados de seqüências nucleotídicas não redundantes gerados são a seguir submetidos à predição de fases abertas de leitura (ORFs) por programas especializados. A seleção do algoritmo é uma etapa crucial já que diversas variáveis do vetor de características são obtidas a partir da seqüência protéica predita. A detecção de ORFs em ESTs é um problema antigo da bioinformática que, apesar de parecer simples, empiricamente mostra-se bastante complexo, apresentando diversas ―armadilhas‖ para a correta predição (Nadershahi et al, 2004); por isso, nem todos os algoritmos disponíveis são apropriados para essa tarefa. Por exemplo, os programas ORFfinder (Wheeler et al, 2004), Diogenes (Crow e Retzel, 2005) e getorf, do pacote EMBOSS (Rice et al, 2000) utilizam uma abordagem simples de leitura nas 6 fases, sendo normalmente escolhido como produto protéico a maior cadeia polipeptídica predita. Essa abordagem é ineficaz para uso em ESTs, pois não considera a baixa qualidade das seqüências e o contexto como um todo, preocupando-se apenas com os sítios de início e término da ORF, podendo por exemplo confundir uma seqüência incompleta com um transcrito inteiro.

Os algoritmos ESTScan (Lottaz et al, 2003) e Diana-EST (Hatzigeorgiou, 2001) são eficientes para a tarefa a que se destinam: encontrar ORFs em um organismo específico, do qual se têm abundância de exemplos e informações a priori de seqüências que possuem e que não possuem ORFs do próprio organismo e de organismos aparentados filogeneticamente. Os exemplos são necessários porque esses programas fazem uso de aprendizagem de máquina,

36 como por exemplo redes neurais. Por isso o uso desses programas é inviável tanto para ESTs de organismos que não são modelos e com poucos dados de parentes próximos, quanto em predições em larga escala de diversos organismos diferentes, onde o modelo gerado para uma espécie é inválido para predição de ORFs de uma outra espécie. Já o programa OrfPredictor (Min et al, 2005) possui uma abordagem voltada especificamente para a complexidade da predição de ORFs em ESTs com reads de baixa qualidade. O programa explora todas as possibilidades que um EST pode representar: idealmente ele deve ser o transcrito completo que irá codificar a proteína; mas também, ele pode ser apenas a parte central de um transcrito, estando ausentes seu códon de início e sinal de poliadenilação; pode ocorrer o fato desse EST nem sequer apresentar uma ORF; e pode ser também que o EST seja uma combinação complexa dessas e de outras situações. Em teoria, para a identificação de ncRNAs em um transcriptoma, bastaria submeter todos os transcritos à predição de ORFs por esse programa, sendo que aqueles que não apresentaram ORF predita seriam rotulados não-codificadores. No entanto, durante a submissão de 265.691 exemplos de ncRNAs conhecidos, obtidos dos bancos de dados, cerca de 46% das seqüências tiveram uma ORF predita (dados não mostrados), e na submissão de 3.000 seqüências geradas aleatoriamente, mais de 97% tiveram uma ORF identificada (dados não mostrados). Isso leva a crer que o algoritmo é eficiente em identificar ORFs mas apresenta muitos falsos-positivos, podendo isso ser um indicativo de viés do programa em encontrar ORFs e uma deficiência em identificar transcritos não- codificadores. O programa ANGLE (Shimizu et al, 2006) foi construído considerando dois problemas em seqüências de ESTs com reads de baixa qualidade: os erros no seqüenciamento (inserções e deleções - indels) e o truncamento de seqüências. Para isso o programa usa uma modelagem que tenta prever e corrigir os indels, além de ser otimizado para lidar com seqüências curtas, valorizando ao máximo a informação de input. A abordagem é híbrida e composta por três etapas: na primeira, um classificador ―fraco‖ (AdaBoost) de região codificadora avalia segmentos da seqüência por meio de uma janela deslizante; então, um modelo de Markov determina a estrutura secundária protéica ótima, por meio de um pontuador baseado em programação dinâmica; e finalmente, mudanças da fase de leitura são detectadas e consideradas. As seis fases de leitura são analisadas e o produto protéico mais provável codificado pelo transcrito é fornecido. ANGLE foi treinado em um conjunto de mRNAs humanos, no entanto ele mostra um desempenho excelente mesmo em organismos filogeneticamente distantes de humano, como por exemplo fungos (Dr. Kana Shimizu, comunicação pessoal). Além disso, ANGLE não apresenta um viés em identificar ORFs em

37 conjuntos de dados onde a maioria é não-codificador, contrariamente ao programa OrfPredictor, conforme discutido acima (dados não mostrados).

O conjunto negativo pode ser construído de forma similar, a partir de exemplos de ncRNAs depositados em bancos de dados específicos, como aqueles citados na seção 1.2.2. Vale ressaltar que esse conjunto também deve passar por processos de eliminação de redundância em nível de nucleotídeos, e as ORFs putativas de seus transcritos também podem ser obtidas pelos programas descritos acima.