Changement de cap ou amélioration
DES SLOGANS DE LA GUERRE FROIDE
3. AUX ALIBIS DE LA MONDIALISATION : QUE DE BELLES PAROLES… ET APRÈS ?
Nesse capítulo, projetamos uma série de algoritmos de busca local estocástica para explorar os espaços-chave do processo de revisão de forma mais eciente. Os al- goritmos de busca local estocástica abandonam a completude para favorecer a de- scoberta de boas soluções em um tempo razoável. A maioria deles são baseados em caminhadas aleatórias, de modo que a escolha de seguir um movimento guloso ou es- tocástico é feita de acordo com um parâmetro de probabilidade. Algoritmos estocás- ticos foram implementados no sistema YAVFORTE (veja o capítulo 3 e (DUBOC, et al., 2009)), em cada busca chave do processo de revisão.
Primeiro, um algoritmo SLS foi construído para evitar a coleta de todos os pontos de revisão, de todos os exemplos classicados incorretamente. Com uma probabilidade p, exemplos classicados erroneamente são randomizados e um número pré-denido de pontos de revisão é gerado. A pesquisa é alternada com movimentos gulosos, pois sem a probabilidade p todos os pontos de revisão encontrados na teoria de cada instância classicada incorretamente são coletados. No entanto, através de resultados experimentais, descobrimos que em vários casos não há necessidade de empregar movimentos gulosos, uma vez que denir o parâmetro de probabilidade em 100% já fornece bons resultados: o tempo de revisão é bastante reduzido e a acurácia não é estatisticamente diferente em comparação com o sistema base de revisão. O desempenho do componente estocástico na busca por pontos de revisão é mais inuenciado pelo parâmetro que dene o número de pontos de revisão que deve ser retornado.
Em segundo lugar, os componentes SLS foram incluídos na busca por literais a serem adicionados ou removidos de uma cláusula. A busca estocástica foi incluída em ambos os algoritmos Hill Climbing e Relational Pathnding para especializar cláusulas. No primeiro caso, quando o movimento é estocástico, literais da Bottom
Clause são randomizados e o primeiro literal descoberto que melhorar a pontuação é adicionado à cláusula. No algoritmo Relational Pathnding, caminhos criados a partir da Bottom Clause e de um exemplo positivo são randomizados. Percebemos a partir da avaliação empírica que, embora a busca estocástica por literais seja ca- paz de reduzir o tempo de execução em relação a abordagem Hill Climbing gulosa do YAVFORTE, se for executado sem os outros componentes estocásticos, não é tão ecaz como os outros algoritmos SLS. As razões para isso são principalmente devidas à Bottom Clause cláusula: ou ela é pequena e o componente estocástico não faz uma muita diferença, ou ela é grande, mas nesse caso o uso de movimentos estocásticos leva mais iterações para convergir do que a abordagem original. No- vas abordagens podem ser investigadas para melhorar ainda mais este componente estocástico, como pré-processamento de literais usando redes Bayesianas ou algo- ritmos genéticos (OLIPHANT, SHAVLIK, 2008; MUGGLETON, TAMADDONI- NEZHAD, 2008; PITANGUI, ZAVERUCHA, 2011).
Em terceiro lugar, quatro diferentes componentes estocásticos foram incluí- dos para decidir qual revisão vai ser implementada. Três deles são baseados em caminhadas aleatórias e um deles executa o algoritmo Simulated Annealing. Nos resultados, foi possível ver que o algoritmo estocástico guloso ao busca por revisões, que em ambos movimentos estocásticos e gulosos permite uma revisão com pontu- ação piore do que a corrente ser implementada, não desempenha bem. Como uma melhoria na pontuação não é sempre necessária, a acurácia se deteriora ao longo das iterações. A abordagem de escapadas estocástica, que aceita movimentos ruins, mas somente se ele não degradar tanto a pontuação, tem melhor desempenho do que a abordagem gulosa, com boa acurácia e tempo de execução reduzido em vários casos. No entanto, a estratégia mais simples, que com uma certa probabilidade random- iza revisões e implementa a primeira a melhorar a pontuação, obteve os melhores resultados globais.
As três estratégias acima foram comparadas individualmente e combinando as melhores estratégias. A grande maioria dos casos mostrou que as abordagens estocástica atingem acurácias melhores do que o aprendizado a partir do zero do sistema Aleph, com tempo de execução mais rápido ou competitivos. Além disso, a
acurácia na maioria dos casos são signicativamente equivalentes as do obtidas com YAVFORTE, mas o tempo de execução é sempre muito mais rápido. No melhor dos casos, um algoritmo SLS é de 25X mais rápido que o sistema YAVFORTE, com acurácia equivalente.
Capítulo 4
BFORTE: Resolvendo os Pontos de
Gargalo no Processo de Revisão de
Programas Lógicos Bayesianos
Inferência em Programas Lógicos Bayesianos é executada sobre redes construí- das a partir de todas as provas do conjunto de exemplos. O algoritmo de aprendizado de BLPs inicia a partir de um programa lógico maximamente geral e que satisfaça a parte lógica dos exemplos. A seguir, renamentos são propostos para cada cláusula, através de adição e exclusão de literais. Dessa forma, o algoritmo de aprendizado de BLPs requer buscar em um espaço grande de cláusulas candidatas, por um lado, e a construção de todas as provas para construir as redes Bayesianas por outro lado. Para cada hipótese candidata, deve-se executar inferência Bayesiana para computar sua pontuação na presença de dados não observados.
O sistema PFORTE foi desenvolvido para obter BLPs acurados ao revisar um BLP existente e modicá-lo apenas nas regras usadas em redes Bayesianas de exemplos classicados incorretamente. Entretanto, apesar de resultados promissores em domínios articiais, PFORTE enfrenta gargalos similares aos do aprendizado de BLPs e de outros algoritmos de aprendizado lógico estatístico, uma vez que PFORTE também usa espaços de busca relacionados a programas lógicos e também executa inferência em redes Bayesianas construídas a partir de cada exemplo relacional.
O objetivo do presente capítulo é abordar os pontos de gargalo do sistema PFORTE. Primeiro, o espaço de possíveis renamentos pode ser reduzido ao limitar os novos literais a serem adicionados à cláusulas para aqueles presentes na Bottom
Clause (MUGGLETON, 1995b; DUBOC, et al., 2009). Segundo, mostramos que ao coletar pontos de revisão através do algoritmo Bayes Ball (SHACHTER, 1998) fundamentalmente reduz o número de cláusulas marcadas como candidatas a serem revisadas pelos operadores de revisão, assim como o tipo de operador que pode ser aplicado. Terceiro, pontos de revisão lógicos e probabilísticos não são mais vistos separadamente, evitando o custo de tratá-los em dois passos distintos do processo de revisão. Quarto, observamos que redes construídas a partir de exemplos lógico probabilísticos podem ter muitos literais em comum, devido a entidades compar- tilhadas, resultando em redes conjuntas muito grandes. Assim, aplicamos métodos para (1) agrupar cláusulas instanciadas a partir de um exemplo com características idênticas, (2) separar nós indispensáveis para uma consulta especíca e executar inferência apenas com eles e (3) sobrepor nós indispensáveis encontrados em para instâncias diferentes. Tais métodos seguem as ideias em desenvolvimentos recentes de inferência levantada (POOLE, 2003), (SALVO BRAZ, et al., 2005), (MEERT, et al., 2010). Ao focar nos pontos de modicação realmente relevantes e capaci- tar o processo de revisão a explorar todas as suas potencialidades, esperamos obter um sistema de revisão de fato efetivo e praticável, conforme apontado por (DIET- TERICH, et al., 2008) como um desenvolvimento necessário na área de SRL. O novo sistema desenvolvido é chamado de BFORTE, se referindo a BLP, Bayes Ball and Bottom clause.
O apêndice G detalha o desenvolvimento do sistema BFORTE.
4.1 Resultados Experimentais
Nessa seção, experimentamos o sistema de revisão BFORTE, comparando cada con- tribuição desenvolvida neste capítulo com uma versão do sistema sem a contribuição. Como não há implementação atual do algoritmo de aprendizado da estrutura de BLPs, usamos nosso próprio sistema para fazer as comparações devidas. Optamos por mostrar cada contribuição em separado, de modo que seja possível conhecer os benefícios trazidos por elas.
Bases de dados Conjuntos de dados usados nas comunidades de ILP e SRL foram considerados. Eles são brevemente descritos a seguir.
1. UW-CSE é um conjunto de dados muito utilizado na comunidade de SRL (SINGLA, DOMINGOS, 2005; RICHARDSON, DOMINGOS, 2006; KOK, DOMINGOS, 2007). É composto por informações sobre o Departamento de Ciência da Computação e Engenharia da Universidade de Washington. Exis- tem 5 exemplos, onde cada um deles contém instâncias que representam uma relação de orientação para uma linha de pesquisa diferente no departamento. Há 113 instâncias da classe positiva e 2711 instâncias da classe negativa, e 2673 fatos.
2. Metabolism é uma base de dados fornecida pelo KDDCup2001 (CHENG, et al., 2002b). Os dados consistem em cerca de 6910 fatos e 115 instâncias positivas e 115 instâncias negativas. Como parte dos fatos representa a inter- ação entre genes, as instâncias são reunidas em um mega exemplo contendo todas as instâncias positivas e negativas.
3. Carcinogenesis é um domínio bem conhecido para a previsão de relação estrutura- atividade (SAR) sobre a atividade em bioensaios de roedores (SRINIVASAN, et al., 1997a). Há 162 instâncias da classe positiva e 136 instâncias da classe negativa e 24342 fatos elas. Esse conjunto de dados é totalmente separável, já que cada exemplo é composto de apenas uma instância.
Metodologia Experimental Os conjuntos de dados foram separados em 5 con- juntos disjuntos para usar a abordagem de validação cruzada estraticada 5-folds. Cada conjunto mantém a taxa de distribuição original de exemplos positivos e nega- tivos (KOHAVI, 1995). Para evitar overtting durante o processo de revisão, seme- lhante a (BAIÃO, et al., 2003), aplicou-se 5 vezes a abordagem de validação cruzada estraticada para dividir os dados de entradaem conjuntos disjuntos de treinamento e teste e, dentro do conjunto de treinamento, aplicamos validação cruzada estrati- cada 2-fold para dividir os dados de treinamento em conjuntos disjuntos de treina- mento e validação. O algoritmo de revisão monitora o erro com relação ao conjunto
de validação após cada revisão, mantendo sempre uma cópia da teoria com a melhor pontuação no conjunto de validação, e a melhor teoria salva é aplicada ao conjunto de teste. O teste de signicância utilizado foi o teste t corrigido (NADEAU, BENGIO, 2003), com p < 0, 05.
As teorias iniciais para Carcinogenesis e Metabolism foram obtidas a partir do sistema Aleph usando seus parâmetros padrão, exceto para o tamanho máximo da cláusula, que é denido como 5, o ruído, denido como 30, e minpos, denido como 2. Como UW-CSE é uma base de dados altamente desbalanceada, usamos a estimativa M como função de avaliação, e o ruído denido como 1000.
Todos os experimentos foram executados em Yap Prolog (SANTOS COSTA, 2008) e Matlab. Para lidar com redes Bayesianas, o toolbox Bayes net (MURPHY, 2001) foi devidamente modicado para enfrentar as particularidades de BLPs. Re- gras de combinação representadas em dois níveis, onde o primeiro nível (instanci- ações diferentes da mesma cláusula) usa mdia como regra e o segundo nível (cláusu- las diferentes com a mesma cabeça) usa mdia ponderada como função de combi- nação. Para aprender os parâmetros, implementamos o algoritmo descida do gra- diente discriminativo descrito em (NATARAJAN, et al., 2008), que minimiza o erro médio quadrático. No UW-CSE, usamos o erro médio quadrático ponderado, com o peso inversamente proporcional à distribuição das classes, de modo que os parâmetros não favoreçam totalmente a classe negativa por causa de sua quanti- dade de exemplos. Para realizar inferências, adaptamos o algoritmo de eliminação de variáveis. Nós impomos um número mínimo de exemplos classicados incorreta- mente como 2 para uma cláusula ser considerada como ponto de revisão, a m de evitar outliers. O limiar para indicar se uma instância foi classicada corretamente é denido como 0, 5.