• Aucun résultat trouvé

RADIUS+ CON Evaluation

C. Appendix C - Position Briefs

C.4 RADIUS+ CON Evaluation

A seleção de atributos tornou-se um importante tópico de pesquisa com o surgimento de bases de dados contendo muitos atributos. Geralmente o desempenho dos algoritmos de aprendizado de máquina é negativamente influenciado pelo aumento da razão entre o número de atributos e o número de instâncias. Desta forma, a identificação dos atributos realmente relevantes para a tarefa de classificação pode influenciar muito no desempenho do classificador.

A tarefa de seleção de atributos pode ser formalizada como segue: Seja

X'⊂X

um subconjunto de atributos de

X

, e

f( X')

os valores associados aos vetores correspondentes a

X'

. A seleção de atributos consiste em encontrar o subconjunto mínimo de atributos

X'

tal que

))

(

|

(

))

'

(

|

(C

Y

f

X

P

C

Y

f

X

P

=

=

, onde

P(C|Y

=

f(X'))

e

P(C|Y

=

f(X))

são as

distribuições de probabilidades das i

C

N

possíveis classes, dados os valores dos atributos de

X'

e

X

, respectivamente. O subconjunto mínimo

X'

é denominado subconjunto ótimo de atributos (Yu e Liu, 2004).

A seleção de atributos relevantes pode ser realizada de formas distintas. Porém, antes de se decidir “como” encontrar os atributos que melhor descrevem uma base de dados é necessário definir o que pode ser considerado um bom atributo ou descritor.

Existem na literatura muitas definições em torno de como considerar a importância de um atributo para uma base de dados. Podem ser citados os trabalhos de (Gennari et al., 1989), (Almuallim e Dietterich, 1992), (Kira e Rendell, 1992), (John et al., 1994) e (Koller e Sahami, 1996). Em geral, podemos considerar um atributo importante para uma base de dados se quando removido a medida de importância considerada em relação aos demais atributos é deteriorada (Liu e Motoda, 1998).

Algumas métricas podem ser utilizadas para definir a importância de um atributo, dentre as técnicas existentes na literatura, podem ser destacadas (Lee, 2005):

ƒ Métricas baseadas em Informação: determinam o ganho de informação a partir de um atributo. Pode ser definido como sendo a incerteza a priori e a posteriori ao considerar-se determinado atributo da base de dados

ƒ Métricas baseadas em Distância: também denominadas de medidas de separabilidade, divergência ou discriminação. Definem a diferenciação entre as classes baseado em algum tipo de distancia, como a distância de Mahalanobis, por exemplo.

ƒ Métricas baseadas em Dependência: também conhecidas como métricas de correlações ou associação. Pode ser considerada a correlação entre os atributos ou ainda como a dependência entre os atributos, o que pode caracterizar redundância entre os atributos.

ƒ Métricas baseadas em Consistência: fortemente dependentes do conjunto de treinamento e baseadas em hipóteses consistentes que possam ser definidas a partir do menor número possível de atributos. Buscam manter a consistência entre os atributos – a inconsistência entre descritores pode ser definida como a existência de atributos pertencentes a classes distintas com valores semelhantes.

ƒ Métricas baseadas em Precisão: algoritmos de aprendizado são utilizados para selecionar diferentes subconjuntos de atributos, o subconjunto de atributos que maior precisão proporcionar ao modelo gerado será selecionado como subconjunto ideal de atributos. Vale ressaltar que este tipo de medida de precisão é dependente do algoritmo de aprendizado considerado, pois os subconjuntos de atributos serão importantes em relação à precisão do classificador utilizado.

A tarefa de selecionar atributos pode ainda ser examinada a partir de diferentes perspectivas, dentre as quais podem ser destacadas (Liu e Motoda, 1998):

1. Como encontrar os “melhores” atributos de uma base de dados?

2. Como determinar quais são os melhores atributos e qual o critério deve ser utilizado para avaliação desses atributos?

3. Como os subconjuntos de atributos devem ser gerados para selecionar os melhores atributos, adicionando ou excluindo um atributo do subconjunto existente ou alterando o subconjunto aleatoriamente – busca com geração paralela ou seqüencial?

Existem diferentes formas de responder cada uma destas questões. Em relação à primeira questão, o problema de seleção de atributos pode ser abordado de formas distintas: ordenando-se os atributos segundo uma medida de importância ou utilizando um método de busca para encontrar o melhor subconjunto de atributos. A avaliação de quais são os melhores atributos necessariamente passa pela utilização de algum tipo de métrica, como as destacadas anteriormente. A resposta à terceira questão, também relacionada com a primeira, exige que sejam feitas considerações sobre

38

como realizar uma busca aos melhores subconjuntos de atributos. Estas considerações serão realizadas nos próximos parágrafos.

Sob o ponto de vista de aprendizado de máquina a seleção de atributos pode ser interessante por vários aspectos (Michie et al, 1994): melhora na precisão do classificador, pois atributos irrelevantes ou redundantes normalmente prejudicam o desempenho do classificador; velocidade na execução do classificador, normalmente pode-se dizer que a complexidade de uma base é reduzida com a diminuição no número de atributos – também é fato que a redução no volume de dados reduz a carga computacional exigida na execução do algoritmo – estas características também podem influenciar no tempo de aprendizado do classificador; a seleção de atributos pode também ajudar na compreensibilidade da base de dados e conseqüente simplificação do conceito induzido; e este processo é especialmente importante em bases de dados muito grandes em que se desconhece a relevância de cada um dos atributos.

A grande maioria dos métodos de seleção de atributos, utilizados em conjunto com aprendizado de máquina, são baseados em busca. Os conceitos e pressupostos destas técnicas são os mesmos de técnicas clássicas de busca e precisam ser corretamente definidos para se obter sucesso nesta tarefa, são eles:

1. Ponto de partida ou direção da busca; 2. Estratégia de busca;

3. Critérios para avaliação das soluções geradas; e 4. Critério de parada da busca.

A geração dos subconjuntos de atributos durante o processo de busca pelos melhores atributos é determinada por dois pontos chave. Primeiro é necessário definir o ponto (ou pontos) inicial da busca que passam a influenciar sua direção. A busca pode iniciar com um conjunto vazio e sucessivamente adicionar características (Para Frente), ou iniciar com um conjunto completo e remover sucessivamente as características (Para Trás), ou ainda iniciar com ambos e adicionar e remover atributos simultaneamente (Bidirecional). A busca também pode ser iniciada com um subconjunto selecionado aleatoriamente (Aleatória), para evitar a armadilha de um ótimo local (Santoro, 2005). A Figura 5.1 apresenta um esquema das cinco diferentes estratégias de busca em um espaço de busca definido com três atributos. Nesta figura os círculos brancos representam os atributos não selecionados e os círculos sombreados os atributos selecionados.

Figura 5.1 – Estratégias para direção de busca Para Frente, Para Trás e Aleatória

O segundo passo é definir a estratégia de busca utilizada. Diferentes estratégias de busca tem sido apresentadas na literatura para esta tarefa, como a busca exaustiva, a busca seqüencial e a busca aleatória (Liu e Yu, 2005). A busca exaustiva garante encontrar um resultado ótimo segundo o critério de avaliação utilizado. Este tipo de busca faz todas as combinações possíveis antes de retornar o subconjunto de atributos selecionado (Liu e Motoda 1998). A busca exaustiva é completa. No entanto, uma busca não precisa ser exaustiva para garantir que seja completa. Diferentes funções heurísticas podem ser utilizadas para reduzir o espaço de busca sem colocar em risco as chances de encontrar um resultado ótimo (Liu e Yu, 2005).

A busca seqüencial, por sua vez, tem apresentado resultados eficientes em problemas de seleção de atributos, mas possui a desvantagem de não considerar a interação entre atributos (Liu e Yu, 2005). A seleção seqüencial para frente inicia a busca pelo melhor subconjunto de atributos com um conjunto vazio de atributos. A seleção seqüencial para trás, diferente da anterior, inicia a busca por um subconjunto de atributos ótimo com uma solução representando todos os atributos, e a cada iteração um atributo é removido da solução atual, até que não se consiga melhorar a qualidade da solução encontrada.

Diferente das estratégias anteriores, a busca aleatória é iniciada com um subconjunto selecionado aleatoriamente e pode realizar o restante da busca de duas formas distintas. Uma delas é seguir a busca seqüencial, inserindo aleatoriedade nas abordagens seqüenciais clássicas. E a outra é gerar o próximo subconjunto de maneira também aleatória. A utilização da aleatoriedade pode ajudar a busca a escapar de mínimos locais, porém o custo computacional pode ser considerável sem a garantia de obter uma solução ótima. Surpreendentemente, para uma grande quantidade de problemas, a utilização de algoritmos randômicos se constitui na forma mais simples e/ou mais rápida de implementação (Arantes et al, 2005).

Em relação ao tipo de avaliação das soluções que pretendem realizar, algoritmos de busca podem implementar três abordagens distintas: wrapper, em uma etapa de pré-processamento, o algoritmo de indução é utilizado na seleção do subconjunto de atributos; embedded, a seleção do subconjunto de atributos é embutida no próprio algoritmo de aprendizado; e filtro, um subconjunto

40

de atributos é selecionado numa etapa de pré-processamento, independentemente do classificador a ser utilizado.

5.1 Abordagem Filtro

Na abordagem filtro, a idéia é selecionar atributos filtrando, segundo algum critério, os atributos irrelevantes. Esta filtragem, que corresponde a um pré-processamento, considera características gerais do conjunto de dados para selecionar alguns atributos e excluir outros. Na Figura 5.2 é apresentado um esquema de funcionamento da abordagem filtro.

Figura 5.2 - Abordagem filtro

5.2 Abordagem Embedded

Nesta abordagem a seleção de atributos é realizada dentro do próprio algoritmo de classificação. Uma das vantagens desta abordagem é fazer melhor uso dos dados disponíveis (desta forma não é necessário dividir os dados de treinamento) e ser mais rápida, por não realizarem múltiplos treinamentos. Na Figura 5.3 é apresentado um esquema de funcionamento da abordagem

Figura 5.3 - Abordagem embedded

5.3 Abordagem Wrapper

Como destacado anteriormente, na abordagem wrapper, a seleção dos atributos acontece numa etapa de pré-processamento. Os subconjuntos de atributos são avaliados utilizando-se uma estimativa de desempenho fornecida por algum algoritmo de classificação a partir de uma base de dados de treinamento. O classificador utilizado na avaliação dos subconjuntos pode ser visto como uma “caixa-preta” (o projetista não precisa conhecer o algoritmo de classificação). O critério para avaliar a relevância dos atributos é a precisão do classificador. Na Figura 5.4 é apresentado um esquema do funcionamento da abordagem wrapper.

Figura 5.4 - Abordagem wrapper

Independente da abordagem de seleção de atributos utilizada, o momento de parar a busca também esta relacionado à satisfação de critérios estabelecidos pelo projetista, dentre eles podem ser destacados (Lee, 2005): parar de remover ou adicionar atributos quando não é encontrada nenhuma evolução na qualidade da solução; evoluir a busca enquanto não houver degradação na qualidade da solução; gerar novas soluções até percorrer todo o espaço de busca; gerar novas soluções até que as classes estejam perfeitamente separadas; e ordenar os atributos segundo um

42

ranking e determinar um ponto de parada (assim que determinado número de atributos seja selecionado).

Neste trabalho, para avaliar o desempenho do método proposto na seleção de atributos, métodos clássicos de busca serão utilizados em uma abordagem wrapper para seleção de atributos em diferentes bases de dados. As próximas seções descrevem brevemente cada uma destas técnicas, nomeadas, Hill-Climbing (Vafaie e De Jong, 1993), Random Bit Climber (Davis, 1991),

Best-First (Aha e Banker, 1995), Beam Search (Aha e Banker, 1995) e Las Vegas (Liu e Setiono,

1996).

Estes métodos foram escolhidos por serem métodos simples e apresentarem características similares às do método proposto. Podem ser destacadas as características aleatórias do método Las

Vegas, a utilização de listas com as soluções visitadas dos métodos Best-First e Beam Search, as

inversões pontuais nas soluções do método Random Bit Climber e as peculiaridades clássicas dos algoritmos baseados em busca presentes no método Hill-Climbing.