PARTE III. ANÁLISIS
3. A NÁLISIS DE COMPONENTES PRINCIPALES CON SPSS
A metodologia dos experimentos foi igual para as bases completas (com todos os atri- butos) e para as bases com limiar igual a 300. Primeiramente, é feito um comparativo entre o valor da medida AUPRC com e sem a aplicação do método FSW-HMC. Posteriormente, é rea- lizado um comparativo entre a quantidade de atributos da base completa com a quantidade de atributos de cada um dos 10 subconjuntos gerados.
Comparativo da medida AUPRC
A Tabela 17 apresenta os resultados apresentados na base de dados com limiar igual a
300. Analisando estatisticamente esses resultados através do teste de Friedman 𝑋𝐹2 = 1.53 e 𝐹𝐹
= 0.14.
Tabela 17 – Comparativo da medida AUPRC
ID S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 TA 1.1 0.371 0.373 0.373 0.371 0.371 0.372 0.372 0.379 0.369 0.371 0.37 2.1 0.380 0.390 0.383 0.383 0.388 0.387 0.383 0.379 0.381 0.385 0.39 3.1 0.373 0.371 0.364 0.374 0.371 0.369 0.375 0.373 0.373 0.372 0.37 4.1 0.742 0.742 0.744 0.738 0.758 0.732 0.743 0.749 0.735 0.742 0.74 5.1 0.423 0.414 0.422 0.425 0.424 0.423 0.422 0.407 0.419 0.411 0.42 6.1 0.387 0.385 0.396 0.387 0.386 0.386 0.382 0.385 0.384 0.383 0.38 7.1 0.381 0.369 0.377 0.380 0.379 0.384 0.381 0.382 0.386 0.382 0.38 8.1 0.650 0.650 0.652 0.648 0.650 0.643 0.652 0.643 0.660 0.660 0.66 9.1 0.412 0.3845 0.404 0.406 0.403 0.412 0.394 0.399 0.403 0.399 0.41 10.1 0.418 0.405 0.399 0.399 0.392 0.403 0.394 0.401 0.410 0.410 0.41
Fonte: Autoria própria (2018)
De acordo com o valor tabelado na distribuição 𝜒2encontra-se o valor crítico de F(9;0.05)
= 16.91. Desse modo a hipótese nula não pode ser rejeitada, pois 𝐹𝐹 < 16.91 indicando que não
há diferença significativa entre os resultados dos algoritmos.
Apesar de não haver diferença significativa entre os resultados dos algoritmos, vale res- saltar que os subconjuntos gerados possuem uma quantidade de atributos inferior a base com- pleta, ou seja, o método proposto conseguiu encontrar subconjuntos em que fosse mantido o valor da medida AUPRC com um número reduzido de atributos.
Comparativo da quantidade de atributos
A Tabela 18 apresenta a quantidade de atributos geradas em cada um dos 10 subcon- juntos realizando um comparativo com a quantidade de atributos da base com limiar igual a 300.
Tabela 18 – Comparativo do número de atributos entre base com limiar 300 e subconjuntos
ID S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 TA 1.1 48 76 23 37 12 28 14 36 65 26 77 2.1 8 4 8 16 24 24 21 9 26 26 27 3.1 16 3 33 14 59 21 44 45 51 4 63 4.1 13 42 9 40 4 4 42 16 34 34 79 5.1 45 68 26 272 109 396 482 177 123 84 551 6.1 23 22 106 27 164 26 96 73 150 49 173 7.1 6 18 30 7 28 49 4 50 38 25 52 8.1 50 28 54 11 41 30 43 6 9 38 69 9.1 324 12 175 71 298 59 315 128 237 93 478 10.1 16 45 15 78 36 27 9 64 39 17 80
Fonte: Autoria própria (2018)
Para avaliar o impacto do ganho obtido com o processo de SA na base de dados com limiar 300, é necessário analisar o tamanho do subconjunto assim como o valor obtido pela medida de avaliação AUPRC. A análise dos resultados obtidos na base de dados com limiar 300 utilizou as variáveis definidas no Quadro 14 e a Equação 32.
Para realizar a análise escolheu-se dentre os 10 subconjuntos gerados aquele que pos- suía o melhor valor da medida AUPRC. Na Tabela 19 é apresentada a análise do melhor sub- conjunto obtido para cada base de dados.
Tabela 19 – Ganho da redução da quantidade de atributos na base completa
ID𝑏𝑐 TA TS ID𝑠 R𝑠 R𝑏𝑐 Diff (R𝑠, R𝑏𝑐) GR 1 77 12 5 0,371 0,37 -0,001 84,4 2 27 4 2 0,39 0,39 0 85,2 3 63 3 2 0,371 0,37 -0,001 95,2 4 79 4 5 0,758 0,74 -0,018 94,9 5 551 26 3 0,422 0,42 -0,002 95,3 6 173 22 2 0,385 0,38 -0,005 87,3 7 52 4 7 0,381 0,38 -0,001 92,3 8 69 6 8 0,643 0,66 0,017 91,3 9 478 12 2 0,385 0,41 0,025 97,5 10 80 9 8 0,401 0,41 0,009 88,8
Fonte: Autoria própria (2018)
Conforme a Tabela 16 pode-se verificar que a diferença obtida da medida AUPRC da base completa com o melhor subconjunto em todas as bases é inferior a 0,025. Com relação ao cálculo referente ao ganho na redução da quantidade de atributos, pode-se verificar que é
superior a 84,4% em todas as bases analisadas, podendo chegar ao valor de 95,5% na base de dados com ID = 1.
Uma diferença observada na análise da redução da quantidade de atributos é que na base completa, o menor subconjunto também possuía o melhor valor da medida AUPRC, o que não ocorreu com a base com limiar 300.
6.4 CONSIDERAÇÕES DO CAPÍTULO
Neste capítulo apresentou-se os resultados preliminares do método proposto. Foi reali- zada uma comparação do desempenho do classificador hierárquico multirrótulo Clus-HMC com todos os atributos das bases de dados e após a seleção de atributos, onde variou-se o tamanho do subconjunto de atributos.
O método proposto apresentou resultados similares ao obtido pelo Clus-HMC sem a seleção de atributos, porém o valor obtido da medida AUPRC foi para um conjunto de atributos de tamanho inferiores, permitindo assim com que houvesse um ganho computacional no tempo de processamento das bases de dados reduzidas. O ganho nas bases com todas as classes foi de superior a 63,4% enquanto nas bases com o limiar 300 foi superior a 84,4%.
7 CONCLUSÃO
A Seleção de Atributos (SA) é uma das técnicas de Mineração de Dados utilizada para a redução de dimensionalidade em base de dados. É importante pois permite a exclusão de atributos irrelevantes e/ou redundantes, que tendem a confundir o algoritmo de aprendizagem e não auxiliar na busca de um modelo correto para o conhecimento.
O método desenvolvido neste trabalho utiliza a abordagem de seleção de atributos
Wrappere possui como limitação o fato de que necessita várias execuções do classificador para avaliar os subconjuntos gerados até que um critério de parada seja atingido. Além disso, os atri- butos selecionados são supostamente ótimos, em termos de desempenho preditivo, para modelos gerados pelo classificador utilizado.
Para contornar o alto custo computacional dessa abordagem, adota-se uma estratégia de busca heurística (Algoritmo Genético e o Sistema Imunológico Artificial). O Sistema Imu- nológico Artificial é utilizado para determinar a quantidade de atributos que devem compor o subconjunto enquanto o Algoritmo Genético é utilizado para determinar qual é o melhor sub- conjunto de atributos.
Outra característica do método FSW-HMC é que por tratar-se de um modelo genérico pode ser utilizado tanto para bases hierárquicas monorrótulo como multirrótulo. Com relação a estrutura hierárquica, pode ser utilizado tanto para DAG quanto para árvore. O método também permite com que seja utilizado outros classificadores e/ou medidas de avaliação de capacidade preditiva.
Para os experimentos optou-se pela escolha do classificador hierárquico multirrótulo Clus-HMC e a medida de avaliação de desempenho AUPRC. A execução dos experimentos foi realizada em duas etapas, na primeira considerou-se a base de dados com todas as classes (completa) e na segunda utilizou-se um limiar e somente foram consideradas as classes que possuíam a quantidade de amostras igual ou superior a esse limiar.
Foram utilizados 10 bases de dados da Ontologia Gênica em que as classes estão dis- postas hierarquicamente em DAG. Cada base de dados foi submetida ao método de seleção de atributos FSW-HMC gerando assim 10 subconjuntos reduzidos por base (10 melhores indiví- duos encontrados). Ao realizar-se a análise dos subconjuntos gerados pode-se notar que houve uma redução significativa do número de atributos, superior a 63% para a base completa e 84% para a base com limiar igual a 300.
Após a análise dos subconjuntos, pode-se observar que a diferença da medida AUPRC obtida nos subconjunto para a base com todos os atributos é inferior a 0,0011 na base com todas as classes e de 0,025 para as bases com limiar igual a 300. Além disso, com base na revisão sistemática realizada pode-se considerar o método FSW-HMC como o primeiro método de se- leção de atributos utilizando a abordagem Wrapper em problemas de classificação hierárquica multirrótulo.