A tabela 12 exprime os resultados obtidos para as redes SVM.
6.3.1 Acerto Total do Classificador
No caso da SVM, o desempenho das func¸˜oes wavelet foi bastante pr´oximo, tanto para o conjunto de treino quanto para o conjunto de teste, sendo o acerto m´edio desses conjuntos 96% e 95%, respectivamente. Dentre as diversas func¸˜oes wavelet destacam-se db1 e coif1 com acerto superior a 98% para o conjunto de treinamento e as func¸˜oes db1 e bior2.8 com acerto de 96% para o conjunto de teste.
Com relac¸˜ao ao pr´e-processamento baseado em TRF, o comportamento observado para as demais redes avaliadas foi repetido no caso da SVM, ou seja, o desempenho para esse pr´e- processamento foi inferior ao desempenho obtido para as wavelets. Nesse caso o acerto para o conjunto de teste foi de 66%, ao passo que para as wavelets foi obtido 95% para esse mesmo conjunto. Com esse resultado comprova-se que a caracterizac¸˜ao em frequˆencia proposta pela TRF dificulta a caracterizac¸˜ao dos sinais envolvidos com os eventos simulados independente- mente do m´etodo de classificac¸˜ao utilizado.
Tabela 12: Acertos para a SVM.
Pr´e Acerto Acerto N´umero M´edio N´umero M´edio Processamento Treino(%) Teste (%) de Vetores de Entradas
Suporte ± Selecionadas ± Desvio Padr˜ao Desvio Padr˜ao
db1 98 97 74±122 25/33±6 db4 97 96 80±106 23/33±7 db8 96 96 78±103 24/33±7 db12 95 94 96±114 24/33±6 db15 92 90 102±130 24/33±6 coif1 98 96 74±81 23/33±7 coif3 96 94 91±112 25/33±6 coif5 96 95 65±92 25/33±6 sym2 97 94 80±105 25/33±6 sym4 97 96 78±101 23/33±6 sym8 96 95 80±106 24/33±6 bior1.1 97 95 81±127 23/33±7 bior1.5 96 93 78±112 22/33±7 bior2.2 97 95 85±117 25/33±7 bior2.8 97 97 94±120 24/33±6 bior3.1 97 94 88±117 24/33±6 bior3.9 95 94 78±109 24/33±7 bior4.4 96 94 77±101 24/33±7 bior5.5 96 95 83±115 25/33±6 bior6.8 96 95 87±114 25/33±7 Fourier 75 66 303±219 135/192±39 6.3.2 Capacidade de Generalizac¸˜ao
Uma vez que a rede SVM tem por base o m´etodo de minimizac¸˜ao estrutural do risco, garante-se que durante o treinamento do modelo, ser´a mantido o compromisso entre a minimi- zac¸˜ao do erro de treinamento e sua capacidade de generalizac¸˜ao, em func¸˜ao do termo associado com a dimens˜ao VC presente na estimac¸˜ao dos parˆametros da rede. Esse resultado fica evidente atrav´es da comparac¸˜ao entre os desempenhos obtidos para o treinamento e teste da rede.
Al´em disso, no m´etodo de treinamento utilizado leva em conta a minimizac¸˜ao do limite superior do erro de generalizac¸˜ao estimado via validac¸˜ao cruzada ´unica, sendo que um dos produtos desse m´etodo ´e uma estimativa para o parˆametro C. Essa vari´avel pode ser vista como um parˆametro de regularizac¸˜ao para essas redes, mantendo equil´ıbrio entre o ajuste aos dados de treinamento e a complexidade do modelo. Como citado anteriormente esse limite ´e minimizado atrav´es do uso de AG, cujas parametrizac¸˜oes utilizadas para essa minimizac¸˜ao foram:
• Func¸˜ao Objetivo - Dada por T [ f (x,W , b)], a qual visa-se minimizar.
• Indiv´ıduos - Formados por C e σ2
l, utilizando codificac¸˜ao em n´umeros reais.
• N´umero de Gerac¸˜oes - 30. Em func¸˜ao da r´apida convergˆencia do algoritmo como mostra a figura 42, o n´umero de gerac¸˜oes pode ser reduzido para 30.
• N´umero de Indiv´ıduos da Populac¸˜ao - 20.
• Populac¸˜ao inicial definida com valores aleat´orios entre os limites sugeridos por (FER- REIRA, 2008) para C e σl2, da mesma forma que as redes RBF, apresentadas anterior- mente.
• Selec¸˜ao - Baseada no m´etodo da amostragem universal estoc´astica. Esse m´etodo deriva de um m´etodo de selec¸˜ao conhecido como m´etodo da roleta, no qual os indiv´ıduos s˜ao organizados por diferentes setores formando uma roleta, de forma que a selec¸˜ao dos in- div´ıduos ´e feita pelo sorteio aleat´orio nessa roleta, sendo retirado um indiv´ıduo para cada rodada da roleta. No caso particular da amostragem universal estoc´astica, s˜ao estabele- cidos diversos ponteiros igualmente espac¸ados na roleta, de forma que esses ponteiros representem as diversas rodadas do m´etodo da roleta convencional.
• Cruzamento - Em um ´unico ponto dos dois indiv´ıduos pais, com uma taxa de mutac¸˜ao de 80%, de forma que se mantenha um compromisso entre a diversidade gen´etica e a convergˆencia do algoritmo.
• Mutac¸˜ao - Utilizada a taxa de 5%, de forma a se evitar uma r´apida convergˆencia para m´ınimos locais, sem que a busca tenha uma caracter´ıstica aleat´oria.
6.3.3 Estrutura Definida
Na tabela 12 est˜ao representados os valores m´edios e o desvio padr˜ao tanto para as en- tradas selecionadas, quanto para o n´umero de vetores suporte em func¸˜ao do treinamento do modelo SVM ser realizado em pares de classes, dificultando a apresentac¸˜ao desses resultados com maiores detalhes neste trabalho, devido ao grande n´umero de combinac¸˜oes poss´ıveis entre as classes. Nesse sentido, o desvio padr˜ao fornece uma ideia da dispers˜ao dos valores em torno do valor m´edio.
No caso dos vetores suporte, foram selecionados em m´edia 80 vetores suporte para as di- versas redes SVM, nas suas diversas combinac¸˜oes (aos pares). Em func¸˜ao desses valores serem
Figura 42: Convergˆencia do AG durante o Treinamento da rede SVM.
aplicados aos pares de classes, sua interpretac¸˜ao ´e bastante particular para cada caso. No en- tanto, pode-se verificar que a complexidade dentre os v´arios modelos com diferentes formas de pr´e-processamento ´e bastante pr´oxima, ou seja, o n´umero de vetores suporte selecionados para os v´arios modelos e seus diversos pares de classe foi bastante pr´oximo da m´edia geral de vetores suporte selecionados. A excec¸˜ao ´e o pr´e-processamento realizado com TRF que obteve uma selec¸˜ao m´edia de 303 vetores suporte. Nesse caso, o n´umero de vetores suporte variou de forma bastante significativa em relac¸˜ao `a m´edia para os diversos pares de classes avaliados, caracterizando um relac¸˜ao bastante espec´ıfica entre cada par de classes.
J´a com relac¸˜ao ao n´umero de entradas selecionadas, observa-se que o m´etodo de selec¸˜ao se mostrou eficiente, determinando em m´edia 24 entradas como relevantes para o classificador. Ao contr´ario da interpretac¸˜ao aplicada `as redes RBF, no caso da SVM uma an´alise sobre as principais bandas de frequˆencia selecionadas se torna invi´avel, pois como o treinamento ´e feito aos pares, as bandas de frequˆencia relevantes s˜ao v´alidas apenas para o par sob an´alise. No entanto, observou-se que as bandas rejeitadas nos diversos pares de classes se concentram nas bandas de mais baixa frequˆencia, ou seja, os n´ıveis mais elevados da TWD, como verificado nas redes RBF. Isso demonstra novamente que a caracterizac¸˜ao dos eventos se concentra nos primeiros n´ıveis da transformada.
No caso da TRF, a selec¸˜ao de entradas n˜ao demonstrou a mesma caracterizac¸˜ao com relac¸˜ao aos eventos classificados. Para esse pr´e-processamento, cada par de classe teve uma selec¸˜ao espec´ıfica de entradas apresentando pouca ou at´e mesmo nenhuma correlac¸˜ao entre os pares avaliados.