Esta seção descreve a análise dos resultados dos testes de versões adaptativas e não-
adaptativas implementadas (V1, ..., V9na Tabela 7). As versões adaptativas seguem o procedi-
mento utilizado pelos algoritmos SaDE e JADE. Neste trabalho, foi aplicado o teste Kruskal- Wallis numa análise instância a instância utilizando os indicadores de qualidade (epsilon-unário,
hipervolume e R) e teste de MS_Friedman1(Mack-Skillings_Friedman) para determinar a qua-
lidade relativa (rank) dos algoritmos ao considerarem-se todas as instâncias testadas (análise global).
O objetivo destes testes é observar o impacto da inclusão de partes adaptativas à abor- dagem proposta.
As definições de parâmetros para os testes das 10 instâncias propostas pelo CEC-2009 (ZHANG et al., 2008) são apresentadas na Tabela 8. Para os parâmetros da ED foram utilizados
os valores sugeridos pela competição do CEC-2009. Os parâmetros T e nr do MOEA/D foram
obtidos em testes de “tentativa e erro” e o parâmetroδ tem o valor 0,9 comumente utilizado na
literatura. Foram feitas 30 execuções independentes para cada uma das 10 instâncias.
O primeiro passo foi a aplicação do teste Kruskal-Wallis utilizando os três indicadores de qualidade - epsilon-unário (eps), hipervolume (hip) e R (rind), nos conjuntos da aproximação gerados pelas diferentes versões dos algoritmos implementados para as 10 instâncias propostas pelo CEC-2009. O Apêndice A apresenta as tabelas relativas a estes resultados (p-valores). Os resultados do teste Kruskal-Wallis são representados pelos p-valores do teste. P-valores menores que 0,05 são significativos e indicam que o algoritmo da linha da tabela é melhor que o algoritmo da coluna, enquanto p-valores maiores que 0,95 são significativos e indicam que o algoritmo da coluna é melhor que o da linha (com 95% de confiança).
O segundo passo foi a utilização do teste de MS_Friedman, também considerando as 10 instâncias do CEC-2009. O teste MS_Friedman foi considerado para avaliar o desempenho geral dos algoritmos, enquanto que o teste Kruskal-Wallis foi adotado para uma análise mais local (instância a instância).
1Uma visão global de análises estatísticas comumente utilizadas para algoritmos evolucionários multiojetivo é
97
Tabela 8: Parâmetros para os testes de versões adaptativas e não-adaptativas implementadas para funções de benchmarks.
Valor Descrição Parâmetros da ED
N 300 Tamanho da População (para instâncias com 2 objetivos). 595 Tamanho da População (para instâncias com 3 objetivos).
pm
1/30 Probabilidade da mutação polinomial.
τ 20 Índice de distribuição da mutação polinomial.
MAX-AVAL 300.000 Número máximo de avaliações. Parâmetros do MOEA/D
T 20 Número de vetores de peso na vizinhança.
nr
2 Número máximo de soluções substituídas pela solução nova gerada.
δ 0,9 Probabilidade das soluções pais (vetores alvo) serem selecio-nadas da vizinhança.
As instâncias são denominadas como UF1, UF2, UF3, UF4, UF5, UF6, UF7, UF8, UF9 e UF10, sendo que UF1-UF7 possuem 2 objetivos e UF8-UF10 possuem 3 objetivos.
A Tabela 9 traz uma síntese dos resultados apresentados para as instâncias do CEC- 2009 considerando as versões de implementação que obtiveram melhores p-valores para os três indicadores considerados. A tabela de síntese foi gerada a partir das tabelas do Apêndice A contando, para cada instância (UF1-UF10), qual versão (V1-V9) obteve maior número de p- valores significativos. Por exemplo, na Tabela 9, segundo o indicador epsilon-unário, a versão V3 foi a melhor para a UF1.
Tabela 9: Melhores versões para cada instância de acordo com indicadores.
UF1 UF2 UF3 UF4 UF5 UF6 UF7 UF8 UF9 UF10
eps V3 V2 V6 V8 V4 e V6 empate V4 V2 V1, V3, V4 e V7 V7
hip 2 V2 V4 V8 V4 e V6 V4, V6, V7, V8 e V9 V4 e V6 V3, V7 e V8 V4 e V7 7 R V1 V2 V4 V8 V4 e V6 V4, V6, V7, V8 e V9 V1 e V4 V2 V4 V7 e V8
As versões V4 e V6 são as mais repetidamente apontadas como melhores, sendo, no entanto, mais frequentes para as instâncias com dois objetivos (UF1-UF7). A versão V7 foi a que mais apareceu com melhores resultados para as instâncias com três objetivos (UF8-UF10). No teste de Kruskal-Wallis não foi possível identificar uma única versão do algo- ritmo que fosse superior às demais para todas as instâncias consideradas. Por isso, o teste de MS_Friedman foi aplicado. Este teste avalia o desempenho dos algoritmos considerando to- das as execuções realizadas para todo o conjunto de instâncias. O teste opera sobre a média dos
98
ranks para os indicadores epsilon-unário, hipervolume e R; o número entre parênteses indica
a classificação final de cada algoritmo; ele representa, por exemplo, qual é o melhor (apon- tado como “1") ou qual é o pior (apontado como “9") entre os nove algoritmos comparados, de acordo com cada indicador considerado. Vale lembrar que valores baixos indicam algoritmos melhores. Os p-valores do teste MS_Friedman para o indicador epsilon-unário foi de 9,70163e- 140; para o hipervolume foi de 2,18893e-187 e para o R foi de 1,28751e-158. O valor crítico foi de 19,778, ou seja, se a diferença entre a média dos ranks de dois algoritmos for superior a este valor, os algoritmos são considerados distintos e, portanto, o que apresenta o menor rank é o melhor.
Tabela 10: Resultados do teste MS_Friedman para as 9 versões implementadas.
V1 V2 V3 V4 V5 V6 V7 V8 V9
eps 143,8 (8) 135,5 (6) 139,0 (7) 104,9 (2) 238,6 (9) 102,5 (1) 117,6 (4) 115,9 (3) 121,2 (5) hip 155,3 (8) 153,5 (7) 143,2 (6) 93,1 (1) 244,4 (9) 106,9 (4) 94,6 (2) 102,0 (3) 126,0 (5) R 133,9 (6) 134,5 (7) 140,2 (8) 89,8 (1) 244,5 (9) 105,8 (2) 117,1 (3) 121,1 (4) 132,3 (5)
Segundo os três indicadores, os algoritmos das versões V4 e V6 são melhores esta- tisticamente que os demais. O algoritmo da versão V7 também pode ser considerado bom. O algoritmo da versão V5 possui pior desempenho para todos os indicadores.
Analisando os testes de Kruskal-Wallis e MS_Friedman, os algoritmos com os melho- res resultados nos testes de versões, competindo entre si foram:
• versão V4: este é o algoritmo com os parâmetros CR e F fixos em 1,0 e 0,5, respectiva-
mente, e que utiliza as quatro estratégias (“ED/rand/1/bin”, “ED/rand/2/bin”, “ED/current- to-neighborhood” e “ED/nonlinear”) adaptativas. Em geral, este algoritmo se comportou melhor nas instâncias com dois objetivos.
• versão V6: este é o algoritmo com o parâmetro CR fixo em 1,0, F adaptativo e quatro
estratégias adaptativas. Depois do algoritmo da versão V4, este se comportou melhor nas instâncias com dois objetivos.
• versão V7: este é o algoritmo com o parâmetro F fixo em 0,5, CR adaptativo e quatro
estratégias adaptativas. Em geral, este algoritmo se comportou bem nas instâncias com três objetivos.
As versões com os dois parâmetros adaptativos e que utilizam somente uma estratégia de mutação ficaram com os piores resultados.
Embora o algoritmo da versão V4 empate com o da versão V6 para os testes de MS_Friedman, devido ao fato de que ele tem um número maior de casos de sucesso nos testes
99
de Kruskal-Wallis, este foi o escolhido para ter seu comportamento comparado com algoritmos
da literatura. Para facilitar a compreensão, o algoritmo da versão V4 será chamado de Versãoα
na próxima seção (5.2.2), que mostra este comparativo.