Quando analisamos a saída de dois otimizadores multiobjetivo, isto é, os conjuntos de soluções não dominadas resultantes S e S0, podemos nos deparar com quatro situações
(FONSECA, 2005), considerando as relações de dominância denidas anteriormente: 1. S é melhor que S0 (S C S0)
2. S0 é melhor que S (S0
C S) 3. S e S0 são incomparáveis (S k S0)
A vantagem de comparar conjuntos de soluções baseando-se em relações de dominân- cia reside no fato de que não se exige qualquer informação adicional sobre preferência. Contudo, esse tipo de comparação possui limitações. Por exemplo, podemos ter interesse em denições que quanticam precisamente a diferença entre dois conjuntos de soluções. Nos casos 1 e 2, pode ser útil saber o quanto S é melhor/pior que S0; no caso 3 pode
ser de útil saber se S é melhor que S0 em algum aspecto não capturado pelas relações
baseadas em dominância de Pareto. A Figura 3 ilustra as limitações da avaliação baseada puramente em relações de dominância.
Figura 3: Em (a) e (b) S domina S0, mas no primeiro caso os dois conjuntos estão mais
próximos. Em (c) S e S0 são incomparáveis, mas na maioria dos casos S será mais útil
para o tomador de decisão (Fonte: Fonseca, Knowles, Thiele e Zitzler (2005)).
Tais limitações levaram ao desenvolvimento de métodos quantitativos de avaliação de conjuntos não dominados. Entre as técnicas mais famosas destacam-se o indicador hipervolume, a família de indicadores epsilon e a família de indicadores R. Nas próximas seções faremos uma breve introdução sobre esses métodos de avaliação.
É importante mencionar que cada indicador de qualidade expressa algum tipo de preferência do tomador de decisão. Assim, é plenamente possível que um conjunto não dominado S seja melhor que outro conjunto S0 quando considerado um indicador I e,
em contrapartida, pior em relação a outro indicador I0. Assim, ao avaliar a qualidade em
otimizadores multiobjetivos, devemos especicar qual indicador está sendo utilizado na comparação.
2.2.5.1 Hipervolume
O indicador hipervolume unário (ZITZLER; THIELE, 1999) mede o volume do espaço objetivo dominada por um conjunto não dominado S. Quanto maior esse volume, melhor será o conjunto S e maior será o resultado desse indicador. Calcular o hipervolume requer
a denição de um ponto de referência no espaço objetivo. Esse ponto deve ser dominado por todos os pontos em S e é usado como delimitador do volume a ser mensurado. A Figura 4 mostra um conjunto não dominado contendo os pontos (1,3),(2,2) e (3,1) e um ponto de referência (5,5). O hipervolume para a área determinada por esses pontos é 13. Quanto maior o valor obtido pelo indicador hipervolume unário, melhor será a qualidade do conjunto não dominado em termos desse indicador.
Figura 4: Pontos de um conjunto não dominado (azul) e ponto de referência (vermelho). A área sombreada mede 13 unidades e equivale ao valor do indicador hipervolume para esses pontos.
O indicador hipervolume também possui uma versão binária, podendo ser denido com relação a um conjunto qualquer de soluções R, chamado conjunto referência. Neste caso, dado um conjunto de aproximação A, o valor desse indicador é denido como:
IH−(A) = IH(R) − IH(A) (2.2)
Ao contrário da versão unária, o indicador hipervolume binário deve ser minimizado. Quando menor o resultado de I−
H(A), melhor será a qualidade do conjunto de aproximação
A em termos dessa versão do indicador hipervolume.
Um problema com o indicador hipervolume ocorre quando as faixas de valores de objetivos diferentes possuem grandezas discrepantes. Por exemplo, considere um problema bi-objetivo com duas funções f1 e f2, com f1(x) ∈ {10, · · · , 20}e f2(x) ∈ {2, · · · , 5}para
qualquer solução viável x. Em casos como esse, o resultado do indicador hipervolume sofre maior inuência da primeira função objetivo, cuja imagem possui elementos com maior valor absoluto. Para superar esse problema é comum calcular o hipervolume em um espaço objetivo normalizado para uma mesma faixa de valores, em todas as funções objetivo. A Figura 5 mostra a normalização de ambas as funções f1 e f2 para o intervalo [1,2]. Nesse
Figura 5: Normalização de ambas as coordenadas x e y de três pontos, dos intervalos [10,20] e [2,5] respectivamente, para o intervalo [1,2].
A normalização de um valor x do intervalo [xmin,xmax] para o intervalo [a,b] é realizada
através da equação 2.3.
xnormalizado =
a + (x − xmin) · (b − a)
xmax− xmin (2.3)
A complexidade computacional para calcular o hipervolume de um conjunto com n soluções, com dois ou três objetivos é da ordem de O(n · log(n)) e cresce exponencialmen- te com o número de objetivos(BEUME; RUDOLPH, 2006; FONSECA, 2006; BEUME, 2009).
2.2.5.2 Indicadores Epsilon
A família de indicadores epsilon (ZITZLER, 2003) compreende as versões multiplica- tiva e aditiva. Ambas existem nas formas unária e binária. O indicador epsilon multipli- cativo binário, I(S, S0)tem como resultado o menor fator pelo qual cada solução em S0
pode ser multiplicada de modo que o conjunto resultante seja fracamente dominado por S. Formalmente
I(S, S0) = inf ∈<{∀x
0 ∈ S0 ∃x ∈ S : x
x0} (2.4)
Considerando um problema de minimização com k funções objetivo e fi(x) ∈ <+, a relação
é denida como
x x0 ⇔ ∀i ∈ 1, · · · , k : xi ≤ · x0i (2.5)
O indicador epsilon multiplicativo em sua versão unária assume a forma:
I(S) = I(S, R) (2.6)
onde R é um conjunto qualquer de soluções, chamado de conjunto de referência.
O indicador epsilon aditivo binário é denido de maneira semelhante, baseando-se na dominância -aditiva:
x + x0 ⇔ ∀i ∈ 1, · · · , k : xi ≤ + x0i (2.7)
Ambas as versões do indicador epsilon, multiplicativa e aditiva, devem ser minimizadas. Se o indicador I(S, R) resultar em um valor menor que 1, então o conjunto S domina
estritamente o conjunto de referência R. O mesmo ocorre se o resultado do indicador I+(S, R) for um valor menor do que 0.
Para k objetivos, um conjunto não dominado S e qualquer conjunto nito de referência R, o indicador epsilon pode ser facilmente calculado. A complexidade envolvida nesse cálculo é da ordem de O(k · |S| · |R|) (FONSECA, 2005).
2.2.5.3 Indicadores R
A família de indicadores R (HANSEN, 1998) compreende duas versões, IR2e IR3. Esses
indicadores se baseiam em funções de utilidade para comparar conjuntos não dominados. Uma função de utilidade u é denida como
u : (Λ, Z) 7→ <
onde Z ⊂ <k é o espaço objetivo do problema e Λ ⊂ <k é um conjunto de parâmetros
denido pelo tomador de decisão, que representa suas preferências.
Hansen, Hansen, Jaszkiewicz e Jaszkiewicz (1998) propõem várias formas de transfor- mar funções de utilidade em indicadores de qualidade. Dados um conjunto de parâmetros Λ e dois conjuntos de vetores objetivo A, B ⊂ Z, os indicadores IR2 e IR3 binários são
denidos a seguir: IR2(A, B) = P λ∈Λu ∗(λ, A) − u∗(λ, B) |Λ| (2.8) IR3(A, B) = P λ∈Λ(u ∗(λ, B) − u∗(λ, A))/u∗(λ, B) |Λ| (2.9)
onde u∗(λ, Z) é o valor máximo obtido pela função de utilidade u com um parâmetro λ e
um conjunto de vetores objetivo Z, isto é, u∗(λ, Z) =max
z∈Zu(λ, z).
Assim como os indicadores epsilon, os indicadores R também possuem versão unária, substituindo o conjunto B por um conjunto de referência xo R qualquer, isto é, IR2(A) =
IR2(R, A) e IR3(A) = IR3(A, R).
Existem várias funções de utilidade que podem ser utilizadas no cálculo dos indi- cadores R. A Tabela 1 lista três funções diferentes apresentadas por Fonseca, Knowles, Thiele e Zitzler (2005). Nessas funções z∗ é o ponto ideal, se conhecido, ou qualquer outro
ponto que domine fracamente todos os pontos no conjunto não dominado. O mesmo z∗
deve ser utilizado no cômputo de ambos u∗(λ, A) e u∗(λ, B). ρ é um número real positivo
sucientemente pequeno.
Em todos os casos, o conjunto Λ deve conter um número grande o bastante de pa- râmetros dispersos uniformemente. Todo λ ∈ Λ deve respeitar λi ≥ 0 e P λi = 1, com
i ∈ 1..k.
u(λ, z) Função ponderada
linear −i∈1..kP
λi|z∗i − zi|
Função ponderada
de Tchebyche −maxi∈1..kλi|z ∗ i − zi| Função de Tchebyche aumentada − max i∈1..kλi|z ∗ i − zi| + ρ P i∈1..k |z∗ i − zi|
Tabela 1: Três funções de utilidade conhecidas da literatura.
Tabela 1, os indicadores R garantem que sempre que se A / B então IR2(A) ≤ IR2(B) e
IR3(A) ≤ IR3(B). A complexidade envolvida no cálculo dos indicadores R é da ordem de
O(k · |Λ| · |A| · |R|), onde k é o número de objetivos (FONSECA, 2005). 2.2.5.4 Conjuntos de referência
Como discutido anteriormente, as versões unárias das famílias de indicadores epsilon e R utilizam um conjunto de soluções não dominadas como referência. Fonseca, Knowles, Thiele e Zitzler (2005) sugerem as seguintes alternativas para conjuntos de referência:
1. Usar a Fronteira de Pareto como conjunto de referência;
2. Todos os conjuntos não dominados gerados por um algoritmo são combinados. En- tão os vetores objetivo dominados são removidos dessa união. Os pontos restantes formam o conjunto de referência;
3. Usar um conjunto de referência dominado por 50% das soluções no espaço de busca, a qual representa uma espécie conjunto de referência médio. Para tal, um número de soluções aleatórias, por exemplo 1000, é criado. Cada uma dessas soluções re- presentando a saída de uma estratégia de busca aleatória. Então, a superfície de realização 50% das 1000 execuções articiais é tomada como conjunto de referência. Denimos superfície de realização k% na seção 2.2.5.5.
A alternativa 1 seria o conjunto de referência ideal. Contudo, na maioria dos casos a Fronteira de Pareto do problema é desconhecida e não pode ser computada em tempo razoável. A vantagem da alternativa 2 reside no fato de que o conjunto de referência do- mina fracamente todos os conjuntos de aproximação sob consideração. Contudo, sempre que um novo conjunto de aproximação é incluído na comparação, o conjunto de referência
precisa ser recalculado. A alternativa 3 evita esse problema e mede a qualidade do con- junto de aproximação com relação a um conjunto de referência independente de qualquer algoritmo (FONSECA, 2005).
Ao comunicar os resultados de experimentos computacionais, é fortemente recomen- dável informar os pontos e conjuntos de referência usados, juntamente com os valores dos indicadores. Assim, em um experimento posterior, será possível comparar os valores de indicadores, computados usando os mesmos pontos e conjuntos de referência, sem acesso aos conjuntos de aproximação do primeiro experimento (FONSECA, 2005).
2.2.5.5 Função de realização empírica e superfície de realização
O resultado obtido ao executar otimizadores multiobjetivo com características esto- cásticas, como meta-heurísticas por exemplo, pode ser descrito por uma distribuição.
Uma vez que um otimizador pode retornar mais de um vetor objetivo em uma execu- ção, a distribuição é descrita por um conjunto aleatório Z de vetores objetivo aleatórios zj, com cardinalidade m também aleatória, isto é:
Z = {zj ∈ R, j = 1, · · · , m} (2.10) onde n é o número de objetivos do problema. Uma função de realização descreve a dis- tribuição com base no conceito de meta realizada: Uma meta, aqui signicando um vetor objetivo, é realizada sempre que é fracamente dominada pelo conjunto de aproximação retornado pelo otimizador. O otimizador é denido por uma função αZ(.) : R → [0, 1] com
αZ(z) = P (z1 z ∨ z2 z ∨ · · · ∨ zm z) = P (Z {z})
= P (que o otimizador realize a meta z em uma única execução)
(2.11)
onde P (.) é a função de densidade de probabilidade. A função de realização pode ser estimada através de r execuções independentes de um otimizador via função de realização empírica(FRE) FRE Função de Realização Empírica , denida como:
αr(z) = 1 r r X i=1 I(Ai {z}) (2.12)
onde Ai é o i-ésimo conjunto de aproximação obtido pela execução do otimizador e I(.)
é uma função que resulta em 1 se seu argumento é verdadeiro ou 0 se seu argumento é falso. Em resumo, a FRE provê para cada vetor objetivo a frequência relativa em que ele é realizado, isto é, fracamente dominado por um conjunto de aproximação obtido do otimizador nas r execuções.
Um conjunto de aproximação A é dito conjunto de aproximação k% de uma FRE αr(z), se e somente se ele domina fracamente os vetores objetivo que tenham sido reali-
zados em pelo menos k por cento das r execuções. Formalmente
∀z ∈ Z : αr(z) ≥ k/100 ⇔ A {z} (2.13)
A superfície de realização de um conjunto de aproximação k% A, chamada de superfí- cie de realização k%, é denida como a união de todas as metas que podem ser realizadas de maneira justa por a A, isto é, que são dominadas fracamente por A e não dominadas estritamente por A. Formalmente, {z ∈ Rn: A z ∧ ¬A ≺≺ z}.
Uma superfície de realização k% divide o espaço objetivo em duas partes: as metas que foram alcançadas e as metas que não foram alcançadas com frequência de pelo menos k por cento.
A três linhas na Figura 6 denem a superfície de realização 0%, superfície de realização 50% e superfície de realização 100% em um espaço objetivo bidimensional. Todos os vetores objetivo (metas) localizados sobre a linha verde foram fracamente dominados por algum outro vetor objetivo gerado por um otimizador, em exatamente 50% de r execuções. Todos os conceitos apresentados nessa seção constam no trabalho de Fonseca, Knowles, Thiele e Zitzler (2005).