Configuration Design - Digital Technical Journal Digital Equipment Corporation

Quando analisamos a saída de dois otimizadores multiobjetivo, isto é, os conjuntos de soluções não dominadas resultantes S e S0_{, podemos nos deparar com quatro situações}

(FONSECA, 2005), considerando as relações de dominância denidas anteriormente: 1. S é melhor que S0 _{(S C S}0₎

2. S0 _{é melhor que S (S}0

C S) 3. S e S0 _{são incomparáveis (S k S}0₎

A vantagem de comparar conjuntos de soluções baseando-se em relações de dominân- cia reside no fato de que não se exige qualquer informação adicional sobre preferência. Contudo, esse tipo de comparação possui limitações. Por exemplo, podemos ter interesse em denições que quanticam precisamente a diferença entre dois conjuntos de soluções. Nos casos 1 e 2, pode ser útil saber o quanto S é melhor/pior que S0_{; no caso 3 pode}

ser de útil saber se S é melhor que S0 _{em algum aspecto não capturado pelas relações}

baseadas em dominância de Pareto. A Figura 3 ilustra as limitações da avaliação baseada puramente em relações de dominância.

Figura 3: Em (a) e (b) S domina S0_{, mas no primeiro caso os dois conjuntos estão mais}

próximos. Em (c) S e S0 _{são incomparáveis, mas na maioria dos casos S será mais útil}

para o tomador de decisão (Fonte: Fonseca, Knowles, Thiele e Zitzler (2005)).

Tais limitações levaram ao desenvolvimento de métodos quantitativos de avaliação de conjuntos não dominados. Entre as técnicas mais famosas destacam-se o indicador hipervolume, a família de indicadores epsilon e a família de indicadores R. Nas próximas seções faremos uma breve introdução sobre esses métodos de avaliação.

É importante mencionar que cada indicador de qualidade expressa algum tipo de preferência do tomador de decisão. Assim, é plenamente possível que um conjunto não dominado S seja melhor que outro conjunto S0 _{quando considerado um indicador I e,}

em contrapartida, pior em relação a outro indicador I0_{. Assim, ao avaliar a qualidade em}

otimizadores multiobjetivos, devemos especicar qual indicador está sendo utilizado na comparação.

2.2.5.1 Hipervolume

O indicador hipervolume unário (ZITZLER; THIELE, 1999) mede o volume do espaço objetivo dominada por um conjunto não dominado S. Quanto maior esse volume, melhor será o conjunto S e maior será o resultado desse indicador. Calcular o hipervolume requer

a denição de um ponto de referência no espaço objetivo. Esse ponto deve ser dominado por todos os pontos em S e é usado como delimitador do volume a ser mensurado. A Figura 4 mostra um conjunto não dominado contendo os pontos (1,3),(2,2) e (3,1) e um ponto de referência (5,5). O hipervolume para a área determinada por esses pontos é 13. Quanto maior o valor obtido pelo indicador hipervolume unário, melhor será a qualidade do conjunto não dominado em termos desse indicador.

Figura 4: Pontos de um conjunto não dominado (azul) e ponto de referência (vermelho). A área sombreada mede 13 unidades e equivale ao valor do indicador hipervolume para esses pontos.

O indicador hipervolume também possui uma versão binária, podendo ser denido com relação a um conjunto qualquer de soluções R, chamado conjunto referência. Neste caso, dado um conjunto de aproximação A, o valor desse indicador é denido como:

I_H−(A) = IH(R) − IH(A) (2.2)

Ao contrário da versão unária, o indicador hipervolume binário deve ser minimizado. Quando menor o resultado de I−

H(A), melhor será a qualidade do conjunto de aproximação

A em termos dessa versão do indicador hipervolume.

Um problema com o indicador hipervolume ocorre quando as faixas de valores de objetivos diferentes possuem grandezas discrepantes. Por exemplo, considere um problema bi-objetivo com duas funções f1 e f2, com f1(x) ∈ {10, · · · , 20}e f2(x) ∈ {2, · · · , 5}para

qualquer solução viável x. Em casos como esse, o resultado do indicador hipervolume sofre maior inuência da primeira função objetivo, cuja imagem possui elementos com maior valor absoluto. Para superar esse problema é comum calcular o hipervolume em um espaço objetivo normalizado para uma mesma faixa de valores, em todas as funções objetivo. A Figura 5 mostra a normalização de ambas as funções f1 e f2 para o intervalo [1,2]. Nesse

Figura 5: Normalização de ambas as coordenadas x e y de três pontos, dos intervalos [10,20] e [2,5] respectivamente, para o intervalo [1,2].

A normalização de um valor x do intervalo [xmin,xmax] para o intervalo [a,b] é realizada

através da equação 2.3.

xnormalizado =

a + (x − xmin) · (b − a)

xmax− xmin (2.3)

A complexidade computacional para calcular o hipervolume de um conjunto com n soluções, com dois ou três objetivos é da ordem de O(n · log(n)) e cresce exponencialmen- te com o número de objetivos(BEUME; RUDOLPH, 2006; FONSECA, 2006; BEUME, 2009).

2.2.5.2 Indicadores Epsilon

A família de indicadores epsilon (ZITZLER, 2003) compreende as versões multiplicativa e aditiva. Ambas existem nas formas unária e binária. O indicador epsilon multiplicativo binário, I(S, S0)tem como resultado o menor fator pelo qual cada solução em S0

pode ser multiplicada de modo que o conjunto resultante seja fracamente dominado por S. Formalmente

I(S, S0) = inf ∈<{∀x

0 _{∈ S}0 _{∃x ∈ S : x}

x0} (2.4)

Considerando um problema de minimização com k funções objetivo e fi(x) ∈ <+, a relação

é denida como

x x0 ⇔ ∀i ∈ 1, · · · , k : xi ≤ · x0i (2.5)

O indicador epsilon multiplicativo em sua versão unária assume a forma:

I(S) = I(S, R) (2.6)

onde R é um conjunto qualquer de soluções, chamado de conjunto de referência.

O indicador epsilon aditivo binário é denido de maneira semelhante, baseando-se na dominância -aditiva:

x + x0 ⇔ ∀i ∈ 1, · · · , k : xi ≤ + x0i (2.7)

Ambas as versões do indicador epsilon, multiplicativa e aditiva, devem ser minimizadas. Se o indicador I(S, R) resultar em um valor menor que 1, então o conjunto S domina

estritamente o conjunto de referência R. O mesmo ocorre se o resultado do indicador I+(S, R) for um valor menor do que 0.

Para k objetivos, um conjunto não dominado S e qualquer conjunto nito de referência R, o indicador epsilon pode ser facilmente calculado. A complexidade envolvida nesse cálculo é da ordem de O(k · |S| · |R|) (FONSECA, 2005).

2.2.5.3 Indicadores R

A família de indicadores R (HANSEN, 1998) compreende duas versões, IR2e IR3. Esses

indicadores se baseiam em funções de utilidade para comparar conjuntos não dominados. Uma função de utilidade u é denida como

u : (Λ, Z) 7→ <

onde Z ⊂ <k _{é o espaço objetivo do problema e Λ ⊂ <}k _{é um conjunto de parâmetros}

denido pelo tomador de decisão, que representa suas preferências.

Hansen, Hansen, Jaszkiewicz e Jaszkiewicz (1998) propõem várias formas de transfor- mar funções de utilidade em indicadores de qualidade. Dados um conjunto de parâmetros Λ e dois conjuntos de vetores objetivo A, B ⊂ Z, os indicadores IR2 e IR3 binários são

denidos a seguir: IR2(A, B) = P λ∈Λu ∗_{(λ, A) − u}∗_{(λ, B)} |Λ| (2.8) IR3(A, B) = P λ∈Λ(u ∗_{(λ, B) − u}∗_{(λ, A))/u}∗_{(λ, B)} |Λ| (2.9)

onde u∗_{(λ, Z)} _{é o valor máximo obtido pela função de utilidade u com um parâmetro λ e}

um conjunto de vetores objetivo Z, isto é, u∗_{(λ, Z) =}_max

z∈Zu(λ, z).

Assim como os indicadores epsilon, os indicadores R também possuem versão unária, substituindo o conjunto B por um conjunto de referência xo R qualquer, isto é, IR2(A) =

IR2(R, A) e IR3(A) = IR3(A, R).

Existem várias funções de utilidade que podem ser utilizadas no cálculo dos indicadores R. A Tabela 1 lista três funções diferentes apresentadas por Fonseca, Knowles, Thiele e Zitzler (2005). Nessas funções z∗ _{é o ponto ideal, se conhecido, ou qualquer outro}

ponto que domine fracamente todos os pontos no conjunto não dominado. O mesmo z∗

deve ser utilizado no cômputo de ambos u∗_{(λ, A)} _{e u}∗_{(λ, B)}_{. ρ é um número real positivo}

sucientemente pequeno.

Em todos os casos, o conjunto Λ deve conter um número grande o bastante de pa- râmetros dispersos uniformemente. Todo λ ∈ Λ deve respeitar λi ≥ 0 e P λi = 1, com

i ∈ 1..k.

u(λ, z) Função ponderada

linear −i∈1..kP

λi|z∗i − zi|

Função ponderada

Tabela 1: Três funções de utilidade conhecidas da literatura.

Tabela 1, os indicadores R garantem que sempre que se A / B então IR2(A) ≤ IR2(B) e

IR3(A) ≤ IR3(B). A complexidade envolvida no cálculo dos indicadores R é da ordem de

O(k · |Λ| · |A| · |R|), onde k é o número de objetivos (FONSECA, 2005). 2.2.5.4 Conjuntos de referência

Como discutido anteriormente, as versões unárias das famílias de indicadores epsilon e R utilizam um conjunto de soluções não dominadas como referência. Fonseca, Knowles, Thiele e Zitzler (2005) sugerem as seguintes alternativas para conjuntos de referência:

1. Usar a Fronteira de Pareto como conjunto de referência;

2. Todos os conjuntos não dominados gerados por um algoritmo são combinados. En- tão os vetores objetivo dominados são removidos dessa união. Os pontos restantes formam o conjunto de referência;

3. Usar um conjunto de referência dominado por 50% das soluções no espaço de busca, a qual representa uma espécie conjunto de referência médio. Para tal, um número de soluções aleatórias, por exemplo 1000, é criado. Cada uma dessas soluções re- presentando a saída de uma estratégia de busca aleatória. Então, a superfície de realização 50% das 1000 execuções articiais é tomada como conjunto de referência. Denimos superfície de realização k% na seção 2.2.5.5.

A alternativa 1 seria o conjunto de referência ideal. Contudo, na maioria dos casos a Fronteira de Pareto do problema é desconhecida e não pode ser computada em tempo razoável. A vantagem da alternativa 2 reside no fato de que o conjunto de referência domina fracamente todos os conjuntos de aproximação sob consideração. Contudo, sempre que um novo conjunto de aproximação é incluído na comparação, o conjunto de referência

precisa ser recalculado. A alternativa 3 evita esse problema e mede a qualidade do conjunto de aproximação com relação a um conjunto de referência independente de qualquer algoritmo (FONSECA, 2005).

Ao comunicar os resultados de experimentos computacionais, é fortemente recomen- dável informar os pontos e conjuntos de referência usados, juntamente com os valores dos indicadores. Assim, em um experimento posterior, será possível comparar os valores de indicadores, computados usando os mesmos pontos e conjuntos de referência, sem acesso aos conjuntos de aproximação do primeiro experimento (FONSECA, 2005).

2.2.5.5 Função de realização empírica e superfície de realização

O resultado obtido ao executar otimizadores multiobjetivo com características esto- cásticas, como meta-heurísticas por exemplo, pode ser descrito por uma distribuição.

Uma vez que um otimizador pode retornar mais de um vetor objetivo em uma execu- ção, a distribuição é descrita por um conjunto aleatório Z de vetores objetivo aleatórios zj_{, com cardinalidade m também aleatória, isto é:}

Z = {zj ∈ R, j = 1, · · · , m} (2.10) onde n é o número de objetivos do problema. Uma função de realização descreve a dis- tribuição com base no conceito de meta realizada: Uma meta, aqui signicando um vetor objetivo, é realizada sempre que é fracamente dominada pelo conjunto de aproximação retornado pelo otimizador. O otimizador é denido por uma função αZ(.) : R → [0, 1] com

α_Z(z) = P (z1 z ∨ z2 z ∨ · · · ∨ zm z) = P (Z {z})

= P (que o otimizador realize a meta z em uma única execução)

(2.11)

onde P (.) é a função de densidade de probabilidade. A função de realização pode ser estimada através de r execuções independentes de um otimizador via função de realização empírica(FRE) FRE Função de Realização Empírica , denida como:

αr(z) = 1 r r X i=1 I(Ai {z}) (2.12)

onde Ai _{é o i-ésimo conjunto de aproximação obtido pela execução do otimizador e I(.)}

é uma função que resulta em 1 se seu argumento é verdadeiro ou 0 se seu argumento é falso. Em resumo, a FRE provê para cada vetor objetivo a frequência relativa em que ele é realizado, isto é, fracamente dominado por um conjunto de aproximação obtido do otimizador nas r execuções.

Um conjunto de aproximação A é dito conjunto de aproximação k% de uma FRE αr(z), se e somente se ele domina fracamente os vetores objetivo que tenham sido reali-

zados em pelo menos k por cento das r execuções. Formalmente

∀z ∈ Z : αr(z) ≥ k/100 ⇔ A {z} (2.13)

A superfície de realização de um conjunto de aproximação k% A, chamada de superfí- cie de realização k%, é denida como a união de todas as metas que podem ser realizadas de maneira justa por a A, isto é, que são dominadas fracamente por A e não dominadas estritamente por A. Formalmente, {z ∈ Rn_{: A z ∧ ¬A ≺≺ z}}_.

Uma superfície de realização k% divide o espaço objetivo em duas partes: as metas que foram alcançadas e as metas que não foram alcançadas com frequência de pelo menos k por cento.

A três linhas na Figura 6 denem a superfície de realização 0%, superfície de realização 50% e superfície de realização 100% em um espaço objetivo bidimensional. Todos os vetores objetivo (metas) localizados sobre a linha verde foram fracamente dominados por algum outro vetor objetivo gerado por um otimizador, em exatamente 50% de r execuções. Todos os conceitos apresentados nessa seção constam no trabalho de Fonseca, Knowles, Thiele e Zitzler (2005).

2.3 Heurísticas, meta-heurísticas, buscas locais e algo-

Dans le document Digital Technical Journal Digital Equipment Corporation (Page 33-36)