PREPARATION FOR DECOMMISSIONING (1–4) - Safety of Nuclear Fuel Cycle Research and Development F

Por meio de dois conjuntos de simulações foi possível concluir que o algoritmo proposto de fato funciona e que apresenta ganhos quando comparado com o caso do DC fixo, mesmo em um ambiente multicelular. Analisando os ganhos apresentados em cada simulação, nota-se que o algoritmo irá prover mais ganho à medida que as taxas oferecidas envolvidas sejam mais desbalanceadas, pois assim um DC fixo médio de 0, 5 ou 0, 6 não irá se sair tão bem quando comparado com o Q-Learning, que irá escolher, para cada situação de troca de taxas oferecidas, o melhor DC possível que eleve a vazão agregada do sistema para o seu máximo. Além disso, embora o algoritmo tenha sido modelado para a maximização da vazão do sistema, houve ganho também na vazão por usuário, que pode ser visto nas CDFs apresentadas e no gráfico dos percentis.

Entretanto, mesmo com os ganhos apresentados, o algoritmo apresenta suas desvantagens. A principal é que existe a necessidade que a matriz do sistema que mapeia os valores Q(s, a) seja quadrada. Assim, se existir a necessidade de usar um valor maior de ações, a matriz aumenta de tamanho com um fator quadrático, o que afeta diretamente a convergência do algoritmo. Outro ponto é que esse algoritmo é parametrizável por γ e α, que não só influenciam na convergência, como devem ser bem ajustados para que o funcionamento do algoritmo seja ótimo.

Levando em conta essas desvantagens apresentadas, o próximo capítulo apresenta uma outra solução, também baseada em aprendizado por reforço, que embora mais simples em termos de complexidade e parametrização, pode resultar em ganhos no mesmo nível que o Q-Learning.

Capítulo 6

Solução Proposta via Multi-armed

Bandit

No capítulo 5, foi apresentado um algoritmo de controle automático do DC usando Q-Learning. Foi comprovado seu desempenho superior comparado a estratégia de DC fixo, especialmente quando o cenário apresenta variação da taxa oferecida ao longo do tempo. Embora exista ganho expressivo de desempenho, a solução com Q-Learning apresenta algumas desvantagens. O fato de se ter um mapeamento Q(a, s) faz com que a matriz de valores do algoritmo cresça com um fator quadrático com relação ao número de ações. Assim, pensando-se em velocidade de convergência, não é recomendável utilizar um número grande de ações, limitando a solução proposta. Além disso, o algoritmo é parametrizado por α e γ, criando a necessidade de uma busca paramétrica para achar os melhores valores.

Como forma de tratar essas características da primeira solução proposta, este capítulo apresenta outra solução de aprendizado por reforço baseada em Multi-armed Bandit (MAB). A grande vantagem, em termo de definição, desse segundo algoritmo com relação ao Q-Learning é que ele não necessita da definição dos estados, assim não existe o mapeamento Q(a, s). O restante do capítulo apresenta a definição do algoritmo e os resultados comparativos para as duas simulações realizadas (as mesmas campanhas mostradas no capítulo anterior).

6.1 Multi-armed Bandit

Considere o seguinte problema. Um agente se depara repetidamente com um mesmo conjunto de ações (escolhas). Para cada ação escolhida, o agente recebe uma recompensa que segue uma distribuição de probabilidade. O objetivo do agente é maximizar a recompensa total esperada durante um período de tempo.

O problema descrito no parágrafo anterior é a forma básica do k-Multi-armed Bandit e recebe esse nome por causa de um analogia com as máquinas caça-níquel, que em inglês eram chamadas alternativamente de “one-armed bandits”, por causa da alavanca. Para o problema descrito, é como se o agente estivesse de frente com k máquinas, e consequentemente k alavancas, e sua ação fosse selecionar e puxar uma das alavancas e receber a recompensa associada.

CAPÍTULO 6. SOLUÇÃO PROPOSTA VIA MULTI-ARMED BANDIT 39

Para cada ação há uma recompensa média associada, uma vez que cada ação segue uma distribuição de probabilidade. Essa recompensa média para cada ação é chamada valor da ação (Sutton and Barto, 2018). Assim, para cada tempo discreto t, tem-se uma ação At que é escolhida, com recompensa associada Rt. Além disso, dada uma ação a qualquer, o valor da ação q∗(a) é dada pela equação

q_∗(a)_{= E [R}. t|At = a] , (6.1) sendo E o valor esperado.

Se os valores das ações fossem conhecidos, seria simples resolver o problema do k-Multi-armed Bandit, pois bastaria sempre escolher a ação que retorna a maior recompensa média. Entretanto, para a grande maioria dos problemas, estes valores não são conhecidos e devem ser estimados. Define-se como Qt(a) o valor estimado da ação a no tempo t e espera-se que Qt(a) aproxime-se de q∗(a) a medida que as ações forem sendo escolhidas no período de tempo que o agente está aprendendo. Com o valor aproximado Q_→∞(a) o agente pode, enfim, escolher sempre a ação que retorna a maior recompensa.

Um método para aproximar o valor de q∗(a) por Qt(a), e usar o valor aproximado para escolher as ações futuras, é o sample-average (Sutton and Barto, 2018). Nesse método, os valores das ações são estimados pela média das recompensas recebidas:

Q_t(a)=. ∑ t−1

i=1Ri.1Ai=a

∑t−1_i=1.1Ai=a

, (6.2)

sendo 1Ai=a uma função que é 1 quando Ai= a for verdadeiro, e 0 para quando for falso.

Como acontece no Q-Learning, pela lei dos grandes números, a medida que o denominado da Equação 6.2 vai para infinito, o valor de Qt(a) aproxima-se de q∗(a). Assim, é garantido que se o algoritmo rodar por tempo suficiente, a convergência é alcançada. Por fim, a Equação 6.2 também pode ser representada pela sua forma incremental como

Qn+1(a) = Qn(a) + 1

n[Rn− Qn(a)] , (6.3)

em que n é o número de vezes que a ação a foi escolhida até o atual momento. Esta equação é melhor em termos de implementação, pois requer apenas o armazenamento dos valores Qne n.

Para selecionar as ações, o agente pode seguir uma estratégia gulosa (greedy) com base no valor atual de Qt(a) pela fórmula

A_t= argmax. a

Q_t(a), (6.4)

sendo argmax uma função que retorna a ação a que apresenta o maior valor Qt(a). Entretanto, se o agente sempre seguir a escolha greedy pela Equação 6.4, pode acontecer dele ficar preso numa ação subótima, assim deve-se controlar quando o agente seleciona a ação de maior valor, e quando ele deve escolher uma ação aleatoriamente, possibilitando que mais ações sejam escolhidas/testadas. Para resolver este problema, pode-se utilizar a estratégia epsilon-greedy, em que um valor ε é definido, e a cada passo t, o agente tem probabilidade ε de escolher uma ação aleatória, ou probabilidade 1 − ε de escolher a ação

CAPÍTULO 6. SOLUÇÃO PROPOSTA VIA MULTI-ARMED BANDIT 40

com maior valor Qt(a) (greedy).

Dans le document Safety of Nuclear Fuel Cycle Research and Development Facilities | IAEA (Page 84-93)