• Aucun résultat trouvé

Extension de la concession et exploitation de jeux en ligne

probabilidade de transição de estados 𝑝 função de recompensa 𝑟

fator de desconto 𝛾 critério de parada 𝜉

Inicialize:

1: 𝑄 arbitrariamente, e.g., 𝑄0 ← 0, ∀ 𝑠 ∈ 𝒮 e 𝑎 ∈ 𝒜

repita para cada iteração 𝑘 = 0, 1, 2, . . .

2: para todo 𝑠 ∈ 𝒮 e 𝑎 ∈ 𝒜 faça

3: 𝑄𝑘+1(𝑠, 𝑎) ←∑︀𝑠,𝑟𝑝 ( 𝑠, 𝑟| 𝑠, 𝑎) [𝑟 + 𝛾 max𝑎𝑄𝑘(𝑠, 𝑎′)]

4: fim para

até |𝑄𝑘+1(𝑠, 𝑎) − 𝑄𝑘(𝑠, 𝑎)| < 𝜉

Saída:

𝑞* ≈ 𝑄𝑘

completamente. O fator de desconto usado é 𝛾 = 0, 5. O Algoritmo 2.3 produz a sequência de valores ilustrados na Tabela 2.4

Tabela 2.4 – Resultado da iteração de valor para o problema do robô de reciclagem simplificado [30]. 𝑠 = 0 𝑠 = 1 𝑠 = 2 𝑠 = 3 𝑠 = 4 𝑠 = 5 𝑄0 0 ; 0 0 ; 0 0 ; 0 0 ; 0 0 ; 0 0 ; 0 𝑄1 0 ; 0 0,800 ; 0,050 0 ; 0 0 ; 0 0,250 ; 4 0 ; 0 𝑄2 0 ; 0 0,860 ; 0,110 0,320 ; 0,020 0,100 ; 1,600 0,550 ; 4,300 0 ; 0 𝑄3 0 ; 0 0,873 ; 0,243 0,408 ; 0,686 0,356 ; 1,848 1,213 ; 4,363 0 ; 0 𝑄4 0 ; 0 0,883 ; 0,390 0,447 ; 0,812 0,522 ; 1,901 1,316 ; 4,373 0 ; 0 𝑄5 0 ; 0 0,887 ; 0,441 0,461 ; 0,843 0,577 ; 1,912 1,338 ; 4,376 0 ; 0 .. . ... ... ... ... ... ... 𝑄29 0;0 0,888;0,458 0,467;0,852 0,594;1,915 1,344;4,376 0;0 𝜋* * -1 1 1 1 * 𝑉* 0 0,888 0,852 1,915 4,376 0

Mais uma vez cada célula mostra o valor para cada uma das ações para um certo estado separados por “;”, sendo o valor da esquerda para 𝑎 = −1 e o da direita para 𝑎 = 1. O algoritmo converge completamente após 29 iterações. A política ótima (𝜋*) e a função valor estado ótima (𝑉*), obtidas respectivamente através de (2.28) e (2.22), também são

mostradas na Tabela 2.4, abaixo da linha tracejada. △

Uma vantagem importante da iteração de política sobre a iteração de valor resulta da linearidade da equação de Bellman para 𝑞𝜋 (2.18), em contraste com a equação de

otimalidade 𝑞* (2.25), que é altamente não linear devido à maximização no lado direito da equação. Esse fato torna a avaliação de política geralmente mais simples de resolver que a iteração de política. Além disso, na prática, algoritmos off-line de iteração de política geralmente convergem em um número menor de iterações [30], [111]. O que não significa que a iteração de política é computacionalmente menos custosa que a iteração de valor. Por exemplo, mesmo que a avaliação de política seja menos custosa que a iteração de valor, cada iteração de política exige uma avaliação de política completa [30].

Por fim, os algoritmos de DP necessitam do modelo do MDP, incluindo a dis- tribuição de probabilidade de transição e a função de recompensa, para encontrar uma política ótima [20], [84]. Tais algoritmos são empregados de maneira off-line, produzindo uma política que é, em seguida, aplicada ao ambiente. Uma outra limitação ocorre em problemas em que os espaços de estado e de ação são muito grandes, ou contínuos, por necessitarem de representações exatas das funções valor ou das políticas, o que é geralmente impossível nesses casos. Mesmo quando os estados e as ações levam a um número finito de valores distintos, o custo de representar funções valor e políticas de maneira exata cresce exponencialmente com o número de variáveis de estado (e variáveis de ação, para funções valor estado-ação) [30]. Esse fato é amplamente conhecido como a “maldição da

dimensionalidade”, e é a razão mais citada para justificar não usar os algoritmos de DP

[84]. De fato, Powell [84] enumera, ainda, três maldições em problemas de controle para mostrar que a função valor é bastante difícil de se obter, exceto sob certas condições mais favoráveis.

3 Aprendizado por reforço e programação di-

nâmica aproximada

“The consequences of an act affect the probability of its occurring again.”

Burrhus Frederic Skinner1

Neste capítulo são considerados métodos de aprendizado para estimar funções valor e encontrar políticas ótimas. Diferentemente do capítulo anterior, agora o ambiente não é completamente conhecido. O capítulo é dividido entre problemas de predição de valor, em que serão apresentados métodos de Monte Carlo e de diferenças temporais para aproximar a função valor estado, e problemas de controle, em que as técnicas de iteração de política e iteração de valor têm seu conceito estendido para problemas de aprendizado por reforço.

3.1

Introdução

Quando um modelo detalhado e preciso do sistema a ser controlado não está dispo- nível, métodos de controle adaptativo devem ser aplicados. Os algoritmos de aprendizado

por reforço - reinforcement learning (RL)são construídos sob a premissa de que as decisões

de controle de sucesso devem ser lembradas por meio de um sinal de reforço, de modo que elas sejam mais prováveis em uma segunda ocasião.

Em problemas de RL a variável temporal é discreta e as ações são tomadas em cada passo de tempo discreto. As ações são tomadas em malha fechada, o que significa que os resultados das ações anteriores são levados em conta na escolha de novas ações. Recompensas são fornecidas a fim de avaliar o desempenho de um passo do tomador de decisões. O objetivo do agente em RL é otimizar o desempenho a longo prazo, medido pelo total de recompensas acumuladas ao longo da interação agente-ambiente.

Mais especificamente, o agente interage com o seu ambiente, e em cada instante de tempo 𝑡 = 0, 1, 2, . . . o agente recebe como entrada o estado observado do ambiente

𝑆𝑡 ∈ 𝒮 e tem como saída uma ação 𝐴𝑡∈ 𝒜(𝑠), escolhida de acordo com uma política 𝜋,

que é aplicada ao ambiente resultando em uma recompensa 𝑅𝑡+1 ∈R ⊂ R que avalia a

qualidade dessa transição, conforme representado na Figura 3.1.

1 Psicólogo americano, conduziu trabalhos pioneiros em psicologia experimental e foi o propositor do

behaviorismo radical, abordagem que busca entender o comportamento em função das inter-relações entre a filogenética, o ambiente (cultura) e a história de vida do suposto individuo.

Em geral, em problemas de tomada de decisão sequencial, o estado do ambiente e a recompensa são dependentes de todas as observações e ações anteriores, mas no caso especial dos MDPs, eles dependem somente do último estado observado e ação executada, devido à propriedade de Markov. Os métodos de RL se ajustam perfeitamente para problemas em que o modelo do MDP é parcialmente ou completamente desconhecido. Os algoritmos de DPclássica possuem algumas limitações por assumirem um modelo perfeito do ambiente e devido ao seu grande custo computacional. De fato, métodos de RL podem ser vistos como DPadaptativa ou DPaproximada, com menor custo computacional e sem considerar um modelo perfeito do ambiente [111]. Para obter políticas ótimas ou quase ótimas dos MDPs, os algoritmos de RL estimam as funções valor dos MDPsatravés dos dados observados nas transições de estado.

Agente Função de recompensa Ambiente 𝑆𝑡 estado 𝐴𝑡 ação 𝑅𝑡+1 recompensa

Figura 3.1 – Interação entre agente e ambiente.

3.2

Problemas de predição de valor

O problema de predição de valor, ou de avaliação de política, consiste em estimar uma função valor estado, 𝑣𝜋, em um MRP ou estimar uma função valor estado-ação, 𝑞𝜋

para uma dada política, 𝜋, em um MDP. Nesta seção será considerado o problema de estimar a função valor para um MRP.

O valor de um estado, como foi visto, é definido como o valor esperado da série de recompensas acumuladas pelo agente a partir de um certo estado. A maneira mais obvia de estimar este valor é calcular a média dos retornos observados ao longo de várias realizações independentes a partir desse estado. A medida que o número de retornos observados aumenta, a média calculada converge para o valor esperado. Essa é a ideia central dos métodos de Monte Carlo, discutidos na Seção 3.2.1.

Quando a variância dos retornos é elevada, ocasionando uma baixa qualidade nas estimativas da função valor, a técnica de Monte Carlo não pode ser aplicada sem a introdução de um viés nas estimativas. O aprendizado por diferenças temporais - temporal

differences (TD) usa estimativas do valor para obter novas estimativas, esse recurso é chamado de bootstrapping. O aprendizado por TDs é uma classe de algoritmos muito popular em RL e lida com as limitações dos métodos de Monte Carlo e será discutido na Seção 3.2.2.

3.2.1

Métodos de Monte Carlo

O termo “Monte Carlo” tem sua origem na década de 1940 quando físicos do projeto Manhattan em Los Alamos criaram um jogo de azar para ajudar a compreender os fenômenos físicos de natureza probabilística relacionados com a bomba atômica. Seu primeiro uso no contexto de RL foi em 1968 em [73]. Nos métodos do Monte Carlo para

RL, somente a experiência é necessária para estimar funções valor e encontrar políticas ótimas. Por exemplo, para cada estado 𝑠 ∈ 𝒮 todos os retornos obtidos a partir de 𝑠 são armazenados e o valor de 𝑠 é simplesmente a média dos retornos.

Para garantir que esta seja uma boa estimativa, é desejável lidar com tarefas episódicas [111]. Isto é, experiências que iniciam em um estado inicial e são executadas até que o ambiente atinja um estado terminal, onde independentemente da ação executada o episódio é terminado e então reiniciado em um novo estado inicial. A Figura 3.2, traz como exemplo um diagrama de armazenamento hipotético, em que são mostrados quatro episódios distintos iniciados em 𝑠.

𝑠

T T

T

T T

(a) Primeiro episódio.

𝑠 T T T T T (b) Segundo episódio. 𝑠 T T T T T (c) Terceiro episódio. 𝑠 T T T T T (d) Quarto episódio.

Figura 3.2 – Diagrama de armazenamento para o método de Monte Carlo.

Ao fim de cada episódio o retorno acumulado para cada estado visitado é armaze- nado. Neste ponto, é possível obter dois métodos de Monte Carlo razoavelmente diferentes, considerando a maneira de atualizar a função valor estimada em relação aos estados

visitados. Em um episódio, um estado 𝑠 pode ser visitado diversas vezes. O método de Monte Carlo primeira visita2 estima 𝑣

𝜋(𝑠) como a média dos retornos a partir da primeira

visita de um estado 𝑠 em um episódio, enquanto que o método de Monte Carlo cada visita3

estima 𝑣𝜋(𝑠) como a média dos retornos a partir de cada visita de um estado 𝑠 em um

episódio.

Para MDPs finitos, ambos os métodos de Monte Carlo convergem para a função valor 𝑣𝜋 se todos os estados forem visitados infinitas vezes. Portanto, boas aproximações da

função valor são obtidas quando a trajetória passa por todos os estados 𝑠 ∈ 𝒮 por diversas vezes. Uma das maneiras de garantir isso é assegurar que cada estado tenha probabilidade não nula de ser selecionado como estado inicial de um episódio [60]. Um pseudocódigo para o método de Monte Carlo primeira visita é mostrado no Algoritmo 3.1. Para um melhor entendimento do método de Monte Carlo o Algoritmo 3.1será aplicado no MRP

do Exemplo 2.2 no exemplo a seguir.

Algoritmo 3.1 Método de Monte Carlo primeira visita.