Les maîtres de barque - LES MARINS

UES : ARQUE

B) LES MARINS

2) Les maîtres de barque

Definição 2.4 (Q-learning). Q-learning (Watkins,1989) é um algoritmo AR utilizado para estimar incrementalmente o retorno de cada par estado-ação (Sutton; Barto,1998).

Desta forma, não é preciso esperar até o fim do episódio para que a aprendizagem inicie (Otterlo; Wiering,2012). Esta é uma grande vantagem em relação a outros algoritmos que esperam obter Rt para iniciar a aprendizagem (Sutton; Barto,1998). Caso contrário, se o

episódio for muito longo, a aprendizagem será lenta. O algoritmo Q-learning estima o retorno de um par estado-ação da seguinte forma. A cada passo de tempo t, o algoritmo aproxima Q(st, at)

uma fração α da recompensa imediata rt+1, e da estimativa de retorno do par, estado sucessor

st+1e ação onde o retorno é maior:

Qt+1(st, at) = Qt(st, at) + ∆Qt(st,at) z }| { α rt+1+ γ max b Qt(st+1, b) − Qt(st, at) 2.3 onde b ∈ A, ∆Qt(st, at) é o incremento aplicado ao par (st, at) e α é a taxa de aprendizagem.

A expressão rt+1+ γ maxbQt(st+1, b) − Qt(st, at) é chamado de erro de Diferença Temporal

(Temporal Difference error - TD error) (Ribeiro,2002), pois representa em um instante de tempo t, a diferença entre o retorno estimado (Qt(st, at)) e o previsto (rt+1+ γ maxbQt(st+1, b))

(Ribeiro,2002).

Este algoritmo utiliza uma política flexível para garantir a exploração do espaço de estados e ações. Sendo assim,

Definição 2.5 (Política -greedy). a ação com a maior estimativa de retorno é selecionada com probabilidade 1 − ou, com uma pequena probabilidade , uma ação aleatória. Este método de exploração, chamado -greedy (Watkins,1989), garante que o agente explore o espaço de estados a procura de políticas melhores.

O algoritmo Q-learning converge para a política ótima independente da política de exploração utilizada, desde que os estados continuem a ser revisitados por uma quantidade infinita de vezes, e a taxa de aprendizagem α decresça no tempo (Otterlo; Wiering, 2012;

Watkins,1989;Bertsekas; Tsitsiklis,1996). Os passos do algoritmo Q-learning são enumerados a seguir:

1. Observe o estado atual s.

2.2. APRENDIZAGEM POR REFORÇO 30 3. Realize a ação a e observe o próximo estado s0e recompensa r.

4. Atualize Q para o par (s, a):

Q(s, a) = Q(s, a) + α r + γ max b Q(s 0 , b) − Q(s, a)

5. Faça s ← s0e repita a partir do segundo passo até o fim do episódio.

Retorno-n

Conforme visto anteriormente, o algoritmo Q-learning atualiza a estimativa do retorno de um dado estado utilizando a recompensa imediata e a estimativa do retorno do estado sucessor. Contudo, a recompensa recebida após n-passos demorará n episódios para alcançar um estado há n passos atrás. Considere a tarefa da Figura 2.2. Nesta tarefa, o agente pode realizar apenas a ação direita que o conduz para o próximo estado imediatamente à direita. O agente recebe um sinal de recompensa 0 na transição de A para B e de B para C e 1 na transição de C para D. Note que a estimativa do retorno no estado A (Q(A, →)) será atualizado somente no terceiro episódio. A inicio 0 B 0 C 1 D 0 Episódio #1 0 0 0 1 1 0 0 Episódio #2 0 1 0 1 1 0 1 Episódio #3 0 1 0 1 1 0

Figura 2.2: Tarefa com três estados representados pelos círculos A, B e C e, um estado final representado pelo círculo D. As setas indicam o próximo estado após a ação direita

ser realizada no estado corrente. Os valores observados acima das setas são as recompensas a serem recebidas ao se realizar a ação direita. Os valores numéricos apresentados dentro dos círculos representam o valor Q(s, →) quando γ = 1 e α = 1. A

Figura apresenta o atraso na atualização de Q(s, →) nos estados anteriores à C.

A Equação 2.3, usada para estimar a função valor, pode ser modificada para acelerar o processo de aprendizagem na tarefa apresentada pela Figura 2.2. Ao invés de atualizar Q(st, →)

imediatamente após um passo, a atualização pode ser realizada após n-passos (Sutton; Barto,

1998), ∆Qn_t(st, at) = α R_t(n)− Qt(st, at) 2.4

2.2. APRENDIZAGEM POR REFORÇO 31 onde o termo R(n)_t é expandido de acordo com a quantidade n de passos para rt+1+ γrt+2+

. . . + γn−1rt+n+ γnmaxbQt(st+n, b), em outros termos,

R_t(n)= n−1 X k=0 γkr_t+k+1+ γnmax b Qt(st+n, b). 2.5 Desta forma, quando n = 2, o valor de Q(B, →) converge no primeiro episódio enquanto

Q(A, →) no segundo episódio. Em vez disto, se n = 3, ambas estimativas Q(A, →) e Q(B, →)

convergiriam no primeiro episódio ao mesmo tempo que Q(C, →). Se n é maior que a sequência de passos até o estado final, então R(n)_t = Rt. A notação R(n)t , retorno-n, será utilizada para

indicar a quantidade n de passos antes que a sequência de recompensas restantes sejam truncadas pelo termo γnmaxbQ(st+n, b).

Elegibility Traces

É possível combinar dois ou mais retornos R(n)_t com a ponderação de seus valores e ainda manter a garantia de convergência, desde que a soma de seus pesos seja 1 (Sutton; Barto,

1998). Por exemplo.

Definição 2.6 (Retorno-λ). Em um tipo de retorno chamado retorno-λ, todos os R(n)_t de um episódio são combinados ponderando seus valores por λn−1e um fator de normalização (1 − λ) para assegurar que os pesos somem 1 (Sutton; Barto,1998).

Desta forma, R(1)_t recebe o maior peso (1 − λ)λ0, R(2)_t o segundo maior peso (1 − λ)λ1 e assim sucessivamente (Sutton; Barto,1998). Em outras palavras, o peso diminui em λ após cada passo adicional,

Rλ_t = (1 − λ) T −t−1 X n=1 λn−1R(n)_t + λT −t−1Rt. 2.6

onde o termo λT −t−1Rtrefere-se ao retorno após o estado final ser alcançado e λ é um parâmetro

com valores entre 0 e 1. Se λ = 0 a atualização será realizada da mesma forma que o algoritmo Q-learning após 1-passo, caso contrário, se λ = 1, o algoritmo utiliza apenas o retorno completo

Rt obtido no fim do episódio. Para efeitos de simplificação, assume-se que o estado final é

um absorbing state (Sutton; Barto,1998). Neste estado, as interações do agente continuam infinitamente e todas as ações resultam no mesmo estado com recompensa 0. Desta forma, todas as interações após o estado final tornam-se sem efeito, pois as recompensas recebidas serão sempre 0. Sendo assim, todos os n retornos recebidos após o estado final serão iguais a Rte a

soma dos pesos restantes será igual a λT −t−1(Sutton; Barto,1998). O incremento da função valor para o retorno-λ é dado por,

∆Qλ_t(st, at) = α h Rλ_t − Qt(st, at) i 2.7

2.2. APRENDIZAGEM POR REFORÇO 32 O retorno-λ permite que a ação realizada em um estado anterior receba uma parcela λ das recompensas futuras. No entanto, esta não é uma estratégia de aprendizagem incremental, pois somente no fim do episódio os retornos estarão disponíveis. A técnica de Elegibility Traces implementa o retorno-λ de forma incremental, a cada passo de tempo t. Para isto, uma memória adicional, cujo valor é denotado por e(s, a), é associada a todo par estado-ação. A cada interação do agente com o ambiente e(s, a) é diminuído em função de dois parâmetros γ e λ, e aumentado (accumulating traces) ou substituído (replacing traces) por 1 quando st+1é o estado sucessor de

st: (accumulating traces) et(s, a) =      γλet−1(s, a) + 1 se s = ste a = at;

γλet−1(s, a) caso contrário

2.8 ou (replacing traces) et(s, a) =      1 se s = ste a = at;

γλet−1(s, a) caso contrário,

2.9

onde γ é o fator de desconto e λ é o parâmetro para redução gradual de et(s, a). O parâmetro λ

determina a contribuição dos estados passados que influenciaram para o agente se localizar em um estado futuro. SegundoSutton; Barto(1998), melhores resultados são geralmente alcançados ao utilizar replacing traces.

Em um estudo experimental realizado por Singh; Sutton (1996), a aprendizagem é acelerada ainda mais se et(s, a) = 0 para todas as outras ações que não foram selecionadas em

st. Em outros termos, a atualização de et(s, a) em um instante de tempo t para todo par (s, a)

pode ser dado por (Singh; Sutton,1996):

et(s, a) =            1 se s = st e a = at; 0 se s = st e a 6= atpara todo a; γλet−1(s, a) se s 6= st. 2.10

A Figura 2.3(b) exemplifica esta mecânica no último passo de um episódio do ambiente Gridworld para efeitos comparativos com a atualização realizada pelo algoritmo Q-learning (Figura 2.3(c)). O Gridworld trata-se de um ambiente onde os estados são discretos e adjacentes. Neste ambiente, o objetivo é encontrar um caminho curto até o estado meta. Na Figura 2.3, a direção das setas indica a ação realizada enquanto o tamanho representa a parcela da recompensa a ser recebida pelos estados passados. A Figura 2.3(a) mostra o caminho percorrido pelo agente até o estado meta. No algoritmo Q-learning, a recompensa rt+1recebida em um estado st+1é

2.2. APRENDIZAGEM POR REFORÇO 33 Tracerepassa uma parcela da recompensa para todos os estados passados st, st−1, st−2, . . . , st=0.

1 2 3 4

(a) Caminho Percorrido

1 2 3 4

(b) Q-learning com Elegibility Traces (Q(λ))

1 2 3 4 1 2 3 4 (c) Q-learning

Figura 2.3: Atualização da função valor no ambiente Gridworld após o agente alcançar o estado meta pelo estado (4, 3). A Figura (a) mostra o caminho percorrido pelo agente, enquanto as Figuras (b) e (c) mostram a intensidade da recompensa retropropagada para

os estados anteriores pelos algoritmos Q(λ) e Q-learning, respectivamente. O tamanho das setas indicam a intensidade com que o valor da recompensa foi recebida nestes

estados.

O algoritmo Q-learning quando implementa a técnica Elegibility Trace é chamado de

Q(λ) (Watkins,1989). Os passos deste algoritmo são enumerados a seguir: 1. Observe o estado atual s.

2. a ← arg maxbQ(s, b) ou, com probabilidade , a ← ação aleatória.

3. Realize a ação a e observe o próximo estado s0e recompensa r. 4. a∗← arg max_bQ(s0, b).

5. Faça a0← a∗ou, com probabilidade , a0← ação aleatória. 6. δ ← r + Q(s0, a∗) − Q(s, a).

2.2. APRENDIZAGEM POR REFORÇO 34 8. Para todo par (s, a) faça:

8.1. Q(s, a) = Q(s, a) + αδe(s, a)

8.2. Se a0= a∗então e(s, a) = γλe(s, a) senão e(s, a) = 0. 8.3. Para toda ação b 6= a faça e(s, b) = 0.

9. Faça s ← s0e a ← a0e repita a partir do terceiro passo até o fim do episódio. Note que o algoritmo Q(λ) (passo 8.2) não utiliza toda a sequência de recompensas até o fim do episódio; ao invés disto, utiliza apenas a sequência até a próxima ação exploratória, fazendo e(s, a) = 0 para todo par (s, a) quando a 6= a∗. No extremo, se as ações exploratórias são frequentes, então o desempenho do algoritmo Q(λ) será apenas um pouco mais rápido que o Q-learning (Sutton; Barto,1998). O passo 8.3 deve-se à recomendação deSingh; Sutton(1996).

Ambas as técnicas, Retorno-n e Elegibility Traces, podem ser utilizadas para acelerar a aprendizagem dos algoritmos AR. A técnica Elegibility Traces, no entanto, utiliza uma estratégia mais eficiente de aprendizagem. Esperar n-passos para atualizar a estimativa do retorno pode atrasar a aprendizagem. Independente de qual estratégia for utilizada, estes algoritmos ainda sofrerão da maldição da dimensionalidade (Bellman,1957). O espaço de busca aumenta consideravelmente à medida que o número de estados e ações cresce tornando impraticável o uso destes algoritmos. Este é um dos problemas que será discutido no próximo capítulo.

35 35 35

3

Descrição do Problema

O processo de aprendizagem incremental proporcionado pelo algoritmo Q-learning, permite que o conhecimento adquirido durante um episódio esteja disponível o quanto antes para o agente. Esta estratégia traz vantagens, como a possibilidade de o agente utilizar o conhecimento recém-adquirido em outros estados do ambiente. Em relação aos algoritmos que precisam esperar o fim do episódio para atualizar a função valor, esta estratégia pode proporcionar uma redução no tempo da aprendizagem, especialmente quando os episódios são longos (Sutton; Barto,1998;

Ribeiro,2002).

O algoritmo Q-learning constrói a função valor em uma tabela onde cada entrada armazena a estimativa do retorno de um par estado-ação. Esta representação possui desvantagens quando utilizada em ambientes que possuem variáveis de estado contínuas. Nestes ambientes, a quantidade de estados é infinita, tornando impraticável este tipo de representação por duas razões principais: 1) memória insuficiente para armazenar a tabela de estimativas (Vieira; Adeodato; Gonçalves,2010) e 2) custo computacional alto para estimar o retorno de todos os estados do ambiente (Haykin,1998).

Felizmente, em problemas que possuem variáveis de estado contínuas há a possibilidade da existência de estados similares. Nestes estados, uma mesma ação pode produzir resultados semelhantes (Mahadevan; Connell, 1992). A estratégia abordada por este trabalho explora esta característica agrupando os estados similares em regiões discretas a fim de produzir uma representação mais compacta do espaço de estados. Os algoritmos que utilizam esta estratégia devem encontrar meios para detectar estas semelhanças e evitar o agrupamento de estados não-similares que exigem ações diferentes. Este capítulo formaliza o processo de discretização e mostra que o agrupamento de tais estados requerem cuidados para evitar problemas que venham a impossibilitar o agente de encontrar uma solução.

O presente capítulo está organização como segue. A Seção 3.1 descreve o tipo de tarefa que se pretende solucionar com o uso da AR. A problemática e formalização do processo de discretização destes ambientes são apresentados na Seção 3.2 e dois problemas que podem ocorrer com este processo são discutidos em seguida na Seção 3.3.

3.1. TAREFAS DIRECIONADAS À META 36

3.1 Tarefas Direcionadas à Meta

Em tarefas direcionadas à meta, o objetivo é encontrar um caminho curto entre o estado inicial e o meta (Riedmiller, 2005; Koenig; Simmons,1996). Pela exploração do espaço de estados, o agente deve buscar uma sequência mínima de ações que o conduza para o estado meta em uma quantidade menor de passos. Deve-se, portanto, programar o crítico para recompensar o agente de acordo com o número de estados visitados, de tal forma que a soma das recompensas descontadas aumente quando T → 0 e diminua quando T → ∞. Para isto, geralmente, uma recompensa negativa é associada a todos os estados que não seja o meta. Ao alcançar o estado meta, o agente pode: 1) continuar a receber uma recompensa negativa com mesma intensidade que as anteriores, 2) nula (rt+1= 0) ou 3) positiva (rt+1 > 0). Desta forma, o retorno será

maior se o número de estados visitados até o estado meta for menor. Uma vez que o objetivo é maximizar o retorno, esta estratégia incentiva a busca por caminhos que sejam mais curtos (Sutton; Barto,1998).

Existem diversas tarefas que podem ser classificadas como direcionadas à meta, estas incluem o Mountain Car (Sutton,1996), Puddle World (Sutton,1996), Gridworld (Sutton; Barto,

1998), Acrobot (Connell; Mahadevan,1993), Dribble (Vieira; Adeodato; Gonçalves, 2010), Maze(Braga; Araújo,2003), Peg in Hole (Lee; Lau,2004) e outros. Com o objetivo de avaliar o modelo proposto apresentado no Capítulo 6, seu desempenho será comparado com outros algoritmos de aprendizagem em cinco ambientes experimentais que serão descritos nas próximas subseções deste capítulo. Estes ambientes são comumentes utilizados como benchmarking para a validação de novos algoritmos, tais como os encontrados em (Handa,2004;Abramson; Pachowicz; Wechsler, 2003; Sutton, 1996; Konidaris; Osentoski; Thomas, 2011; Baumann; Kleine büning,2014;Sherstov; Stone,2005; Whiteson; Taylor; Stone,2007;Braga; Araújo,

2003) e muitos outros. As variáveis de estado dos ambientes Mountain Car e Acrobot foram normalizadas entre −1 e 1 e, nos ambientes Puddle World, Slow Puddle World e Continuous Mazeentre 0 e 1.

Dans le document The DART-Europe E-theses Portal (Page 105-109)