• Aucun résultat trouvé

Na análise de convergência do método RLS-TD(λ) considera-se cadeias de Markov ergódicas (veja denição no Apêndice A, Seção A.4). Sob esta suposição lida-se com uma cadeia de Markov {xk}, cujas probabilidades de estado estacio-

nário π(i) satisfazem

πTM = πT, (5.102)

sendo M a matriz de probabilidade de transição de estados e π é o vetor cuja i-ésima componente é π(i) (veja Teorema A.5.1 no Apêndice A). Seja E0[·] o

operador esperança com respeito a esta distribuição. Dena a seguinte notação: Φ ∈ ℜcard(X)×nθ é uma matriz cuja j-ésima coluna, j = 1, · · · , n

θ, é a função

base φj da representação linear bVh(xk, θ) = φT(xk)θ (ou na notação vetorial

b

Vh(θ) = Φθ). A convergência de RLS-TD(λ) requer as seguintes suposições: A.1 Os custos de transição rk satisfazem E0[rk2] < ∞.

A.2 A matriz Φ tem rank coluna completo, isto é, o conjunto de funções {φj | j = 1, . . . , nθ} é linearmente independente. Além disso, para cada j, a fun-

A.3 A matriz (Γ−1 0 +1k

k

i=1

ξiϕTi) é não-singular para todo tempo k > 0.

Sob as suposições A.1-A.3, tem-se o seguinte teorema de convergência para RLS-TD(λ)

Teorema 5.6.1. (Xu et al., 2002) Para uma cadeia de Markov ergódica que sa- tisfaz as condições A.1-A.3, a estimativa assintótica encontrada pelo RLS-TD(λ) converge, com probabilidade 1, para θ∗ determinado pela Eq.(2.49).

Demonstração:

Inicialmente considera-se um processo estacionário Xk = {xk, xk+1, ξk} como

segue (construído similarmente à idéia de (Tsitsiklis e Roy, 1997)). Seja {xk}uma

cadeia de Markov, −∞ < k < ∞, que evolui de acordo com a matriz de transição M e que já está em seu estado estacionário no sentido que Pr{xk= i} = π(i), para

todo i e k. Dada qualquer trajetória amostral desta cadeia de Markov, dene-se

ξk = k

τ =−∞

(γλ)k−τφ(xτ). (5.103)

Observe que ξk é construído tomando-se o processo estacionário φ(xk), cuja vari-

ância é nita (Suposição A.2). Seja E0[·] a esperança com respeito à distribuição

de estado estacionário de Xk. Segue do Lema D.0.1 (Apêndice D) que E0[C(Xk)]e

E0[d(Xk)]são dadas por expressões bem denidas e nitas. Além disso, de acordo

com o Lema D.0.3 (Apêndice D), E0[C(Xk)] é denida negativa.

Agora verica-se como o limite da estimativa bθk determinada pelo RLS-TD(λ)

se comporta quando k → ∞. Tem-se

b θk= ( k ∑ i=0 ξiϕTi )−1 k ∑ i=0 ξiri = ( Γ−10 +∑k i=1 ξiϕTi )−1( Γ−10 θ0+ k ∑ i=1 ξiri ) = ( 1 kΓ −1 0 − 1k k ∑ i=1 C(Xi) )−1( 1 kΓ −1 0 θ0+ 1k k ∑ i=1 d(Xi) ) . (5.104)

Uma vez que E0[C(Xk)] = lim k→∞ 1 k k ∑ i=1 C(Xi), (5.105) E0[d(Xk)] = lim k→∞ 1 k k ∑ i=1 d(Xi) (5.106)

e −E0[C(Xk)]é invertível, segue-se que

lim

k→∞θbk = (−E0[C(Xk)]) −1E

0[d(Xk)] = θ∗. (5.107)

A condição especicada pela suposição A.3 pode ser satisfeita estabelecendo-se Γ0 = δI apropriadamente. De acordo com o Teorema 5.6.1, RLS-TD(λ) converge

para o mesmo limite que TD(λ), dado pela Eq.(2.49). Assim, o limite de conver- gência pode ser caracterizado pelo seguinte teorema, cuja demonstração pode ser encontrada em (Tsitsiklis e Roy, 1997).

Teorema 5.6.2. O limite de convergência θ∗ determinado pela Eq.(2.49) é a

única solução da equação

ΠT(λ)(Φθ∗) = Φθ∗, (5.108)

sendo Π o operador projeção sobre um subespaço S de aproximação que é ge- rado pelas funções base, isto é, S = {Φθ |θ ∈ ℜnθ}, com respeito à uma norma Euclidiana ponderada ∥·∥D que é dada por

∥V ∥2D = VTDV = ∑

xk∈X

π(xk)V2(xk), (5.109)

com D uma matriz diagonal cujos elementos são as probabilidades de estado esta- cionário π(i) de xk. T(λ) é um operador de Bellman multi-passos parametrizado

(T(λ)Vbh)(xk) = (1 − λ) ∞ ∑ m=0 λmE [ m ∑ i=0 γirk+i+ γm+1Vbh(xk+m+1, θ) |xk ] (5.110) para λ < 1, e (T(1)Vbh)(xk) = E [ ∑ i=0 γirk+i|xk ] = Vh(xk) (5.111)

para λ = 1, de modo que lim

λ→1(T

(λ)V )(x

k) = (T(1)V )(xk).

Além disso, θ∗ satisfaz

Φθ∗− Vh D ≤ 1 − λγ 1 − γ ΠVh− Vh D, (5.112) sendo Π = Φ(ΦTDΦ)−1ΦTD.

Como discutido em (Tsitsiklis e Roy, 1997), o teorema acima mostra que a distância da função limite Φθ∗ da função de valor verdadeiro Vh é limitada e o

menor limite de erro de aproximação pode ser obtido quando λ = 1. Para cada λ < 1, o limite de fato se deteriora a medida que λ decresce. O pior limite é obtido quando λ = 0. Embora isso seja somente um limite, ele sugere fortemente que os valores mais altos de λ tendem a produzir aproximações mais exatas de Vh.

O Teorema 5.6.1 é válido para o caso em que as trajetórias de estado amostrais {xk}∞k=0correspondem à uma política estacionária que é xada ao longo do tempo.

Contudo, no quadro de iteração de política otimística, este resultado precisaria ser estendido para o caso em que as trajetórias de estado são geradas por políticas gulosas melhoradas que são aplicadas a cada transição de estado xk para xk+1,

com uma probabilidade positiva. Na Seção 6 são fornecidos alguns resultados de simulação referentes à iteração de política otimística baseada na abordagem RLS-TD(λ).

5.7 Considerações Finais

Neste capítulo, a caracterização e formulação do problema de estimação RLS para a solução da equação HJB-Riccati associada com o problema DLQR via ADP foram apresentados. A formulação do problema é apresentada como fusão de três metodologias para projeto online de controle ótimo baseada na solução da equa- ção HJB: programação dinâmica (iteração de política), aprendizagem por reforço (diferenças temporais) e aproximação da função valor via estrutura paramétrica RLS. O problema principal está relacionado com o mal condicionamento da matriz de covariância da abordagem RLS para estimar a solução da equação HJB-Riccati, o qual redunda em diculdades numéricas na atualização das variáveis da recursão do RLS em ambientes de precisão limitada. As seguintes abordagens abrangem o método proposto para projeto online de controle ótimo:

1. Mínimos quadrados recursivos com fator de esquecimento.

2. Inserção da fatoração UDUT no método RLS com fator de esquecimento.

3. Formulação do problema em termos da fatoração da matriz de ganhos da Eq.(5.12) que é obtida da Eq.(5.13). Como também, a Eq.(5.16) é denida em termos da fatoração UDUT como

Γ(k, U, D, g, β) = Φ−1(k).

4. O número de condição e parâmetro de positividade que são avaliados para monitorar e guiar o processo de convergência e estabilidade numérica. Os algoritmos RLSµ-HDP-DLQR e RLSµ-UDUT-HDP-DLQR e suas variantes

otimísticas foram desenvolvidos para a solução online de sistemas de controle ótimo DLQR. Os algoritmos online consistem em uma abordagem RL ator-crítico baseada em estimação paramétrica RLS e versões aproximadas de métodos de iteração de política para solução da equação HJB-Riccati associada ao problema DLQR via programação dinâmica heurística.

Desenvolveu-se também uma abordagem baseada na fusão de métodos RLS com aprendizagem TD(λ), tendo em vista a formulação de estratégias que pro- movam a melhoria de funções valor associadas a sistemas de controle ótimo, bem como acelerar o processo de avaliação de políticas de controle DLQR.

Documents relatifs