Intro to RL Chapter 6: Temporal-Difference Learning

发布时间: 2021-06-09 22:27:45 来源: 励志妙语 栏目: 读后感 点击: 97

Temporal-difference(TD)learning是MonteCarlo(MC)ideas和dyn...

Intro to RL Chapter 6: Temporal-Difference Learning

Temporal-difference (TD) learning 是 Monte Carlo (MC) ideas 和 dynamic programming (DP) ideas 的结合。像MC从experience中学习,不用dynamics model;像DP用bootstrap,不用等一个episode。三者都用generalized policy iteration (GPI),区别主要在于如何evaluate (prediction)。

6.1 TD Prediction

在every-visit MC methods中,更新value funtion: V(S_t) leftarrow V(S_t) + alpha left[G_t - V(S_t)right]  tag{6.1}

alpha 是step-size parameter,此方法称为constant- alpha method。MC等一个episode结束,得到 G_t 后更新value funtion。而TD方法只需要等下一步: V(S_t) leftarrow V(S-t) + alpha left[ R_{T+1} + gamma V(S_{t+1}-V(S_t))right]  tag{6.2}

MC 用 G_t ,TD用 R_{t+1} + gamma V(S_{t+1}) 。这种方法称为TD(0),或者one-step TD,是TD( lambda )的特殊形式

由chapter 3得

begin{align}  v_pi (s) &= mathbb{E}_pi left[G_t|S_t=sright]  &= mathbb{E}_pi left[R_{t+1} + gamma G_{t+1}|S_t=sright]  &= mathbb{E}_pi left[R_{t+1} + gamma v_pi (S_{t+1})|S_t=sright]  end{align}  tag{6.4}

MC方法中state value是estimate是因为用sample的数据来估计;DP中state value是estimate是因为下一步的state value不知,用的是当前有的estimate。TD是estimate的原因就是两者都有。TD和DP都用下一步的数据,但TD只用sample一步的数据,DP用完整的分布。TD(0)的括号的量是一种误差,计算的是已有的estimate和新的estimate的difference,这个量称为TD error,在RL中很常见: delta_t = R_{t+1} + gamma V(S_{t+1}) - V(S_t)  tag{6.5} 注意这个error只是一时有效。若value function在episode中保持不变,那么MC error可以写成TD error 的和:

begin{align} G_t - V(S_t) &= R_{t+1} + gamma G_{t+1} -V(S_t) + gamma V(S_{t+1}) -gamma V(S_{t+1})  &= delta_t + gamma (G_{t+1}-V(S_{t+1}))  &= delta_t + gamma delta_{t+1} + gamma^2 (G_{t+2}-V(S_{t+2}))   &= delta_t + gamma delta_{t+1} + gamma^2 delta_{t+2} + dots + gamma^{T-t}(G_T-V(S_T ))   &= delta_t + gamma delta_{t+1} + gamma^2 delta_{t+2} + dots + gamma^{T-t}(0-0))   &= sum^{T-1}_{k=t} gamma^{k-t} delta_k.  end{align} tag{6.6}

虽然value funtion一直在变,但是如果step size足够小,就可以approximate。

6.2 Advantages of TD Prediction Methods

TD比MC和DP优于何处,本书之后的部分都是回答这个问题。很明显,不像DP需要dynamics model。不像MC需要等一个episode,这经常是关键因素。MC中走一个随机的step后,很可能一个episode都需要弃掉,学起来很慢。已经证明TD(0)可以收敛到正确结果,若step size逐渐减小,满足(2.6)。虽然大部分都是对于table-based case,但有的也可以用于linear function approximation。TD、MC都能保证收敛,那么哪个更快?这仍是一个open question,但一般情况下在stochastic任务中,TD methods比constant- alpha MC methods要快。
本文标题: Intro to RL Chapter 6: Temporal-Difference Learning
本文地址: http://www.lzmy123.com/duhougan/142879.html

如果认为本文对您有所帮助请赞助本站

支付宝扫一扫赞助微信扫一扫赞助

  • 支付宝扫一扫赞助
  • 微信扫一扫赞助
  • 支付宝先领红包再赞助
    声明:凡注明"本站原创"的所有文字图片等资料,版权均属励志妙语所有,欢迎转载,但务请注明出处。
    读书笔记|《快速阅读术》《金字塔原理》读书笔记
    Top