Intro to RL Chapter 5: Mante Carlo Methods

发布时间: 2021-05-03 14:52:09 来源: 励志妙语 栏目: 读后感 点击: 102

MonteCarlomethods不要求对环境的信息,而是从真实的experience中学习(state,action,...

Intro to RL Chapter 5: Mante Carlo Methods

Monte Carlo methods不要求对环境的信息,而是从真实的experience中学习(state, action, reward序列)。我们只需要一个model来产生sample transitions,而不是精确完整的分布。为了保证有well-defined returns,我们讨论episodic problems。考虑以episode为单位evaluate、update policy,而不是step-by-step (online)。Monte Carlo methods很像bandit methods,但有很多states、actions,policy和state不是stationary。为了处理nonstationary,采用chapter 4中DP方法的GPI。DP中用model的expected value来更新value function,本章中,用experience来更新value function。

5.1 Monte Carlo Prediction

首先考虑state-value function。Monte Carlo methods从experience中计算平均state value,sample越多,更趋近于真实值。比如 v_pi (s) 。一个episode中可能经过很多次 s ,第一次叫first visit。Frist-visit MC method用first visit后得到的reward来估计 v_pi (s)every-visit MC method用每一次visit得到的结果来估计。这两种方法很像,只是有点理论上的性质差异。第一种研究的多。当visit数趋于 infty ,两种方法都converge to v_pi (s) 。Monte Carlo methods的estimates都是independent,不依赖于下一步,也就是不是bootstrap。估计state value和state的数量无关,适用于只求一部分state value的情况。这是Monte Carlo methods的第三个优势(另两个是从experience中和模拟的experience中学习)

5.2 Monte Carlo Estimation of Action Values

若model未知,action value比state value 有用,毕竟单靠state value不能确定policy。估计action value和估计state value的方法一样。若policy是deterministic,那么很多state-action都没有被选择,我们不知道这些pair的action value,也就无法update policy。这是一个maintaining exploration的问题。一个解决办法是从所有state-action pair都开始一次,当sample无限次,每个pair都被经历无限次,称为exploring starts。更常见的方法是用stochastic policy,每一个action的概率都不为0。

5.3 Monte Carlo Control

有了state value和action value,就可以找到policy了。方法和DP一样,都是用generalized policy iteration (GPI) 方法:policy evaluation + policy improvement。用action value来选择policy,用exploring starts方法保证exploration: pi (s) =  argmax_a q(s, a)  tag{5.1} 根据之前讨论的,policy会strictly improved,除非达到optimal policy。为了让Monte Carlo methods能用,我们需要解决两个离谱的assumptions:exploring starts和用无限个episode来做policy evaluation。首先看无限个episodes。两个方法:一是当误差足够小时就停止。二是不做完全的policy evaluation,就像DP中evaluation只sweep一次。在Monte Carlo ES中,不论是什么policy的action value,都被存下来计算。很明显Monte Carlo ES不converge到suboptimal policy,只有到optimal的时候才stabilize。convergence看起来是必然的,但是未被证明过,这是一个RL问题中一个很基础的开放问题。

5.4 Monte Carlo Control without Exploting Starts

本文标题: Intro to RL Chapter 5: Mante Carlo Methods
本文地址: http://www.lzmy123.com/duhougan/139244.html

如果认为本文对您有所帮助请赞助本站

支付宝扫一扫赞助微信扫一扫赞助

  • 支付宝扫一扫赞助
  • 微信扫一扫赞助
  • 支付宝先领红包再赞助
    声明:凡注明"本站原创"的所有文字图片等资料,版权均属励志妙语所有,欢迎转载,但务请注明出处。
    《从一到无穷大》拆书笔记读书笔记:Speak Business English like an American-15
    Top