Intro to RL Chapter 1 Introduction

发布时间: 2021-04-27 18:52:15 来源: 励志妙语作者: 斑马栏目: 读后感点击: 95

1.1ReinforcementLearning强化学习有两个重要特征：trial-and-error，delayedre...

1.1 Reinforcement Learning

强化学习有两个重要特征：trial-and-error，delayed reward。Reinforcement Learning同时指一类问题、解决这类问题的方法、对于问题和方法的研究。三者需要分开讨论。问题即the optimal control of incompletely-known Markov decision processes。Agent和environment交互而达到目标。包括sensation，action，goal。Supervised learning用label和feature，unsupervised learning发掘hidden structure。RL不是supervised，也不是unsupervised。RL有其他learning问题没有的挑战：exploration和exploitation的trade-off。与其他learning不同的另一点是，RL明显考虑问题整体，而非考虑一个小问题，不讨论最终的目标。RL中的agent也可以是大的behaving system的一个部分，直接和system其他部分互动，间接和system所处的环境互动。RL也和其他领域有很多交互，比如RL的一些方法可以解决"curse of dimentionality" in operations research and control theory。当然还和biological learning system有很大关系。最后，曾经人们认为普遍的规律（general principles）是不存在的，但是现在越来越多的研究开始探索普遍的规律，RL就是其中之一。

1.2 Examples

围棋、调节炼油厂的参数（？）、羚羊出生后一个半小时内就能跑得很快、做早餐，都是包含了一个decision-making agent和environment之间的交互，agent可以改变environment，environment返还delayed reward。action的效果不能完全预测。agent都可以使用之前的经验。

1.3 Elements of Reinforcement Learning

RL有四个elements：policy，reward signal，value function，model of the environment（optional）。policy将states映射到actions。policy可以是一个简单的function或者是lookup table，也可以包含复杂的计算。policy是RL的核心。一般来说，policy可以是stochastic。reward signal定义了goal。每一个step，environment返回给agent一个数字，即reward。agent目标是最大化长期的reward。value of a state是从此state出发能获得的expected total reward over the future，reward是即刻的反馈。一般来说，reward signal是stochastic function of state and action。reward比value更重要，value的目的只为获得更大的reward。但我们选择action时，是根据value。不幸的是，value比reward更难确定，实际上，我们研究的很多RL算法最重要的部分就是如何有效地估计value。model of the environment是对环境的模拟，我们可以依据model做inference，预测下一步的reward。model用来做planning，在经历之前预测，称为model-based methods，与model-free methods相对。现代RL从简单的trial-and-error问题到复杂的planning问题都有。

1.4 Limitations and Scope

很明显，RL很依赖于state，它是policy和value funtion的input，也是world model的input和output。尽管在Markov decision process问题中，state指environment给的signal，但作者建议把环境中所有可用的info都作为state，关注decision making problem，而不是关于state定义的问题。本书中很多RL methods都是关于估计value function的，但它并不是必要的。比如evolutoinary methods。当policy space足够小，或者容易建立，或者有很多时间可以用来搜索policy时，evolutionary methods可能高效。evolutionary methods在agent无法得到environment的全部信息时是有优势的。本书中的RL methods时在交互中学习，和evolutionary methods不同。用每一个step的信息比evolutionary有优势。evolutionary忽略了很多RL 问题中的信息：他们忽略了我们需要搜索的policy是state到action的映射；没有关心经历的states或者actions。虽然有时这些信息可能误导，但是大部分时间是对搜索有用的。本书中不包括不用value function的methods。这些方法在用数字参数定义的policy space搜索，但同时也利用每一步的info。有一些简单的RL方法属于这一类。但是，这些方法也用了一定形式的value function。

1.5 An Extended Example: Tic-Tac-toe

太长了不想看了。tic-tac-toe是简单的问题，RL可以用于infinite states problems，RL的好坏也就取决于从过去experience的能力。这种情况下就需要supervised learning，nn不一定是唯一、最好的方法。tic-tac-toe可以利用world model。但是world model必须精确，这是一个bottleneck。

1.6 Summary

RL是用计算的方法来理解和自动化goal-directed and decision making problems。强调在交互中学习。RL用Markov decision process来定义交互以及其他概念。value和value function是本书中很多RL方法的关键。value function对于高效寻找poilcy很重要。value function区分了RL methods和用policy的整体奖励的evolutionary methods。

1.7 Early History of Reinforcement Learning

没仔细看，大概就是三个thread共同引向了对RL的研究：Bellman写了Bellman equation，是dynamic programming，还搞了Matkoc decision process；第二个是对trial-and-error learning的研究；第三个即Sutton的temporal difference learning，相较于前两者是小且新且针对于RL问题。

本文标题: Intro to RL Chapter 1 Introduction

本文地址: http://www.lzmy123.com/duhougan/138422.html