1.1ReinforcementLearning强化学习有两个重要特征:trial-and-error,delayedre...
1.1 Reinforcement Learning
强化学习有两个重要特征:trial-and-error,delayed reward。Reinforcement Learning同时指一类问题、解决这类问题的方法、对于问题和方法的研究。三者需要分开讨论。问题即the optimal control of incompletely-known Markov decision processes。Agent和environment交互而达到目标。包括sensation,action,goal。Supervised learning用label和feature,unsupervised learning发掘hidden structure。RL不是supervised,也不是unsupervised。RL有其他learning问题没有的挑战:exploration和exploitation的trade-off。与其他learning不同的另一点是,RL明显考虑问题整体,而非考虑一个小问题,不讨论最终的目标。RL中的agent也可以是大的behaving system的一个部分,直接和system其他部分互动,间接和system所处的环境互动。RL也和其他领域有很多交互,比如RL的一些方法可以解决"curse of dimentionality" in operations research and control theory。当然还和biological learning system有很大关系。最后,曾经人们认为普遍的规律(general principles)是不存在的,但是现在越来越多的研究开始探索普遍的规律,RL就是其中之一。1.2 Examples
围棋、调节炼油厂的参数(?)、羚羊出生后一个半小时内就能跑得很快、做早餐,都是包含了一个decision-making agent和environment之间的交互,agent可以改变environment,environment返还delayed reward。action的效果不能完全预测。agent都可以使用之前的经验。1.3 Elements of Reinforcement Learning
RL有四个elements:policy,reward signal,value function,model of the environment(optional)。policy将states映射到actions。policy可以是一个简单的function或者是lookup table,也可以包含复杂的计算。policy是RL的核心。一般来说,policy可以是stochastic。reward signal定义了goal。每一个step,environment返回给agent一个数字,即reward。agent目标是最大化长期的reward。value of a state是从此state出发能获得的expected total reward over the future,reward是即刻的反馈。一般来说,reward signal是stochastic function of state and action。reward比value更重要,value的目的只为获得更大的reward。但我们选择action时,是根据value。不幸的是,value比reward更难确定,实际上,我们研究的很多RL算法最重要的部分就是如何有效地估计value。model of the environment是对环境的模拟,我们可以依据model做inference,预测下一步的reward。model用来做planning,在经历之前预测,称为model-based methods,与model-free methods相对。现代RL从简单的trial-and-error问题到复杂的planning问题都有。1.4 Limitations and Scope
很明显,RL很依赖于state,它是policy和value funtion的input,也是world model的input和output。尽管在Markov decision process问题中,state指environment给的signal,但作者建议把环境中所有可用的info都作为state,关注decision making problem,而不是关于state定义的问题。本书中很多RL methods都是关于估计value function的,但它并不是必要的。比如evolutoinary methods。当policy space足够小,或者容易建立,或者有很多时间可以用来搜索policy时,evolutionary methods可能高效。evolutionary methods在agent无法得到environment的全部信息时是有优势的。本书中的RL methods时在交互中学习,和evolutionary methods不同。用每一个step的信息比evolutionary有优势。evolutionary忽略了很多RL 问题中的信息:他们忽略了我们需要搜索的policy是state到action的映射;没有关心经历的states或者actions。虽然有时这些信息可能误导,但是大部分时间是对搜索有用的。本书中不包括不用value function的methods。这些方法在用数字参数定义的policy space搜索,但同时也利用每一步的info。有一些简单的RL方法属于这一类。但是,这些方法也用了一定形式的value function。1.5 An Extended Example: Tic-Tac-toe
太长了不想看了。tic-tac-toe是简单的问题,RL可以用于infinite states problems,RL的好坏也就取决于从过去experience的能力。这种情况下就需要supervised learning,nn不一定是唯一、最好的方法。tic-tac-toe可以利用world model。但是world model必须精确,这是一个bottleneck。1.6 Summary
RL是用计算的方法来理解和自动化goal-directed and decision making problems。强调在交互中学习。RL用Markov decision process来定义交互以及其他概念。value和value function是本书中很多RL方法的关键。value function对于高效寻找poilcy很重要。value function区分了RL methods和用policy的整体奖励的evolutionary methods。1.7 Early History of Reinforcement Learning
没仔细看,大概就是三个thread共同引向了对RL的研究:Bellman写了Bellman equation,是dynamic programming,还搞了Matkoc decision process;第二个是对trial-and-error learning的研究;第三个即Sutton的temporal difference learning,相较于前两者是小且新且针对于RL问题。本文标题: Intro to RL Chapter 1 Introduction
本文地址: http://www.lzmy123.com/duhougan/138422.html
如果认为本文对您有所帮助请赞助本站