强化学习（第2版）-图书

推荐1
收藏7
浏览3.3K

强化学习（第2版）

（加）Richard S. Sutton（理查德·桑顿） , （美）Andrew G. Barto（安德鲁·巴图） (作者)　俞凯等 (译者) 梁卫红 (责任编辑)

书　　号：978-7-121-29516-4
预计出版日期：2019-06-30
页　　数：548
开　　本：16(185*240)
出版状态：图书立项

纸质版￥168.00

《强化学习（第2版）》作为强化学习思想的深度解剖之作，被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发，深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
《强化学习（第2版）》适合所有对强化学习感兴趣的读者阅读、收藏。

俞凯，思必驰联合创始人、首席科学家、上海交通大学计算机系研究员，译有《解析深度学习：语音识别实践》一书。

译者序
“思想总是走在行动的前面，就好像闪电总是走在雷鸣之前。”德国诗人海涅的诗句再恰当不过地描述了我第一次读到本书英文原版时的感受。
纵观人工智能技术的发展历史，就是一部思想、理论、算法、工程应用的成就交替出现而又交相辉映的历史。传统人工智能领域的三大学派：以逻辑推断和贝叶斯学习为代表的符号主义学派、以神经网络为代表的联结主义学派以及以控制论和强化学习为代表的行为主义学派，在不同的历史阶段都产生了很多绝妙的思想和理论成果，而技术应用的水平和范围也让它们受到的关注度起起落落。 20世纪 40年代到 50年代，行为主义的控制论因其在航空、航天、机械、化工等领域的巨大成功受到了极大重视，也独立产生了自动控制等技术学科，甚至连早期的计算机专业也都是从控制相关的专业中分出来的，但其应用往往不被认为是一种“智能”，因而长期独立发展，游离于人工智能研究者的视野之外；而 20世纪 50年代人工智能的概念被正式提出以后，符号主义的数理逻辑以及贝叶斯学习等经典机器学习理论一直一枝独秀，引领着人工智能的研究和应用，尤其是专家系统和经典机器学习理论的大量成功应用，使得它成为 20世纪在人工智能研究中占据统治地位的主流学派；联结主义的神经网络的发展则一波三折， 20世纪 60年代类脑模型的研究和 80年代反向传播算法的提出都使得神经网络的研究在短时间内出现过热潮，然而理论局限和应用瓶颈一次又一次地把神经网络的研究打入冷宫，直到 21世纪初，深度学习理论被提出，借助 GPU等计算机硬件的算力飞跃并与大数据结合，迅速产生了巨大的产业技术红利，使得联结主义一跃成为当前人工智能研究最炙手可热的学派。而无论技术应用如何风云变幻，产业发展如何潮起潮落，在人工智能的发展历程中，始终有一批思想的先行者以近乎顽固的执着态度在不同时代的“非主流”方向上进行着思考和探索，而正是这些执着甚至孤独的思想者，在技术应用热潮冷却后的暗夜里保留了火种，照亮了人类不停息的探索之路。
本书的两位作者 Richard S. Sutton和 Andrew G. Barto就是这样的思想先行者，而本书所介绍的“强化学习”，则是后深度学习时代技术发展的重要火种之一。以联结主义的神经网络为代表的深度学习毫无疑问是 21世纪初人工智能领域的最重要、最具实用意义的技术突破之一，它为基础研究走向产业应用做出了巨大贡献，也相应地赢得了巨大的声誉和关注。然而，如火如荼的产业应用掩盖不住冷静的研究者们对人工智能未来走向的担忧，越来越多的研究者把深度学习的改良性研究视为工业界的应用技巧，而开始关注与联结主义的经典深度学习不同的人工智能范式探索。这其中，不同学派的思想融合产生了两个重要趋势。一个是将联结主义与符号主义融合起来，将神经网络的“黑箱学习”与先验知识、符号推理和经典机器学习结合，实现可解释、可推理、可操控的新一代“白箱学习”；另一个则是将联结主义与行为主义融合起来，将基于静态数据和标签的、数据产生与模型优化相互独立的“开环学习”，转变为与环境动态交互的、在线试错的、数据（监督信号）产生与模型优化紧密耦合在一起的“闭环学习”。强化学习就是“闭环学习”范式的典型代表，正如本书中所介绍的，它与传统的预先收集或构造好数据及标签的有监督学习有着本质的区别，它强调在与环境的交互中获取反映真实目标达成度的反馈信号，强调模型的试错学习和序列决策行为的动态和长期效应。这使得强化学习在人工智能领域的一些难题，如我本人所从事的认知型人机口语对话系统的研究中，具有无可替代的重要地位。而这些宝贵的思想，也为联结主义的深度学习在小数据、动态环境、自主学习等方面的进一步发展提供了重要的基础。在 AlphaGo战胜李世石之后， AlphaZero以其完全凭借自我学习超越人类在各种棋类游戏中数千年经验的能力再次刷新了人类对人工智能的认识，也使得强化学习与深度学习的结合受到了学术界和产业界的前所未有的关注。
《强化学习》的英文第 2版正是在这样的背景下出版的。本书并非一本实用主义的算法普及材料，而是一本强化学习思想的深度解剖之作，是强化学习基础理论的经典论述。本书没有从复杂的数学角度对强化学习的相关理论和方法给以极其严格的形式化推导，而是从强化学习的基本思想出发，深入浅出而又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。自 1998年第 1版出版以来，本书就一直是强化学习领域的经典导论性教材。在第 2版中，原作者又加入了很多新的内容，包括对深度强化学习应用（如 AlphaGo）的介绍，以及更新的思想和理解等，使得本书既保持对核心理论的清晰简明的讲解，又包含了与时俱进的最新应用成果和作者的最新思想。本书既可以作为一到两学期的强化学习课程的初级教材，也可以作为研究者自学的入门教程。在本书的翻译过程中， Richard S. Sutton和 Andrew G. Barto还特意为中国读者写了一段寄语，其中提到希望本书的中文译本能够促进中国学生产生更多的新思想，为世界范围的强化学习的研究繁荣做出贡献。这一期望也使我倍感荣幸，希望本书的中文译本能够让他们的思想为更多的中国研究者所了解，并作为一个种子，在中国孕育并产生人工智能前沿研究的新思想。
本书的翻译得到了上海交通大学计算机系智能语音实验室同学们的大力支持，尤其是刘奇、陈志、陈露和吴越同学付出了大量的精力进行组织和排版整理，卞天灵、曹瑞升、杜晨鹏、黄子砾、金凯祺、兰鸥羽、李晨达、李大松、李福斌、李杰宇、李沐阳、刘辰、刘啸远、卢怡宙、马娆、盛佩瑶、王晨、王鸿基、王巍、吴嫣然、吴章昊、徐志航、杨闰哲、杨叶新、叶子豪、张王优、赵晏彬、周翔等同学都为本书的翻译做出了贡献。同时，也特别感谢苏州大学刘全教授，陆军军医大学王晓霞博士，清华大学刘乐章同学和北京交通大学张智慧同学对翻译稿进行了试读并帮助审校。本书的翻译也得到了电子工业出版社的大力支持，在此一并表示衷心的感谢。翻译过程难免存在疏漏和错误，欢迎读者批评指正。
俞凯
2019年 4月

第二版前言
本书第 1版出版的 20年以来，在机器学习 (包括强化学习 )前沿技术发展的推动下，人工智能取得了重大进展。这些进展不仅归功于这些年迅猛发展起来的计算机强大的计算能力，也受益于许多理论和算法上的创新。面对这些进展，我们早有对 1998年第 1版书进行更新再版的打算，但直到 2012年才开始真正着手编纂。第 2版的目标与第 1版一致：为强化学习的核心概念与算法提供清晰简明的解释，以供所有相关学科的读者学习。这一版仍然是一本概要介绍性的读物，仍然关注最核心的在线学习算法，同时增加了一些近年来日趋重要的话题，并拓展了部分内容，给出了更新的理解。强化学习领域可以延伸出很多不同的方向，但我们并不想包罗万象，在此为可能出现的些许遗漏表示歉意。
第 2版记号变化
和第 1版一样，我们没有以最严谨的形式化的方式来定义强化学习，也没有采用特别抽象的术语表达，但是为了大家能更深入地理解，有些话题仍然需要用数学来解释。无数学需求的读者可以选择跳过灰色框中的数学原理部分。在教学过程中，我们发现一些新的记号可以消除一些共同的疑惑点，因此本书的部分记号和上一版相比略有差异。首先我们对随机变量进行了区分，以大写字母表示变量本身，小写字母表示对应的实例。比如时刻 t的状态、动作和收益被表示为 St、At和 Rt，而它们可能的取值被表示为 s、a和 r。与之相伴随，我们用小写字母的形式 (例如 vл)来表示价值函数，用大写字母表示其表格型的估计值，比如 Qt (s, a)。近似价值函数是具有随机参数的确定性函数，因此用小写字母表示，比如 v.(s,wt) ≈vл(s)。向量用粗体的小写字母表示 (包括随机变量)，比如权值向量wt (先前用 θt表示 )、特征向量 xt (先前用фt表示 )。大写粗体用以表示矩阵。在第 1版中我们使用了特殊记号Pass′和Rass′来表示转移概率和期望收益。但这种记号并不能完整地表示出收益的动态性，只表示了期望值，因此只适用于动态规划而不适用于强化学习。另一个缺点是上下标的过度使用。因此，在这一版中我们明确采用 p(s′,r |s, a)的记号来表示给定当前状态 s和动作 a后，下一时刻的状态 s′和收益 r的联合概率分布。所有的记号变化都收录在稍后的“符号列表”中。
第 2版内容结构
第 2版在原先的基础上进行了许多拓展，整体结构也有所变化。第 1章是导论性的介绍，其后分为三个部分。第 I部分 (第 2～8章)会尽可能多地用表格型的案例讲解强化学习，主要包括针对表格型案例的学习和规划算法，以及它们在 n步法和 Dyna中的统一表达。这部分介绍的许多算法是第 2版的新增内容，包括 UCB、期望 Sarsa、双重学习、树回溯、 Q(σ)、RTDP和 MCTS。从介绍表格型案例开始，可以在最简单的情况下理解算法的核心思想。本书的第 II部分 (第 9～13章)致力于将这些思想从表格型的情况扩展到函数逼近，包含人工神经网络、傅立叶变换基础、 LSTD、核方法、梯度 TD和强调 TD方法、平均收益方法、真实的在线 TD(λ)和策略梯度方法等新内容。第 2版大幅拓展了对离轨策略的介绍，首先是第 5～7章讲解表格型的案例，之后在第 11章和第 12章讲解函数逼近法。另一个变化是，这一版将 n步自举法 (在第 7章中详细阐述 )中的前向视图思想与资格迹 (在第 12章中单独阐述 )中的后向视图思想分开详细讲解。本书的第 III部分加入了大量阐述强化学习与心理学 (第 14章)、神经科学 (第 15章)联系的新章节，更新了针对多种案例，包括 Atari游戏、 Watson的投注策略和围棋人工智能 AlphaGo、AlphaGo Zero (第 16章)的研究章节。尽管如此，本书涵盖的内容仍然只是该领域的一小部分，只反映了我们长期以来对低成本无模型方法的兴趣，这些方法可以很好地适应大规模的应用。最后一章包括了对强化学习未来的社会影响的讨论。无论好坏，第 2版的篇幅达到了第 1版的两倍。
本书旨在作为一到两学期强化学习课程的初级教材。一个学期的课程可以着重对前 10章进行讨论，掌握核心思想，根据需要再将其他章节，或者其他书籍的某些章节，比如 Bertsekas和 Tsitsiklis (1996)、Wiering和 van Otterlo (2012)，以及 Szepesvári (2010)或其他文献作为辅助材料。根据学生的背景，在线有监督学习的一些额外材料可能会对学习这门课有所帮助。比如“选项”的概念和模型 (Sutton、Precup和 Singh，1999)就是一个很好的补充。两学期的课程可以使用所有章节内容及补充材料。本书还可以作为机器学习、人工智能或神经网络等课程的一部分。这种情况只需要讲述部分内容，我们推荐对第 1章进行简要概述，然后学习第 2章到 2.4节和第 3章，随后根据时间和兴趣选择其余章节。第 6章的内容对于本书和相关课程来说是最重要的。关于机器学习或神经网络的课程应该使用第 9章和第 10章的内容，而关于人工智能或规划算法的课程应该使用第 8章的内容。在整本书中，相对比较难且对于其他课程不那么重要的章节和部分已用 .注明。这些部分在第一次阅读时可以跳过，这不会影响后续阅读。练习中一些进阶的、对理解基础概念不那么重要的问题也已经用 .标识。
大多数章节最后会出现题为“参考文献和历史备注”的部分，在这部分中，我们针对本章中一些值得深入探究的概念和观点提供了进一步阅读和研究的材料，并描述了相关的历史背景。尽管我们试图使这些部分内容具有权威性和完整性，但也不免会忽略一些重要的前期工作。为此，我们再次表示歉意，也欢迎读者提出更正和扩展。
本书写作背景
和第 1版一样，我们用本书的这一版纪念 A. Harry Klopf。是 Harry把本书的作者们介绍给彼此，也是他关于大脑和人工智能的想法，使我们踏上对强化学习研究的漫长征程。 Harry是俄亥俄州赖特 -帕特森空军基地空军科学研究所 (AFOSR)航空电子管理局的一位高级研究员，他受过神经生理学的训练，并一直对机器智能很感兴趣。在解释自然智能、机器智能基础机理的问题上，他并不满意当时的人们对“平衡态搜索”(equilibrium-seeking)过程 (包括内部稳态自调整过程和基于错误纠正的模式分类方法)的广泛重视。他指出，尝试最大化某种准则 (无论该准则是什么)的系统与搜索平衡态的系统在本质上有所不同，而具有最大化准则的系统才是理解自然智能的重要方向，是构建人工智能的关键。Harry从 AFOSR申请了项目资助，用于评估这些思想以及相关思想的科学价值。该项目于 20世纪 70年代末在马萨诸塞州阿默斯特大学 (麻省大学阿默斯特分校 )进行，最初由 Michael Arbib、William Kilmer和 Nico Spinelli指导，他们是麻省大学阿默斯特分校计算机与信息科学系的教授，系统神经科学控制论中心的创始成员。这是一支十分有远见的团队，专注于神经科学和人工智能交叉方向。
Barto，一位来自密歇根大学的博士，担任该项目的博士后研究员。与此同时，在斯坦福大学攻读计算机科学和心理学的本科生 Sutton，就经典条件反射中的刺激时机的作用这一话题和 Harry产生了共同兴趣。 Harry向麻省大学提出建议，认为 Sutton可以成为该项目的一名重要补充人员。因此， Sutton成为了麻省大学的研究生，在成为副教授的 Barto的指导下攻读博士学位。
本书中对强化学习的研究都出自 Harry推动的这一项目，且受其想法启发而来。此外，也是通过 Harry，作者们才得以聚到一起进行长期愉快的合作。因此，我们将本书献给 Harry，以纪念他对于强化学习领域和我们合作的重要贡献。我们也感谢 Arbib、 Kilmer和 Spinelli教授为我们提供探索这些想法的机会。最后，感谢 AFOSR在研究早期给予我们的慷慨支持，并感谢 NSF (美国国家科学基金会 )在接下来的几年中给予的慷慨支持。
致谢
我们还要感谢在第 2版中为我们提供灵感和帮助的许多人，同样我们也要对第 1版中致谢过的所有人再次表示深深的感谢，如果不是他们对第 1版的贡献，这一版也不会面世。在这个长长的致谢列表中，我们增加了许多特别为第 2版作出贡献的人。多年来在使用该教材的教授的课堂上，我们的学生以各种各样的方式作出贡献：指正错误，提供修改方案，也包括对我们没解释清楚的地方表达困惑。我们还要特别感谢 Martha Steenstrup阅读并提供详细的意见。如果没有这些心理学和神经科学领域专家的帮助，相关章节将无法完成。感谢 John Moore多年来在动物学习实验、理论和神经科学方面的耐心指导，John仔细审阅了第 14章和第 15章的多版草稿。感谢 Matt Botvinick、Nathaniel Daw、Peter Dayan和 Yael Niv对这些章节的建议，对我们阅读大量文献给予的重要指导，以及对早期草稿中错误的斧正。当然，这些章节一定还存在某些纰漏。我们感谢 Phil Thomas帮助我们寻找非心理学、非神经科学研究的人士来阅读这些章节，感谢 Peter Sterling帮助我们改进注释部分。感谢 Jim Houk为我们介绍基底核神经中枢进行信息处理的过程，并提醒我们注意其他一些相关的神经科学的内容。在案例学习的章节， José Martínez、 Terry Sejnowski、David Silver、Gerry Tesauro、Georgios Theocharous和 Phil Thomas帮助我们了解他们的强化学习应用程序的细节，并对这些章节的草稿提出了十分有用的意见。特别感谢 David Silver帮助我们更好地理解蒙特卡洛树搜索和 DeepMind的围棋程序(Go-playing program)。感谢 George Konidaris在傅立叶基的相关章节提供的帮助，感谢 Emilio Cartoni、Thomas Cederborg、Stefan Dernbach、Clemens Rosenbaum、Patrick Taylor、Thomas Colin和 Pierre-Luc Bacon在多方面对我们提供的帮助。
Sutton还要感谢阿尔伯塔大学强化学习和人工智能实验室的成员对第 2版的贡献，特别是 Rupam Mahmood对于第 5章中关于离轨策略蒙特卡洛方法的重要贡献， Hamid Maei在第 11章中提出的关于离轨策略学习的观点， Eric Graves在第 13章中进行的实验， Shangtong Zhang复现并验证了几乎所有的实验结果， Kris De Asis在第 7章和第 12章中提供的新技术内容，以及 Harm van Seijen提出的 n步方法与资格迹分离的观点， (和 Hado van Hasselt一起 )和第 12章中涉及的资格迹前向、后向等价性的观点。 Sutton也非常感谢阿尔伯塔省政府和加拿大国家科学与工程研究委员会在整个第 2版的构思和编写期间给予的支持和自由。特别感谢 Randy Goebel在阿尔伯塔省创建的包容支持、具有远见的基础研究环境。同时，也还要感谢在撰写本书的最后 6个月中 DeepMind给予的支持。
最后，我们要感谢许多阅读网络发布的第 2版的细心读者们，他们发现了许多我们忽视的错误，提醒我们注意可能出现的混淆点。

第一版前言
我们最早是在 1979年末开始关注如今被称为强化学习的领域。那时我们都在麻省大学研究一个项目，这个项目是诸多的早期项目之一，旨在证明具有由类似神经元一样的有自适应能力的单元所组成的网络，是实现人工智能的一种前途可观的想法。这个项目研究了 A. Harry Klopf提出的“自适应系统异构理论”。Harry的研究是灵感源泉，使我们能够批判性地去探索，并将它们与自适应系统的早期工作历史进行比较。我们的任务是梳理这些想法，理解它们之间的关系和相对重要性。这项任务延续至今，但在 1979年我们就开始意识到，那些一直以来被人视为理所当然的最简单的想法，从计算角度来看，受到的关注实在寥寥。那就是关于一个学习系统最简单的思想，即学习系统总是有某些需要，它总是通过调整自身的行为来最大化其所在环境给出的一些特殊信号。这就是“享乐主义”学习系统的概念，或者如我们现在所说，强化学习的概念。
和其他人一样，我们以为强化学习已经在早期的控制论 (cybernetics)和人工智能领域中被详尽地研究过了，然而仔细调查才发现并非如此。尽管强化学习促进了一些最早的对学习的计算性研究，但大多数研究者转而研究了其他的方向，如模式分类、有监督学习和自适应控制，或者完全放弃了对学习的研究。因此，学习如何从环境中获取某些知识这类特殊问题受到的关注较少。现在回想起来，专注于这个想法是推动这个研究分支发展的关键一步。直到大家都认识到这样一个基本思想尚未被彻底研究的时候，强化学习的计算性研究才会有更多进展。
自那时以来，这个领域已经走过了很长的路，在不同方向发展着。强化学习逐渐成为机器学习、人工智能和神经网络研究中最活跃的研究领域之一。该领域已经建立了强大的数学基础，并出现了一些令人瞩目的应用。强化学习的计算性研究领域如今已成为一个很大的领域，全世界有数百名研究人员在心理学、控制理论、人工智能和神经科学等不同学科积极地探索着。尤为重要的是，它建立和发展起与最优控制和动态规划理论的关系。从交互中学习以达到目标这个问题还远远没有解决，但我们对它的理解明显更好了。我们现在可以从整体上以一致的框架来描述若干思想，例如时序差分、动态规划和函数逼近。
本书旨在为强化学习的核心概念与算法提供清晰简明的解释，以供所有相关学科的读者学习，但我们无法详细介绍所有观点，在大多数情况下，我们会从人工智能和工程实现的角度来讲述。与其他领域的联系留待他人或后续继续研究探讨。我们不以严谨、形式化的方式来定义强化学习，不涉及高度的数学抽象，不依赖定理证明式的表述方式，而是试图以合理的程度来运用数学，使得我们既能指引正确的数学分析方向，又不偏离基本思想的简单性和一般性。
致谢
从某种意义上说，本书的编写已经历时 30年了，我们要感谢很多人。首先，感谢那些亲自帮助我们建立整体思想的人：Harry Klopf帮助我们认识到强化学习需要复兴；Chris Watkins、Dimitri Bertsekas、John Tsitsiklis和 Paul Werbos帮助我们认识到探索强化学习与动态规划关系的价值； John Moore和 Jim Kehoe提供了对于动物学习理论的见解和灵感； Oliver Selfridge强调了适应性的广度和重要性；还有我们的同事和学生以各种方式提供了帮助：Ron Williams、Charles Anderson、Satinder Singh、Sridhar Mahadevan、 Steve Bradtke、Bob Crites、Peter Dayan和 Leemon Baird；Paul Cohen、Paul Utgo .、Martha Steenstrup、Gerry Tesauro、Mike Jordan、Leslie Kaelbling、Andrew Moore、 Chris Atkeson、Tom Mitchell、Nils Nilsson、Stuart Russell、Tom Dietterich、Tom Dean和 Bob Narendra的讨论丰富了我们对强化学习的看法。感谢 Michael Littman、Gerry Tesauro、Bob Crites、Satinder Singh和 Wei Zhang，他们分别提供了 4.7节、15.1节、
15.4节、15.5节和 15.6节的具体内容。感谢美国空军科学研究所、美国国家科学基金会和 GTE实验室长期以来的支持。
我们也要感谢很多读过本书草稿并提供宝贵意见的人，包括 Tom Kalt、John Tsitsik-lis、Pawel Cichosz、Olle G.llmo、Chuck Anderson、Stuart Russell、Ben Van Roy、Paul Steenstrup、Paul Cohen、Sridhar Mahadevan、Jette Randlov、Brian Sheppard、Thomas O’Connell、Richard Coggins、Cristina Versino、John H. Hiett、Andreas Badelt、Jay Ponte、Joe Beck、Justus Piater、Martha Steenstrup、Satinder Singh、Tommi Jaakkola、 Dimitri Bertsekas、Torbj.rn Ekman、Christina Bj.rkman、Jakob Carlstr.m和 Olle Palm-gren。最后，感谢 Gwyn Mitchell在许多方面提供的帮助，感谢 MIT出版社的 Harry Stanton和 Bob Prior对我们的支持。

目录
第1 章导论· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.1 强化学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4
1.3 强化学习要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5
1.4 局限性与适用范围· · · · · · · · · · · · · · · · · · · · · · · · · · 7
1.5 扩展实例：井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8
1.6 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12
1.7 强化学习的早期历史· · · · · · · · · · · · · · · · · · · · · · · · · 13
第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23
第2 章多臂赌博机· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25
2.1 一个k 臂赌博机问题· · · · · · · · · · · · · · · · · · · · · · · · 25
2.2 动作-价值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27
2.3 10 臂测试平台· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28
2.4 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30
2.5 跟踪一个非平稳问题· · · · · · · · · · · · · · · · · · · · · · · · · 32
2.6 乐观初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34
2.7 基于置信度上界的动作选择· · · · · · · · · · · · · · · · · · · · · 35
2.8 梯度赌博机算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37
2.9 关联搜索(上下文相关的赌博机) · · · · · · · · · · · · · · · · · · 40
2.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41
强化学习(第2 版)
第3 章有限马尔可夫决策过程· · · · · · · · · · · · · · · · · · · · · · · · 45
3.1 “智能体-环境”交互接口· · · · · · · · · · · · · · · · · · · · · · 45
3.2 目标和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51
3.3 回报和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52
3.4 分幕式和持续性任务的统一表示法· · · · · · · · · · · · · · · · · 54
3.5 策略和价值函数· · · · · · · · · · · · · · · · · · · · · · · · · · · 55
3.6 最优策略和最优价值函数· · · · · · · · · · · · · · · · · · · · · · 60
3.7 最优性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65
3.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66
第4 章动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71
4.1 策略评估(预测) · · · · · · · · · · · · · · · · · · · · · · · · · · 72
4.2 策略改进· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75
4.3 策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78
4.4 价值迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80
4.5 异步动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 83
4.6 广义策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · 84
4.7 动态规划的效率· · · · · · · · · · · · · · · · · · · · · · · · · · · 85
4.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86
第5 章蒙特卡洛方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89
5.1 蒙特卡洛预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 90
5.2 动作价值的蒙特卡洛估计· · · · · · · · · · · · · · · · · · · · · · 94
5.3 蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 95
5.4 没有试探性出发假设的蒙特卡洛控制· · · · · · · · · · · · · · · · 98
5.5 基于重要度采样的离轨策略· · · · · · · · · · · · · · · · · · · · · 101
5.6 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 107
5.7 离轨策略蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · 108
5.8 ? 折扣敏感的重要度采样· · · · · · · · · · · · · · · · · · · · · · 110
5.9 ? 每次决策型重要度采样· · · · · · · · · · · · · · · · · · · · · · 112
5.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113
第6 章时序差分学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.1 时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.2 时序差分预测方法的优势· · · · · · · · · · · · · · · · · · · · · · 122
6.3 TD(0) 的最优性· · · · · · · · · · · · · · · · · · · · · · · · · · · 124
6.4 Sarsa：同轨策略下的时序差分控制· · · · · · · · · · · · · · · · · 127
6.5 Q 学习：离轨策略下的时序差分控制· · · · · · · · · · · · · · · · 129
6.6 期望Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 131
6.7 最大化偏差与双学习· · · · · · · · · · · · · · · · · · · · · · · · · 133
6.8 游戏、后位状态和其他特殊例子· · · · · · · · · · · · · · · · · · · 135
6.9 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 136
第7 章n 步自举法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 139
7.1 n 步时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · 140
7.2 n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 144
7.3 n 步离轨策略学习· · · · · · · · · · · · · · · · · · · · · · · · · · 146
7.4 ? 带控制变量的每次决策型方法· · · · · · · · · · · · · · · · · · · 148
7.5 不需要使用重要度采样的离轨策略学习方法：n 步树回溯算法· · · 150
7.6 ? 一个统一的算法：n 步Q()· · · · · · · · · · · · · · · · · · · · 153
7.7 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 155
第8 章基于表格型方法的规划和学习· · · · · · · · · · · · · · · · · · · 157
8.1 模型和规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 157
8.2 Dyna：集成在一起的规划、动作和学习· · · · · · · · · · · · · · · 159
8.3 当模型错误的时候· · · · · · · · · · · · · · · · · · · · · · · · · · 164
8.4 优先遍历· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 166
8.5 期望更新与采样更新的对比· · · · · · · · · · · · · · · · · · · · · 170
8.6 轨迹采样· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 173
强化学习(第2 版)8.7 实时动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 176
8.8 决策时规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 179
8.9 启发式搜索· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 180
8.10 预演算法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 182
8.11 蒙特卡洛树搜索· · · · · · · · · · · · · · · · · · · · · · · · · · 184
8.12 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 187
8.13 第I 部分总结· · · · · · · · · · · · · · · · · · · · · · · · · · · 188
第II 部分表格型近似求解方法· · · · · · · · · · · · · · · · · · · · · · · · 193
第9 章基于函数逼近的同轨策略预测· · · · · · · · · · · · · · · · · · · 195
9.1 价值函数逼近· · · · · · · · · · · · · · · · · · · · · · · · · · · · 195
9.2 预测目标(VE ) · · · · · · · · · · · · · · · · · · · · · · · · · · · 196
9.3 随机梯度和半梯度方法· · · · · · · · · · · · · · · · · · · · · · · 198
9.4 线性方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 202
9.5 线性方法的特征构造· · · · · · · · · · · · · · · · · · · · · · · · · 207
9.5.1 多项式基· · · · · · · · · · · · · · · · · · · · · · · · · · · 208
9.5.2 傅立叶基· · · · · · · · · · · · · · · · · · · · · · · · · · · 209
9.5.3 粗编码· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 212
9.5.4 瓦片编码· · · · · · · · · · · · · · · · · · · · · · · · · · · 214
9.5.5 径向基函数· · · · · · · · · · · · · · · · · · · · · · · · · · 218
9.6 手动选择步长参数· · · · · · · · · · · · · · · · · · · · · · · · · · 219
9.7 非线性函数逼近：人工神经网络· · · · · · · · · · · · · · · · · · · 220
9.8 最小二乘时序差分· · · · · · · · · · · · · · · · · · · · · · · · · · 225
9.9 基于记忆的函数逼近· · · · · · · · · · · · · · · · · · · · · · · · · 227
9.10 基于核函数的函数逼近· · · · · · · · · · · · · · · · · · · · · · · 229
9.11 深入了解同轨策略学习：“兴趣”与“强调” · · · · · · · · · · · · 230
9.12 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 232
iv
目录
第10 章基于函数逼近的同轨策略控制· · · · · · · · · · · · · · · · · · · 239
10.1 分幕式半梯度控制· · · · · · · · · · · · · · · · · · · · · · · · 239
10.2 半梯度n 步Sarsa· · · · · · · · · · · · · · · · · · · · · · · · · 242
10.3 平均收益：持续性任务中的新的问题设定· · · · · · · · · · · · · 245
10.4 弃用折扣· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 249
10.5 差分半梯度n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · 251
10.6 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 252
第11 章基于函数逼近的离轨策略方法· · · · · · · · · · · · · · · · · · 253
11.1 半梯度方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 254
11.2 离轨策略发散的例子· · · · · · · · · · · · · · · · · · · · · · · 256
11.3 致命三要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 260
11.4 线性价值函数的几何性质· · · · · · · · · · · · · · · · · · · · · 262
11.5 对贝尔曼误差做梯度下降· · · · · · · · · · · · · · · · · · · · · 266
11.6 贝尔曼误差是不可学习的· · · · · · · · · · · · · · · · · · · · · 270
11.7 梯度TD 方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 274
11.8 强调TD 方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 278
11.9 减小方差· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 279
11.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 280
第12 章资格迹· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 283
12.1 -回报· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 284
12.2 TD()· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 287
12.3 n-步截断- 回报方法· · · · · · · · · · · · · · · · · · · · · · · 291
12.4 重做更新：在线-回报算法· · · · · · · · · · · · · · · · · · · 292
12.5 真实的在线TD() · · · · · · · · · · · · · · · · · · · · · · · · 294
12.6 ? 蒙特卡洛学习中的荷兰迹· · · · · · · · · · · · · · · · · · · · 296
12.7 Sarsa()· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 298
12.8 变量和
· · · · · · · · · · · · · · · · · · · · · · · · · · · · 303
v
强化学习(第2 版)
12.9 带有控制变量的离轨策略资格迹· · · · · · · · · · · · · · · · · 304
12.10 从Watkins 的Q() 到树回溯TB() · · · · · · · · · · · · · · · 308
12.11 采用资格迹保障离轨策略方法的稳定性· · · · · · · · · · · · · · 310
12.12 实现中的问题· · · · · · · · · · · · · · · · · · · · · · · · · · · 312
12.13 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 312
第13 章策略梯度方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 317
13.1 策略近似及其优势· · · · · · · · · · · · · · · · · · · · · · · · 318
13.2 策略梯度定理· · · · · · · · · · · · · · · · · · · · · · · · · · · 320
13.3 REINFORCE：蒙特卡洛策略梯度· · · · · · · · · · · · · · · · 322
13.4 带有基线的REINFORCE · · · · · · · · · · · · · · · · · · · · 325
13.5 “行动器-评判器”方法· · · · · · · · · · · · · · · · · · · · · · 327
13.6 持续性问题的策略梯度· · · · · · · · · · · · · · · · · · · · · · 329
13.7 针对连续动作的策略参数化方法· · · · · · · · · · · · · · · · · 332
13.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 333
第III 部分表格型深入研究· · · · · · · · · · · · · · · · · · · · · · · · · · 337
第14 章心理学· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 339
14.1 预测与控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 340
14.2 经典条件反射· · · · · · · · · · · · · · · · · · · · · · · · · · · 341
14.2.1 阻塞与高级条件反射· · · · · · · · · · · · · · · · · · · · · 342
14.2.2 Rescorla-Wagner 模型· · · · · · · · · · · · · · · · · · · · 344
14.2.3 TD 模型· · · · · · · · · · · · · · · · · · · · · · · · · · 347
14.2.4 TD 模型模拟· · · · · · · · · · · · · · · · · · · · · · · · 348
14.3 工具性条件反射· · · · · · · · · · · · · · · · · · · · · · · · · · 355
14.4 延迟强化· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 359
14.5 认知图· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 361
14.6 习惯行为与目标导向行为· · · · · · · · · · · · · · · · · · · · · 362
14.7 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 366
第15 章神经科学· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 373
15.1 神经科学基础· · · · · · · · · · · · · · · · · · · · · · · · · · · 374
15.2 收益信号、强化信号、价值和预测误差· · · · · · · · · · · · · · 375
15.3 收益预测误差假说· · · · · · · · · · · · · · · · · · · · · · · · 377
15.4 多巴胺· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 379
15.5 收益预测误差假说的实验支持· · · · · · · · · · · · · · · · · · · 382
15.6 TD 误差/多巴胺对应· · · · · · · · · · · · · · · · · · · · · · · 385
15.7 神经“行动器-评判器” · · · · · · · · · · · · · · · · · · · · · · 390
15.8 行动器与评判器学习规则· · · · · · · · · · · · · · · · · · · · · 393
15.9 享乐主义神经元· · · · · · · · · · · · · · · · · · · · · · · · · · 397
15.10 集体强化学习· · · · · · · · · · · · · · · · · · · · · · · · · · · 399
15.11 大脑中的基于模型的算法· · · · · · · · · · · · · · · · · · · · · 402
15.12 成瘾· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 403
15.13 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 404
第16 章应用及案例分析· · · · · · · · · · · · · · · · · · · · · · · · · · · 413
16.1 TD-Gammon · · · · · · · · · · · · · · · · · · · · · · · · · · · 413
16.2 Samuel 的跳棋程序· · · · · · · · · · · · · · · · · · · · · · · · 418
16.3 Watson 的每日双倍投注· · · · · · · · · · · · · · · · · · · · · 421
16.4 优化内存控制· · · · · · · · · · · · · · · · · · · · · · · · · · · 424
16.5 人类级别的视频游戏· · · · · · · · · · · · · · · · · · · · · · · 428
16.6 主宰围棋游戏· · · · · · · · · · · · · · · · · · · · · · · · · · · 433
16.6.1 AlphaGo · · · · · · · · · · · · · · · · · · · · · · · · · · 436
16.6.2 AlphaGo Zero · · · · · · · · · · · · · · · · · · · · · · · 439
16.7 个性化网络服务· · · · · · · · · · · · · · · · · · · · · · · · · · 442
16.8 热气流滑翔· · · · · · · · · · · · · · · · · · · · · · · · · · · · 446
强化学习(第2 版)
第17 章前沿技术· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 451
17.1 广义价值函数和辅助任务· · · · · · · · · · · · · · · · · · · · · 451
17.2 基于选项理论的时序摘要· · · · · · · · · · · · · · · · · · · · · 453
17.3 观测量和状态· · · · · · · · · · · · · · · · · · · · · · · · · · · 456
17.4 设计收益信号· · · · · · · · · · · · · · · · · · · · · · · · · · · 460
17.5 遗留问题· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 464
17.6 人工智能的未来· · · · · · · · · · · · · · · · · · · · · · · · · · 467
参考文献· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 473

全部展开

读者评论

请问练习的答案在哪呢？

building412发表于 2020/11/5 13:39:20
- https://www.sohu.com/a/219769833_488171
  
  JeremyTian发表于 2021/4/29 6:41:17
- https://github.com/LyWangPX
  
  JeremyTian发表于 2021/4/29 6:41:45
怎么获得练习的答案呢？

Cristo发表于 2020/3/18 22:31:04
- https://www.sohu.com/a/219769833_488171
  
  JeremyTian发表于 2021/4/29 6:41:24
- https://github.com/LyWangPX
  
  JeremyTian发表于 2021/4/29 6:41:53