新書推薦:
《
炙野(全2册)
》
售價:HK$
78.2
《
女人的胜利
》
售價:HK$
55.9
《
数据有道:数据分析+图论与网络+微课+Python编程(鸢尾花数学大系:从加减乘除到机器学习)
》
售價:HK$
266.6
《
500万次倾听:陪伤心的人聊聊
》
售價:HK$
53.8
《
英国商业500年(见证大国崛起与企业兴衰,启迪未来商业智慧。)
》
售價:HK$
80.6
《
万千心理·儿童心理治疗中的心智化:临床实践指导
》
售價:HK$
87.4
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:HK$
66.1
《
周易
》
售價:HK$
44.6
編輯推薦:
本书的目的是提出并构建近似动态规划和强化学习的理论框架。这一框架以两个算法为中心,这两个算法在很大程度上彼此独立地设计出来并通过牛顿法的有力机制融洽地合作使用。本书是原作者在美国亚利桑那州立大学讲课过程中完成。课程视频和课件可从作者网站下载。
內容簡介:
大致内容:第一章,从阿尔法零的卓越性能出发,深入解读其背后着实不易的成长历程,揭示其数学模型。第二章,从确定性和随机动态规划问题入手,介绍决策问题的数学模型。第三章,从抽象视角回顾纷繁复杂的强化学习算法,揭示值函数近似与滚动改进的重要作用。第四章,从经典的线性二次型最优控制问题入手,分析从阿尔法零的成功中学到的经验。第五章,分别从鲁棒、自适应、模型预测控制等问题入手,分析值函数近似与滚动改进对算法性能的提升潜力。第六章,从离散优化的视角审视阿尔法零的成功经验。第七章,总结全书。适合作为本领域研究者作为学术专著阅读,也适合作为研究生和本科生作为参考书使用。
關於作者:
贾庆山,清华大学长聘教授。主要研究信息物理融合能源系统的优化理论与方法。发表四十篇IEEE汇刊论文。获得2009年国家自然科学奖二等奖、2018年国家自然科学奖二等奖、2020年自然科学奖二等奖,多次获得国际期刊、国际会议最佳论文奖。担任IEEE Internet of Things Activity Board委员、IEEE控制系统协会Board of Governors委员、IEEE控制系统协会北京分会主席、IEEE机器人与自动化协会智能建筑专业委员会副主席、IFAC智慧城市控制专业委员会主席。曾任IEEE控制系统协会离散事件系统专业委员会主席。担任中国自动化学会第十一届控制理论专业委员会委员兼副秘书长,中国自动化学会第一届工业控制系统信息安全专业委员会委员。
目錄 :
第 1 章 阿尔法零、离线训练和在线学习 1
1.1 离线训练和策略迭代 3
1.2 在线学习与值空间近似——截断滚动 4
1.3 阿尔法零的经验 6
1.4 强化学习的一种新概念框架 8
1.5 注释与参考文献 9
第 2 章 确定性和随机的动态规划 13
2.1 无限时段上的最优控制 14
2.2 值空间近似 18
2.3 注释与参考文献 . 21
第 3 章 强化学习的抽象视角 22
3.1 贝尔曼算子 23
3.2 值空间近似和牛顿法 28
3.3 稳定域 32
3.4 策略迭代、滚动和牛顿法 36
3.5 在线对弈对于离线训练过程有多敏感? 41
3.6 何不直接训练策略网络并在使用时摒弃在线对弈呢? 43
3.7 多智能体问题和多智能体滚动 44
3.8 在线简化策略迭代 47
3.9 例外情形 52
3.10 注释与参考文献 57
第 4 章 线性二次型情形——例证 59
4.1 最优解 60
4.2 稳定线性策略的费用函数 61
4.3 值迭代 63
4.4 单步和多步前瞻——牛顿步的解释 64
4.5 灵敏度问题 67
4.6 滚动和策略迭代 . 69
4.7 截断滚动——前瞻长度问题 71
4.8 线性二次型问题中的例外行为 73
4.9 注释与参考文献 . 74
第 5 章 自适应和模型预测控制 75
5.1 具有未知参数的系统——鲁棒和 PID 控制 76
5.2 值空间近似、滚动和自适应控制 . 78
5.3 值空间近似、滚动和模型预测控制 81
5.4 末端费用近似——稳定性问题 83
5.5 注释与参考文献 . 87
第 6 章 有限时段确定性问题——离散优化 88
6.1 确定性离散空间有限时段问题 89
6.2 一般离散优化问题 92
6.3 值空间近似 95
6.4 离散优化的滚动算法 98
6.5 采用多步前瞻的滚动——截断滚动 111
6.6 约束形式的滚动算法 114
6.7 使用部分可观马尔可夫决策问题模型滚动的自适应控制 124
6.8 极小化极大控制的滚动 . 130
6.9 小阶段费用与长时段——连续时间滚动 136
6.10 结语 142
附录 A 不动点问题的牛顿法 145
A.1 可微不动点问题的牛顿法 145
A.2 无须贝尔曼算子可微性的牛顿法 148
参考文献 152
內容試閱 :
用四个参数我可以拟合出一头大象,用五个参数我可以让它摆动身体。①(
——约翰?冯?诺依曼
这本学术专著的目的是提出并构建近似动态规划和强化学习的新的理论框架。这一框架以两类算法为中心,这两类算法在很大程度上彼此独立地被设计出来并通过牛顿法的有力机制融洽地合作使用。我们将这两类算法分别称为离线训练算法和在线学习算法;其名称取自一些强化学习取得显著成功的游戏。主要的例子包括近期(2017 年)的阿尔法零程序(AlphaZero 下国际象棋),以及具有类似结构的早期(20 世纪90 年代)的时序差分西洋双陆棋程序(TD-Gammon 下西洋双陆棋)。在这些游戏的背景下,离线训练算法用于教会程序如何评价位置并在任意给定位置产生好的走法,而在线学习算法用于实时与人类或者计算机对战。
阿尔法零和时序差分西洋双陆棋程序都在离线时使用神经网络和近似策略迭代进行大量训练(策略迭代是动态规划的基础算法)。然而,离线获得的阿尔法零玩家程序并没有直接用于在线游戏(离线神经网络训练内在的近似误差使这一玩家程序不太准确)。取而代之的是,使用另一个在线玩家程序选择走棋,该程序使用了多步前瞻最小化和终止位置评价器,其中终止位置评价器通过与离线玩家程序的对战经验训练获得。在线玩家程序进行了某种形式的策略改进,并没有受到神经网络近似的影响而导致性能下降。结果,这种在线的策略改进显著提升了原离线玩家程序的性能。
类似地,时序差分西洋双陆棋程序使用单步或者双步前瞻最小化进行在线策略改进,其性能并未受到神经网络近似产生负面影响。该程序使用了通过离线神经网络训练获得的终止位置评估器,更重要的是它还通过滚动扩展其在线前瞻(使用基于位置评估器的单步前瞻玩家进行仿真)。
总结如下。
(a)阿尔法零在线玩家程序比起其大量训练的离线玩家程序,棋下得更好。这是因为使用长程前瞻最小化的精确策略改进纠正了由神经网络训练出来的离线玩家程序和位置评估器/终止费用近似的不可避免的不完美之处。
(b)在时序差分西洋双陆棋程序中,使用长程滚动相比于不使用滚动,棋下得更好。这是因为滚动有益,所以滚动替代了长程前瞻最小化。
从阿尔法零和时序差分西洋双陆棋程序获得的重要启示是:可以通过值空间的在线近似和长程前瞻(涉及使用离线策略的最小化或者滚动,或者两者同时使用),以及离线获得的终止费用近似显著提升离线训练的策略的性能。这一性能提升经常是显著的,且基于下文中的简单事实,这些事实建立在算法数学的基础之上,也是本书的聚焦点。
(a)采用单步前瞻最小化的值空间近似对应于用牛顿法求解贝尔曼方程时的一步(以下简称牛顿步)。
(b)牛顿步的起始点来自离线训练的结果,可以通过更长的前瞻最小化和在线滚动提
升性能。
在线策略质量的主要决定因素确实是在线进行的牛顿步,而相比之下,离线训练的重要性排在第二位。
离线训练和在线学习之间的协同也是模型预测控制的基础,模型预测控制是自20 世纪80 年代开始广泛发展的一种主要的控制系统设计方法。这一协同也可以从无穷阶段动态规划的抽象模型与简单的几何构造法的角度来理解,有助于解释在模型预测控制中所有与稳定性有关的重要的问题。
通过值空间的近似进行策略改进有一种额外好处,这一好处在游戏中不易被观测到(因为游戏的规则和环境相对固定)。当问题参数可变或者需要在线重新规划时,通过值空间的近似进行策略改进仍然可以良好地工作,这一点与间接自适应控制类似。这时,因为参数变化需摄动贝尔曼方程,但是在值空间的近似仍然作为一步牛顿迭代。这里的一项关键要求是通过某种辨识方法在线估计系统模型,并用于单步或者多步前瞻最小化过程。
本书旨在(经常基于可视化)提供启发,为在线决策获得比离线训练额外的好处提供解释。在这一过程中,我们将阐述强化学习的人工智能视角和模型预测控制以及自适应控制的控制理论视角之间的强关联性。进一步,我们将证明在模型预测控制和自适应控制之外,我们的概念框架可以有效地与其他重要的方法集成在一起,比如多智能体系统和分布式控制、离散和贝叶斯优化以及离散优化的启发式算法。
我们的主要目标之一是通过牛顿法的算法思想和抽象动态规划的统一原理,证明阿尔法零和时序差分西洋双陆棋程序所采用的值函数近似和滚动程序非常广泛地适用于确定性和随机最优控制问题。这里用牛顿法求解的贝尔曼方程是在具有离散和连续的状态和控制空间上,以及在有限和无限的时段上的动态规划中普遍适用的算子方程。(请注意:已经在文献中使用复杂的不连续分析方法,处理了牛顿法应用于不可微算子的形式化过程中碰到的数学上的复杂性)我们已经在附录中提供了对有限维牛顿法的收敛性分析,这适用于有限状态问题,但清晰地传递了其蕴含的几何直观并指出了对无限状态的推广。我们也提供了对经典的线性二次型最优控制问题的分析、相关的黎卡提方程以及牛顿法的求解。
虽然我们在本书中弱化了数学证明,但是本书中的结论存在相当可观的相关数学分析作为支撑,而且这些分析可以在本书作者最近的强化学习教材[Ber19a]、[Ber20a] 和抽象动态规划专著[Ber22a] 中找到。特别地,本书可视作学术专著[Ber20a] 核心内容的更直观的、更少数学的、可视化导向的内容呈现,[Ber20a] 处理值空间近似、滚动、策略迭代,以及多智能体系统。抽象动态规划专著[Ber22a] 建立了支撑本书可视化框架的数学,是关于后续数学研究的主要参考文献。强化学习教材[Ber19a] 提供了对强化学习内容的更一般性的介绍,并且包括了对无限时段精确动态规划以及近似动态规划的一些核心内容的数学证明,包括误差界分析,其中的许多内容也以更加细致的形式包含在作者的动态规划教材[Ber12] 中。这些书中的内容合在一起构成了作者在亚利桑那州立大学的“网上强化学习”课程的核心内容。
这本专著,以及我之前著作的关于强化学习的书,是我在过去四年讲授亚利桑那州立大学课程的过程中完成的。这一课程的视频与课件可从网站http://web.mit.edu/dimitrib/ www/RLbook.html 上找到,该网站提供了本书的有益补充。在这一过程中,亚利桑那州立大学热情且充满活力的环境对我的工作帮助良多,为此我非常感谢同事们和学生们的有益讨论。我在亚利桑那州立大学的课程助教Sushmita Bhatacharya、Sahil Badyal 和Jamison Weber 提供了许多帮助。我也非常感谢与亚利桑那州立大学之外的同事们和学生们成果颇丰的讨论,特别是Moritz Diehl 对模型预测控制提供了非常有用的意见;Yuchao Li 仔细校对了整本书,与我开展合作研究,实现了多种方法,并且测试了几种算法的变形。
Dimitri P. Bertsekas, 2022
(① 根据弗莱曼? 道森和恩利克? 费米的会见(见Segre 和Hoerlin 于2017 年出版的费米的传记《物理教皇,斗牛士》一书第273 页):“当1953 年道森与他会面时,费米有礼貌地欢迎他,但是他很快就将那些向他展示的理论和实验之间一致的图片放置一边。道森记得,费米的裁决是‘在理论物理中存在两种计算方法。一种方法,也是我倾向的方法,是拥有你所计算的过程的清晰的物理图景,另一种是拥有精确且自我一致的数学形式主义。你两个都没有’。当震惊的道森尝试反驳并强调实验与计算之间的一致时,费米问他用了多少个自由参数才获得这一拟合。在被告知用了‘四个’之后,费米微笑着说道,‘我记得我的老朋友约翰? 冯? 诺依曼曾经说过,用四个参数我可以拟合出一头大象,用五个参数我可以让它摆动身体’。”也见Mayer、Khairy 和Howard 的论文[MKH10],其中证实了所引用的约翰? 冯? 诺依曼的话。