登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書

『簡體書』强化学习

書城自編碼: 4021868
分類:簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 余欣航
國際書號(ISBN): 9787121476617
出版社: 电子工业出版社
出版日期: 2024-04-01

頁數/字數: /
釘裝: 平塑

售價:HK$ 78.2

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
现代自建小别墅VR效果图 实用的自建小别墅指南 帮你解决设计难题
《 现代自建小别墅VR效果图 实用的自建小别墅指南 帮你解决设计难题 》

售價:HK$ 156.4
语义学(下卷)(语言学及应用语言学名著译丛)
《 语义学(下卷)(语言学及应用语言学名著译丛) 》

售價:HK$ 156.4
迷人的珊瑚礁(迷人的科学丛书)
《 迷人的珊瑚礁(迷人的科学丛书) 》

售價:HK$ 124.2
夜幕之下.5:极恶都市
《 夜幕之下.5:极恶都市 》

售價:HK$ 63.3
异质文化交织下的上海都市生活(1843-1949)
《 异质文化交织下的上海都市生活(1843-1949) 》

售價:HK$ 147.2
暂别(邓安庆全新文集)
《 暂别(邓安庆全新文集) 》

售價:HK$ 89.7
鲍勃·迪伦为什么重要
《 鲍勃·迪伦为什么重要 》

售價:HK$ 78.2
超负荷的女性:看见内心的渴望与恐惧
《 超负荷的女性:看见内心的渴望与恐惧 》

售價:HK$ 67.9

 

內容簡介:
本书详细介绍了强化学习的理论推导、算法细节。全书共12章,包括强化学习概述、马尔可夫决策过程、退化的强化学习问题、环境已知的强化学习问题、基于价值的强化学习算法、基于策略的强化学习算法、AC型算法、基于模型的强化学习算法等相关知识。本书系统性强、概念清晰,内容简明通俗。除了侧重于理论推导,本书还提供了许多便于读者理解的例子,以及大量被实践证明有效的算法技巧,旨在帮助读者进一步了解强化学习领域的相关知识,提升其现实中的工程能力。本书可作为高等院校数学、计算机、人工智能等相关专业的强化学习教材,但需要有机器学习、深度学习等前置课程作为基础。
關於作者:
余欣航,本科毕业于北京大学数学科学院,广东交通数据中心算法主要负责人,using.ai早期合伙人,广东联合电子资深工程师,主要研究方向为机器学习、强化学习以及其在智能制造、智慧交通等领域的应用。科幻作家,代表作为《情诗恋曲》、《疑云龙影》、《一中攻防战》等
目錄
第1章 绪论1
1.1 强化学习是什么1
1.2 强化学习的基本思想3
1.2.1 从环境中产生数据3
1.2.2 求解最优策略5
1.3 强化学习为什么重要6
1.4 本书内容介绍9
参考文献10
第2章 马尔可夫决策过程11
2.1 马尔可夫过程11
2.2 马尔可夫决策过程的定义12
2.3 马尔可夫过程与马尔可夫决策过程的对比15
2.4 马尔可夫决策过程的分类15
2.4.1 马尔可夫决策过程是否发生退化16
2.4.2 环境是否已知17
2.4.3 环境的确定性与随机性18
2.4.4 马尔可夫决策过程的时齐性20
2.4.5 状态与动作的连续性22
*2.4.6 时间的连续性23
2.4.7 小结24
2.5 马尔可夫决策过程的奖励函数25
思考题26
参考文献27
第3章 退化的强化学习问题28
3.1 盲盒售货机问题28
3.2 探索-利用困境31
3.3 各种不同的探索策略33
3.3.1 -贪心策略33
3.3.2 玻尔兹曼探索策略35
3.3.3 上置信界策略36
3.4 总结36
思考题37
参考文献37
第4章 最优控制38
4.1 基于价值的思想38
4.1.1 三连棋游戏策略38
4.1.2 价值的定义42
4.1.3 基于价值和基于策略45
4.1.4 小结46
思考题47
4.2 动态规划47
4.2.1 策略迭代法47
4.2.2 雅可比迭代法48
4.2.3 值迭代法50
4.2.4 软提升51
4.2.5 小结53
思考题54
4.3 LQR控制55
4.3.1 基本LQR控制问题55
4.3.2 LQR控制器56
*4.3.3 环境随机的LQR控制问题59
4.3.4 iLQR控制器61
4.3.5 实时规划63
4.3.6 小结64
思考题65
4.4 总结65
参考文献66
第5章 基于价值的强化学习68
5.1 Q-Learning68
5.1.1 Q表格69
5.1.2 产生数据集的方式:探索与利用69
5.1.3 探索策略71
5.1.4 使用训练数据的方法:经验回放73
思考题74
5.2 Sarsa74
5.2.1 基本Sarsa算法74
5.2.2 同策略与异策略76
5.2.3 n步Sarsa77
5.2.4 -return算法78
*5.2.5 n步Q-Learning79
思考题80
5.3 DQN及其变体81
5.3.1 固定Q目标结构81
5.3.2 双重DQN84
5.3.3 优先回放机制86
5.3.4 优势函数88
5.3.5 Dueling DQN90
*5.3.6 Rainbow92
思考题94
*5.4 NAF94
*5.4.1 标准化优势函数94
*5.4.2 NAF的训练96
5.5 总结:基于价值的强化学习算法97
参考文献98
第6章 策略函数与策略梯度100
6.1 策略函数与期望回报100
6.2 无梯度方法101
6.2.1 增强随机搜索102
6.2.2 交叉熵算法104
6.2.3 进化算法104
6.3 策略梯度106
6.3.1 策略网络的构造106
6.3.2 策略梯度的计算108
6.3.3 基本策略梯度算法111
*6.3.4 动作连续的策略梯度113
6.4 策略梯度的训练技巧114
6.4.1 基准法114
6.4.2 经验回放116
6.4.3 探索策略118
6.5 总结119
思考题120
参考文献121
第7章 AC算法122
7.1 基本AC算法122
7.1.1 AC算法的出发点122
7.1.2 化简策略梯度公式123
7.1.3 AC算法的基本思想126
7.1.4 单步更新与回合更新128
思考题129
7.2 AC算法的训练技巧129
7.2.1 广义优势函数估计129
7.2.2 控制训练两个网络的步调131
7.2.3 ACER133
思考题134
7.3 A3C与A2C135
7.3.1 并行训练135
7.3.2 A3C137
7.3.3 A2C140
思考题141
参考文献141
第8章 AC型算法143
8.1 自然梯度法143
8.1.1 牛顿法144
8.1.2 信赖域方法146
8.1.3 近似点法146
*8.1.4 自然策略梯度147
8.2 TRPO与PPO算法149
8.2.1 策略提升149
8.2.2 TRPO算法151
8.2.3 PPO算法152
8.2.4 TRPO与PPO算法的训练技巧155
8.2.5 小结156
思考题157
8.3 DDPG157
8.3.1 动作连续问题的网络结构158
8.3.2 从基于价值的角度理解DDPG算法158
8.3.3 DDPG算法及训练技巧159
8.3.4 确定策略下的策略梯度162
8.3.5 从基于策略的角度理解DDPG算法163
思考题165
*8.4 Soft AC165
8.5 总结:基于策略的算法168
8.5.1 基于价值和基于策略169
8.5.2 偏差-方差取舍170
8.5.3 策略的空间172
8.5.4 训练数据的产生与使用172
8.5.5 小结173
参考文献174
第9章 基于模型的基本思想175
9.1 MBRL概述175
9.2 模型是什么177
9.2.1 各种模型及其基本用法178
9.2.2 更多的模型变体179
9.2.3 模型的一些特点180
*9.2.4 对模型的理解185
思考题188
9.3 如何使用黑盒模型189
9.3.1 用黑盒模型增广数据189
9.3.2 权衡数据成本与准确性191
9.3.3 黑盒模型的其他用途193
9.3.4 小结194
思考题194
9.4 如何使用白盒模型195
9.4.1 用白盒模型辅助进行策略优化195
9.4.2 用白盒模型解最优控制197
9.4.3 小结199
思考题199
参考文献200
第10章 基于模型的强化学习进阶202
10.1 如何学习模型202
10.1.1 让学习更符合最终目标202
10.1.2 让学习本身成为目标203
10.1.3 以学习作为唯一目标206
10.1.4 小结209
思考题209
10.2 世界模型210
10.2.1 观察210
10.2.2 POMDP212
10.2.3 为世界建模214
10.2.4 Dreamer218
思考题220
10.3 实时规划221
10.3.1 实时规划的基本思想221
10.3.2 蒙特卡洛树搜索224
10.3.3 模型预测控制230
思考题233
10.4 MBRL算法思想总结233
参考文献235
*第11章 连续时间的最优控制238
11.1 时间连续的最优控制问题238
11.2 H-J-B方程239
11.2.1 连续时间的贝尔曼方程239
*11.2.2 用H-J-B方程求解LQR控制问题242
11.2.3 总结:关于价值的方程245
思考题247
*11.3 变分原理247
11.3.1 从有穷维空间到无穷维空间247
11.3.2 变分问题250
*11.3.3 欧拉-拉格朗日方程252
*11.3.4 用变分法求解最优控制问题255
11.3.5 总结:策略的最优化257
思考题258
参考文献258
*第12章 其他强化学习相关内容259
12.1 奖励函数的改造与混合259
12.2 逆向强化学习261
12.3 层次强化学习262
12.4 离线强化学习264
参考文献266

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.