登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『簡體書』深度强化学习:基础、研究与应用

書城自編碼: 3644773
分類:簡體書→大陸圖書→計算機/網絡人工智能
作者: 董豪 等
國際書號(ISBN): 9787121411885
出版社: 电子工业出版社
出版日期: 2021-06-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 161.3

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
沙盘游戏疗法
《 沙盘游戏疗法 》

售價:HK$ 106.8
图坦卡蒙和改变世界的陵墓
《 图坦卡蒙和改变世界的陵墓 》

售價:HK$ 95.8
儿童心理画:孩子的画会说话,孩子的画这样读
《 儿童心理画:孩子的画会说话,孩子的画这样读 》

售價:HK$ 82.8
朱雀:唐代的南方意向
《 朱雀:唐代的南方意向 》

售價:HK$ 106.8
海外中国研究·古代中华观念的形成
《 海外中国研究·古代中华观念的形成 》

售價:HK$ 93.6
街头官僚:公共服务中的个人困境(公共行政与公共管理经典译丛;“十二五”国家重点图书出版规划项目)
《 街头官僚:公共服务中的个人困境(公共行政与公共管理经典译丛;“十二五”国家重点图书出版规划项目) 》

售價:HK$ 105.6
芯片战争:世界最关键技术的争夺战
《 芯片战争:世界最关键技术的争夺战 》

售價:HK$ 153.6
唐代玄宗肃宗之际的中枢政局
《 唐代玄宗肃宗之际的中枢政局 》

售價:HK$ 90.0

 

建議一齊購買:

+

HK$ 210.0
《 机器学习观止——核心原理与实践 》
+

HK$ 186.3
《 深度学习与图像分析——基础与应用 》
+

HK$ 221.8
《 AI学习路径之零基础入门机器学习算法与实战套装 套装共2册 》
+

HK$ 120.2
《 机器学习算法的数学解析与Python实现 》
+

HK$ 147.2
《 深度学习理论与实战:基础篇 》
+

HK$ 113.6
《 深度学习基础(影印版) 》
編輯推薦:
一、本书内容之广,令人惊讶,对深度强化学习进行了庖丁解牛式的解读,要想了解、学习、上手深度强化学习,这本书将是你的不二选择。
二、本书作者之众,令人惊叹,本书作者团队是国内外开源社区的一群年轻青年学者和工程师,从科研角度到工程实践,解读深度强化学习知识,契合当下读者的诉求。
三、本书案例之多,令人惊喜,模仿学习、分层强化学习、多智能体强化学习、并行计算、图像增强、阿尔法下棋、机器人学习应有尽有,更难能可贵的是,本书后作者根据自己经验总结出深度强化学习的研究实践技巧,应该颇具价值,供读者学习。
內容簡介:
深度强化学习结合深度学习与强化学习算法各自的优势解决复杂的决策任务。得益于 DeepMind AlphaGo 和 OpenAI Five 成功的案例,深度强化学习受到大量的关注,相关技术广泛应用于不同的领域。本书分为三大部分,覆盖深度强化学习的全部内容。部分介绍深度学习和强化学习的入门知识、一些非常基础的深度强化学习算法及其实现细节,包括第 1~6 章。第二部分是一些精选的深度强化学习研究题目,这些内容对准备开展深度强化学习研究的读者非常有用,包括第 7~12 章。第三部分提供了丰富的应用案例,包括 AlphaZero、让机器人学习跑步等,包括第 13~17 章。本书是为计算机科学专业背景、希望从零开始学习深度强化学习并开展研究课题和实践项目的学生准备的。本书也适合没有很强的机器学习背景、但是希望快速学习深度强化学习并将其应用到具体产品中的软件工程师阅读。
關於作者:
董 豪 北京大学计算机系前沿计算研究中心助理教授、深圳鹏城实验室双聘成员。于 2019 年秋获得英国帝国理工学院博士学位。研究方向主要涉及计算机视觉和生成模型,目的是降低学习智能系统所需要的数据。致力于推广人工智能技术,是深度学习开源框架 TensorLayer 的创始人,此框架获得 ACM MM 2017 年度开源软件奖。在英国帝国理工学院和英国中央兰开夏大学获得一等研究生和一等本科学位。丁子涵 英国帝国理工学院硕士。获普林斯顿大学博士生全额奖学金,曾在加拿大 Borealis AI、腾讯 Robotics X 实验室有过工作经历。本科就读于中国科学技术大学,获物理和计算机双学位。研究方向主要涉及强化学习、机器人控制、计算机视觉等。在 ICRA、NeurIPS、AAAI、IJCAI、Physical Review 等期刊与会议发表多篇论文,是 TensorLayer-RLzoo、TensorLet 和 Arena 开源项目的贡献者。仉尚航 加州大学伯克利分校,BAIR 实验室(Berkeley AI Research Lab)博士后研究员。于 2018年获得卡内基·梅隆大学博士学位。研究方向主要涉及深度学习、计算机视觉及强化学习。在NeurIPS、CVPR、ICCV、TNNLS、AAAI、IJCAI 等人工智能期刊和会议发表多篇论文。目前主要从事 Human-inspired sample-efficient learning 理论与算法研究,包括 low-shot learning、domain adaptation、self learning 等。获得 AAAI 2021 Best Paper Award, 美国 2018 Rising Stars in EECS,及Adobe Collaboration Fund、Qualcomm Innovation Fellowship Finalist Award 等奖励。袁 航 英国牛津大学计算机科学博士在读、李嘉诚奖学金获得者,主攻人工智能安全和深度学习在健康医疗中的运用。曾在欧美各大高校和研究机构研习,如帝国理工学院、马克斯普朗克研究所、瑞士联邦理工和卡内基·梅隆大学。张鸿铭 中国科学院自动化研究所算法工程师。于 2018 年获得北京大学硕士研究生学位。本科就读于北京师范大学,获理学学士学位。研究方向涉及统计机器学习、强化学习和启发式搜索。张敬卿 英国帝国理工学院计算机系博士生,师从帝国理工学院数据科学院院长郭毅可院士。主要研究方向为深度学习、机器学习、文本挖掘、数据挖掘及其应用。曾获得中国国家奖学金。2016年于清华大学计算机科学与技术系获得学士学位,2017 年于帝国理工学院计算机系获得一等研究性硕士学位。黄彦华 就职于小红书,负责大规模机器学习及强化学习在推荐系统中的应用。2016 年在华东师范大学数学系获得理学学士学位。曾贡献过开源项目 PyTorch、TensorFlow 和 Ray。余天洋 启元世界算法工程师,负责强化学习在博弈场景中的应用。硕士毕业于南昌大学,是TensorLayer-RLzoo 开源项目的贡献者。张华清 谷歌公司算法和机器学习工程师,侧重于多智能体强化学习和多层次结构博弈论方向研究,于华中科技大学获得学士学位,后于 2017 年获得休斯敦大学博士学位。黄锐桐 Borealis AI (加拿大皇家银行研究院)团队主管。于 2017 年获得阿尔伯塔大学统计机器学习博士学位。本科就读于中国科学技术大学数学系,后于滑铁卢大学获得计算机硕士学位。研究方向主要涉及在线学习、优化、对抗学习和强化学习。廖培元 目前本科就读于卡内基·梅隆大学计算机科学学院。研究方向主要涉及表示学习和多模态机器学习。曾贡献过开源项目 mmdetection 和 PyTorch Cluster,在 Kaggle 数据科学社区曾获Competitions Grandmaster 称号,排名全球前 25 位。
目錄
基础部分 1 第 1 章 深度学习入门 2
1.1 简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 感知器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 多层感知器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 激活函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 损失函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6.1 梯度下降和误差的反向传播 . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6.2 随机梯度下降和自适应学习率 . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6.3 超参数筛选 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 正则化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7.1 过拟合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7.2 权重衰减 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7.3 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7.4 批标准化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7.5 其他缓和过拟合的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.8 卷积神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.9 循环神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.10 深度学习的实现样例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.10.1 张量和梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.10.2 定义模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.10.3 自定义层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.10.4 多层感知器:MNIST 数据集上的图像分类 . . . . . . . . . . . . . . . . . . . 33
1.10.5 卷积神经网络:CIFAR-10 数据集上的图像分类 . . . . . . . . . . . . . . . . 35
1.10.6 序列到序列模型:聊天机器人 . . . . . . . . . . . . . . . . . . . . . . . . . . 36
第 2 章 强化学习入门 43
2.1 简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2 在线预测和在线学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.1 简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.2 随机多臂赌博机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.2.3 对抗多臂赌博机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.2.4 上下文赌博机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.3 马尔可夫过程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3.1 简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3.2 马尔可夫奖励过程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.3.3 马尔可夫决策过程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.3.4 贝尔曼方程和性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.3.5 其他重要概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.4 动态规划 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.4.1 策略迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.4.2 价值迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.4.3 其他 DPs:异步 DP、近似 DP 和实时 DP . . . . . . . . . . . . . . . . . . . 68
2.5 蒙特卡罗 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.5.1 蒙特卡罗预测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.5.2 蒙特卡罗控制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.5.3 增量蒙特卡罗 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.6 时间差分学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
2.6.1 时间差分预测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
2.6.2 Sarsa:在线策略 TD 控制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.6.3 Q-Learning:离线策略 TD 控制 . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.7 策略优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.7.1 简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.7.2 基于价值的优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
2.7.3 基于策略的优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2.7.4 结合基于策略和基于价值的方法 . . . . . . . . . . . . . . . . . . . . . . . . 105
第 3 章 强化学习算法分类 110
3.1 基于模型的方法和无模型的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.2 基于价值的方法和基于策略的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.3 蒙特卡罗方法和时间差分方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
3.4 在线策略方法和离线策略方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
第 4 章 深度 Q 网络 119
4.1 Sarsa 和 Q-Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.2 为什么使用深度学习: 价值函数逼近 . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.3 DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.4 Double DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.5 Dueling DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.6 优先经验回放 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.7 其他改进内容:多步学习、噪声网络和值分布强化学习 . . . . . . . . . . . . . . . 128
4.8 DQN 代码实例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
第 5 章 策略梯度 146
5.1 简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2 REINFORCE:初版策略梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
5.3 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.4 生成对抗网络和 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
5.5 同步优势 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
5.6 异步优势 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.7 信赖域策略优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
5.8 近端策略优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
5.9 使用 Kronecker 因子化信赖域的 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . 159
5.10 策略梯度代码例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.10.1 相关的 Gym 环境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.10.2 REINFORCE: Atari Pong 和 CartPole-V0 . . . . . . . . . . . . . . . . . . . . . 165
5.10.3 AC: CartPole-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.10.4 A3C: BipedalWalker-v2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
5.10.5 TRPO: Pendulum-V0 . . . . . . .
內容試閱
为什么写作本书
人工智能已经成为当今信息技术发展的主要方向,国务院印发的《新一代人工智能发展规划》中指出:2020 年我国人工智能核心产业规模超过 1500 亿元,带动相关产业规模超过 1 万亿元;2030 年人工智能核心产业规模超过 1 万亿元,带动相关产业规模超过 10 万亿元。深度强化学习将结合深度学习与强化学习算法各自的优势来解决复杂的决策任务。近年来,归功于 DeepMind AlphaGo 和 OpenAI Five 这类成功的案例,深度强化学习受到大
量的关注,相关技术广泛用于金融、医疗、军事、能源等领域。为此,学术界和产业界急需大量人才,而深度强化学习作为人工智能中的智能决策部分,是理论与工程相结合的重要研究方向。本书将以通俗易懂的方式讲解相关技术,并辅以实践教学。
本书主要内容
本书分为三大部分,以尽可能覆盖深度强化学习所需要的全部内容。部分介绍深度学习和强化学习的入门知识、一些非常基础的深度强化学习算法及其实现细节,请见第 1~6 章。
第二部分是一些精选的深度强化学习研究题目,请见第 7~12 章,这些内容对准备开展深度强化学习研究的读者非常有用。为了帮助读者更深入地学习深度强化学习,并把相关技术用于实践,本书第三部分提供了丰富的例子,包括 AlphaZero、让机器人学习跑步等,请见第 13~17 章。
如何阅读本书
本书是为计算机科学专业背景、希望从零学习深度强化学习并开展研究课题和实践项目的学生准备的。本书也适用于没有很强机器学习背景、但是希望快速学习深度强化学习并把它应用到具体产品中的软件工程师。
鉴于不同的读者情况会有所差异(比如,有的读者可能是次接触深度学习,而有的读者可能已经对深度学习有一定的了解;有的读者已经有一些强化学习基础;有的读者只是想了解强化学习的概念,而有的读者是准备长期从事深度强化学习研究的),这里根据不同的读者情况给予不同的阅读建议。
要了解深度强化学习。
第 1~6 章覆盖了深度强化学习的基础知识,其中第 2 章是关键、基础的内容。如果您已经有深度学习基础,可以直接跳过第 1 章。第 3 章、附录 A 和附录 B 总结了不同的算法。
要从事深度强化学习研究。
除了深度学习的基础内容,第 7 章介绍了当今强化学习技术发展遇到的各种挑战。您可以通过阅读第 8~12 章来进一步了解不同的研究方向。
要在产品中使用深度强化学习。
如果您是工程师,希望快速地在产品中使用深度强化学习技术,第 13~17 章是您关注的重点。您可以根据业务场景中的动作空间和观测种类来选择相似的应用例子,然后运用到您的业务中。
董豪
2021 年 4 月

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.