登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『簡體書』深度强化学习落地指南

書城自編碼: 3661657
分類:簡體書→大陸圖書→計算機/網絡人工智能
作者: 魏宁
國際書號(ISBN): 9787121416446
出版社: 电子工业出版社
出版日期: 2021-08-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 136.3

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
人性的博弈:为什么做个好人这么难
《 人性的博弈:为什么做个好人这么难 》

售價:HK$ 81.6
不完美的自我:接纳与放手,让自己活得更有韧性
《 不完美的自我:接纳与放手,让自己活得更有韧性 》

售價:HK$ 70.8
苏菲的世界(漫画版):寻找自我的旅程
《 苏菲的世界(漫画版):寻找自我的旅程 》

售價:HK$ 94.8
让改变发生:学校改进视角下的办学思考与实践叙事
《 让改变发生:学校改进视角下的办学思考与实践叙事 》

售價:HK$ 55.2
麦肯锡原则:成就全球顶级公司的11条经验    (美) 达夫·麦克唐纳
《 麦肯锡原则:成就全球顶级公司的11条经验 (美) 达夫·麦克唐纳 》

售價:HK$ 106.8
今日宜偏爱(全二册)
《 今日宜偏爱(全二册) 》

售價:HK$ 95.8
氢经济
《 氢经济 》

售價:HK$ 117.6
为你沦陷
《 为你沦陷 》

售價:HK$ 56.2

 

建議一齊購買:

+

HK$ 143.9
《 机器学习:软件工程方法与实现 》
+

HK$ 89.8
《 虚拟现实与增强现实——从视觉革命到思维革命的演进 》
+

HK$ 124.8
《 Python计算机视觉与深度学习实战 》
+

HK$ 64.7
《 树莓派开发从零开始学--超好玩的智能小硬件制作书 》
+

HK$ 198.8
《 统计学习要素:机器学习中的数据挖掘、推断与预测(第2版) 》
+

HK$ 196.7
《 强化学习与最优控制 》
內容簡介:
本书从工业界一线算法工作者的视角,对深度强化学习落地实践中的工程经验和相关方法论做出了深度思考和系统归纳。本书跳出了原理介绍加应用案例的传统叙述模式,转而在横向上对深度强化学习落地过程中的核心环节进行了完整复盘。主要内容包括需求分析和算法选择的方法,动作空间、状态空间和回报函数设计的理念,训练调试和性能冲刺的技巧等。本书既是前人智慧与作者个人经验的交叉印证和精心整合,又构成了从理论到实践再到统一方法论的认知闭环,与市面上侧重于算法原理和代码实现的强化学习书籍形成了完美互补。
關於作者:
魏 宁本科和硕士分别毕业于西安交通大学和中国科学院大学计算机专业,在国际会议和期刊上发表多篇学术论文,曾就职于德国KUKA Robotics从事协作机器人智能应用研发工作,目前在海康威视研究院任算法专家,负责深度学习、强化学习等领域的创新研究和落地应用,同时也是互联网社区“深度强化学习实验室”核心成员。
目錄
第1章 需求分析 1
1.1 需求分析:勿做DRL铁锤人 1
1.2 一问“是不是” 2
1.2.1 Agent和环境定义 2
1.2.2 马尔可夫决策过程和强化学习 3
1.3 二问“值不值” 5
1.3.1 试试规则和启发式搜索 5
1.3.2 别忘了传统强化学习 7
1.3.3 使用DRL的理由 7
1.4 三问“能不能” 9
1.4.1 场景固定:两个分布一致 9
1.4.2 数据廉价:多、快、好、费 13
1.5 四问“边界在哪里” 16
1.6 本章小结 18
参考文献 19
第2章 动作空间设计 23
2.1 动作空间设计:这里大有可为 23
2.1.1 被忽视的价值 23
2.1.2 动作空间的常见类型 24
2.1.3 动作空间设计的基本原则 26
2.2 动作空间的完备性 26
2.2.1 功能完备 27
2.2.2 时效完备 29
2.3 动作空间的高效性 30
2.3.1 化整为零:以精度换效率 31
2.3.2 有机组合:尺度很重要 33
2.4 动作空间的合法性 35
2.4.1 非法动作屏蔽机制 36
2.4.2 Agent的知情权 37
2.5 本章小结 39
参考文献 40
第3章 状态空间设计 43
3.1 状态空间设计:特征工程的诱惑 43
3.2 状态空间设计的两种常见误区 44
3.2.1 过分依赖端到端特征学习 44
3.2.2 极致特征工程 44
3.3 与动作空间和回报函数的协同设计 45
3.3.1 与动作空间尺度一致 45
3.3.2 以回报函数为中心 46
3.4 状态空间设计的四个步骤 47
3.4.1 任务分析 47
3.4.2 相关信息筛选 49
3.4.3 泛化性考量 53
3.4.4 效果验证 58
3.5 本章小结 61
参考文献 62
第4章 回报函数设计 64
4.1 回报函数设计:面向强化学习的编程 64
4.2 稀疏回报问题 65
4.2.1 孤独无援的主线回报 65
4.2.2 稀疏回报问题的本质 66
4.3 辅助回报 67
4.3.1 子目标回报 67
4.3.2 塑形回报 70
4.3.3 内驱回报 76
4.3.4 回报取值的注意事项 77
4.4 回报函数设计的常见陷阱 78
4.4.1 鲁莽 79
4.4.2 贪婪 80
4.4.3 懦弱 82
4.5 回报问题 83
4.6 基于学习的回报函数 84
4.6.1 经典方法 84
4.6.2 前沿方法 85
4.7 本章小结 87
参考文献 88
第5章 算法选择 92
5.1 算法选择:拿来主义和改良主义 92
5.1.1 DRL算法的发展脉络 92
5.1.2 一筛、二比、三改良 94
5.1.3 从独当一面到众星捧月 96
5.2 牢记经典勿忘本 97
5.2.1 DQN 98
5.2.2 DDPG 99
5.2.3 A3C 102
5.3 关注SOTA算法别留恋 105
5.3.1 TD3 105
5.3.2 SAC 107
5.3.3 PPO 110
5.4 其他算法 112
5.5 本章小结 113
参考文献 113
第6章 训练调试 119
6.1 训练调试:此事要躬行 119
6.2 训练前的准备工作 120
6.2.1 制定训练方案 120
6.2.2 选择网络结构 124
6.2.3 随机漫步 128
6.2.4 数据预处理 129
6.3 训练进行时 131
6.3.1 反脆弱:拥抱不确定性 131
6.3.2 调节超参数 134
6.3.3 监控训练状态 143
6.4 给初学者的建议 146
6.5 本章小结 148
参考文献 149
第7章 性能冲刺 154
7.1 性能冲刺:为DRL注入强心剂 154
7.2 课程学习 155
7.2.1 源任务及其分类 155
7.2.2 应用方式 157
7.3 额外监督信号 162
7.3.1 有监督预训练 163
7.3.2 辅助任务 164
7.4 进化策略 169
7.4.1 基本原理 169
7.4.2 关键细节 170
7.4.3 应用方式 174
7.5 本章小结 175
参考文献 176

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.