登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書

『簡體書』深度强化学习

書城自編碼: 4005967
分類:簡體書→大陸圖書→計算機/網絡人工智能
作者: [荷兰]阿斯克·普拉特[Aske Plaat]著 殷海英 译
國際書號(ISBN): 9787302659792
出版社: 清华大学出版社
出版日期: 2024-06-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 91.8

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
神秘文化与先秦两汉诗学
《 神秘文化与先秦两汉诗学 》

售價:HK$ 148.4
重大决策社会稳定风险评估指南:理论·方法·案例
《 重大决策社会稳定风险评估指南:理论·方法·案例 》

售價:HK$ 147.2
俾斯麦与德意志崛起(牛津大学课堂讲义,带你重新审视俾斯麦与德国近代史!德裔英国历史学家埃里克·埃克,用全新的视角,重新为你解读德意志统一的神话!世界历史)
《 俾斯麦与德意志崛起(牛津大学课堂讲义,带你重新审视俾斯麦与德国近代史!德裔英国历史学家埃里克·埃克,用全新的视角,重新为你解读德意志统一的神话!世界历史) 》

售價:HK$ 68.8
现代工笔重彩画技法解析
《 现代工笔重彩画技法解析 》

售價:HK$ 102.4
欧洲文明的进程(《欧洲文明十五讲》的延伸与细化,欧洲学创始人陈乐民巨作,深度解析欧洲的发展真相)
《 欧洲文明的进程(《欧洲文明十五讲》的延伸与细化,欧洲学创始人陈乐民巨作,深度解析欧洲的发展真相) 》

售價:HK$ 158.7
法理学十六讲:主题与理论
《 法理学十六讲:主题与理论 》

售價:HK$ 82.8
家风三书——《家风十章》《齐家》《治家》三册函套装
《 家风三书——《家风十章》《齐家》《治家》三册函套装 》

售價:HK$ 161.7
少年解码侦探团(全6册)旗语密码、字母数字密码、加密暗号密码、多重密码、语言密码!每册解锁一种!沉浸式解码,提升专注力、逻辑思维能力!
《 少年解码侦探团(全6册)旗语密码、字母数字密码、加密暗号密码、多重密码、语言密码!每册解锁一种!沉浸式解码,提升专注力、逻辑思维能力! 》

售價:HK$ 205.6

 

編輯推薦:
研究领域的成功引起了教育者的关注,各个大学相继开始推出相关课程。本书的目标是全面介绍深度强化学习这个领域。它是为人工智能专业的研究生,以及想要更好地了解深度强化学习方法和挑战的研究人员和从业者编写的。我们假设读者具备计算机科学和人工智能方面的本科水平,并对这些内容有基本的了解;本书使用的编程语言是 Python。我们将描述深度强化学习的基础、算法和应用。本书将涵盖构成该领域基础的已建立的无模型和有模型方法。由于该技术发展迅速,本书还将涵盖更高级的主题:深度多智能体强化学习、深度分层强化学习和深度元学习。
內容簡介:
近年来,深度强化学习成为关注的热点。在自动驾驶、棋牌游戏、分子重排和机器人等领域,计算机程序能够通过强化学习,理解以前被视为超级困难的问题,取得了令人瞩目的成果。在围棋比赛中,AlphaGo接连战胜樊麾、李世石和柯洁等人类冠军。深度强化学习从生物学和心理学领域的研究中受到启发。生物学激发了人工神经网络和深度学习的出现,而心理学研究人和动物如何学习,如何通过正负刺激来强化目标行为。了解了强化学习如何指导机器人行走时,我们不禁联想到儿童如何在玩中学习。动物行为和大脑结构可作为新的科学和工程蓝图。计算机似乎真正具备了人类的某些行为特征,深度强化学习技术成为实现AI梦想的核心。
  教育界也十分重视深度强化学习的研究进展。许多大学开设了深度强化学习课程。本书恰到好处地介绍了深度强化学习领域的技术细节,可作为AI研究生课程的教材。本书讲解全面,涵盖深度Q-learning的基本算法,乃至多智能体强化学习和元学习等高级主题。
關於作者:
Aske Plaat是荷兰莱顿大学的数据科学教授,兼任莱顿高级计算机科学研究所(LIACS)主任。Aske是莱顿数据科学中心(LCDS)的联合创始人,发起了跨学科研究项目“社会、人工智能与生命科学”(SAILS)。Aske的研究领域包括强化学习、可扩展的组合推理算法、游戏和自学习系统。
目錄
第1章 简介 1
1.1 什么是深度强化学习 1
1.1.1 深度学习 2
1.1.2 强化学习 2
1.1.3 深度强化学习 3
1.1.4 应用 3
1.1.5 四个相关领域 6
1.2 三种机器学习范式 10
1.2.1 监督学习 12
1.2.2 无监督学习 13
1.2.3 强化学习 14
1.3 本书概述 15
1.3.1 预备知识 16
1.3.2 本书结构 17
第2章 表格值为基础的强化学习 21
2.1 序贯决策问题 22
2.1.1 网格世界 23
2.1.2 迷宫和盒子谜题 23
2.2 基于表格值的智能体 24
2.2.1 智能体和环境 25
2.2.2 马尔可夫决策过程 25
2.2.3 MDP目标 31
2.2.4 MDP问题的解决方法 35
2.3 经典的Gym环境 50
2.3.1 Mountain car和Cartpole 50
2.3.2 路径规划与棋盘游戏 51
2.4 本章小结 51
2.5 扩展阅读 53
2.6 练习 53
2.6.1 复习题 53
2.6.2 练习题 54
第3章 基于值的深度强化学习 57
3.1 大规模、高维度问题 60
3.1.1 Atari街机游戏 60
3.1.2 实时战略游戏和视频游戏 62
3.2 深度值函数智能体 62
3.2.1 利用深度学习对大规模问题进行泛化 62
3.2.2 三个挑战 65
3.2.3 稳定的基于值的深度学习 67
3.2.4 提升探索能力 72
3.3 Atari 2600环境 75
3.3.1 网络结构 76
3.3.2 评估Atari游戏表现 76
3.4 本章小结 77
3.5 扩展阅读 78
3.6 习题 78
3.6.1 复习题 78
3.6.2 练习题 79
第4章 基于策略的强化学习 81
4.1 连续问题 82
4.1.1 连续策略 82
4.1.2 随机策略 83
4.1.3 环境:Gym和MuJoCo 83
4.2 基于策略的智能体 86
4.2.1 基于策略的算法:
REINFORCE 86
4.2.2 基于策略的方法中的偏差-方差权衡 89
4.2.3 演员-评论家“自举”方法 90
4.2.4 基线减法与优势函数 92
4.2.5 信任域优化 95
4.2.6 熵和探索 96
4.2.7 确定性策略梯度 98
4.2.8 实际操作:MuJoCo中的PPO和DDPG示例 100
4.3 运动与视觉-运动环境 101
4.3.1 机器人运动 102
4.3.2 视觉-运动交互 103
4.3.3 基准测试 104
4.4 本章小结 105
4.5 扩展阅读 105
4.6 习题 106
4.6.1 复习题 106
4.6.2 练习题 107
第5章 基于模型的强化学习 109
5.1 高维问题的动态模型 111
5.2 学习与规划智能体 112
5.2.1 学习模型 117
5.2.2 使用模型进行规划 121
5.3 高维度环境 126
5.3.1 基于模型的实验概览 126
5.3.2 小型导航任务 127
5.3.3 机器人应用 127
5.3.4 Atari游戏应用 128
5.3.5 实际操作:PlaNet示例 129
5.4 本章小结 130
5.5 扩展阅读 132
5.6 习题 132
5.6.1 复习题 132
5.6.2 练习题 133
第6章 双智能体自对弈 135
6.1 双智能体的“零和问题” 138
6.1.1 困难的围棋游戏 140
6.1.2 AlphaGo的成就 142
6.2 空白板自我对弈智能体 144
6.2.1 棋步级别的自我对弈 147
6.2.2 示例级别的自我对弈 157
6.2.3 锦标赛级别的自我对弈 159
6.3 自我对弈环境 162
6.3.1 如何设计世界级围棋程序 163
6.3.2 AlphaGo Zero的性能表现 164
6.3.3 AlphaZero 166
6.3.4 自我对弈开放框架 167
6.3.5 在PolyGames中实例化Hex游戏 168
6.4 本章小结 170
6.5 扩展阅读 171
6.6 习题 172
6.6.1 复习题 172
6.6.2 练习题 173
第7章 多智能体强化学习 175
7.1 多智能体问题 177
7.1.1 竞争行为 179
7.1.2 合作行为 179
7.1.3 混合行为 181
7.1.4 挑战 183
7.2 多智能体强化学习智能体 184
7.2.1 竞争性行为 185
7.2.2 合作行为 187
7.2.3 混合行为 190
7.3 多智能体环境 194
7.3.1 竞争行为:扑克 195
7.3.2 合作行为:捉迷藏 196
7.3.3 混合行为:夺旗比赛和星际争霸 198
7.3.4 实际操作:体育馆中的捉迷藏示例 200
7.4 本章小结 201
7.5 扩展阅读 202
7.6 习题 203
7.6.1 复习题 203
7.6.2 练习题 204
第8章 分层强化学习 205
8.1 问题结构的粒度 206
8.1.1 优点 207
8.1.2 缺点 207
8.2 智能体的分而治之 208
8.2.1 选项框架 208
8.2.2 寻找子目标 209
8.2.3 分层算法概述 210
8.3 分层环境 214
8.3.1 四个房间和机器人任务 214
8.3.2 蒙特祖玛的复仇 215
8.3.3 多智能体环境 217
8.3.4 实际操作示例:分层演员-评论家 217
8.4 本章小结 219
8.5 扩展阅读 220
8.6 习题 220
8.6.1 复习题 220
8.6.2 练习题 221
第9章 元学习 223
9.1 学会与学习相关的问题 225
9.2 迁移学习与元学习智能体 226
9.2.1 迁移学习 227
9.2.2 元学习 231
9.3 元学习环境 238
9.3.1 图像处理 239
9.3.2 自然语言处理 240
9.3.3 元数据集 240
9.3.4 元世界 241
9.3.5 Alchemy 242
9.3.6 实际操作:Meta-World示例 242
9.4 本章小结 244
9.5 扩展阅读 244
9.6 习题 245
9.6.1 复习题 245
9.6.2 练习题 245
第10章 未来发展 247
10.1 深度强化学习的发展 247
10.1.1 表格方法 247
10.1.2 无模型深度学习 248
10.1.3 多智能体方法 248
10.1.4 强化学习的演化历程 249
10.2 主要挑战 249
10.2.1 潜在模型 250
10.2.2 自我对弈 250
10.2.3 分层强化学习 251
10.2.4 迁移学习和元学习 251
10.2.5 种群化方法 252
10.2.6 探索与内在动机 252
10.2.7 可解释的人工智能 253
10.2.8 泛化 253
10.3 人工智能的未来 254
—以下内容可扫描封底二维码下载—
附录A 数学背景知识 255
附录B 深度监督学习 269
附录C 深度强化学习套件 299
参考文献 303
內容試閱
近期,深度强化学习引起了广泛关注。人们在各个领域中取得了惊人成果,如自动驾驶、电子竞技、分子重组和机器人技术。在所有这些领域,电脑程序已经学会了解决困难的问题。它们学会了驾驶模型直升机,还可以完成像循环和翻滚这样的特技动作。在某些应用中,它们甚至比人类最优秀的操作者表现得更好,例如,在Atari游戏、围棋、扑克和星际争霸中。
深度强化学习探索复杂环境的方式,有点像小孩子玩耍时尝试不同的事情,得到反馈后再试一次。计算机好像真的具有一些人类学习的能力;深度强化学习触及人类的梦想。
研究领域的成功引起了教育者的关注,各个大学相继开始推出相关课程。本书的目标是全面介绍深度强化学习这个领域。它是为人工智能专业的研究生,以及想要更好地了解深度强化学习方法和挑战的研究人员和从业者编写的。我们假设读者具备计算机科学和人工智能方面的本科水平,并对这些内容有基本的了解;本书使用的编程语言是Python。
我们将描述深度强化学习的基础、算法和应用。本书将涵盖构成该领域基础的已建立的无模型和有模型方法。由于该技术发展迅速,本书还将涵盖更高级的主题:深度多智能体强化学习、深度分层强化学习和深度元学习。
希望本书会给你带来与许多研究人员一样的喜悦,他们在开发算法、最终让它们运行起来的过程中感受到了无比的快乐!
关于Links文件
阅读本书时,你会不时遇到参考资源链接,形式是[link*],其中的*代表编号,你可扫封底二维码下载Links文件。例如,在阅读第1章正文期间,看到[link 3]时,可从Links文件中“第1章”下面的[link3]处找到具体链接。
关于彩图
在阅读本书正文时,提及的彩图可扫描封底二维码下载。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.