登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書

『簡體書』深度强化学习

書城自編碼: 4013592
分類:簡體書→大陸圖書→計算機/網絡人工智能
作者: [印度]莫希特·塞瓦克[Mohit Sewak]著,尹大伟,
國際書號(ISBN): 9787118131796
出版社: 国防工业出版社
出版日期: 2024-06-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 102.4

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
漫谈数字化转型从底层逻辑到实践应用
《 漫谈数字化转型从底层逻辑到实践应用 》

售價:HK$ 78.2
谢谢你来到我的生命:狗狗带给我们的治愈与改变
《 谢谢你来到我的生命:狗狗带给我们的治愈与改变 》

售價:HK$ 51.8
情感觉醒:揭秘亲密关系背后的真相
《 情感觉醒:揭秘亲密关系背后的真相 》

售價:HK$ 68.8
诸葛亮
《 诸葛亮 》

售價:HK$ 79.4
解密:梦的诞生
《 解密:梦的诞生 》

售價:HK$ 193.2
课长,这不是恋爱,这就是性骚扰!
《 课长,这不是恋爱,这就是性骚扰! 》

售價:HK$ 45.9
人文与社会译丛:我们中的我(承认理论研究)
《 人文与社会译丛:我们中的我(承认理论研究) 》

售價:HK$ 79.4
(守望者·人间世)自我:与齐格蒙特·鲍曼对谈
《 (守望者·人间世)自我:与齐格蒙特·鲍曼对谈 》

售價:HK$ 82.8

 

內容簡介:
本书从强化学习的基础入手,以非常直观易懂的例子和实际应用来解释其中的每个概念,接着介绍一些前沿的研究及进展,这些进展使得强化学习可以超过其他(人工)智能系统。本书的目的不仅在于为读者阐释多种前沿强化学习算法背后的数学原理,而且也希望读者们能在各自的应用领域中实际运用这些算法及类似的先进深度强化学习智能体。
本书从强化学习的基本模块开始,涵盖了流行的经典动态规划方法和经典强化学习方法,如价值迭代和策略迭代;同时也包括一些传统的强化学习算法,如时序差分学习、SARSA和Q学习。在此基础之上,本书介绍了适用于现代强化学习环境和智能体的深度学习和辅助工具。本书继而开始深入研究深度强化学习的概念,并介绍相应的算法,如深度Q网络、双DQN、竞争DQN、(深度)同步演员-评论家,(深度)异步优势演员-评论家和深度确定性策略梯度。在每一个介绍这些概念的理论/数学原理的章节之后都附有可用于这些智能体实现的代码。
目錄
第1章 强化学习简介:AI智能体背后的智能
1.1 什么是人工智能,强化学习与它有什么关系
1.2 理解强化学习的基本设计
1.3 强化学习中的奖励和确定一个合适的奖励函数所涉及的问题
1.4 强化学习的状态
1.5 强化学习中的智能体
1.6 小结
第2章 强化学习的数学和算法理解:马尔可夫决策过程与解决方法
2.1 马尔可夫决策过程
2.2 贝尔曼方程
2.3 动态规划和贝尔曼方程
2.4 价值迭代和策略迭代方法
2.5 小结
第3章 编码环境和马尔可夫决策过程的求解:编码环境、价值迭代和策略迭代算法
3.1 以网格世界问题为例
3.2 构建环境
3.3 平台要求和代码的工程架构
3.4 创建网格世界环境的代码
3.5 基于价值迭代方法求解网格世界的代码
3.6 基于策略迭代方法求解网格世界的代码
3.7 小结
第4章 时序差分学习、SARSA和Q学习:几种常用的基于值逼近的强化学习方法
4.1 经典DP的挑战
4.2 基于模型和无模型的方法
4.3 时序差分(TD)学习
4.4 SARSA
4.5 Q学习
4.6 决定“探索”和“利用”之间概率的算法(赌博机算法)
4.7 小结
第5章 Q学习编程:Q学习智能体和行为策略编程
5.1 工程结构与依赖项
5.2 代码
5.3 训练统计图
第6章 深度学习简介
6.1 人工神经元——深度学习的基石
6.2 前馈深度神经网络(DNN)
6.3 深度学习中的架构注意事项
6.4 卷积神经网络——用于视觉深度学习
6.5 小结
第7章 可运用的资源:训练环境和智能体实现库
7.1 你并不孤单
7.2 标准化的训练环境和平台
7.3 Agent开发与实现库
第8章 深度Q网络、双DQN和竞争DQN
8.1 通用人工智能
8.2 Google“Deep Mind”和“AlphaGo”简介
8.3 DQN算法
8.4 双DQN算法
8.5 竞争DQN算法
8.6 小结
第9章 双DQN的代码:用£衰减行为策略编码双DQN
9.1 项目结构和依赖关系
9.2 双DQN智能体的代码(文件:DoubleDQN.py)
9.3 训练统计图
第10章 基于策略的强化学习方法:随机策略梯度与REINFORCE算法
10.1 基于策略的方法和策略近似介绍
10.2 基于价值的方法和基于策略的方法的广义区别
10.3 计算策略梯度的问题
10.4 REINFORCE算法
10.5 REINFORCE算法中减少方差的方法
10.6 为REINFORCE算法选择基线
10.7 小结
第11章 演员-评论家模型和A3C:异步优势演员-评论家模型
11.1 演员-评论家方法简介
11.2 演员-评论家方法的概念设计
11.3 演员-评论家实现的架构
11.4 异步优势行动者-评论家实现(A3C)
11.5 (同步)优势演员-评论家实现(A2C)
11.6 小结
第12章 A3C的代码:编写异步优势演员-评论家代码
12.1 项目结构和依赖关系
12.2 代码(A3C_Master—File:a3c_master.py)
12.3 训练统计图
第13章 确定性策略梯度和DDPG:基于确定性策略梯度的方法
13.1 确定性策略梯度(DPG)
13.2 深度确定性策略梯度(DDPG)
13.3 小结
第14章 DDPG的代码:使用高级封装的库编写DDPG的代码
14.1 用于强化学习的高级封装的库
14.2 Mountain Car Continuous(Gym)环境
14.3 项目结构和依赖关系
14.4 代码(文件:ddpg_continout_action.py)
14.5 智能体使用“MountainCarContinous-v0”环境
参考文献

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.