登入帳戶  | 訂單查詢  | 購物車/收銀台( 1 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『簡體書』用Python动手学强化学习(全彩印刷)

書城自編碼: 3653056
分類:簡體書→大陸圖書→計算機/網絡人工智能
作者: [日]久保隆宏
國際書號(ISBN): 9787115564221
出版社: 人民邮电出版社
出版日期: 2021-07-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 112.3

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
示人以真:健康组织这样开展业务
《 示人以真:健康组织这样开展业务 》

售價:HK$ 82.8
格林童话:1812/1815初版合集(权威全译本)
《 格林童话:1812/1815初版合集(权威全译本) 》

售價:HK$ 117.6
思想会·军力:现代战争的胜败解释
《 思想会·军力:现代战争的胜败解释 》

售價:HK$ 117.6
边界之外:海外社会研究(第一辑)
《 边界之外:海外社会研究(第一辑) 》

售價:HK$ 82.8
好销售,不违心:在你的舒适区内拿订单
《 好销售,不违心:在你的舒适区内拿订单 》

售價:HK$ 70.8
阿富汗史:骑驰在风暴中的国度
《 阿富汗史:骑驰在风暴中的国度 》

售價:HK$ 117.6
背影2
《 背影2 》

售價:HK$ 82.8
她的罪名
《 她的罪名 》

售價:HK$ 59.8

 

建議一齊購買:

+

HK$ 197.5
《 解剖深度学习原理:从0编写深度学习库 》
+

HK$ 99.8
《 图解机器学习算法(全彩印刷) 》
+

HK$ 111.3
《 深度学习架构与实践 》
+

HK$ 185.0
《 深度学习实战 》
+

HK$ 161.3
《 深度强化学习:基础、研究与应用 》
編輯推薦:
1.从基础到应用,一本书快速入门强化学习
2.基于Python实现强化学习,直观理解运作过程
3.内容丰富,涵盖强化学习基本概念、算法详解、前沿应用、弱点及对策
4.132张图表与大量示例,全彩印刷图文并茂提供良好阅读体验
5.附免费下载源代码为读者提供亲身实践机会
內容簡介:
强化学习是机器学习的重要分支之一。《用Python动手学强化学习》结合实际可运行的Python代码,通过简明的文字、丰富的插图和示例,通俗易懂地介绍了从基础概念到前沿应用等方方面面的内容,包括根据环境和经验制订计划的学习方法、强化学习与神经网络的组合,以及强化学习的弱点和克服方法。读者通过下载书中代码并亲自动手运行,可以快速入门强化学习并进行实践。
關於作者:
[日]久保隆宏(作者) 任职于日本大型系统集成商TIS,具有丰富的机器学习研究和开发经验。论文共享网站站arXivTimes运营者,积极致力于技术普及,著有《TensorFlow应用指南》(合著)。 梁垿(译者) 硕士毕业于日本早稻田大学,研究方向为机器学习。目前在日本大型系统集成商TIS任自然语言处理工程师。热爱长跑与读书,喜欢科幻、蒸汽朋克、克苏鲁等题材的作品。 程引(译者) 工学博士学位,毕业于上海交通大学。目前在日本BizReach公司(Visional Group)AI部门任算法工程师。业务方向为推荐系统与自然语言处理,研究兴趣包括强化学习与自动控制。
目錄
第 1章 了解强化学习 1
1.1 强化学习与各关键词之间的关系 1
1.2 强化学习的优点和弱点 8
1.3 强化学习的问题设定:马尔可夫决策过程 9

第 2章 强化学习的解法(1):根据环境制订计划 21
2.1 价值的定义和计算:贝尔曼方程 22
2.2 基于动态规划法的价值近似的学习:价值迭代 28
2.3 基于动态规划法的策略的学习:策略迭代 32
2.4 基于模型的方法和无模型的方法的区别 36

第3章 强化学习的解法(2):根据经验制订计划 39
3.1 平衡经验的积累与利用:Epsilon-Greedy 算法 41
3.2 是根据实际奖励还是预测来修正计划:蒙特卡洛方法和时序差分学习 46
3.3 用经验来更新价值近似还是策略:基于价值和基于策略 62

第4章 使用面向强化学习的神经网络 73
4.1 将神经网络应用于强化学习 74
4.2 通过含有参数的函数实现价值近似:价值函数近似 100
4.3 将深度学习应用于价值近似:DQN 109
4.4 通过含有参数的函数实现策略:策略梯度 121
4.5 将深度学习应用于策略:A2C 133
4.6 是价值近似还是策略呢 153

第5章 强化学习的弱点 157
5.1 获取样本的效率低 157
5.2 容易陷入局部行动和过拟合160
5.3 复现性差 163
5.4 以弱点为前提的对策 164

第6章 克服强化学习弱点的方法 169
6.1 应对采样效率低的方法:与基于模型的方法一起使用、表征学习 170
6.2 改善复现性的方法:进化策略 198
6.3 应对局部行动和过拟合的方法:模仿学习和逆强化学习 206

第7章 强化学习的应用领域 237
7.1 行动的化 239
7.2 学习的化 248
参考文献 252

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.