新書推薦:
《
生活来来往往 别等来日方长 新版(伍佰:“讲好了这一辈子,再度重相逢。”别等,别遗憾!珍惜当下才是最好的解药)
》
售價:HK$
58.2
《
一个英国军事顾问眼中的二战
》
售價:HK$
277.8
《
就业、利息和货币通论(徐毓枬译本)(经济学名著译丛)
》
售價:HK$
67.2
《
瘦肝
》
售價:HK$
99.7
《
股票大作手回忆录
》
售價:HK$
55.8
《
秩序四千年:人类如何运用法律缔造文明(世界重归混乱,文明岌岌可危,法律与秩序是我们仅有的武器。穿越时间,鸟瞰全球,一部波澜壮阔的人类文明史)
》
售價:HK$
154.6
《
民法典1000问
》
售價:HK$
99.7
《
国术健身 易筋经
》
售價:HK$
33.4
|
編輯推薦: |
分布式人工智能作为解决复杂学习和决策的方法,在处理大规模计算问题上有独特的优势,并在社会实践中应用广泛,像电子商务、交易行为、游戏、安防、机制选择等,背后均离不开它的支持。
《分布式人工智能》集结业界一流学者专家的研究经验智慧,全面阐述分布式人工智能领域的各层次问题,使读者能对本领域有系统的认识,并阐述了前沿的话题,帮助读者深入理解分布式人工智能的未来趋势。
《分布式人工智能》目前国内本领域V一的著作,既可作为相关从业者的案头参考,也可作为入门者起步的学习手册。
|
內容簡介: |
全书可分为五大部分,阐述了分布式人工智能的基础知识以及相关进展,包括分布式人工智能简介、分布式规划与优化、多智能体博弈、多智能体学习和分布式人工智能应用。除此之外,由于本领域尚处于蓬勃发展阶段,相关技术与应用层出不穷,因此书中还提供了研究者对于分布式人工智能发展的相关预测,主要集中在:第一,更复杂和更大规模的分布式人工智能问题的研究和解决;第二,分布式人工智能的安全性,鲁棒性和泛化性,这将极大地促进人们对于分布式人工智能问题的理解;第三,分布式人工智能的可解释性,这将使得人类能够理解算法的决策,为分布式人工智能的落地减少障碍。 本书适合相关领域的从业者学习,也适合作为本领域研究者的案头参考。
|
關於作者: |
安波是南洋理工大学校长委员会讲席副教授和南洋理工大学人工智能研究院联席院长。主要研究领域包括人工智能、多智能体系统、算法博弈论、强化学习、及优化。有100余篇论文发表在国际顶级会议AAMAS、IJCAI、AAAI、KDD、UAI、EC、WWW、ICLR、NeurIPS、ICML以及著名学术期刊JAAMAS和AIJ。曾获IFAAMAS杰出博士论文奖、 美国海岸警卫队的卓越运营奖、AAMAS最佳应用论文奖、IAAI创新应用论文奖,DAI最佳论文奖,INFORMS Daniel H. Wagner杰出运筹学应用奖,以及南洋青年研究奖等荣誉。受邀在IJCAI‘17上做Early Career Spotlight talk。 获得2017年微软合作AI挑战赛的冠军。入选2018年IEEE Intelligent Systems\AI‘s 10 to Watch”。他是AIJ, JAAMAS, IEEE Intelligent Systems, JAIR, ACM TIST的Associate Editor。他是AAMAS‘20的程序委员会主席。当选国际智能体及多智能体系统协会理事会成员及AAAI 高级会员。
|
目錄:
|
第一部分分布式人工智能简介
1 概述
(安波,新加坡南洋理工大学)
1.1 研究背景3
1.1.1 前深度学习时代 3
1.1.2 深度学习时代6
1.2 主要研究领域8
1.2.1 算法博弈论8
1.2.2 分布式问题求解9
1.2.3 多智能体规划10
1.2.4 多智能体学习 11
1.2.5 分布式机器学习 12
1.3 相关应用14
1.3.1 足球14
1.3.2 安全博弈15
1.3.3 扑克和麻将 16
1.3.4 视频游戏 17
1.4 当前热点与挑战18
1.4.1 超大规模分布式人工智能系统 18
1.4.2 分布式人工智能系统的鲁棒性和安全性 19
1.4.3 分布式人工智能决策的可解释性 19
1.4.4 将传统和深度学习的方法结合 20
参考文献
第二部分分布式规划与优化
2 分布式规划
(吴锋,中国科技大学)
2.1 研究背景 9
2.2 分布式规划的决策模型31
2.3 分布式规划的离线算法36
2.3.1 离线精确规划算法37
2.3.2 离线近似规划算法 39
2.4 分布式规划的在线算法46
2.4.1 在线协调机制 46
2.4.2 在线通信策略 48
2.5 当前热点与挑战 52
参考文献 54
3 分布式约束优化
(陈自郁,重庆大学)
3.1 研究背景58
3.2 分布式约束优化问题59
3.2.1 约束网络59
3.2.2 基础概念 60
3.3 求解算法分类63
3.4 完备求解算法65
3.4.1 基于搜索的完备求解算法:ADOPT 65
3.4.2 基于推理的完备求解算法:DPOP 69
3.5 非完备求解算法72
3.5.1 基于决策的局部搜索算法72
3.5.2 基于信念传播的推理算法:Max-sum 75
3.6 基准测试问题和典型应用 80
3.6.1 基准测试问题和评价指标 80
3.6.2 典型应用 82
3.7 当前热点与挑战85
参考文献 86
第三部分多智能体博弈
4 纳什均衡求解
(邓小铁,北京大学;刘正阳,北京理工大学)
4.1 研究背景 93
4.2 正规形式博弈94
4.3 纳什均衡与纳什定理95
4.4 二人博弈纳什均衡求解算法97
4.4.1 二人博弈的表示形式 98
4.4.2 支持枚举算法 98
4.4.3 Lemke-Howson 算法 99
4.4.4 Lipton-Markakis-Mehta 算法103
4.4.5 三种算法的总结与对比106
4.5 纳什均衡的计算复杂性106
4.6 当前热点与挑战108
参考文献 110
5 机制设计
(沈蔚然,中国人民大学;唐平中,清华大学)
5.1 研究背景112
5.2 什么是机制 113
5.2.1 社会选择函数 113
5.2.2 机制的实现与显示原理113
5.3 拍卖机制设计 118
5.3.1 性质与设计目标 119
5.3.2 社会福利最大化机制:VCG 机制 121
5.3.3 收益最大化机制:最优拍卖 123
5.4 付费搜索拍卖128
5.5 当前热点与挑战130
参考文献131
6 合作博弈与社会选择
(王崇骏,南京大学)
6.1 研究背景133
6.2 合作博弈论135
6.2.1 合作博弈论的提出 135
6.2.2 合作博弈的一般表示 136
6.2.3 合作博弈的解 138
6.3 核与稳定集 139
6.3.1 核的提出139
6.3.2 核的计算方式 140
6.3.3 稳定集 141
6.4 核仁143
6.4.1 核仁的提出 143
6.4.2 核仁的计算方式 144
6.4.3 计算实例 145
6.5 Shapley 值150
6.5.1 Shapley 值的提出 150
6.5.2 Shapley 值的计算方式 151
6.5.3 计算实例 152
6.6 社会选择153
6.6.1 社会选择理论的提出 155
6.6.2 阿罗不可能性定理156
6.6.3 森的帕累托自由不可能定理 158
6.7 应用场景 161
6.7.1 合作博弈应用场景 161
6.7.2 社会选择应用场景 163
6.8 当前热点与挑战164
6.8.1 合作博弈研究趋势165
6.8.2 社会选择研究趋势 167
参考文献170
7 博弈学习
(高阳、孟林建、葛振兴,南京大学)
7.1 不完美信息扩展式博弈177
7.2 均衡计算179
7.2.1 纳什均衡 179
7.2.2 纳什均衡的计算 181
7.2.3 线性规划求解 182
7.2.4 遗憾最小化算法182
7.2.5 虚拟遗憾最小化算法 185
7.2.6 基于深度学习的方法 190
7.3 对手利用191
7.3.1 对手建模 192
7.3.2 对手利用的安全性 197
7.4 小结199
参考文献200
第四部分多智能体学习
8 单智能体强化学习
(章宗长、俞扬,南京大学)
8.1 研究背景207
8.2 强化学习的基本设定208
8.2.1 强化学习模型 208
8.2.2 马尔可夫决策过程 210
8.3 动态规划212
8.3.1 值迭代 213
8.3.2 策略迭代 214
8.4 表格式的强化学习215
8.4.1 免模型的学习 215
8.4.2 基于模型的学习217
8.5 深度强化学习219
8.5.1 基于值函数的深度强化学习 220
8.5.2 基于策略梯度的深度强化学习 227
8.5.3 基于行动者-评论家的深度强化学习 230
8.6 基准测试平台与实际应用234
8.6.1 基准测试平台 234
8.6.2 实际应用 237
8.7 当前热点与挑战238
8.8 小结 242
参考文献243
9 基于模型的强化学习
(张伟楠,上海交通大学;汪军,伦敦大学学院)
9.1 Dyna:基于模型的强化学习经典方法 249
9.2 打靶法250
9.3 基于模型的策略优化方法253
9.4 基于模型的方法:从单智能体到多智能体255
9.4.1 自适应对手智能体推演策略优化算法(AORPO) 256
9.4.2 其他多智能体强化学习的基于模型的方法258
9.5 小结260
参考文献262
10 多智能体合作学习
(张崇洁,清华大学)
10.1 研究背景263
10.2 合作学习问题描述265
10.3 基于值函数的合作多智能体强化学习算法265
10.3.1 值分解学习框架 266
10.3.2 线性值分解 268
10.3.3 单调值分解 269
10.3.4 IGM 完备值分解 270
10.4 基于策略的合作学习算法272
10.4.1 反事实策略梯度 272
10.4.2 多智能体深度确定性策略梯度 275
10.4.3 可分解的离策略多智能体策略梯度 277
10.5 基准测试集280
10.5.1 多智能体小球环境MPE 280
10.5.2 星际争霸Ⅱ 多智能体挑战SMAC 280
10.5.3 谷歌足球 281
10.5.4 多智能体合作测试集MACO 282
10.6 当前热点与挑战282
10.6.1 探索282
10.6.2 学习交流 283
10.6.3 共享学习 285
10.6.4 分层多智能体强化学习 286
10.6.5 离线多智能体强化学习 287
10.6.6 基于模型的多智能体合作学习 287
10.6.7 多智能体合作学习的理论分析 288
10.7 小结289
参考文献290
11 多智能体竞争学习
(郝建业、郑岩,天津大学)
11.1 研究背景298
11.2 竞争式问题描述 299
11.3 基于对手建模的竞争学习算法300
11.3.1 隐式的对手建模方法 300
11.3.2 显式的对手建模方法 309
11.4 基于群体自博弈的竞争学习算法315
11.4.1 自博弈机制 315
11.4.2 联盟训练 318
11.5 实际应用319
11.6 小结321
参考文献322
第五部分 分布式人工智能应用
12 安全博弈
(安波,新加波南洋理工大学;甘家瑞,牛津大学)
12.1 研究背景327
12.2 安全博弈模型与均衡329
12.2.1 Stackelberg 均衡 330
12.2.2 均衡求解333
12.2.3 Stackelberg 安全博弈模型及求解 334
12.2.4 安全博弈实例 337
12.3 复杂环境下的安全博弈 339
12.3.1 信息不完全与不确定性 339
12.3.2 复杂策略空间的处理 343
12.3.3 动态安全博弈 346
12.4 实际应用与成功案例349
12.4.1 重要基础设施保护 349
12.4.2 交通系统安保调度 351
12.4.3 打击环境资源犯罪与城市犯罪353
12.4.4 打击犯罪网络 354
12.4.5 其他应用354
12.5 当前热点与挑战354
12.5.1 研究热点 355
12.5.2 未来研究方向 357
12.5.3 未来应用领域 359
参考文献360
13 社交网络中的机制设计
(赵登吉,上海科技大学)
13.1 研究背景367
13.2 传播网络与传播机制369
13.3 VCG 在网络上的扩展373
13.3.1 具有传播激励的VCG 拍卖 373
13.3.2 传播拍卖的不可能性定理 374
13.4 基于关键传播路径的拍卖机制375
13.4.1 关键传播序列 375
13.4.2 信息传播机制 376
13.4.3 关键传播机制 378
13.4.4 阈值邻接机制 380
13.5 当前热点与挑战 381
参考文献382
|
內容試閱:
|
前言
分布式人工智能初创于20 世纪70 年代,是一个快速发展的研究领域。在
过去的二十年内,它从分布式规划和优化到智能体之间的竞争和合作学习,以及
在现实世界中的应用,都取得了令人欣喜的进展。有很多优秀的学者在从事这个
领域的研究,AAMAS 会议1 也成为人工智能领域的顶级会议。
这二十年的发展可大致分为两个阶段,其中前十年研究者主要关注的是分
布式规划和优化,以及拍卖和博弈均衡的求解;而后十年,随着深度学习的兴
起,分布式人工智能转向智能体的学习方面,其中包括单智能体和多智能体的
强化学习,以及基于模型的强化学习。其中最为人们所熟知的进展是2016 年
DeepMind 的研究者开发出的AlphaGo 程序击败了人类棋手,2017 年卡耐基梅
隆大学的Tuomas Sandholm 教授团队开发的Libratus 在二人无限下注的德州
扑克上打败人类职业玩家,以及2019 年(仍旧是)DeepMind 的研究者开发出
的AlphaStar 在星际争霸II 游戏中打败职业人类玩家。这一类复杂问题的成功
解决,鼓舞着分布式人工智能领域的研究者,也使得该领域的研究获得了长足
的进展。我们相信一本能够涵盖该领域相关重要进展的书籍将会对研究者大有
裨益。
在本书中,我们从五个方面介绍分布式人工智能的基础知识以及相关进展,
分别是:第一部分,分布式人工智能简介,其中包含第1 章概述,该部分重点
回顾了分布式人工智能的发展历程,并对现存的研究挑战和研究热点做了总览;
第二部分,分布式规划与优化,其中包含第2 章分布式规划和第3 章分布式约
束优化,该部分主要阐述利用经典方法如混合整数线性规划和搜索方法进行的
分布式规划和优化;第三部分,多智能体博弈,其中包含第4 章纳什均衡求解、
第5 章机制设计、第6 章合作博弈与社会选择,以及第7 章博弈学习,该部分
针对多智能体之间的竞争,涵盖了包括传统优化和学习方法在内的均衡求解和
机制设计;第四部分,多智能体学习,其中包含第8 章单智能体强化学习、第9
章基于模型的强化学习、第10 章多智能体合作学习、第11 章多智能体竞争学
习,该部分主要关注单智能体和多智能体之间的强化学习,尤其是深度强化学习
方法;最后是第五部分,分布式人工智能应用,其中包含第12 章安全博弈和第
13 章社交网络中的机制设计。
分布式人工智能领域仍然处在蓬勃发展中,相关的技术和应用层出不穷。我
们在书中也提供了研究者对于分布式人工智能发展的相关预测,集中在:第一,
更复杂和更大规模的分布式人工智能问题的研究和解决;第二,分布式人工智能
的安全性、鲁棒性和泛化性,这将极大地促进人们对于分布式人工智能问题的理
解;第三,分布式人工智能的可解释性,这将使得人类能够理解算法的决策,为
分布式人工智能的落地减少障碍。
在选择书中内容的时候,我们尽可能涵盖分布式人工智能的各个方面,并得
到了相关领域研究者的大力协助。我们希望在为初学者提供一个全面的领域介
绍的同时,也能为研究者提供一本可供查阅的工具书。
我们感谢所有章节作者的付出以及电子工业出版社刘皎老师为本书出版所
做的努力!
|
|