新書推薦:
《
EDA技术与设计(第2版)
》
售價:HK$
87.3
《
揉碎浪漫(全两册)
》
售價:HK$
72.2
《
古籍善本
》
售價:HK$
552.0
《
人民币国际化报告2024:可持续全球供应链体系与国际货币金融变革
》
售價:HK$
89.7
《
道德经新注 81幅作者亲绘哲理中国画,图文解读道德经
》
售價:HK$
147.2
《
清俗纪闻
》
售價:HK$
101.2
《
镜中的星期天
》
售價:HK$
76.2
《
世界前沿技术发展报告2024
》
售價:HK$
193.2
|
編輯推薦: |
入选清华大学本科优秀教材建设项目;深入浅出,涵盖面广,应用案例丰富,注重理论联系实际,体例新颖,教辅齐全。
|
內容簡介: |
本套教材包括主教材《机器学习-工业大数据分析》,一套多媒体课件,一个工业大数据集,一套完整代码集。由授课教师在进行教学实践的基础上,适应当前国内教学改革的需要,结合清华大学《机器学习与大数据》的教学经验编写而成。本书以机器学习理论方法和工业大数据实践为两条并行主线贯穿整个课程。以经典机器学习、深度学习以及强化学习部分为理论主体,重点介绍方法原理、公式推导、算法设计和分析;以生产系统、交通系统、能源系统、电信系统、医疗系统为主体实践领域,重点介绍大数据与机器学习方法的联合应用以及评估。全书共分2篇,分别讲述机器学习原理、方法以及在工业大数据领域的应用。 本套教材可作为高等院校非计算机类等专业的机器学习课程教材,也可供有关技术人员作为自学用书。
|
關於作者: |
李彦夫,清华大学工业工程系教授,清华大学质量与可靠性研究院副院长。2011-2016年任教于法国巴黎中央理工-高等电力学院。长期致力于系统可靠性、机器学习应用研究,并将其应用于高铁、电信等领域,取得系列原创成果。代表性论文发表在《IEEE Transactions》、《ACM Transactions》等期刊。H-index 24,Elsevier 2019年中国高被引学者。主持国家自科基金重点项目、国家重点研发计划课题等项目。承担华为、商飞、阿尔斯通等企业委托项目,多项成果得到应用获得明显经济效益。
|
目錄:
|
第1章 数学基础 1
1.1 线性代数 1
1.1.1 标量、向量、矩阵和张量 1
1.1.2 线性相关和生成子空间 3
1.1.3 矩阵的特征分解 3
1.1.4 矩阵的奇异值分解 5
1.1.5 范数 6
1.2 概率论和信息论简介 6
1.2.1 概率论 6
1.2.2 信息论 9
1.3 优化算法 13
1.3.1 梯度 13
1.3.2 梯度下降 15
1.3.3 约束优化 17
1.4 信号分析基础 19
1.4.1 信号分析的相关概念 19
1.4.2 信号的分解 23
1.4.3 傅里叶变换 25
1.4.4 小波变换 27
习题 28
第2章 经典机器学习 31
2.1 监督学习 31
2.1.1 线性回归模型 33
2.1.2 逻辑回归算法 38
2.1.3 k近邻法 42
2.1.4 朴素贝叶斯法 43
2.1.5 支持向量机 47
2.1.6 决策树 54
2.2 无监督学习 59
2.2.1 降维 59
2.2.2 聚类 65
习题 72
第3章 深度学习 74
3.1 人工神经网络 74
3.1.1 神经元基础 74
3.1.2 激活函数类型 75
3.1.3 神经网络基础 76
3.1.4 神经网络权值更新 78
3.1.5 其他梯度下降法 82
3.1.6 案例: 神经网络识别数字 84
3.2 卷积神经网络 84
3.2.1 卷积操作 85
3.2.2 卷积层相关概念 86
3.2.3 池化操作 90
3.2.4 平铺及全连接操作 91
3.2.5 卷积神经网络反向传播公式 92
3.2.6 案例:卷积神经网络识别数字 96
3.3 循环神经网络 97
3.3.1 循环神经网络基础 97
3.3.2 循环神经网络传播公式 99
3.3.3 LSTM网络 102
3.3.4 门控循环单元和双向LSTM 104
3.3.5 深度循环神经网络 106
3.3.6 案例:循环神经网络文本预测 106
3.4 生成对抗神经网络 107
3.4.1 对抗神经网络基础 107
3.4.2 对抗神经网络实际操作 110
3.4.3 生成对抗神经网络变体 112
3.4.4 案例:对抗神经网络生成样本 112
3.5 神经网络前沿延伸阅读 114
习题 117
第4章 强化学习 121
4.1 任务与奖励 121
4.2 马尔可夫决策过程 122
4.3 最优策略 128
4.4 免模型学习 129
4.4.1 预备知识:蒙特卡罗方法 129
4.4.2 基于价值的方法 130
4.4.3 基于策略的方法 133
4.5 蒙特卡罗树搜索 135
4.5.1 背景 136
4.5.2 启发式搜索 138
4.5.3 预演算法 139
4.5.4 MCTS算法 140
4.5.5 MCTS示例 143
4.6 深度强化学习 147
4.6.1 深度Q网络 147
4.6.2 近端策略优化 149
4.6.3 延伸阅读:AlphaGo 151
4.6.4 案例:基于深度Q网络的智能小车平衡 153
习题 156
第5章 数据处理相关知识 158
5.1 工业大数据 158
5.1.1 工业大数据背景 158
5.1.2 工业大数据平台 159
5.1.3 工业大数据分析建模方法体系 161
5.1.4 工业大数据平台架构 164
5.1.5 工业大数据分析建模计算框架 166
5.2 数据处理 168
5.2.1 数据清洗 168
5.2.2 数据变换 170
5.2.3 数据降维 172
5.2.4 非平衡数据集的处理 173
5.3 环境配置及代码编程 175
5.3.1 Anaconda平台介绍及环境配置 175
5.3.2 Keras搭建神经网络序贯模型 177
第6章 生产系统相关案例 179
6.1 旋转机械关键部件故障诊断 179
6.1.1 背景介绍 179
6.1.2 案例研究 179
6.1.3 数据预处理 181
6.1.4 齿轮箱振动信号特征参数提取 182
6.1.5 SVM故障分类模型构建 183
6.1.6 结果分析 185
6.1.7 总结 185
6.2 刀具磨损状态评估 185
6.2.1 背景介绍 185
6.2.2 案例研究 186
6.2.3 磨损状态评估模型构建 188
6.2.4 评价指标构建 190
6.2.5 结果分析 191
6.2.6 总结 192
第7章 能源、电信系统相关案例 193
7.1 风力发电机叶片开裂故障诊断 193
7.1.1 背景介绍 193
7.1.2 问题描述 193
7.1.3 数据预处理 194
7.1.4 评价指标 195
7.1.5 故障诊断方法 196
7.1.6 结果分析 197
7.1.7 总结 198
7.2 基于深度强化学习的核电站维修决策 198
7.2.1 背景介绍 198
7.2.2 问题描述 199
7.2.3 仿真环境搭建 200
7.2.4 评价指标 201
7.2.5 PPO算法 202
7.2.6 结果分析 204
7.2.7 总结 204
7.3 5G通信数据下行传输速率预测 205
7.3.1 问题背景 205
7.3.2 数据介绍 205
7.3.3 数据预处理 205
7.3.4 模型构建 206
7.3.5 结果分析 207
7.3.6 总结 207
第8章 交通系统相关案例 208
8.1 高速列车车轮健康状态监测 208
8.1.1 背景介绍 208
8.1.2 数据预处理 208
8.1.3 监测方法 211
8.1.4 结果分析 212
8.1.5 总结 213
8.2 航天装备的结构振动预测 213
8.2.1 背景介绍 213
8.2.2 问题描述 214
8.2.3 数据预处理 214
8.2.4 评价指标 216
8.2.5 振动预测方法 217
8.2.6 结果分析 219
8.2.7 总结 219
8.3 城市公共交通系统的客流预测 221
8.3.1 背景介绍 221
8.3.2 数据描述 222
8.3.3 数据预处理 222
8.3.4 评价指标 224
8.3.5 模型构建 224
8.3.6 结果分析 226
8.3.7 总结 227
第9章 医疗系统相关案例 228
9.1 糖尿病患者的血糖预测 228
9.1.1 背景介绍 228
9.1.2 问题描述 228
9.1.3 数据预处理 230
9.1.4 评价指标 232
9.1.5 血糖预测方法 232
9.1.6 结果分析 234
9.1.7 总结 236
9.2 国内各省份新冠疫情聚类分析 237
9.2.1 背景介绍 237
9.2.2 问题描述 237
9.2.3 数据预处理 238
9.2.4 评价指标 239
9.2.5 多阶段分级聚类框架 239
9.2.6 结果分析 241
9.2.7 总结 243
9.3 某种蛋白质电泳图像的分类 244
9.3.1 背景介绍 244
9.3.2 问题描述 244
9.3.3 数据预处理 245
9.3.4 评价指标 245
9.3.5 模型构建 246
9.3.6 结果分析 247
9.3.7 总结 249
附录 数学符号列表 250
参考文献 252
|
內容試閱:
|
随着工业互联网以及先进传感器相关技术的快速发展,工业大数据已在众多行业成为现实。工业大数据一般指由工业设备高速产生的大量多元化时间序列数据,广泛应用于现代工业系统的管理和优化。以美国通用电气公司为例,其已经将工业大数据应用于风电场优化、采矿优化等领域。对于风电场优化,200多台风机上装载的上万个传感器以40ms为周期收集风电场各种特征数据,风电场的监控软件再以1s的时间间隔处理每台风机的200多个标签,为现场运营团队实现了近乎实时的风机健康状况和性能评估;与此同时,风机数据每隔1min就会被传输到远程监控中心,由数据科学家和工程师团队分析单个风机和整个风电场的运行状况,提前预测可能出现的关键故障。采矿优化主要是利用安装在磨矿控制回路上的大量传感器实现实时数据采集,再通过本地分析来优化每个磨矿回路的性能,从而优化矿厂的产量。尽管数据量和分析节拍与风电场不同,但是其分级处理机制和数据处理流程与风电场类似。
交通运输行业的工业大数据分析和前两个领域不同,其基本资产(例如飞机和货车)都处于运动状态,这些移动资产和数据中心之间的大量数据通信往往只在资产到达目的地时发生,这就要求移动资产在运行过程中具有较高的自主处理能力,能够高可靠地预测潜在的重大事件并实时上传,而数据处理和调度中心必须能准确标记正在下载的潜在异常信息并对其进行实时分析,同时规划好整个网络的运输能力。以上这些案例只是工业大数据应用的缩影,工业大数据正在现代工业发展中发挥着越来越重要的作用。
随着“制造强国”“质量强国”等系列国家战略的制定和实施,我国经济正在脱虚向实高质量发展的道路上稳步前行。随着我国工业互联网和传感技术的快速发展,工业大数据也已有相当积累。如何应用好这些大数据服务国家战略是亟须解决的重要问题。以深度学习为代表的机器学习方法近年来在大数据分析中成为主流。众多行业都开始应用机器学习对工业系统大数据进行处理和分析,进而改进现有工作方式和工作流程。以工业产品质量检测与控制为例,最初基于简单的统计分析,后经多年发展,逐渐形成了以统计控制、统计推断为主的质量检测方法。近年来,大量的传感器数据促使机器学习、深度学习等方法得以应用于质检和品控,实现了端到端的智能检测和故障预警。
机器学习与大数据相互依存,犹如一对孪生兄弟。机器学习是处理和分析大数据的主要工具,而大数据给机器学习提供了广泛的应用场景。当前我国工业正处于转型上升期,对工业大数据分析和机器学习方面的人才需求巨大。在这一大的宏观背景下,笔者认为有必要将机器学习的基础知识、基本原理、主要方法和我们多年工业项目实践中积累的大数据和丰富案例进行有机的融合,形成一个整体性的知识框架,并通过出版本教材,培养一批熟悉工业大数据处理和分析的人才,服务我国工业的高质量发展。
本书介绍了机器学习领域的一些重要理论和常用方法,以及现行多数教材尚未明晰的一些关键知识点,同时还给出了这些机器学习方法在工业案例中的应用。全书分为9章。其中第1章为数学基础知识的介绍;第2章为经典机器学习知识的讲解,包括监督学习和无监督学习两部分;第3章为深度学习,介绍了ANN、CNN、RNN、GAN四种神经网络,同时提供了前沿的神经网络阅读材料;第4章为强化学习,包含经典的强化学习理论及深度强化学习,并简要介绍强化学习的一些前沿应用;第5章介绍了数据处理相关知识;第6~9章分别给出了生产系统、能源与电信系统、交通系统以及医疗系统等十余个工业案例。
除第1章数学基础知识以外,每章都提供了案例,或来自于经典算例,如MNIST、CIFAR10数据集,或来自作者科研团队的工业应用实践,如高铁、5G通信等。这些案例已在实际问题基础上做了一定的简化与脱密处理,其中所应用的知识覆盖了日常使用的多种机器学习与数据处理方法,学好这些案例,足以完成大多数的工业大数据分析任务。为了方便读者进行编程学习,书中所有案例都基于Python进行实现,项目代码以二维码的形式在相应章后体现,读者可以根据需要扫码下载和使用。
本书可以作为机械工程、工业工程、电子工程、电气工程等工科专业高年级本科生与研究生相关课程的教学参考书。
本书得以完成,离不开钱敏、郑文强、武慧、夏鑫、张晨、韩特等作出的重要贡献,在此向他们表示衷心感谢。同时感谢华为技术有限公司、清华长庚医院、中广核集团以及西安铁路局等企业为本书提供案例的背景素材或项目支持。
在编写过程中虽然进行了多次审阅检查,但由于编写时间短,涉及案例范围广,且笔者水平有限,因此难免出现错误,敬请读者批评指正。
编者
2023年5月
|
|