新書推薦:
《
冯友兰和青年谈心系列:不是问题的问题(哲学大师冯友兰和年轻人谈心,命运解读)
》
售價:HK$
55.8
《
月与蟹(青鲤文库)荣获第144届直木奖,天才推理作家经典作品全新译本。一部青春狂想曲,带你登上心理悬疑之巅。
》
售價:HK$
50.4
《
索恩丛书·盛清统治下的太监与皇帝
》
售價:HK$
88.5
《
透过器物看历史(全6册)
》
售價:HK$
490.6
《
我在台北故宫博物院读名画
》
售價:HK$
109.8
《
尼罗河往事:古埃及文明4000年
》
售價:HK$
76.2
《
一个人·谁也不是·十万人(诺贝尔文学奖得主反思自我的巅峰之作)
》
售價:HK$
54.9
《
重写晚明史(全5册 精装)
》
售價:HK$
781.8
|
內容簡介: |
信息时代,大数据的应用无处不在。手机中“淘宝”“抖音”的商品推送、短视频内容推送背后,是大数据用户画像及推荐算法;道路上的“一路绿灯”背后,是智能交通——交通管理部门分析、调整交通情况;新冠肺炎疫情不漏一人的流调背后,是智慧“战疫”——有关部门以“大数据 网格化”的方式识别和挖掘目标人群迁徙轨迹;智慧电厂“一键启停、无人值守”的背后,是以大数据为基础的工业级智能化应用。本书从大数据解析的基本概念讲起,“庖丁解牛”式地为大家讲解大数据解析中常用的基础算法,介绍不同算法的基本原理和适用场合,揭开大数据解析的神秘面纱。“纸上得来终觉浅,绝知此事要躬行。”本书结合研究实例,以问题为导向,深入浅出,引导大家“根据钉子选择锤子”,领略大数据的魅力。本书是数据分析及相关课程的教学用书,适用于高等院校自动化、数据科学与大数据技术、人工智能等涉及数据挖掘相关的专业的本科生。
|
目錄:
|
1绪论1
1.1统计学基础1
1.1.1期望、方差、协方差1
1.1.2一元高斯分布3
1.1.3多元高斯分布3
1.1.4KL散度4
1.2人工智能简介4
1.2.1人工智能的概念5
1.2.2人工智能的发展5
1.2.3人工智能的学派7
1.3机器学习7
1.3.1基本概念8
1.3.2机器学习的范式8
1.3.3机器学习的三要素9
1.3.4过拟合与正则化11
1.3.5偏差与方差12
1.4深度学习14
1.4.1生物神经网络14
1.4.2人工神经网络15
1.4.3主流的深度学习框架16
本章小结17
习题117
参考文献18
2数据预处理与特征工程20
2.1数据预处理20
2.1.1数据清洗21
2.1.2数据变换24
2.2特征工程27
2.2.1特征提取27
2.2.2特征选择27
2.3应用实例30
2.3.1数据集简介与环境准备30
2.3.2数据集导入与字段理解31
2.3.3缺失值处理31
2.3.4异常值处理32
2.3.5数据变换33
2.3.6特征工程34
2.3.7案例小结34
本章小结34
习题235
参考文献36
3数据降维37
3.1数据降维简介37
3.2主成分分析算法38
3.2.1主成分分析算法简介38
3.2.2主成分分析的数学原理38
3.2.3主成分分析的直观理解40
3.3慢特征分析算法41
3.3.1慢特征分析算法简介41
3.3.2慢特征分析的数学原理41
3.3.3慢特征分析的直观理解43
3.4应用实例44
3.4.1主成分分析的数值示例44
3.4.2主成分分析的应用示例45
本章小结47
习题347
参考文献48
4回归分析50
4.1回归分析基本概念50
4.1.1回归的起源50
4.1.2回归模型的建立及应用51
4.1.3回归模型分类52
4.1.4回归模型效果评估52
4.2最小二乘回归53
4.2.1最小二乘法拟合目标53
4.2.2最小二乘回归原理54
4.2.3最小二乘法的几何意义56
4.2.4最小二乘法的缺陷57
4.3岭回归与LASSO回归57
4.3.1岭回归算法58
4.3.2LASSO回归算法61
4.3.3线性回归模型的正则化项63
4.4主元回归64
4.4.1维数灾难64
4.4.2主元回归建模65
4.4.3主成分个数选取65
4.4.4主元回归与岭回归66
4.5偏最小二乘回归66
4.5.1偏最小二乘建模67
4.5.2目标函数与算法推导67
4.5.3潜变量个数确定69
4.6回归案例分析70
本章小结72
习题472
参考文献73
5聚类分析75
5.1基本思想与概念75
5.1.1聚类的概念75
5.1.2聚类算法分类76
5.2相似性度量77
5.2.1相似性度量的基本概念77
5.2.2距离度量77
5.2.3相关系数81
5.2.4选择相似性衡量手段的原则82
5.3K-均值聚类算法简介83
5.3.1算法思想83
5.3.2算法流程84
5.3.3算法关键影响因素85
5.3.4算法应用:图像压缩86
5.4高斯混合模型简介87
5.4.1算法介绍87
5.4.2利用GMM算法进行聚类88
5.4.3算法示例88
本章小结91
习题591
参考文献92
6判别分析93
6.1基本理论93
6.1.1判别的基本概念93
6.1.2判别的效果评估94
6.2距离判别94
6.3贝叶斯判别95
6.3.1贝叶斯的统计思想96
6.3.2贝叶斯最小错误率判别96
6.3.3贝叶斯最小风险判别97
6.3.4先验概率的选取97
6.3.5多总体贝叶斯判别准则98
6.3.6多总体贝叶斯判别函数98
6.4Fisher判别100
6.4.1Fisher判别的基本思想100
6.4.2Fisher判别的优化目标100
6.4.3多分类问题101
6.4.4Fisher判别的分析步骤102
6.4.5案例分析103
本章小结104
习题6104
参考文献105
7支持向量机107
7.1线性可分支持向量机107
7.1.1线性可分的概念107
7.1.2间隔最大化108
7.1.3支持向量机求解109
7.2软间隔支持向量机111
7.3非线性支持向量机112
7.4支持向量回归114
7.5支持向量机实例116
7.5.1线性可分支持向量机实例116
7.5.2非线性支持向量机实例117
本章小结118
习题7118
参考文献119
8典型相关分析120
8.1基本概念120
8.1.1CCA的历史及用途120
8.1.2CCA的思想121
8.1.3CCA的扩展方法122
8.2典型相关分析算法介绍122
8.3CCA算法拓展125
8.3.1多视角CCA125
8.3.2核CCA127
8.3.3深度CCA128
8.3.4判别CCA128
8.3.5局部保留CCA130
8.4典型相关分析案例分析130
8.4.1案例一:城市竞争力分析130
8.4.2案例二:多标签分类132
本章小结134
习题8135
参考文献136
9决策树与随机森林138
9.1决策树基本内容138
9.2决策树算法介绍139
9.2.1信息熵和信息增益140
9.2.2剪枝算法142
9.3随机森林介绍143
9.4应用实例145
9.4.1Python实现决策树145
9.4.2Python实现随机森林146
本章小结148
习题9149
参考文献150
10神经网络151
10.1基本概念151
10.1.1基本结构——神经元模型151
10.1.2感知机152
10.1.3多层前馈神经网络153
10.1.4激活函数153
10.1.5误差反向传播算法155
10.2深度神经网络157
10.2.1模型优化方法157
10.2.2参数初始化160
10.2.3数据预处理161
10.2.4防止过拟合162
10.2.5数据增强162
10.3宽度学习(BLS)简介163
10.3.1BLS产生背景163
10.3.2RVFLNN简介164
10.3.3BLS算法介绍164
10.3.4BLS实际应用案例168
本章小结169
习题10169
参考文献170
11卷积神经网络172
11.1卷积神经网络基础172
11.1.1卷积172
11.1.2池化(pooling)174
11.1.3卷积神经网络的优点175
11.1.4LeNet176
11.2卷积网络进阶与实例178
11.2.1特殊的卷积核178
11.2.2卷积网络实例181
本章小结185
习题11185
参考文献186
12循环神经网络187
12.1循环神经网络基础187
12.1.1RNN的用途187
12.1.2RNN的结构及工作方式188
12.1.3LSTM的结构及计算方式189
12.2循环神经网络进阶191
12.2.1残差循环神经网络191
12.2.2门控循环单元GRU192
12.2.3双向循环神经网络193
12.2.4堆叠循环神经网络194
本章小结194
习题12195
参考文献196
13自编码器197
13.1自编码器简介197
13.1.1回顾:监督学习、半监督学习、无监督学习197
13.1.2生成模型与判别模型198
13.1.3自编码器的公式化表述199
13.1.4关于自编码器的讨论199
13.1.5常见的自编码器变体200
13.2稀疏自编码器201
13.2.1稀疏自编码器结构201
13.2.2堆栈自编码器结构203
13.2.3堆栈稀疏自编码器206
13.3去噪自编码器206
13.3.1原理介绍206
13.3.2训练过程207
13.3.3堆栈去噪自编码器208
13.3.4稀疏去噪自编码器209
13.3.5流形学习角度看去噪自编码器210
13.3.6小结211
13.4变分自编码器211
13.4.1变分自编码器的引出212
13.4.2变分自编码器的推导212
13.4.3变分自编码器的网络结构214
13.4.4变分自编码器的实例214
13.4.5变分自编码器的拓展216
13.4.6小结217
本章小结217
习题13217
参考文献219
14集成学习221
14.1集成学习简介221
14.1.1基本概念与模型结合策略221
14.1.2小结225
14.2集成学习:Bagging225
14.2.1算法简介225
14.2.2Bagging算法的自助采样226
14.2.3Bagging算法的结合策略227
14.2.4偏差与方差分析230
14.3集成学习:Boosting233
14.3.1算法简介233
14.3.2AdaBoost234
14.3.3GBDT238
14.4应用实例240
14.4.1Bagging实例:Random Forest240
14.4.2Boosting实例:AdaBoost244
本章小结245
习题14246
参考文献247
15案例分析249
15.1二手车交易价格预测249
15.1.1案例背景249
15.1.2数据概览与评测标准249
15.1.3整体思路251
15.1.4数据分析与预处理251
15.1.5特征工程与特征筛选253
15.1.6平均值编码253
15.1.7数据建模与融合255
15.1.8小结256
15.2糖尿病的血糖预测256
15.2.1背景介绍257
15.2.2数据获取257
15.2.3数据预处理257
15.2.4算法与实验结果259
15.2.5小结263
15.3工业蒸汽量预测263
15.3.1数据集介绍263
15.3.2数据清洗与特征工程263
15.3.3基本回归模型训练与分析264
15.3.4XGBoost模型训练与结果分析266
15.3.5小结268
15.4双盲降噪自编码器实现降噪268
15.4.1软测量任务需求268
15.4.2问题分析269
15.4.3去噪算法概述270
15.4.4双盲降噪自编码器271
15.4.5DBDAE降噪与软测量272
15.4.6小结276
15.5心率异常检测276
15.5.1心电图数据277
15.5.2基于残差神经网络的心电诊断277
15.5.3基于知识 特征工程的心电诊断279
15.5.4小结284
本章小结284
习题15284
参考文献286
|
內容試閱:
|
数据科学与大数据分析是当前的热点,如何更好地理解和运用数据,对海量数据进行分析、得出结论并做出智能决策是科研工作者面临的机遇与挑战。大数据的理论方法,更多的是从机器学习发展来的。大数据以海量多样数据为研究对象来提出全方位精确解决方案的过程,其中包括数据处理、数据分析和数据挖掘等步骤。虽然目前已有很多大数据分析相关书籍,但是,这些书籍多偏重计算机领域,以经典的机器学习算法的理论为重点。而与实际应用场景相结合,使用机器学习技术来解决实际工程问题,对前沿的机器学习进行系统性的分析,是目前不同领域的科研工作者以及不同工科专业的广大师生迫切需要的。
在此背景下,笔者根据十年讲述“大数据解析与应用导论”及“实用多元统计分析”的课程教学经验,结合在数据挖掘上的研究成果,编写而成本书。书中结合实际的应用场景,对各类经典的数据分析算法做了系统性的全面解析。全书内容以大数据的产生背景、特征和发展过程为起点,分析目前应用最为广泛的几种经典机器学习算法,并拓展至目前前沿的相关算法;在介绍算法时,侧重结合实际应用场景进行解析,以问题为导向,深入浅出介绍不同算法的基本原理和适用场合,充分体现这些知识具有的前沿性和实用性。
本书共分为15章。前两章概述数据挖掘相关的基础知识:第1章介绍了统计学相关的基础知识,人工智能的概念和发展历史,以及机器学习和深度学习的基本概念和基础知识;第2章聚焦于数据预处理及特征工程技术,对各种常用的数据清洗、数据变换、特征提取与特征选择方法进行了介绍。
第3~9章立足于经典实用的基于统计学的数据挖掘方法:第3章以数据降维为着眼点介绍两种经典的数据降维方法,从而引出了主成分分析和慢特征分析方法的分析与比较,通过两个例子详尽地展示了数据降维的过程和方法的使用场景;第4章面向线性回归问题,介绍了经典的线性回归分析技术,引出了对最小二乘回归、岭回归、LASSO回归、主元回归、偏最小二乘回归等常用回归模型的讨论与比较;第5章面向聚类问题,引出聚类分析技术,包括相似性度量、K-means聚类算法、高斯混合模型;第6章重点讲述判别分析技术——距离判别法、贝叶斯判别法、线性判别分析(也称Fisher判别)等经典的判别方法;第7章介绍一种经典的分类模型——支持向量机,由简入难主要包括线性可分支持向量机、软间隔支持向量机、非线性支持向量机以及支持向量回归;第8章面向一种针对变量组挖掘相关性的方法——典型相关分析,介绍其基本思想、算法求解过程和前沿变体算法,包括多视角典型相关分析、核典型相关分析、深度典型相关分析等;第9章重点介绍决策树技术,在此基础上拓展至随机森林算法。
第10~14章聚焦于当下流行的深度学习方法:第10章围绕目前十分流行的神经网络方法展开,介绍神经网络基本结构、深度神经网络等重要概念,并对新兴起的宽度学习方法进行讨论;第11章针对在计算机视觉等领域最为常见的卷积神经网络,介绍了其中的一些基本概念,分析了图像分类工作中的具体实例,并且展开介绍了不同形式的卷积核以及卷积神经网络发展过程中里程碑式的集中网络结构;第12章探讨了另一种经典的神经网络——循环神经网络RNN,介绍了其结构及计算方式,并且引出了RNN的一些常见变种版本,例如长短期记忆网络、残差循环神经网络等;第13章介绍在降维、降噪、机器翻译、异常检测等领域具有广泛应用的自编码器算法,在此基础上介绍稀疏自编码器、降噪自编码器、变分自编码器等衍生算法,并结合实例对算法原理与效果进行了展示;第14章针对备受关注的集成学习,重点介绍bagging算法中模型数据的自助采样技巧、模型的结合策略,boosting算法中的典型算法——AdaBoost算法、GBDT算法,并用案例直观展示模型集成的效果。
在本书的最后——第15章,通过五个使用大数据技术解决商业、医疗、工业领域实际问题的案例,引导读者应用数据挖掘技术解决实际问题,感受大数据技术的魅力。
需要指出的是,本书不涉及数据隐私、数据库等内容。本书为中国大学慕课平台笔者讲授的“大数据解析与应用导论”课程的同步配套教材,相关线上课程和资源读者可在中国大学慕课平台观看。
本书涉及的研究成果得到了众多科研机构的支持。其中特别感谢国家杰出青年科学基金(No.62125306)、国家重点研发计划(2019YFC1908100)等。本人在博士求学期间以及工作阶段,在浙江大学孙优贤院士,东北大学柴天佑院士、王福利教授,香港科技大学高福荣教授和加拿大阿尔伯塔大学Biao Huang教授的指导下,针对机器学习方法以及工业过程监测与故障诊断进行了许多深入的研究工作,受益匪浅,为本书理论结合实际风格的形成奠定了基础。研究生陈旭、赵健程、陈佳威、戴清阳、张建峰、荆华、李宝学、汪嘉业、姚家琪、王一航、段姝宇、周文浩、张圣淼、李盈萱、王应龙、付永鹏等做了内容搜集、整理等方面的工作。本书的责任编辑等为提高本书质量也付出了辛勤劳动。在本书付梓之际,谨向他们表示衷心的感谢!
“纸上得来终觉浅,绝知此事要躬行”。希望本书能帮助更多人在大数据时代找到自己的方向和定位,抓准具体对象本身的特点、特性,活用大数据分析方法,实现从“削足适履”到“量体裁衣”的转变。但是,由于笔者水平有限,书中难免存在不妥之处,恳请广大读者批评指正。
赵春晖
2021年12月于浙江大学
|
|