新書推薦:
《
甲骨文丛书·消逝的光明:欧洲国际史,1919—1933年(套装全2册)
》
售價:HK$
277.8
《
剑桥日本戏剧史(剑桥世界戏剧史译丛)
》
售價:HK$
201.6
《
中国高等艺术院校精品教材大系:材料的时尚表达??服装创意设计
》
售價:HK$
76.2
《
美丽与哀愁:第一次世界大战个人史
》
售價:HK$
143.4
《
国家豁免法的域外借鉴与实践建议
》
售價:HK$
188.2
《
大单元教学设计20讲
》
售價:HK$
76.2
《
儿童自我关怀练习册:做自己最好的朋友
》
售價:HK$
69.4
《
高敏感女性的力量(意大利心理学家FSP博士重磅力作。高敏感是优势,更是力量)
》
售價:HK$
62.7
內容簡介:
近年来,大数据已在公共管理、医疗卫生、金融与商务等领域得到了广泛应用。如何对海量和高速增长的数据进行有效处理以及如何针对不同领域特点有效应用大数据,倍受广大科研工作者的广泛关注。本书集结了作者近年来在大数据及其应用领域的研究成果,针对大数据高效处理问题,从点排序识别聚类、多标签排序、不平衡数据采样、主动学习、增量学习等方面研究并设计了相关算法。在此基础上,对大数据环境下电信客户价值评价、客户换机预测和客户流失预测等问题,设计了相关算法、流程和仿真实验,并提出了一些合理化的建议,为大数据分析与在相关行业的应用提供了参考。
關於作者:
邓维斌:男,1978年生,中共党员,博士,教授,硕士生导师,交通部交通运输青年科技英才,Queensland University of Technology、Poznan University of Technology访问学者。现任重庆邮电大学邮政研究院副院长,重庆市人工智能学会理事,国际粗糙集学会(IRSS)会员。主要从事大数据分析、不确定性决策、现代物流与快递服务等方面的研究。近年来主持和参与了包括国家重点研发计划、国家自然科学基金和社会科会基金等项目10余项,承担和参与了国家邮政管理局、重庆市发展委、渝中区、巴南区等委托的各类横向合作课题20余项;在Fundamenta Informaticae、《计算机学报》《系统工程理论与实践》等SCI、权威期刊等发表研究论文50余篇;在科学出版社、电子工业出版社等出版专著和教材7部。
目錄 :
目录
第1章大数据处理概述1
1.1大数据的定义1
1.2大数据带来的挑战与机遇3
1.3大数据研究的现状5
1.3.1大数据处理平台5
1.3.2大数据处理算法6
1.3.3大数据应用研究9
1.4大数据研究的挑战与趋势10
1.5本章小结11
参考文献12
第2章Spark点排序识别聚类结构算法19
2.1引言19
2.2点排序识别聚类结构算法21
2.3Spark并行内存计算框架23
2.4基于Spark的OPTICS算法25
2.5仿真实验与结果分析27
2.5.1度量标准27
2.5.2数据集与运行环境28
2.5.3实验方法29
2.5.4实验结果与分析29
2.6本章小结32
参考文献33
第3章Spark标签校准排序多标签算法35
3.1引言35
3.2校准标签排序算法与并行化研究36
3.2.1校准标签排序算法介绍36
3.2.2校准标签排序算法研究现状37
3.3朴素贝叶斯校准标签排序方法37
3.3.1朴素贝叶斯概率模型37
3.3.2朴素贝叶斯校准标签排序算法38
3.3.3仿真实验与结果分析40
3.4朴素贝叶斯校准标签排序方法的并行化研究44
3.4.1Spark并行化内存计算44
3.4.2朴素贝叶斯校准标签排序算法的并行化研究45
3.4.3仿真实验与结果分析47
3.5本章小结51
参考文献52
第4章不平衡数据的样本权重欠采样方法54
4.1引言54
4.2不平衡数据处理的相关方法55
4.2.1K-means聚类算法55
4.2.2AdaCost算法56
4.2.3Bagging算法58
4.3基于样本权重的欠采样方法59
4.3.1样本权重的确定59
4.3.2分类器加权投票60
4.4仿真实验与结果分析61
4.4.1分类的评价方法61
4.4.2非参数统计检验方法62
4.4.3UCI数据集检验63
4.5本章小结67
参考文献68
第5章不平衡数据的三支决策过采样算法70
5.1引言70
5.2三支决策粗糙集71
5.2.1邻域模型71
5.2.2邻域三支决策模型71
5.3不平衡数据的三支决策过采样算法74
5.3.1算法思路74
5.3.2算法描述与分析76
5.4仿真实验与结果分析77
5.4.1数据集选择77
5.4.2实验方法78
5.4.3实验结果分析79
5.5本章小结84
参考文献84
第6章三支决策主动学习方法87
6.1引言87
6.2主动学习理论88
6.2.1主动学习工作机制88
6.2.2主动学习方法的分类88
6.3三支决策主动学习89
6.3.1对冗余信息的删减89
6.3.2对无标签样本的区域划分90
6.3.3对不同区域样本的处理91
6.3.4算法描述92
6.4仿真实验与结果分析95
6.4.1数据集选择95
6.4.2实验方法95
6.4.3实验结果分析96
6.5本章小结100
参考文献100
第7章邻域粗糙集主动学习方法104
7.1引言104
7.2邻域粗糙集基本理论104
7.3邻域粗糙集主动学习算法106
7.3.1算法思路106
7.3.2算法描述109
7.4仿真实验与结果分析110
7.4.1数据集与实验方法110
7.4.2结果与分析111
7.5本章小结117
参考文献118
第8章决策熵增量学习方法120
8.1引言120
8.2粗糙集的基本概念121
8.3决策熵增量知识获取算法123
8.3.1算法复杂度分析126
8.3.2实例分析126
8.4仿真实验与结果分析128
8.4.1UCI数据集测试128
8.4.2KDDCUP99数据集测试130
8.4.3KDDCUP99数据集连续增量测试130
8.5本章小结131
参考文献131
第9章MapReduce并行增量FP-Growth算法133
9.1引言133
9.2MapReduce编程模型与Hadoop平台135
9.2.1MapReduce编程模型135
9.2.1Hadoop平台介绍136
9.3MapReduce增量FP-Growth算法138
9.3.1增量学习138
9.3.2FP-Growth算法139
9.3.3MapReduce并行FP-Growth算法140
9.3.4MapReduce并行增量FP-Growth算法141
9.4仿真实验与结果分析143
9.4.1MapReduce并行增量FP-Growth算法单机效率测试143
9.4.2MapReduce并行增量FP-Growth算法集群效率测试143
9.4.3Mapreduce并行增量FP-Growth算法性能测试146
9.5本章小结149
参考文献149
第10章电信客户价值评价151
10.1引言151
10.2客户价值与评价152
10.2.1客户价值的概念152
10.2.2电信客户价值与评价153
10.3优势关系粗糙集的基本概念155
10.4领域及数据驱动的数据挖掘模型156
10.4.1数据驱动的数据挖掘156
10.4.2领域驱动的数据挖掘157
10.4.3面向领域的数据驱动的数据挖掘158
10.5领域及数据驱动的电信客户价值评价方法159
10.5.1电信客户价值评价的特征提取159
10.5.2电信客户价值评价流程161
10.5.3电信客户价值评价算法162
10.6仿真实验163
10.6.1算法效果验证163
10.6.2算法应用165
10.7本章小结167
参考文献167
第11章电信客户换机预测171
11.1引言171
11.2优势关系粗糙集换机预测方法172
11.2.1算法描述172
11.2.2仿真实验174
11.3数据驱动的电信客户换机预测方法179
11.3.1手机客户特征提取179
11.3.2算法描述180
11.3.3仿真实验182
11.4本章小结185
参考文献186
第12章电信客户流失预测188
12.1引言188
12.2C4.5决策树及其改进算法189
12.2.1C4.5决策树189
12.2.2改进C4.5决策树算法190
12.3改进C4.5决策树不平衡数据抽样方法191
12.3.1算法思路191
12.3.2算法描述192
12.4实验与结果分析193
12.4.1电信客户流失预测流程194
12.4.2实验数据选择195
12.2.3实验结果与分析196
12.5本章小结198
参考文献198