新書推薦:
《
量子网络的构建与应用
》
售價:HK$
109.8
《
拍电影的热知识:126部影片里的创作技巧(全彩插图版)
》
售價:HK$
109.8
《
大唐名城:长安风华冠天下
》
售價:HK$
87.4
《
情绪传染(当代西方社会心理学名著译丛)
》
售價:HK$
88.5
《
中国年画 1950-1990 THE NEW CHINA: NEW YEAR PICTURE 英文版
》
售價:HK$
236.0
《
革命与反革命:社会文化视野下的民国政治(近世中国丛书)
》
售價:HK$
93.2
《
画楼:《北洋画报》忆旧(年轮丛书)
》
售價:HK$
337.5
《
大国脊梁:漫画版
》
售價:HK$
80.2
|
內容簡介: |
本书内容分为数据挖掘理论和数据挖掘实践两部分。数据挖掘理论部分主要包括数据挖掘的基本概念、数据预处理、聚类分析、分类与回归、关联规则挖掘及离群点检测。数据挖掘实践部分讨论数据挖掘在文本挖掘和金融领域中的应用,通过虚假新闻检测和社交平台情绪分析等案例,展示数据挖掘在文本挖掘方面的应用;通过潜在贷款客户挖掘、贷款违约等案例展示数据挖掘在金融领域的应用。 本书可作为高等学校计算机、数据科学与大数据、电子商务、信息科学等相关专业的教材或参考书,也可供从事数据挖掘研究的科研、技术人员参考。
|
關於作者: |
蒋盛益,教授、博士,硕士生导师;广东省”千百十”工程省级培养对象,广东外语外贸大学教学名师。中国计算机学会高级会员,中国计算机学会中文信息技术专委会委员,中国中文信息学会计算语言学专业委员会委员、社会媒体处理专委会委员,人工智能学会机器学习专委会委员,广东省计算机学会常务理事;广州市计算机学会常务理事;第十、十一届广东省政协委员。先后在湖南师范大学、中南工业大学、华中科技大学毕业,分别获理学学士学位、理学硕士学位、工学博士学位。目前重点研究方向是利用自然语言处理、社会网络分析技术来处理网络新闻和社交媒体中的数据,包括新闻观点自动提取、对特定事件的立场(支持还是反对)分析、舆情传播模式研究、用户影响力分析等。应用背景包括国内外舆情分析、海上丝绸之路的情报分析。
|
目錄:
|
目 录上篇 理论篇第1章 绪论21.1 数据挖掘技术使用背景41.2 数据挖掘任务及过程51.2.1 数据挖掘定义51.2.2 数据挖掘任务51.2.3 数据挖掘过程71.2.4 数据挖掘对象81.2.5 数据挖掘工具及其选择131.3 数据挖掘应用131.3.1 数据挖掘在计算机领域中的应用141.3.2 数据挖掘在商业领域中的应用151.3.3 数据挖掘在其他领域中的应用161.3.4 数据挖掘技术的前景171.4 数据挖掘与隐私保护18本章小结20习题120第2章 数据处理基础232.1 数据242.1.1 数据及数据类型242.1.2 数据集的类型252.2 数据探索272.2.1 描述性统计分析272.2.2 数据可视化302.2.3 辛普森悖论342.3 数据预处理372.3.1 数据清理382.3.2 数据集成412.3.3 特征变换412.3.4 数据归约482.4 相似性度量552.4.1 属性之间的相似性度量562.4.2 对象之间的相似性度量57本章小结60习题261第3章 分类和回归653.1 分类概述663.2 决策树分类方法673.2.1 决策树的基本概念673.2.2 构建决策树的要素683.2.3 Hunt算法733.2.4 C4.5算法743.2.5 CART算法793.2.6 决策树算法的特点903.3 贝叶斯分类方法903.3.1 贝叶斯定理913.3.2 朴素贝叶斯分类算法923.3.3 贝叶斯信念网络963.4 k-最近邻分类方法973.4.1 k-最近邻分类的基本问题983.4.2 k-最近邻分类算法描述983.4.3 k-最近邻分类算法的优缺点1003.5 神经网络分类方法1003.5.1 人工神经网络的基本概念1003.5.2 典型神经网络模型介绍1023.5.3 神经网络的特点1033.5.4 深度网络和深度学习算法1043.6 支持向量机1053.7 集成分类方法1073.8 分类问题拓展1133.8.1 不平衡分类问题1133.8.2 半监督学习1153.8.3 单类分类1153.8.4 多标签分类1153.8.5 层次分类1153.9 分类模型的评价1163.9.1 分类模型性能评价指标1163.9.2 分类模型的过度拟合1173.9.3 评估分类模型性能的方法1173.10 综合案例:信用风险分析1183.11 回归分析1213.11.1 多元线性回归模型1223.11.2 非线性回归1253.11.3 逻辑回归127本章小结131习题3131第4章 聚类分析1374.1 聚类分析概述1384.2 k-means算法及其改进1414.2.1 基本k-means算法1414.2.2 k-means聚类算法的拓展1454.3 层次聚类算法1504.3.1 二分k-means算法1514.3.2 BIRCH算法1524.3.3 CURE算法1544.3.4 ROCK算法1554.4 基于密度的聚类算法1574.5 基于图的聚类算法1604.5.1 Chameleon聚类算法1604.5.2 基于SNN的聚类算法1654.6 一趟聚类算法1674.6.1 阈值选择1674.6.2 算法应用1714.7 基于模型的聚类算法1724.7.1 期望最大化方法1724.7.2 概念聚类1724.7.3 SOM方法1744.8 聚类算法评价1764.9 综合案例:航空公司客户价值分析178本章小结184习题4184第5章 关联分析1875.1 关联分析概述1885.2 关联规则分析基础1885.2.1 基本概念1885.2.2 基础分析方法1905.3 Apriori算法1925.3.1 Apriori性质1925.3.2 产生频繁项集1935.3.3 频繁项集构造示例1945.3.4 产生关联规则1955.3.5 规则的评估标准1985.3.6 Apriori算法评价2015.4 FP-Growth算法2015.4.1 FP-tree表示法2015.4.2 构建FP-tree2025.4.3 发现频繁项集2045.5 关联规则扩展2055.5.1 关联规则分类2055.5.2 多层次关联规则2065.5.3 多维度关联规则2075.5.4 定量关联规则2085.5.5 基于约束的关联规则2085.5.6 序列模式挖掘2085.6 综合案例:移动业务关联分析2095.6.1 数据准备2095.6.2 数据预处理2095.6.3 关联规则挖掘过程2115.6.4 规则的优化2145.6.5 模型的应用215本章小结216习题5216第6章 离群点挖掘2206.1 离群点挖掘概述2216.2 基于统计的方法2226.3 基于距离的方法2246.4 基于相对密度的方法2266.5 基于聚类的方法2316.5.1 基于对象的离群因子方法2316.5.2 基于簇的离群因子方法2346.5.3 基于聚类的动态数据离群点检测方法2366.6 离群点挖掘方法的评估2376.7 综合案例2376.7.1 离群点检测在癌症诊断中的应用2376.7.2 离群点检测在网络入侵检测中的应用239本章小结242习题6242下篇 实践篇第7章 文本挖掘2467.1 文本挖掘概述2477.1.1 分词2477.1.2 文本表示与词权重计算2507.1.3 文本特征选择2527.1.4 文本分类2537.1.5 文本聚类2567.1.6 文档自动摘要2587.1.7 文本情感分析2627.1.8 用户画像2657.2 案例分析2697.2.1 虚假新闻检测案例2697.2.2 社交平台情感分类277本章小结283第8章 数据挖掘的金融应用2858.1 数据挖掘在金融领域中的应用概述2878.1.1 金融科技2878.1.2 金融领域中的数据挖掘应用2898.2 银行潜在贷款客户挖掘2958.2.1 业务理解2958.2.2 数据理解与数据准备2968.2.3 模型构建与评估2998.3 贷款违约301本章小结305附录A 数据挖掘常用资源列表307参考文献308
|
|