新書推薦:
《
天才留步!——从文艺复兴到新艺术运动(一本关于艺术天才的鲜活故事集,聚焦艺术史的高光时刻!)
》
售價:HK$
154.6
《
双城史
》
售價:HK$
110.9
《
冯友兰和青年谈心系列:不是问题的问题(哲学大师冯友兰和年轻人谈心,命运解读)
》
售價:HK$
55.8
《
月与蟹(青鲤文库)荣获第144届直木奖,天才推理作家经典作品全新译本。一部青春狂想曲,带你登上心理悬疑之巅。
》
售價:HK$
50.4
《
索恩丛书·盛清统治下的太监与皇帝
》
售價:HK$
88.5
《
透过器物看历史(全6册)
》
售價:HK$
490.6
《
我在台北故宫博物院读名画
》
售價:HK$
109.8
《
尼罗河往事:古埃及文明4000年
》
售價:HK$
76.2
|
內容簡介: |
本书将阐述数据挖掘的一些主题,如数学表述、在软件中的实现,以及如何据此来解决商业问题。本书旨在让读者可以从数据管理技术、探索性数据分析、数据可视化等内容着手学习,循序渐进,直至建立高级预测模型。本书也从数据科学、分析学、统计建模以及可视化等角度对数据挖掘这一概念进行了综述。
|
目錄:
|
目录?Contents
译者序
前言
第1章 使用R内置数据进行数据处理1
1.1 什么是数据挖掘2
1.2 R语言引论4
1.2.1 快速入门4
1.2.2 数据类型、向量、数组与矩阵4
1.2.3 列表管理、因子与序列7
1.2.4 数据的导入与导出8
1.3 数据类型转换10
1.4 排序与合并数据框11
1.5 索引或切分数据框15
1.6 日期与时间格式化16
1.7 创建新函数17
1.7.1 用户自定义函数17
1.7.2 内置函数18
1.8 循环原理for循环18
1.9 循环原理repeat循环19
1.10 循环原理while循环19
1.11 apply原理19
1.12 字符串操作21
1.13 缺失值(NA)的处理22
小结23
第2章 汽车数据的探索性分析24
2.1 一元分析24
2.2 二元分析30
2.3 多元分析31
2.4 解读分布和变换32
2.4.1 正态分布32
2.4.2 二项分布34
2.4.3 泊松分布34
2.5 解读分布34
2.6 变量分段37
2.7列联表、二元统计及数据正态性检验37
2.8 假设检验41
2.8.1 总体均值检验42
2.8.2 双样本方差检验46
2.9 无参数方法48
2.9.1 Wilcoxon符号秩检验49
2.9.2 Mann-Whitney-Wilcoxon检验49
2.9.3 Kruskal-Wallis检验49
小结50
第3章 可视化diamond数据集51
3.1 使用ggplot2可视化数据54
3.1.1 条状图64
3.1.2 盒状图65
3.1.3 气泡图65
3.1.4 甜甜圈图66
3.1.5 地理制图67
3.1.6 直方图68
3.1.7 折线图68
3.1.8 饼图69
3.1.9 散点图70
3.1.10 堆叠柱形图75
3.1.11 茎叶图75
3.1.12 词云76
3.1.13 锯齿图76
3.2 使用plotly78
3.2.1 气泡图78
3.2.2 用plotly画条状图79
3.2.3 用plotly画散点图79
3.2.4 用plotly画盒状图80
3.2.5 用plotly画极坐标图82
3.2.6 用plotly画极坐标散点图82
3.2.7 极坐标分区图83
3.3 创建地理制图84
小结84
第4章 用汽车数据做回归85
4.1 回归引论85
4.1.1 建立回归问题86
4.1.2 案例学习87
4.2 线性回归87
4.3 通过逐步回归法进行变量选取98
4.4 Logistic回归99
4.5 三次回归105
4.6 惩罚回归106
小结109
第5章 基于产品数据的购物篮分析110
5.1 购物篮分析引论110
5.1.1 什么是购物篮分析111
5.1.2 哪里会用到购物篮分析112
5.1.3 数据要求112
5.1.4 前提假设/要求114
5.1.5 建模方法114
5.1.6 局限性114
5.2 实际项目115
5.2.1 先验算法118
5.2.2 eclat算法121
5.2.3 可视化关联规则123
5.2.4 实施关联规则124
小结126
第6章 聚类电商数据127
6.1 理解客户分类128
6.1.1 为何理解客户分类很重要128
6.1.2 如何对客户进行分类128
6.2 各种适用的聚类方法129
6.2.1 K均值聚类130
6.2.2 层次聚类135
6.2.3 基于模型的聚类139
6.2.4 其他聚类算法140
6.2.5 聚类方法的比较143
参考文献143
小结143
第7章 构建零售推荐引擎144
7.1 什么是推荐144
7.1.1 商品推荐类型145
7.1.2 实现推荐问题的方法145
7.2 前提假设147
7.3 什么时候采用什么方法148
7.4 协同过滤的局限149
7.5 实际项目149
小结157
第8章 降维158
8.1 为什么降维158
8.2 降维实际项目161
8.3 有参数法降维172
参考文献173
小结173
第9章 神经网络在医疗数据中的应用174
9.1 神经网络引论174
9.2 理解神经网络背后的数学原理176
9.3 用R语言实现神经网络177
9.4 应用神经网络进行预测180
9.5 应用神经网络进行分类183
9.6 应用神经网络进行预测185
9.7 神经网络的优缺点187
参考文献187
小结187
|
內容試閱:
|
前言?Preface随着数据规模和种类的增长,应用数据挖掘技术从大数据中提取有效信息变得至关重要。这是因为企业认为有必要从大规模数据的实施中获得相应的投资回报。实施数据挖掘的根本性原因是要从大型数据库中发现隐藏的商机,以便利益相关者能针对未来业务做出决策。数据挖掘不仅能够帮助企业降低成本以及提高收益,还能帮助他们发现新的发展途径。
本书将介绍使用R语言(一种开源工具)进行数据挖掘的基本原理。R是一门免费的程序语言,同时也是一个提供统计计算、图形数据可视化和预测建模的软件环境,并且可以与其他工具和平台相集成。本书将结合R语言在示例数据集中的应用来阐释数据挖掘原理。
本书将阐述数据挖掘的一些主题,如数学表述、在软件环境中的实现,以及如何据此来解决商业问题。本书的设计理念是,读者可以从数据管理技术、探索性数据分析、数据可视化等内容着手学习,循序渐进,直至建立高级预测模型(如推荐系统、神经网络模型)。本书也从数据科学、分析学、统计建模以及可视化等角度对数据挖掘这一概念进行了综述。
本书内容第1章 带领读者初识R编程基础,借助真实的案例帮助读者了解如何读写数据,了解编程符号和语法指令。这一章还给出了供读者动手实践的R脚本,以更好地理解书中的原理、术语以及执行特定任务的深层原因。之所以这样设计,是为了让没有太多编程基础的读者也能使用R来执行各种数据挖掘任务。这一章将简述数据挖掘的意义以及它与其他领域(诸如数据科学、分析学和统计建模)的关系,除此之外,还将展开使用R进行数据管理的讨论。
第2章 帮助读者理解探索性数据分析。探索数据包括数据集中变量的数值描述和可视化,这将使得数据集变得直观,并使我们能对其快速定论。对数据集有一个初步的理解很重要,比如选择怎样的变量进行分析、不同变量之间的关联,等等。创建交叉二维表有助于理解分类变量之间的关系,对数据集实施经典统计检验来验证对数据的种种假设。
第3章 涵盖从基础的数据可视化到调用R语言中的库实现高级的数据可视化。观察数字和统计能从多个侧面告诉我们关于变量的故事,而当图形化地了解变量和因子之间的关系时,它将展示另一个故事。可见,数据可视化将揭示数值分析和统计无法展现的信息。
第4章 帮助读者学习利用回归方法的预测分析基础,包括线性和非线性回归方法在R中的实现。读者不仅可以掌握所有回归方法的理论基础,也将通过R实践获得实际动手操作的经验。
第5章 介绍了一种产品推荐方法购物篮分析(MBA)。这种方法主要是将交易级的商品信息关联,从中找出购买了相似商品的客户分类,据此推荐产品。MBA还可以应用于向上销售和交叉销售中。
第6章 介绍了什么是分类、聚类是如何应用到分类问题的、聚类用的是什么方法等内容,并对不同的分类方法进行了对比。在这一章,读者将了解使用聚类方法的分类基础知识。
第7章 涵盖以下内容及相应的R语言实现:推荐系统是什么,实现推荐的工作原理、类型和方法,使用R语言实现商品推荐。
第8章 使用R语言和一个实际数据集实现主成分分析(PCA)、奇异值分解(SVD)和迭代特征提取等降维技术。随着数据的量与类的增长,数据的维度也在随之增长。降维技术在不同领域都有很多应用,例如图像处理、语音识别、推荐系统、文本处理等。
第9章 讲解了多种类型的神经网络、方法,以及通过不同的函数来控制人工神经网络训练的神经网络变体。这些神经网络执行标准的数据挖掘任务,例如:采用基于回归的方法预测连续型变量,利用基于分类的方法预测输出水平,利用历史数据来预测数值变量的未来值,以及压缩特征从而识别重要特征以执行预测或分类。
准备工作为了学习本书附带的例子和代码,读者需要从https:cran.r-project.org下载R软件(也可以从https:www.rstudio.com下载R Studio),然后安装。没有特定的硬件要求,只需要一台至少2GB RAM的计算机,适用于任何操作系统,包括MAC、Linux和Windows。
读者对象本书适用于刚开始从事数据挖掘、数据科学或者预测建模的读者,也适用于有中等统计与编程水平的读者。基本的统计知识对于理解数据挖掘是必需的。阅读前几章并不需要编程知识。本书将讲解如何使用R语言进行数据管理和基本的统计分析。本书亦适用于学生、专业人员及有志成为数据分析师的读者。
排版约定在本书中,为了区分不同内容,字体风格也会随之变化。以下是字体风格示意:
书中的代码、文件名、文件扩展名、路径名、URL地址、用户输入、推特标签看起来会是这样:在处理ArtPiece数据集时,我们将通过一些与业务相关的变量来预测一个艺术作品是否值得购买。
所有命令行的输入或输出在书中显示如下:
作者的话如果读者对于本书所涉及的内容有疑问,可以在Twitter上搜索@mishra1_PK,我非常乐意为大家提供帮助。
非常感谢我的妻子Prajna和女儿Aarya,也要感谢我的朋友和工作中的同事在我完成本书的过程中给予我的支持与鼓励。
关于审稿人Alexey Grigorev是一名熟练的数据科学家和软件工程师,有超过5年的专业经验。他现在是Searchmetrics Inc的一名数据科学家。在日常工作中,他热衷于使用R和Python进行数据清洗、数据分析和建模工作。他也是Packt出版的其他数据分析书籍的审稿人,比如《测试驱动的机器学习》与《掌握R数据分析》。
|
|