登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『簡體書』探寻数据背后的逻辑:R语言数据挖掘之道

書城自編碼: 3227157
分類:簡體書→大陸圖書→計算機/網絡數據庫
作者: 宋云生
國際書號(ISBN): 9787121338618
出版社: 电子工业出版社
出版日期: 2018-07-01


書度/開本: 16开 釘裝: 平塑

售價:HK$ 126.4

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
情绪说明书:解锁内在情绪力量
《 情绪说明书:解锁内在情绪力量 》

售價:HK$ 71.8
中国神仙画谱 装饰画
《 中国神仙画谱 装饰画 》

售價:HK$ 59.8
居斯塔夫·卡塞尔:汇率 一读就懂的经典经济学
《 居斯塔夫·卡塞尔:汇率 一读就懂的经典经济学 》

售價:HK$ 70.8
史海钩沉:中国古史新考(文史哲丛刊第二辑)
《 史海钩沉:中国古史新考(文史哲丛刊第二辑) 》

售價:HK$ 105.6
美人凝视:喜多川歌麿的浮世绘艺术
《 美人凝视:喜多川歌麿的浮世绘艺术 》

售價:HK$ 213.6
晚期现代社会的危机
《 晚期现代社会的危机 》

售價:HK$ 93.6
“一带一路”沿线国家殡葬文化遗产名录和谱系(国外部分·东北亚卷)
《 “一带一路”沿线国家殡葬文化遗产名录和谱系(国外部分·东北亚卷) 》

售價:HK$ 201.6
AIGC+机器人:以产业的视角读懂人工智能的未来
《 AIGC+机器人:以产业的视角读懂人工智能的未来 》

售價:HK$ 106.8

 

建議一齊購買:

+

HK$ 118.5
《 大数据系统构建:可扩展实时数据系统构建原理与最佳实践 》
+

HK$ 100.1
《 图说D3:数据可视化利器从入门到进阶 》
+

HK$ 139.2
《 商业数据科学(影印版) 》
+

HK$ 98.0
《 深入浅出数据科学 》
編輯推薦:
不只介绍R语言,更深入数据挖掘的本质:探寻数据背后的逻辑,挖掘人们的欲望、需求及态度
深入浅出介绍R语言数据挖掘,以及数据挖掘和机器学习中的常见算法
枚举了很多有趣的实例及其在商务领域的应用
涉及多种数据类型和不同的挖掘任务
就R语言而言,书中详述了R语言的特点和一些弊端的经验性克服方法。
就数据挖掘而言,书中详细演示了从数据清洗、变量转换、筛选、构建模型、调优、监控及代码部署等一系列完整的流程。
內容簡介:
数据分析、数据挖掘的本质是探寻数据背后的逻辑,挖掘人们的欲望、需求、态度等。本书不仅仅教会读者如何掌握数据挖掘相关技能,更教会读者如何从数据挖掘结果中分析出更深层次的逻辑。本书主要介绍使用R语言进行数据挖掘的过程。具体内容包括R软件的安装及R语言基础知识、数据探索、数据可视化、回归预测分析、时间序列分析、算法选择流程及十大算法介绍、数据抓取、社交网络关系分析、情感分析、话题模型、推荐系统,以及数据挖掘在生物信息学中的应用。另外,本书还介绍了R脚本优化相关内容,使读者的数据挖掘技能更上一层楼。本书适合从事数据挖掘、数据分析、市场研究的工作者及学生群体,以及对数据挖掘和数据分析感兴趣的初级读者。
關於作者:
宋云生,2010年中山大学本科毕业后保送就读本校植物学专业硕士研究生,并在2012年继续攻读博士研究生。2015年7月至今在中山大学从事博士后研究,主要从事红树物种的基因组学及群体遗传学的研究,在数据挖掘方面经验丰富。
目錄
第1章万事不只开头难1
1.1工欲善其事,必先利其器:安装1
1.1.1安装R和RStudio1
1.1.2安装数据包3
1.1.3数据包加载、卸载、升级,查看帮助文档5
1.1.4什么样的R包值得相信7
1.2了解R的对象8
1.2.1如何进行常见的算术运算8
1.2.2R语言的三大数据类型10
1.2.3向量及其运算12
1.2.4因子变量鲜有人知的秘密15
1.2.5矩阵相关运算及神奇的特征值17
1.2.6数据框及其筛选、替换、添加、排序、去重18
1.2.7与数组(array)相比,表单(list)的用处更加广泛22
1.2.8如何进行数据结构之间的转化23
1.3R语言的重器:函数26
1.3.1自编函数26
1.3.2有用的R字符串函数29
1.4控制流在R语言里只是一种辅助工具31
1.4.1判断32
1.4.2循环33
1.5数据的读入与输出35
1.5.1常见数据格式的输入/输出(CSV、TXT、RDATA、XLSX)35
1.5.2数据库连接:Oracle、MySQL及Hive37
1.5.3乱码就像马赛克一样让人讨厌39
第2章数据探索,招招都是利器41
2.1不要在工作后才认识脏数据41
2.1.1以老板信服的方式处理缺失数据42
2.1.2异常值预警48
2.1.3字符处理正则表达式不再是天书49
2.2数据透视、数据整形、关联融合与批量处理50
2.2.1还忘不掉Excel的数据透视表吗50
2.2.2你能给数据做整形手术吗:long型和wide型52
2.2.3关联合并表54
2.2.4数据批处理:R语言里最重要的一个函数家族:*pply55
2.3一招完成数据探索报告58
2.4拯救你的很多时候是基础理论61
2.4.1参数检验及非参检验62
2.4.2学了很多算法却忘了方差分析68
2.4.3多因素方差分析及协方差作用70
2.4.4很多熟悉的数据处理方法已经成笑话,工具箱该换了73
第3章从商务气质的数据可视化说起84
3.1说说数据可视化的专业素养84
3.1.1数据可视化历史上有多少背影等你仰望84
3.1.2商务图表应该具有哪些素质87
3.1.3那些你不知道的图表误导性伎俩94
3.1.4如何快速解构著名杂志的图表98
3.2ggplot2包:一个价值8万美元的态度103
3.2.1一张图学会ggplot2包的绘图原理105
3.2.2基础绘图科学:ggplot2包的主题函数继承关系图(关系网络图)127
3.2.3基础图表一网打尽132
3.2.4古老的地图焕发新颜151
3.3将静态图转为D3交互图表:plotly156
3.4从基础到进阶的变形图表157
3.4.1马赛克图(分类变量描述性分析)157
3.4.2Sankey图和chordDiagram图158
第4章分位数回归模拟股票指数风险通道163
4.1用线性回归预测医院的药品销售额163
4.2多项式回归及常见回归方程的书写168
4.3Lasso回归和回归评价的常见指标170
4.4分位数回归拟合上证指数风险通道175
第5章时间序列分析181
5.1时间序列分析:分析带有时间属性的数列181
5.2不是所有序列都叫时间序列181
5.3时间序列三件宝:趋势、周期、随机波动183
5.3.1趋势183
5.3.2周期184
5.3.3随机波动186
5.4预测分析186
5.4.1指数平滑法186
5.4.2ARIMA模型预测188
第6章选择什么算法也有一套流程192
6.1重新审视一下这几个模型192
6.1.1Logistic回归192
6.1.2我要的不是一棵树,而是整座森林:随机森林195
6.1.3神奇的神经网络196
6.2银行信用卡评估模型之变量筛选197
6.2.1变量构建197
6.2.2Logistic回归变量筛选198
6.2.3随机森林变量筛选203
6.2.4人工神经网络建模204
6.3必须面对的模型评估204
第7章深入浅出十大算法208
7.1C5.0算法208
7.1.1一个重要的概念:信息熵208
7.1.2非列变量选择的实例209
7.1.3C5.0算法的R实现210
7.2K-means算法212
7.2.1K-means算法的R实现212
7.2.2怎么确定聚类数213
7.3支持向量机(SVM)算法213
7.3.1通俗理解SVM214
7.3.2SVM的R实现216
7.4Apriori算法216
7.4.1举例说明Apriori217
7.4.2Apriori算法的R实现219
7.5EM算法220
7.5.1举例说明EM算法221
7.5.2EM算法的R实现222
7.6PageRank算法223
7.7AdaBoost算法224
7.8KNN算法与K-means算法有什么不同226
7.9Naive Bayes(朴素贝叶斯)算法227
7.10CART算法228
第8章数据抓取231
8.1数据挖掘工程师不可抱怨巧妇难为无米之炊231
8.2抓取股市龙虎榜数据,碰碰运气232
8.2.1了解XML和Html树状结构,才能庖丁解牛233
8.2.2了解RCurl包和网页解析函数234
8.2.3抓取股票龙虎榜235
8.2.4资金流入分析237
8.3抓取某家医药信息网站全站药品销售数据240
8.3.1所有医药公司名称一网打尽240
8.3.2为什么抓取数据时可以使用For循环242
8.3.3不要把代码写复杂244
8.3.4用Sankey数据流描绘医药市场份额流动248
第9章不可不说的社交网络关系254
9.1社交网络图254
9.1.1社交网络图告诉你和谁交朋友254
9.1.2这几个基本概念你需要抓牢256
9.1.3还有比本章任务更有趣的数据挖掘吗259
9.2你还要装备几个评价指标260
9.2.1社交网络大小260
9.2.2社交网络关系的完备性261
9.2.3节点实力评价262
9.3全球某货物贸易中的亲密关系263
9.3.1全球某货物贸易数据整合清洗263
9.3.2分组和社交网络中心267
9.3.3全球某货物交易圈:寻找各自的小伙伴270
9.4中国电影演艺圈到底有没有圈276
9.4.1数据清洗与整形276
9.4.2看看演艺圈长什么样279
9.4.3谁才是演艺圈的关系户281
9.4.4用Apriori算法查查演艺圈合作的朋友关系283
9.4.5给范冰冰推荐合作伙伴284
第10章情感分析:一种准确率高达90%的新方法?287
10.1情感分析及其应用:这是老生常谈287
10.1.1情感分析的用途287
10.1.2情感分析的方法论288
10.1.3有关情感分析的一些知识和方向289
10.2文本分析的基本武器:R290
10.2.1RJava包配置290
10.2.2Rwordseg包安装291
10.2.3jieba分词包安装291
10.3基于词典的情感分析的效果好过瞎猜吗292
10.3.1数据整理及词典构建292
10.3.2分词整理297
10.3.3情感指数计算299
10.3.4方法评价:优、缺点分析300
10.4监督式情感分析:挑选训练数据集是所有人心中的痛301
10.4.1TFIDF指标301
10.4.2构建语料库302
10.4.3随机森林模型304
10.4.4算法评估:随机森林应该建多少棵树308
10.5一种准确率高达90%的新方法316
10.5.1拿来主义的启示316
10.5.2情感词典和规则构建317
10.5.3朴素贝叶斯情感分析器329
10.5.4支持向量机(SVM)、决策树等情感分析器330
10.5.5如何选择支持SVM的核函数339
10.5.6情感分类器方法评价343
10.6谈谈情感分析的下一步思考344
第11章话题模型:很多牛人过不去的坎儿346
11.1话题模型与文案文本集346
11.1.1任务仍然是以处理dirty data 开始347
11.1.2数据清洗348
11.2话题模型中几个重要的数据处理步骤350
11.2.1中文分词350
11.2.2数据整型352
11.2.3怎样设定阈值353
11.3上帝有多少个色子:话题数量估计356
11.3.1通俗地说一遍话题模型356
11.3.2主题数估计与交叉检验357
11.3.3如何使用复杂度、对数似然值确定主题数362
11.4LDA话题模型竟然能输出这么多关系368
11.4.1输出主题词汇及其概率矩阵368
11.4.2输出主题文档归属及其概率矩阵369
11.5话题之间也有社交(衍生)关系吗370
11.6话题模型的几个强大衍生品372
11.6.1话题模型提取特征词372
11.6.2三种方法确定聚类的类数和文本层次聚类373
11.6.3漂亮的文本聚类树和批量绘制大类词云图375
第12章排名就是简单的推荐系统吗?378
12.1全球宜居城市综合实力排行378
12.1.1综合实力排行:专家法VS数据驱动法379
12.1.2怎么比较两个排名结果382
12.2协同过滤推荐系统383
12.2.1基于商品的协同过滤系统(ItemCF)386
12.2.2基于用户的系统过滤系统(UserCF)388
12.2.3推荐系统效果评比390
第13章生物信息学中的数据挖掘案例392
13.1生物信息学与R语言392
13.2生物信息学中常用的软件包392
13.2.1软件包简介392
13.2.2数据表示方式对象类(class)393
13.2.3生物信息学R包简介:Bioconductor和CRAN393
13.2.4ape包394
13.2.5读懂你的对象404
13.2.6修改工具包中的函数以适应新情况407
第14章产品化:关于内存、速度和自动化411
14.1不同终端调用、自动化执行R脚本及参数传递411
14.2与速度、内存、并行相关的程序优化414
內容試閱
前言
什么是规范化的数据挖掘流程
人总是被自己日常从事的工作所蒙蔽双眼,看不到事态发展的整体面貌,为了手里的工作而工作,这就是所谓的迷失吧。一个数据挖掘项目不仅仅是数据挖掘工程师手中的一部分工作(虽然它是工作的核心),作为一个力求向上的人,要跳出来看看项目的全貌。只有对项目全程有了足够的了解,才能更加有效地使用数据挖掘、机器学习、数据分析的工具。
数据挖掘项目一般可以分为问题边界、清洗整理、数据探索、算法评估、结果提升、结果报告、系统集成和系统测试8个主要的模块。一般而言,可以尽量将这些模块合并,但无论怎么合并,它们在项目中都是不可或缺的(当然,有些项目并没有其中某些模块的需求,比如市场研究项目,它们可能就不需要系统集成)。从右图中可以看到数据清洗、数据探索、算法评估占据了项目的大部分时间,这也说明它们是项目的核心内容,缺了这3项,就不能再称为是数据挖掘项目了。
数据挖掘项目流程如下图所示。
问题边界
问题边界一般是项目的开头部分,可以分为4点。首先要和业务部门细致沟通,从业务背景中提炼出对业务问题的描述,限定项目要解决的问题,便于组织力量集中对这些问题设计解决方案。然后根据解决构想将业务问题转换为数据语言,限定将要使用的数据界限,搞清楚要牵涉哪些数据。之后为了吸引业务部门必须整理出业务效用,告诉业务部门如果解决这些问题能够得到哪些改善,完成业务部门哪些具体目标。最后要将以上问题整理成一个可行的解决方案。很多人忽略了这个阶段,其后果就是业务部门觉得挖掘出来的结果不是他们想要的,或者节外生枝补充各种相关的或不相关的业务问题,最终扭曲了项目本身,使工作反复无常。所以,在项目实施之前,非常仔细地沟通并制定一个完善的问题边界非常重要。
清洗整理
清洗整理是数据挖掘工程师非常熟悉的工作,但是,很少有人认识到这是项目中花费时间最多的部分,很多人会以为算法评估部分才会花费最多的时间。其实不然,如果数据清洗进行得不顺利,则将直接影响后面的工作和模型的效果。首先要设计畅通、高效的数据抽取程序,将数据从各种数据平台抽取出来供数据挖掘工具使用,然后进行数据清洗,将数据转化为数据挖掘工具便于处理的对象类型(在R里指list、data.frame、arrary等),再进行质量清洗,包括处理缺失值、异常值、其他污点(在文本挖掘中多如牛毛)等。之后要对数据整形,包括一些统计变化,例如中心化、标准化、降维等,更重要的是数据形状的变化。
还有一项就是数据抽样,面对大数据,在数据处理阶段就要进行抽样,不能因为要清洗一个点就清洗全量的数据,那样会花费大量的时间。不如抽取小样本进行测试,等进行完数据清洗程序后,再进行全量数据的整体清理,这样反而更加省时省事,这里的样本量需要尽量保证抽到足够多的问题数据,同时要让程序运行起来非常轻松、高效。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.