登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『簡體書』文本数据挖掘 基于R语言

書城自編碼: 3623278
分類:簡體書→大陸圖書→計算機/網絡數據庫
作者: 黄天元
國際書號(ISBN): 9787111677505
出版社: 机械工业出版社
出版日期: 2021-04-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 111.3

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
佛教文化十八讲
《 佛教文化十八讲 》

售價:HK$ 89.7
背弃圣约:处于考验中的美国公民宗教(社会学名著译丛)
《 背弃圣约:处于考验中的美国公民宗教(社会学名著译丛) 》

售價:HK$ 46.0
卖掉法拉利的高僧
《 卖掉法拉利的高僧 》

售價:HK$ 70.9
次经导论
《 次经导论 》

售價:HK$ 177.6
叔本华暮年之思
《 叔本华暮年之思 》

售價:HK$ 69.6
故纸留痕:抗日战争时期澳门报刊资料选辑
《 故纸留痕:抗日战争时期澳门报刊资料选辑 》

售價:HK$ 345.6
玩转Photoshop(零基础快速上手,全彩赠视频)
《 玩转Photoshop(零基础快速上手,全彩赠视频) 》

售價:HK$ 57.6
故事力:TED演讲者助力,当代青年克服表达难题(两位TED专业讲者教你掌握故事五大力)
《 故事力:TED演讲者助力,当代青年克服表达难题(两位TED专业讲者教你掌握故事五大力) 》

售價:HK$ 81.6

 

建議一齊購買:

+

HK$ 118.5
《 R语言统计分析与机器学习(微课视频版) 》
+

HK$ 79.7
《 R语言数据高效处理指南 》
+

HK$ 161.3
《 R语言深度学习 》
+

HK$ 82.4
《 基于R语言的机器学习 》
+

HK$ 140.6
《 数据挖掘与R语言(原书第2版) 》
+

HK$ 73.5
《 MySQL数据库管理与开发实践教程 》
編輯推薦:
知乎R语言方面的大V新作
深入浅出地介绍文本数据挖掘技术原理与方法
简明扼要地介绍R语言编程基础
结合大量实例循序渐进地讲解基于R语言的文本数据挖掘步骤、方法、技巧
內容簡介:
文本是一种特殊的非结构化数据,在当今的大数据时代,其价值日趋凸显。本书利用开源而强大的R软件,对文本数据挖掘的概念、技术及技巧进行了系统的介绍。本书共11章,内容包括:走进文本数据挖掘,R语言快速入门,字符串的基本处理,用好正则表达式,导入各类文本数据,对各类文本数据进行预处理,文本特征提取的4种方法,基于机器学习的文本分类方法,文本情感分析,文本可视化,文本数据挖掘项目实践。本书还提供了丰富的应用案例和程序源代码引导读者高效学习。
本书适合对文本数据挖掘感兴趣的学生、科研人员和数据科学从业者阅读。同时,本书还可以作为工具书,为需要经常进行文本数据挖掘的读者提供快速检索。
關於作者:
黄天元,复旦大学理学博士。热爱数据科学与开源工具,致力于利用数据科学迅速积累行业经验优势和科学知识发现,研究领域包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等。在CRAN上维护了3个下载量破万的R包(akc、tidyfst、tidyft),著有《R语言高效数据处理指南》一书,并设有知乎专栏“R语言数据挖掘”,关注人数9000 。
目錄
目录
前言
第1章 走进文本数据挖掘1
1.1 什么是文本数据挖掘1
1.2 为什么要做文本数据挖掘2
1.3 如何进行文本数据挖掘2
1.3.1 文本数据挖掘的流程2
1.3.2 文本数据挖掘的基本任务及方法4
1.4 文本数据挖掘软件工具概览5
第2章 文本数据挖掘利器—R语言7
2.1 开发环境配置7
2.1.1 下载并安装R软件7
2.1.2 包的管理8
2.1.3 版本升级9
2.1.4 集成开发环境10
2.2 R的基本数据类型11
2.2.1 数值型12
2.2.2 逻辑型12
2.2.3 字符型12
2.2.4 因子型13
2.3 R的常用数据结构13
2.3.1 向量13
2.3.2 矩阵14
2.3.3 列表14
2.3.4 数据框15
2.4 R的基础编程知识15
2.4.1 赋值15
2.4.2 函数16
2.4.3 强制类型转换16
2.4.4 条件判断17
2.4.5 循环操作17
2.5 数据操作入门19
2.5.1 文件读写19
2.5.2 数据框的检视25
2.5.3 单表操作28
2.5.4 多表操作37
2.5.5 缺失值处理42
2.5.6 长宽数据转换46
第3章 从基础做起1—字符串的基本处理51
3.1 字符串的构造51
3.2 字符串的辨识、计数与定位52
3.3 字符串的提取53
3.4 字符串的定制化输出54
3.5 字符串的替换与删除56
3.6 字符串的拼接与拆分57
3.7 字符串的排序57
第4章 从基础做起2—用好正则表达式59
4.1 通配符解析59
4.1.1 点运算符(“.”)60
4.1.2 字符集(“[]”)60
4.1.3 否定字符集(“[^ ]”)61
4.1.4 出现0次或更多(“*”)61
4.1.5 出现1次或更多(“ ”)62
4.1.6 出现0次或1次(“?”)62
4.1.7 出现次数范围限制(“{}”)62
4.1.8 特征标群(“(...)”)62
4.1.9 或运算符(“|”)63
4.1.10 转义字符(“\\\\”)63
4.1.11 匹配开头部分(“^”)63
4.1.12 匹配结尾部分(“$”)64
4.2 反向引用64
4.3 简写字符集65
4.4 贪婪匹配与惰性匹配66
4.5 零宽断言67
4.5.1 正先行断言(“?=...”)67
4.5.2 负先行断言(“?!...”)68
4.5.3 正后发断言(“?<= ...”)68
4.5.4 负后发断言(“?4.5.5 提取括号中的内容68
第5章 步入正题—导入各类文本数据70
5.1 readtext包简介70
5.2 不同格式文本文件的导入70
5.2.1 读取txt文件71
5.2.2 读取csv/tsv文件72
5.2.3 读取json文件74
5.2.4 读取pdf文件74
5.2.5 读取Word文件75
5.2.6 读取html文件75
5.2.7 读取压缩包75
5.3 读入不同编码格式的文档76
5.4 文件数据结构的转化77
第6章 更进一步—对各类文本数据进行预处理79
6.1 拼写纠错79
6.2 文本切分80
6.2.1 段落切分81
6.2.2 句子切分82
6.2.3 词语切分82
6.2.4 n元切分85
6.2.5 字符切分85
6.3 去除标点86
6.4 去除停用词86
6.5 扩展缩写87
6.6 词干提取87
6.7 词形还原与词性标注88
6.8 批量文档预处理90
第7章 上手文本数据挖掘—文本特征提取的4种方法92
7.1 基本特征提取92
7.2 基于TF-IDF的特征提取94
7.3 词嵌入96
7.3.1 基于BOW96
7.3.2 基于word2vec98
7.3.3 基于GloVe100
7.3.4 基于fastText101
7.4 文档向量化:doc2vec102
第8章 文本分类—基于机器学习的方法105
8.1 无监督分类105
8.1.1 基于文本相似度的聚类105
8.1.2 基于网络集群识别的自动化聚类120
8.1.3 基于主题模型的分类125
8.2 有监督分类129
8.2.1 二分类129
8.2.2 多分类136
第9章 深入理解文本内涵—文本情感分析142
9.1 英文情感分析142
9.1.1 RSentiment143
9.1.2 sentimentr144
9.1.3 SentimentAnalysis145
9.1.4 meanr147
9.1.5 sentometrics148
9.2 中文情感分析151
9.2.1 环境与数据准备151
9.2.2 情感词典准备151
9.2.3 中文分词152
9.2.4 分值计算152
9.2.5 小结152
第10章 文本数据的直观表达—文本可视化153
10.1 条形图153
10.2 克利夫兰点图155
10.3 矩形树状图156
10.4 词云157
10.5 词汇位置分布图159
10.6 网络图164
10.7 双文档对比可视化167
第11章 举一反三—文本数据挖掘项目实践170
11.1 情感分析案例:量化中文新闻报道中的情感走势170
11.2 文本分类案例:基于词袋模型对英文期刊摘要来源进行分类176
11.3 关键词提取案例:根据CRAN的介绍文本提取R包关键字181
內容試閱
文本作为重要的非结构化数据之一,其相关方面的数据挖掘在医疗健康、市场营销、电商媒体、数字人文等各种场景中都有重要的应用。例如,对电子病历的规范化文本数据进行提取,可以量化病人的诊断结果,提出合理建议;在点评类平台中对消费者的评论进行关键词提取,可以对店家的服务进行评估;在公共社交平台上对某一个话题的文本进行提取和情感量化,可以获知大众对某一个话题的看法,把握相关舆情。这些应用都有着巨大的价值提升潜力,而要发掘这些潜力则需要掌握体系化的文本数据挖掘方法。
对于文本数据挖掘工具而言,除了基于图形交互界面的软件(如Tableau)外,还有基于命令行的通用开源软件,如R和Python。虽然利用Python来做自然语言处理和文本数据分析的资料非常多,但是随着文本数据挖掘日渐普及,各行各业的科研人员和从业者都需要发掘文本的价值,并希望快速习得一些实用的工具来对文本进行分析。Python需要初学者具备更多的计算机编程知识,才能发挥其效力;而R语言作为一个面向统计和可视化的开源工具,逐渐受到更多来自工业界和科研界的认可。R语言的开发者在设计工具的时候通常认为用户也没有太多的计算机编程基础,所以在各种软件包中通过提供“傻瓜式”的函数操作,让使用者仅仅通过复制粘贴较少的代码,就能够直接对自己的数据进行复杂的数据操作与分析,这是R语言的一大特点。
本书立足于R语言在文本数据挖掘领域的发展前沿,对文本数据挖掘的基本概念和实现方法进行了系统介绍,并利用大量实际案例和通用代码来引导读者进行实践和思考。通过阅读本书,读者可以循序渐进地掌握文本数据挖掘中的各种概念、方法和工具,完成日常学习和工作中的文本分析任务。
本书内容
第 1 章,走进文本数据挖掘。对文本数据挖掘进行了综合的介绍,内容包括什么是文本数据挖掘、为什么要进行文本数据挖掘和文本数据挖掘的基本框架,并对文本数据挖掘的常用软件工具进行了概述。
第 2 章,文本数据挖掘利器—R语言。向初学者介绍R语言的基本使用方法,包括软件的安装、环境的配置、数据结构与类型、编程基础和数据操作方法。
第 3 章,从基础做起1—字符串的基本处理。主要利用stringr包作为工具,讲述各式各样的字符串操作及其在R中的实现方法。
第 4 章,从基础做起2—用好正则表达式。介绍了正则表达式的基本概念,包括通配符、简写字符集和反向引用等,并结合实例引导读者进行实践。
第 5 章,步入正题—导入各类文本数据。介绍了如何把本地各种格式的文本数据导入到R环境中,并讲述了如何进行编码格式的识别和文本数据结构的转化。
第 6 章,更进一步—对各类文本数据进行预处理。针对文本数据清洗这一主题,对文本切分、去除停用词、词干提取、词性标注等预处理任务进行了介绍。
第 7 章,上手文本数据挖掘—文本特征提取的4种方法。主要介绍了文本特征提取的方法,包括TF-IDF特征提取、各种词嵌入的方法以及文档向量化。
第 8 章,文本分类—基于机器学习的方法。从无监督和有监督两个方面,介绍了文本数据分类的基本方法,并给出相关的实践代码。
第 9 章,深入理解文本内涵—文本情感分析。分别对如何进行英文情感分析和中文情感分析进行了介绍,并给出通用案例和系统实现过程。
第 10 章,文本数据的直观表达—文本可视化。聚焦于文本可视化,介绍了如何利用文本信息绘制条形图、克利夫兰点图、矩形树状图、词云图、词汇位置分布图、网络图等。
第 11 章,举一反三—文本数据挖掘项目实践。利用3个典型的文本分析案例,来引导读者对情感分析、文本分类和关键词提取进行学习和实践。
本书特点
? 深入浅出,简单易学:本书不需要读者具有文本挖掘或R语言的基础知识,循序渐进地带领读者掌握文本数据挖掘中的各种知识以及文本分析在R语言中的实现方法。
? 代码丰富,实践性强:本书几乎在所有文本分析任务中都提供了简洁可行的R语言实现代码,读者可以通过实践来体会每一步文本挖掘操作。通过反复练习,可以习得其中的技巧,并运用在自己的文本数据挖掘任务中。
? 体系完备,系统性强:本书介绍了文本数据挖掘基本任务的方方面面,从文本数据的导入和预处理到分析、建模和可视化。有利于读者对整体知识结构的把握,从而在解决文本数据挖掘问题的时候具有更加全面而细致的考虑。
? 内容新颖,紧跟前沿:文本数据挖掘作为经典的知识体系不会过时,但是软件工具却在一直在更新迭代。本书参考了大量近3年内的R软件包及其帮助文档,紧跟技术发展潮流,让读者能够习得较为先进的实现技术,提高编写代码的效率。
适用对象
本书适合需要对文本数据挖掘进行了解和运用的在校大学生、科研人员和数据分析从业者,尤其适合初学者入门,同时能够为来自各行各业(新闻媒体、人文社科、医疗健康、生物医药、环境生态、市场营销等)对文本数据分析感兴趣的广大读者提供技术参考。
本书作者
本书在编写过程中参考了国内外大量的文本挖掘与R语言实现的相关资料。本书的完成首先要感谢R语言开源社区,他们不知疲倦的努力和无私的分享让R语言在文本数据挖掘中越发强大。同时,需要对复旦大学图书馆情报研究部进行致谢,我在这里担任助管期间得到了很多锻炼和启示。还要感谢谢琳老师、赵斌教授和中国科学院文献情报中心科学计量小组在本书编写期间对我的支持。感谢机械工业出版社各位编辑专业的工作。后,感谢我的父母,无论在任何时候都给予我无私的爱。
由于作者水平有限,书中难免出现错误和不足之处,敬请广大读者批评指正。希望本书能够让各位读者从零到一、从无到有地获知文本数据挖掘的基本概念,并习得利用R语言进行文本数据挖掘的技术技巧。
黄天元

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.