新書推薦:
《
超越百岁看这本就够了
》
售價:HK$
55.8
《
亚洲戏剧史·南亚卷
》
售價:HK$
143.4
《
中国历代竹器图谱与数字活化
》
售價:HK$
557.8
《
EDA技术与设计(第2版)
》
售價:HK$
85.0
《
揉碎浪漫(全两册)
》
售價:HK$
70.3
《
古籍善本
》
售價:HK$
537.6
《
人民币国际化报告2024:可持续全球供应链体系与国际货币金融变革
》
售價:HK$
87.4
《
道德经新注 81幅作者亲绘哲理中国画,图文解读道德经
》
售價:HK$
143.4
|
內容簡介: |
随着云计算、大数据、物联网、人工智能和区块链等IT 技术的发展与应用,信息技术不断驱动社会生产方式的变革,人类进入机器智能时代。近年来,大数据处理技术已经广泛地渗透到各行各业,大数据分析与应用的教学工作也逐渐成为高校中的重中之重,这是大数据时代下的必然趋势。本书从实际应用出发,结合具体案例及应用场景,深入浅出地介绍大数据处理预备知识、Python 技术基础、大数据处理常用模块、大数据采集技术、大数据处理算法以及文本挖掘与应用等。从环境搭建到数据采集可视化,从数据预处理到特征选择与模型训练,再从模型调优到测试评估。通过本书,读者可掌握大数据处理中必备的知识体系和技能,在各领域开展大数据处理与研究工作。本书实例短小精练,便于学习,读者能够在短时间内掌握相关知识点及其应用。本书主要面向高等学校从事大数据处理和分析的本科生和研究生,亦可作为高等学校大数据处理相关课程的教材。此外,本书提供配套的软件包、实例代码和数据文件,欢迎使用本书作为教材的老师登录www.cmpedu.com 进行下载。
|
目錄:
|
第1 章 大数据处理预备知识.11.1 人类的骄傲 11.2 大数据思维 11.3 大数据的关键技术 21.4 机器学习 31.5 训练集与测试集 41.6 特征表示 41.7 文档的相似度计算 51.8 贝叶斯定理 61.9 信息熵 71.10 正确率、精确率与召回率 71.11 ROC 曲线 .81.12 大数据隐私与安全 91.13 练习 10第2 章 Python 技术基础112.1 Python 开发环境的搭建112.2 常用操作符 122.3 语句规范 132.4 变量与数据 132.5 控制语句 142.6 数据结构 162.7 函数 212.8 可变对象与不可变对象 232.9 面向对象程序设计 242.10 练习 31第3 章 大数据处理常用模块.323.1 NumPy 323.2 Pandas.363.3 Matplotlib .413.4 练习 50第4 章 大数据采集技术 534.1 网络爬虫概述 534.2 Requests 基础.544.3 XPath 与Lxml574.4 网页采集 604.5 分页采集 614.6 练习 63第5 章 大数据处理算法及应用 645.1 回归 645.2 决策树 735.3 K 近邻.805.4 支持向量机 845.5 神经网络 875.6 朴素贝叶斯 915.7 聚类 945.8 关联规则 985.9 PCA 降维 .1025.10 机器学习流程 1065.11 练习 118第6 章 文本挖掘与应用 1216.1 文本挖掘流程 1216.2 NLTK1216.3 TextBlob .1306.4 Jieba1346.5 SnowNLP1396.6 正则表达式 ..1436.7 词云 1506.8 LDA 主题模型 .1526.9 练习 156第7 章 大数据应用案例 1577.1 泰坦尼克生存预测 1577.2 基于用户评论的智能音箱市场分析 166 7.3 有事找政府12345 .1717.4 基于网贷评论的用户舆情挖掘 172参考文献.178
|
內容試閱:
|
前 言大数据处理技术已经深入政府管理、商业应用、科学研究等各个领域。要想成为一名优秀的大数据分析工程师,必须掌握大数据处理常用模块、大数据采集、大数据处理算法以及文本挖掘与应用等相关知识。只有掌握了从定义问题开始,到数据采集、数据预处理、特征选择、模型训练、模型调优、测试评估的基本流程,才能够在实际应用中开展大数据挖掘与研究工作。本书内容按照上述思路编写,遵循“实用、简明”的原则,注重内容的连续性和系统性,以大数据处理流程为核心,将各知识点和案例讲解紧密结合,详细介绍了各个知识点的具体原理和案例应用。本书分为7 章。各章的主要内容如下:第1 章讲解大数据处理预备知识,帮助读者建立数据思维,掌握大数据处理中涉及的基本概念和数学基础知识,掌握如何把现实问题转变为数据可分析问题。第2 章讲解Python 技术基础,帮助读者掌握利用Python 进行数据处理的基本知识,包括控制语句、数据结构和函数等。第3 章讲解大数据处理常用模块,帮助读者掌握大数据处理必备的三大核心模块应用,包括NumPy、Pandas 和Matplotlib。第4 章讲解大数据采集技术,帮助读者掌握利用Python 进行大数据采集时常用的Requests 库,以及在Python 中使用XPath 表达式和Lxml 库进行网页解析。第5 章讲解大数据处理算法及应用,帮助读者掌握常用机器学习算法的具体应用和一般流程,包括回归、决策树、K 近邻、支持向量机、神经网络、朴素贝叶斯、聚类、关联规则和PCA 降维等。第6 章讲解文本挖掘与应用,帮助读者掌握中英文文本处理中常用的NLTK 、TextBlob 、Jieba、SnowNLP、WordCloud 等库在Python 中的使用,以及文本处理中常用的正则表达式和一般流程。第7 章讲解大数据应用案例,从实际需求出发定义问题,将大数据处理技术与解决实际问题相结合,帮助读者了解大数据处理技术在行业中的具体应用。本书的出版得到了江苏大学研究生教材建设专项基金的资助,同时得到了江苏省高校哲学社会科学研究重大项目(2020SJZDA063)的大力支持,谨在此表达诚挚的谢意。感谢研究生王好时、侯宪桥和杨晨全程参与书稿整理工作。本书在编写过程中参考了相关书籍以及网络资源,在此对相关作者表示衷心感谢。由于著者水平有限,书中难免有不足之处,敬请广大读者批评指正。著 者2021 年8 月于镇江
|
|