新書推薦:
《
积极心理学
》
售價:HK$
55.8
《
自由,不是放纵
》
售價:HK$
54.9
《
甲骨文丛书·消逝的光明:欧洲国际史,1919—1933年(套装全2册)
》
售價:HK$
277.8
《
剑桥日本戏剧史(剑桥世界戏剧史译丛)
》
售價:HK$
201.6
《
中国高等艺术院校精品教材大系:材料的时尚表达??服装创意设计
》
售價:HK$
76.2
《
美丽与哀愁:第一次世界大战个人史
》
售價:HK$
143.4
《
国家豁免法的域外借鉴与实践建议
》
售價:HK$
188.2
《
大单元教学设计20讲
》
售價:HK$
76.2
|
編輯推薦: |
内容系统全面:全面介绍Spark3.2.0的生态组件。
原理浅显易懂:理论实践结合案例丰富注释详尽。
大数据可视化:WordCloud、PyeCharts、Plotly。
算法代码实现:使用Python实现书中所有算法。
配套资源丰富:配有教学课件、数据集和源代码。
|
內容簡介: |
本书系统介绍Spark大数据处理框架。全书共8章,内容包括大数据技术概述、Spark大数据处理框架、Spark RDD编程、Spark SQL结构化数据处理、HBase分布式数据库、Spark Streaming流计算、Spark MLlib机器学习、数据可视化。 本书可作为高等院校计算机科学与技术、信息管理与信息系统、软件工程、数据科学与大数据技术、人工智能等专业的大数据课程教材,也可供从事大数据开发和研究工作的工程师和科技工作者参考。
|
目錄:
|
第1章大数据技术概述1
1.1大数据的基本概念1
1.1.1大数据的定义1
1.1.2大数据的特征1
1.1.3大数据思维2
1.2代表性大数据技术3
1.2.1Hadoop3
1.2.2Spark5
1.2.3Flink5
1.3大数据编程语言5
1.4在线资源5
1.5拓展阅读——三次信息化浪潮的启示6
1.6习题6
第2章Spark大数据处理框架7
2.1Spark概述7
2.1.1Spark的产生背景7
2.1.2Spark的优点8
2.1.3Spark的应用场景9
2.1.4Spark的生态系统9
2.2Spark运行机制10
2.2.1Spark基本概念10
2.2.2Spark运行架构12
2.3在VirtualBox上安装Linux集群13
2.3.1Master节点的安装13
2.3.2虚拟机克隆安装Slave1节点22
2.4Hadoop安装前的准备工作26
2.4.1创建hadoop用户和更新APT262.4.2安装SSH、配置SSH无密码登录27
2.4.3安装Java环境28
2.4.4Linux系统下Scala版本的Eclipse的安装与配置29
2.4.5Eclipse环境下Java程序开发实例30
2.5Hadoop的安装与配置32
2.5.1下载Hadoop安装文件32
2.5.2Hadoop单机模式配置33
2.5.3Hadoop伪分布式模式配置35
2.5.4Hadoop分布式模式配置40
2.6Spark的安装与配置49
2.6.1下载Spark安装文件49
2.6.2单机模式配置50
2.6.3伪分布式模式配置51
2.7使用PySpark编写Python代码54
2.8安装pip工具和常用的数据分析库55
2.9安装Anaconda和配置Jupyter Notebook55
2.9.1安装Anaconda55
2.9.2配置Jupyter Notebook57
2.9.3运行Jupyter Notebook58
2.9.4配置Jupyter Notebook实现和PySpark交互59
2.9.5为Anaconda安装扩展库61
2.10拓展阅读——Spark诞生的启示62
2.11习题62
〖3〗Spark大数据分析技术(Python版·微课版)目录〖3〗第3章Spark RDD编程63
3.1RDD的创建方式63
3.1.1使用程序中的数据集创建RDD63
3.1.2使用文本文件创建RDD65
3.1.3使用JSON文件创建RDD67
3.1.4使用CSV文件创建RDD69
3.2RDD转换操作69
3.2.1映射操作70
3.2.2去重操作72
3.2.3排序操作73
3.2.4分组聚合操作75
3.2.5集合操作78
3.2.6抽样操作79
3.2.7连接操作80
3.2.8打包操作81
3.2.9获取键值对RDD的键和值集合81
3.2.10重新分区操作81
3.3RDD行动操作83
3.3.1统计操作84
3.3.2取数据操作85
3.3.3聚合操作86
3.3.4迭代操作87
3.3.5存储操作88
3.4RDD之间的依赖关系89
3.4.1窄依赖89
3.4.2宽依赖89
3.5RDD的持久化90
3.6案例实战: 利用Spark RDD实现词频统计91
3.7实验1: RDD编程实验92
3.8拓展阅读——中国女排精神94
3.9习题95
第4章Spark SQL结构化数据处理96
4.1Spark SQL96
4.1.1Spark SQL简介96
4.1.2DataFrame与Dataset96
4.2创建DataFrame对象的方法97
4.2.1使用Parquet文件创建DataFrame对象97
4.2.2使用JSON文件创建DataFrame对象98
4.2.3使用SparkSession方式创建DataFrame对象99
4.3将DataFrame对象保存为不同格式的文件104
4.3.1通过write.xxx()方法保存DataFrame对象104
4.3.2通过write.format()方法保存DataFrame对象105
4.3.3将DataFrame对象转化成RDD保存到文件中105
4.4DataFrame的常用操作105
4.4.1行类操作105
4.4.2列类操作106
4.4.3DataFrame的常用属性109
4.4.4输出110
4.4.5筛选112
4.4.6排序116
4.4.7汇总与聚合117
4.4.8统计119
4.4.9合并120
4.4.10连接120
4.4.11to系列转换123
4.5读写MySQL数据库124
4.5.1安装并配置MySQL124
4.5.2读取MySQL数据库中的数据126
4.5.3向MySQL数据库写入数据127
4.6实验2: Spark SQL编程实验128
4.7拓展阅读——中国芯片之路130
4.8习题131
第5章HBase分布式数据库132
5.1HBase概述132
5.1.1HBase的技术特点132
5.1.2HBase与传统关系数据库的区别132
5.1.3HBase与Hadoop中其他组件的关系133
5.2HBase系统架构和数据访问流程134
5.2.1HBase系统架构134
5.2.2HBase数据访问流程136
5.3HBase数据表139
5.3.1HBase数据表逻辑视图139
5.3.2HBase数据表物理视图141
5.3.3HBase数据表面向列的存储142
5.3.4HBase数据表的查询方式143
5.3.5HBase表结构设计143
5.4HBase的安装144
5.4.1下载安装文件144
5.4.2配置环境变量144
5.4.3添加用户权限145
5.4.4查看HBase版本信息145
5.5HBase的配置145
5.5.1单机模式配置146
5.5.2伪分布式模式配置147
5.6HBase的Shell操作150
5.6.1基本操作150
5.6.2创建表151
5.6.3插入与更新表中的数据153
5.6.4查看表中的数据154
5.6.5删除表中的数据156
5.6.6表的启用/禁用156
5.6.7修改表结构157
5.6.8删除HBase表158
5.7HBase的Java API操作158
5.7.1HBase数据库管理API158
5.7.2HBase数据库表API159
5.7.3HBase数据库表行列API161
5.8HBase案例实战163
5.8.1在Eclipse中创建工程163
5.8.2添加项目用到的JAR包164
5.8.3编写Java应用程序165
5.8.4编译运行程序168
5.9利用Python操作HBase169
5.9.1HappyBase的安装169
5.9.2Connection类169
5.9.3Table类170
5.10拓展阅读——HBase存储策略的启示171
5.11习题171
第6章Spark Streaming流计算172
6.1流计算概述172
6.1.1流数据172
6.1.2流计算处理流程172
6.2Spark Streaming工作原理173
6.3Spark Streaming编程模型174
6.3.1编写Spark Streaming程序的步骤174
6.3.2创建StreamingContext对象174
6.4创建DStream175
6.4.1创建输入源为文件流的DStream对象175
6.4.2定义DStream的输入数据源为套接字流178
6.4.3定义DStream的输入数据源为RDD队列流182
6.5DStream操作183
6.5.1DStream无状态转换操作183
6.5.2DStream有状态转换操作187
6.5.3DStream输出操作189
6.6拓展阅读——Spark Streaming流处理过程的启示190
6.7习题190
第7章Spark MLlib机器学习191
7.1MLlib概述191
7.1.1机器学习191
7.1.2PySpark机器学习库193
7.2MLlib基本数据类型193
7.2.1本地向量193
7.2.2带标签的点195
7.2.3本地矩阵196
7.3机器学习流水线198
7.3.1转换器198
7.3.2评估器198
7.3.3流水线199
7.4基本统计201
7.4.1汇总统计201
7.4.2相关分析203
7.4.3分层抽样205
7.4.4生成随机数206
7.4.5核密度估计206
7.5特征提取、转换和选择207
7.5.1特征提取207
7.5.2特征转换210
7.5.3特征选择215
7.6分类算法217
7.6.1逻辑二分类回归分析218
7.6.2决策树分类222
7.7回归算法225
7.7.1循环发电场数据的多元线性回归分析225
7.7.2回归决策树229
7.7.3梯度提升回归树230
7.8聚类算法231
7.8.1聚类概述231
7.8.2k均值聚类算法232
7.9协同过滤推荐算法235
7.9.1协同过滤推荐的原理235
7.9.2交替最小二乘协同过滤推荐算法236
7.10实验3: Spark机器学习实验239
7.11拓展阅读——工匠精神240
7.12习题241
第8章数据可视化242
8.1WordCloud242
8.2PyeCharts247
8.2.1绘制柱状图248
8.2.2绘制折线图250
8.2.3绘制饼图252
8.2.4绘制雷达图252
8.2.5绘制漏斗图253
8.2.6绘制3D柱状图254
8.2.7绘制词云图255
8.3Plotly256
8.3.1绘制折线图256
8.3.2绘制柱状图257
8.3.3绘制饼图259
8.4拓展阅读——文化自信260
8.5习题260
参考文献261
|
內容試閱:
|
随着数字经济在全球加速推进以及5G、人工智能、自动驾驶、物联网、社交媒体等相关技术的快速发展,大数据已成为国家基础性战略资源,正日益对全球生产、流通、分配、消费活动,以及经济运行机制、社会生活方式和国家治理能力产生重要影响。2020年4月9日,中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》将数据与土地、劳动力、资本、技术并称为五种要素。海量数据隐含的价值得以发掘的关键是处理大数据的大数据技术,大数据技术涉及的知识点非常多,本书从高校各专业对大数据技术需求的实际情况出发,详解阐述最流行的Spark大数据处理框架。
1. 本书编写特色
内容系统全面: 全面介绍Spark 3.2.0的生态组件。
原理浅显易懂: 理论实践结合,案例丰富,注释详尽。
大数据可视化: 介绍了可视化工具WordCloud、PyeCharts、Plotly。
算法代码实现: 使用Python实现书中所有算法。
配套资源丰富: 配有教学课件、数据集和源代码。
2. 本书内容组织
第1章是大数据技术概述,主要包括大数据的基本概念、代表性大数据技术、大数据编程语言。
第2章是Spark大数据处理框架,主要包括Spark概述,Spark运行机制,在VirtualBox上安装Linux集群,Hadoop的安装与配置,Spark的安装及配置,使用PySpark编写Python代码,安装pip工具和一些常用的数据分析库,安装Anaconda和配置Jupyter Notebook。
第3章是Spark RDD编程,主要包括RDD的创建方式,RDD转换操作,RDD行动操作,RDD之间的依赖关系,RDD的持久化,案例实战——Spark RDD实现词频统计,最后给出RDD编程实验。
第4章是Spark SQL结构化数据处理,主要包括Spark SQL概述,创建DataFrame对象的方式,将DataFrame保存为不同格式文件的方式,DataFrame的常用操作,使用Spark SQL读写MySQL数据库,最后给出SQL编程实验。
第5章是HBase分布式数据库,主要包括HBase概述、HBase系统架构和数据访问流程,HBase数据表,HBase安装与配置,HBase的Shell操作,HBase的Java API操作,HBase案例实战和利用Python操作HBase。
第6章是Spark Streaming流计算,主要包括流计算概述,Spark Streaming工作原理,Spark Streaming编程模型,创建DStream和DStream操作。
第7章是Spark MLlib机器学习,主要包括MLlib机器学习库,MLlib基本数据类型,机器学习流水线,基本统计,特征提取、特征转换和选择,分类算法,回归算法,聚类算法和协同过滤推荐算法,最后给出Spark机器学习实验。
第8章是数据可视化,主要包括WordCloud、PyeCharts和Plotly 3个数据可视化工具。
3. 本书适用范围
本书可作为高等院校计算机科学与技术、信息管理与信息系统、软件工程、数据科学与大数据技术、人工智能等相关专业的大数据课程教材,也可供从事大数据开发和研究工作的工程师和科技工作者参考。
本书在编写和出版过程中得到了郑州轻工业大学、清华大学出版社的大力支持和帮助,编者在此表示感谢。
本书在编写过程中参考了大量专业书籍和网络资料,在此向这些作者表示感谢。
限于时间和编者水平,书中难免有不足之处,热切期望得到专家和读者的批评指正。您如果遇到任何问题或有意见、建议,请发送邮件至编者的邮箱1685601418@qq.com。
编者2023年1月于郑州
|
|