新書推薦:
《
偿还:债务与财富的阴暗面
》
售價:HK$
80.2
《
清华大学藏战国竹简校释(壹):《命训》诸篇
》
售價:HK$
94.4
《
封建社会农民战争问题导论(光启文库)
》
售價:HK$
68.4
《
虚弱的反攻:开禧北伐
》
售價:HK$
92.0
《
泰山:一种中国信仰专论(法国汉学经典译丛)
》
售價:HK$
81.4
《
花外集斠箋
》
售價:HK$
151.0
《
有兽焉.8
》
售價:HK$
70.6
《
大学问·明清经济史讲稿
》
售價:HK$
70.8
|
編輯推薦: |
1.本书是《大数据》编委会针对校企合作的精心力作。
2.本书凝结了曙光瑞翼多年的教学经验,能够满足校企融合教学的需求。
3.本书旨在介绍Hadoop和Spark的基础知识,为即将学习大数据技术的读者奠定基础。
4.本书采用任务驱动的编写方式,读者可以直接进行实验效果体验,并进行自由调整。
5.本书采用大量的实践案例,结合行业典型应用,编写行业实践。
6.本书提供丰富的教学资源,包括电子课件、实验设计等。
|
內容簡介: |
本书是一本介绍大数据处理技术的专业图书,力求提高读者对大数据处理的认知水平和动手能力。本书首先介绍大数据技术的相关概念和发展历程,从实践的角度介绍 Hadoop 和 Spark 的安装部署、编程基础和使用方法;然后结合具体案例,重点介绍 Spark RDD、 Spark SQL、 Spark Streaming、 Spark GraphFrame 等的应用思路和方法,并通过具体代码,让读者更好地感受大数据处理技术的效果。
本书既可以作为高等院校计算机、大数据等相关专业的教材,也可以作为大数据技术相关从业人员的参考书,还可作为零基础人员学习 Hadoop 和 Spark 技术的入门图书。
|
關於作者: |
许桂秋,北京中科特瑞科技有限公司运营总监,主要研究方向为大数据、人工智能技术 ,已出版《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等图书。
|
目錄:
|
第 1章 大数据技术概述1
1.1 大数据技术简介1
1.1.1 大数据的发展1
1.1.2 大数据的流程4
1.2 大数据的主流软件5
1.2.1 Hadoop5
1.2.2 Spark8
1.2.3 Flink10
1.2.4 Hadoop与Spark对比11
1.3 大数据的主流编程语言12
1.3.1 Python语言12
1.3.2 Java语言13
1.3.3 Scala语言13
1.4 本章小结13
第 2章 Hadoop部署安装与使用14
2.1 Linux基本操作14
2.1.1 Linux简介14
2.1.2 新建与删除用户15
2.1.3 目录权限的查看与修改16
2.1.4 Linux的常用命令18
2.1.5 任务实现21
2.2 搭建Hadoop完全分布式集群21
2.2.1 关闭防火墙21
2.2.2 安装SSH22
2.2.3 安装Xshell及Xftp(可选)22
2.2.4 安装Java24
2.2.5 安装Hadoop25
2.2.6 克隆主机27
2.2.7 安装完全分布式模式29
2.3 查看Hadoop集群的基本信息37
2.3.1 查询存储系统信息37
2.3.2 查询计算资源信息38
2.4 本章小结39
第3章 HDFS基本操作40
3.1 Hadoop Shell命令操作HDFS40
3.1.1 HDFS简介40
3.1.2 HDFS Shell命令简介45
3.1.3 目录操作47
3.1.4 文件操作47
3.1.5 利用Web界面管理HDFS50
3.1.6 任务实现52
3.2 Java操作HDFS52
3.2.1 在Eclipse中创建HDFS交互Java项目53
3.2.2 在Java项目中编写Java应用程序57
3.2.3 编译运行应用程序与打包文件59
3.2.4 任务实现63
3.2.5 文件常用操作的参考代码65
3.3 本章小结71
第4章 MapReduce基本原理与编程实现72
4.1 MapReduce基本原理72
4.1.1 MapReduce简介72
4.1.2 MapReduce编程核心思想73
4.1.3 MapReduce编程规范74
4.1.4 MapReduce的输入格式75
4.1.5 MapReduce的输出格式77
4.1.6 分区77
4.1.7 合并78
4.2 编程实现——按访问次数排序79
4.2.1 编程思路与处理逻辑79
4.2.2 核心模块代码81
4.2.3 任务实现83
4.3 本章小结86
第5章 Hive部署与编程基础87
5.1 搭建伪分布式Hive87
5.1.1 Hive概述87
5.1.2 Hive安装和配置89
5.2 Hive基本操作91
5.2.1 数据库基本操作92
5.2.2 数据表基本操作93
5.2.3 数据基本操作95
5.3 编程实现——部门工资统计96
5.4 本章小结98
第6章 Spark部署与编程基础99
6.1 Spark的运行原理99
6.1.1 集群架构99
6.1.2 运行流程100
6.1.3 核心数据集RDD101
6.1.4 核心原理101
6.2 Scala安装与使用102
6.2.1 Scala 语言概述102
6.2.2 Scala特性102
6.2.3 环境设置与安装103
6.3 Spark安装与使用105
6.3.1 环境搭建前的准备105
6.3.2 Spark的安装与配置106
6.3.3 在PySpark中运行代码109
6.3.4 编程实现——Spark独立应用程序111
6.4 本章小结112
第7章 Spark RDD:弹性分布式数据集113
7.1 RDD概述113
7.2 RDD编程114
7.2.1 RDD编程基础114
7.2.2 键值对RDD136
7.2.3 数据读 写操作141
7.3 编程实现145
7.3.1 任务1:取出排名前五的订单支付金额145
7.3.2 任务2:文件排序149
7.3.3 任务3:二次排序153
7.4 本章小结158
第8章 Spark SQL:结构化数据文件处理159
8.1 Spark SQL概述159
8.1.1 Spark SQL简介159
8.1.2 Spark SQL CLI配置160
8.1.3 Spark SQL与Shell交互161
8.2 DataFrame基础操作161
8.2.1 创建DataFrame对象162
8.2.2 DataFrame查看数据168
8.2.3 DataFrame查询操作171
8.2.4 DataFrame输出操作176
8.3 Spark SQL与MySQL的交互177
8.4 本章小结180
第9章 Spark Streaming:实时计算框架181
9.1 Spark Streaming概述181
9.1.1 Spark Streaming应用场景181
9.1.2 流计算概述181
9.1.3 Spark Streaming特性分析184
9.2 DStream编程模型基础187
9.2.1 DStream概述187
9.2.2 基本输入源188
9.2.3 转换操作196
9.2.4 输出操作201
9.3 编程实现——流数据过滤与分析206
9.4 本章小结210
第 10章 Spark GraphFrames:图计算211
10.1 图计算概述211
10.1.1 图的基本概念211
10.1.2 图计算的应用212
10.1.3 GraphFrames简介213
10.2 GraphFrames编程模型基础213
10.2.1 创建实例化图213
10.2.2 视图和图操作214
10.2.3 保存和加载图216
10.3 编程实现——基于GraphFrames的网页排名216
10.3.1 准备数据集217
10.3.2 GraphFrames实现算法218
10.3.3 使用PageRank进行网页排名220
10.4 本章小结220
第 11章 大数据生态常用工具介绍221
11.1 Flume的安装与使用221
11.1.1 安装及配置Flume221
11.1.2 实例分析223
11.2 Kafka的安装与使用225
11.2.1 Kafka相关概念225
11.2.2 安装Kafka225
11.2.3 实例分析225
11.3 Sqoop的安装与使用226
11.3.1 安装及配置Sqoop227
11.3.2 添加MySQL驱动程序229
11.3.3 测试Sqoop与MySQL的连接229
11.4 编程实现——编写Spark程序使用Kafka数据源230
11.4.1 Kafka准备工作230
11.4.2 Spark准备工作231
11.4.3 编写代码233
11.5 本章小结237
|
|