登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書

『簡體書』Spark大数据分析技术与实战

書城自編碼: 3022998
分類:簡體書→大陸圖書→計算機/網絡數據庫
作者: 经管之家
國際書號(ISBN): 9787121319037
出版社: 电子工业出版社
出版日期: 2017-06-01
版次: 1 印次: 1
頁數/字數: 232/
書度/開本: 128开 釘裝: 平塑

售價:HK$ 85.6

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
明朝帝王师(第六届茅盾文学奖得主  《张居正》作者熊召政明史随笔)
《 明朝帝王师(第六届茅盾文学奖得主 《张居正》作者熊召政明史随笔) 》

售價:HK$ 69.6
SaaS产品实践方法论:从0到N构建SaaS产品
《 SaaS产品实践方法论:从0到N构建SaaS产品 》

售價:HK$ 94.8
饥饿:全球食物分配体系崩坏现场
《 饥饿:全球食物分配体系崩坏现场 》

售價:HK$ 201.6
中唐秘史:高力士墓志解读
《 中唐秘史:高力士墓志解读 》

售價:HK$ 117.6
秦简中英读本
《 秦简中英读本 》

售價:HK$ 213.6
烟花女子——19世纪法国性苦难与卖淫史(物象社会译丛)
《 烟花女子——19世纪法国性苦难与卖淫史(物象社会译丛) 》

售價:HK$ 114.0
艺术通识课:世界音乐史+世界绘画史+世界建筑史(全3册)
《 艺术通识课:世界音乐史+世界绘画史+世界建筑史(全3册) 》

售價:HK$ 352.8
智能无人集群——改变未来战争的颠覆性力量
《 智能无人集群——改变未来战争的颠覆性力量 》

售價:HK$ 165.6

 

編輯推薦:
本书适合:
大数据技术初学者阅读;
作为高等院校计算机相关专业的研究生学习参考资料;
所有愿意对大数据技术有所了解并想要将大数据技术应用于本职工作的读者阅读。
內容簡介:
Spark作为下一代大数据处理引擎,经过短短几年的飞跃式发展,正在以燎原之势席卷业界,现已成为大数据产业中的一股中坚力量。本书着重讲解了Spark内核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念与理论框架,并提供了相应的示例与解析。全书共分8章,其中前4章介绍Spark内核,主要包括Spark简介、集群部署、工作原理、核心概念与操作等;后4章分别介绍Spark内核上的核心组件,每章系统地介绍Spark的一个组件,并附以相应的案例分析。本书适合作为高等院校计算机相关专业的研究生学习参考资料,也适合大数据技术初学者阅读,还适合于所有愿意对大数据技术有所了解并想要将大数据技术应用于本职工作的读者阅读。
關於作者:
经管之家(www.jg.com.cn):原人大经济论坛,于2003年成立,致力于推动经管学科的进步,传播优秀教育资源,目前已经发展成为国内优秀的经济、管理、金融、统计类的在线教育和咨询网站,也是国内活跃和具影响力的经管类网络社区。经管之家从2006年起在国内开展数据分析培训,累计培训学员数万人。在大数据的趋势背景下,创新“CDA数据分析师”品牌,致力于为社会各界数据分析爱好者提供优质、科学、系统的数据分析教育。截至2016年3月已成功举办40多期系统培训,培训学员达3千余名;CDA认证考试已成功举办三届,报考人数上千人;中国数据分析师俱乐部(CDA CLUB),每周线下免费沙龙活动,已举力40多期,累积会员2千余名;中国数据分析师行业峰会(CDA Summit),一年两届,参会人数皆达2千余名,在大数据领域影响力超前。“CDA数据分析师”队伍在业界不断壮大,对数据分析人才产业起到了巨大的推动作用。
目錄
第1章Spark导论1
1.1Spark的发展2
1.2什么是Spark3
1.3Spark主要特征3
1.3.1快速3
1.3.2简洁易用5
1.3.3通用6
1.3.4多种运行模式8
第2章Spark集群部署9
2.1运行环境说明9
2.1.1软硬件环境9
2.1.2集群网络环境10
2.2安装VMware Workstation 1110
2.3安装CentOS 616
2.4安装Hadoop21
2.4.1克隆并启动虚拟机21
2.4.2网络基本配置24
2.4.3安装JDK27
2.4.4免密钥登录配置28
2.4.5Hadoop配置29
2.4.6配置从节点33
2.4.7配置系统文件33
2.4.8启动Hadoop集群33
2.5安装Scala35
2.6安装Spark36
2.6.1下载并解压Spark安装包36
2.6.2配置Spark-env.sh37
2.6.3配置Spark-defaults.conf37
2.6.4配置Slaves38
2.6.5配置环境变量38
2.6.6发送至Slave1、Slave239
2.7启动Spark39
第3章RDD编程42
3.1RDD定义42
3.2RDD的特性43
3.2.1分区43
3.2.2依赖44
3.2.3计算45
3.2.4分区函数45
3.2.5优先位置46
3.3创建操作46
3.3.1基于集合的创建操作47
3.3.2基于外部存储的创建操作47
3.4常见执行操作49
3.5常见转换操作49
3.5.1一元转换操作50
3.5.2二元转换操作53
3.6持久化操作56
3.7存储操作58
第4章Spark调度管理与应用程序开发59
4.1Spark调度管理基本概念59
4.2作业调度流程60
4.2.1作业的生成与提交61
4.2.2阶段的划分62
4.2.3调度阶段的提交62
4.2.4任务的提交与执行62
4.3基于IntelliJ IDEA构建Spark应用程序64
4.3.1安装IntelliJ IDEA64
4.3.2创建Spark应用程序70
4.3.3集群模式运行Spark应用程序81
第5章GraphX87
5.1GraphX概述87
5.2GraphX基本原理89
5.2.1图计算模型处理流程89
5.2.2GraphX定义90
5.2.3GraphX的特点90
5.3GraphX设计与实现91
5.3.1弹性分布式属性图91
5.3.2图的数据模型92
5.3.3图的存储模型94
5.3.4GraphX模型框架97
5.4GraphX操作97
5.4.1创建图97
5.4.2基本属性操作100
5.4.3结构操作102
5.4.4转换操作103
5.4.5连接操作105
5.4.6聚合操作106
5.5GraphX案例解析107
5.5.1PageRank算法与案例解析107
5.5.2Triangle Count算法与案例解析110
第6章Spark SQL113
6.1Spark SQL概述113
6.2Spark SQL逻辑架构116
6.2.1SQL执行流程116
6.2.2Catalyst117
6.3Spark SQL CLI117
6.3.1硬软件环境117
6.3.2集群环境118
6.3.3结合Hive118
6.3.4启动Hive118
6.4DataFrame编程模型119
6.4.1DataFrame简介119
6.4.2创建DataFrames120
6.4.3保存DataFrames126
6.5DataFrame常见操作127
6.5.1数据展示127
6.5.2常用列操作128
6.5.3过滤131
6.5.4排序132
6.5.5其他常见操作134
6.6基于Hive的学生信息管理系统的SQL查询案例与解析137
6.6.1Spark SQL整合Hive137
6.6.2构建数据仓库138
6.6.3加载数据141
6.6.4查询数据142
第7章Spark Streaming146
7.1Spark Streaming概述146
7.2Spark Streaming基础概念147
7.2.1批处理时间间隔147
7.2.2窗口时间间隔148
7.2.3滑动时间间隔148
7.3DStream基本概念149
7.4DStream的基本操作150
7.4.1无状态转换操作150
7.4.2有状态转换操作152
7.4.3输出操作153
7.4.4持久化操作154
7.5数据源154
7.5.1基础数据源154
7.5.2高级数据源155
7.6Spark Streaming编程模式与案例分析156
7.6.1Spark Streaming编程模式156
7.6.2文本文件数据处理案例(一)157
7.6.3文本文件数据处理案例(二)160
7.6.4网络数据处理案例(一)164
7.6.5网络数据处理案例(二)171
7.6.6stateful应用案例175
7.6.7window应用案例180
7.7性能考量185
7.7.1运行时间优化185
7.7.2内存使用与垃圾回收186
第8章Spark MLlib187
8.1Spark MLlib概述187
8.1.1机器学习介绍187
8.1.2Spark MLlib简介189
8.2MLlib向量与矩阵190
8.2.1MLlib向量190
8.2.2MLlib矩阵192
8.3Spark MLlib分类算法196
8.3.1贝叶斯分类算法197
8.3.2支持向量机算法201
8.3.3决策树算法204
8.4MLlib线性回归算法208
8.5MLlib聚类算法212
8.6MLlib协同过滤215
內容試閱
随着电子信息、物联网等产业的高速发展,智能手机、平板电脑、可穿戴设备与物联网设备已经渗入到现代化生产与生活的各个方面,每时每刻产生着大量的数据,当今社会已经进入数据爆炸的时代。各领域中的相关数据不仅量大,而且种类繁多、变化速度快、价值密度低。这些日益凸显的大数据特征在全球范围内掀起了一场全新的思维、技术与商业变革,无论是产业界还是学术界都在持续加大在大数据技术和相关领域中的投入。中国制造2025战略规划和互联网 概念的提出再次为国内大数据技术的发展注入了强劲的动力,大数据技术已被提升到了前所未有的高度,预示了其未来广阔的发展空间与应用前景。

在大数据背景下,各领域对数据相关服务的需求不断提升,迫切需要一种高效通用的大数据处理引擎。相对于第一代大数据生态系统Hadoop中的MapReduce,Spark是一种基于内存的、分布式的大数据处理引擎,其计算速度更快,更加适合处理具有较多迭代次数的问题;Spark中还提供了丰富的API,使其具有极强的易用性;与此同时,Spark实现了一栈式的大数据解决方案,即在Spark内核基础上提出了Spark GraphX、Spark Streaming、Spark MLlib、Spark SQL等组件,使其不仅能够对海量数据进行批处理,同时还具备流式计算、海量数据交互式查询等功能,可以满足包括教育、电信、医疗、金融、电商、政府、智慧城市和安全等诸多领域中的大数据应用需求。

Spark作为下一代大数据处理引擎,经过短短几年的飞跃式发展,正在以燎原之势席卷业界,现已成为大数据产业中的一股中坚力量。

本书主要针对大数据技术初学者,着重讲解了Spark内核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念与理论框架,并提供了相应的示例与解析,以便读者能够尽快了解Spark。

全书共分为8章,其中前4章介绍Spark内核,主要包括Spark简介、集群部署、工作原理、核心概念与操作等;后4章分别介绍Spark内核的核心组件,每章系统地介绍Spark的一个组件,并附以相应的案例分析。

? 第1章:Spark导论。概述Spark的发展背景与起源,对比MapReduce介绍了Spark的特征、原理与应用场景等。

? 第2章:Spark集群部署。该章详细介绍了Ubuntu下Spark集群的部署过程与注意事项,首先利用VMware Workstation搭建Hadoop分布式集群;然后在集群中安装Scala;最后搭建Standalone模式的Spark集群。

? 第3章:RDD编程。该章对Spark中的弹性分布式数据集(Resilient Distributed Dataset RDD)这一核心概念进行了详细介绍,重点讲解了与之相关的定义、特征及其操作,并附以相应的示例与解析。

? 第4章:Spark调度管理与应用程序开发。该章阐述了Spark底层的工作机制,介绍了Spark应用程序从产生作业到最终计算任务的整个流程;基于IntelliJ IDEA讲解了Spark应用程序的开发过程,并介绍了如何在本地与集群模式下提交运行Spark应用程序。

? 第5章:GraphX。该章介绍了GraphX的基本原理,着重讲解了GraphX中弹性分布式属性图的定义、表示模型、存储方式以及其上的丰富操作;以经典的PageRank与三角形计数等图计算算法为例,讲解了GraphX中相关接口的使用方法。

? 第6章:Spark SQL。该章包含了Spark
SQL概述、SQL语句的处理流程、DataFrame数据模型的概念与相关操作等;并将Spark SQL与Hive相结合,给出了一个学生信息管理系统的设计与实现。

? 第7章:Spark Streaming。该章介绍了Spark Streaming的发展与应用场景以及批处理时间间隔、窗口间隔、滑动间隔等核心概念;着重讲解了DStream数据模型的概念与相关操作;针对不同应用场景下的流式计算需求,给出了有状态与无状态模式下的Spark Streaming应用案例与解析。

? 第8章:Spark MLlib。该章介绍了Spark
MLlib中向量、LabeledPoint、矩阵等核心数据类型的定义与使用;详细介绍了机器学习中分类、回归、聚类、协同过滤等经典算法的Spark实现与应用,并附以相应的案例与解析。

由于时间短,加之笔者水平有限,书中难免有疏漏之处,敬请读者朋友批评指正。

编 者 
2017年5月


3.2.2 依赖
RDD是易转换、易操作的,这意味着用户可以从已有的RDD转换出新的RDD。新、旧RDD之间必定存在着某种联系,这种联系称为RDD的依赖关系。RDD间的依赖关系是Spark中的一个重要概念,是Spark进行容错、优化与任务调度的基础。

RDD的依赖关系分为两种,如图3.1所示。

窄依赖:父RDD的每个分区最多被其子RDD的一个分区所依赖,也就是说子RDD的每个分区依赖于常数个父分区,子RDD每个分区的生成与父RDD的数据规模无关。

宽依赖:父RDD的每个分区被其子RDD的多个分区所依赖,子RDD每个分区的生成与父RDD的数据规模相关。

图3.1 依赖关系

在图3.1中,透明的矩形框代表一个RDD,每个矩形框里面的实心矩形代表RDD的一个分区。

为何要区分这两种依赖关系?一方面,对于若干个彼此窄依赖关系的RDD,基于任何一个子RDD分区可以方便地计算出其所有祖先RDD的相应分区,这些RDD可以在集群的节点的内存中以流水线(pipeline)的方式高效执行,如图3.2中Stage2所示。另一方面,对于窄依赖关系间的RDD,当子RDD的一个分区出错,可以很方便地利用父RDD中对应的分区重新计算该错误分区,因此窄依赖关系使得数据的容错与恢复非常方便;而对于宽依赖关系,子RDD的一个分区出错会导致其对应父RDD的多个分区进行重新计算,过程类似于MapReduce的Shuffle操作,代价非常高。


图3.2 流水线形式计算多个窄依赖关系间的RDD

示例2-3 RDD间的依赖关系



运行结果:



其中res1返回的org.apache.spark.OneToOneDependency为窄依赖关系;res2返回的org.apache. spark.ShuffleDependency为宽依赖关系。

3.2.3 计算

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.