新書推薦:
《
河流之齿
》
售價:HK$
59.8
《
新经济史革命:计量学派与新制度学派
》
售價:HK$
89.7
《
盗墓笔记之秦岭神树4
》
售價:HK$
57.3
《
战胜人格障碍
》
售價:HK$
66.7
《
逃不开的科技创新战争
》
售價:HK$
103.3
《
漫画三国一百年
》
售價:HK$
55.2
《
希腊文明3000年(古希腊的科学精神,成就了现代科学之源)
》
售價:HK$
82.8
《
粤行丛录(岭南史料笔记丛刊)
》
售價:HK$
80.2
|
內容簡介: |
本书分为两大部分,第一部分是云计算及云服务关键技术,第二部分是大数据应用开发实践技术。第一部分介绍大数据应用的基础—云计算,其中第1章主要介绍云计算的基础知识;第2~4章介绍云服务实现的关键技术,包括虚拟化技术、数据存储与管理技术、网络虚拟化技术;第5章介绍开源的云服务产品管理工具,重点介绍OpenStack。第二部分以大数据技术为主线,第6章介绍大数据的基础知识;第7章以搭建开源大数据分析平台为需求,介绍大数据分析平台与技术栈;第8~15章以大数据应用实践流程为主线,按分层技术栈介绍数据采集工具与消息队列、Hadoop分布式系统基础架构、Spark计算平台、Spark平台的安装部署与实践、Flink计算平台与实践、NoSQL数据库、Hive数据仓库与实践、数据可视化;第16章给出了综合实践的案例。 本书配套在线课程”云计算与大数据技术”已在”学堂在线”和\智慧树”在线平台上线,同步提供实践实验手册和录屏实操视频,方便读者将理论和实践相结合。本书配套PPT等教学资源可在华信教育资源网(www.hxedu.com.cn)免费下载。 本书可作为本科和高职院校计算机、软件、大数据相关专业的教材,也可为对云计算与大数据技术感兴趣的初学者提供参考。
|
關於作者: |
张冰峰,2002年7月至今主要从事《操作系统》、《软件项目管理》、《云计算与大数据技术》教学工作。从事软件开发、架构设计、项目管理工作20多年,主持参与和管理多个国家部委,民营企业软项目开发、设计和管理工作。
|
目錄:
|
第一部分 云计算及云服务关键技术 第1章 云计算概述2 1.1 云计算简介2 1.1.1 云计算的定义2 1.1.2 云计算的演进过程3 1.1.3 云计算的特点6 1.1.4 云计算的应用7 1.1.5 云计算安全7 1.2 云计算的产业生态9 1.2.1 云服务的分类9 1.2.2 云计算的产业链12 1.2.3 云服务提供商及产品13 1.3 云计算的关键技术15 1.3.1 分布式编程模型16 1.3.2 虚拟化技术16 1.3.3 数据存储技术16 1.3.4 数据管理技术17 1.3.5 云计算平台管理工具17 第2章 虚拟化概述19 2.1 虚拟化简介19 2.1.1 什么是虚拟化19 2.1.2 虚拟化技术的特点20 2.1.3 虚拟化与云计算20 2.2 虚拟化模式21 2.2.1 虚拟机监控器21 2.2.2 虚拟化模式的分类21 2.3 服务器虚拟化23 2.3.1 CPU虚拟化23 2.3.2 内存虚拟化26 2.3.3 I/O设备虚拟化31 2.4 存储虚拟化34 2.4.1 存储虚拟化的定义34 2.4.2 存储虚拟化分类35 2.5 网络虚拟化35 2.6 虚拟化软件36 第3章 数据存储与管理技术37 3.1 集中式存储与分布式存储37 3.1.1 常见存储分类37 3.1.2 集中式存储38 3.1.3 分布式存储39 3.2 分布式文件系统40 3.2.1 网络文件系统40 3.2.2 分布式文件系统的实现41 3.3 分布式对象存储41 3.3.1 Swift对象存储41 3.3.2 Haystack对象存储42 3.4 分布式数据库43 3.4.1 数据库架构模型43 3.4.2 大规模并行处理数据库44 3.4.3 分布式数据库的发展和产品45 3.5 云存储46 3.5.1 云存储的实现46 3.5.2 公有云存储服务46 3.5.3 私有云存储服务47 第4章 网络虚拟化技术49 4.1 网络虚拟化概述49 4.1.1 常见的网络虚拟化49 4.1.2 虚拟化环境下的物理网络50 4.1.3 虚拟化环境下的虚拟网络51 4.1.4 虚拟交换机52 4.2 云计算与网络虚拟化55 4.2.1 云计算与网络虚拟化的关系55 4.2.2 SDN与NFV的关系56 4.3 SDN的系统架构与特点57 4.3.1 SDN的系统架构57 4.3.2 SDN的特点58 4.4 OpenFlow协议58 4.4.1 OpenFlow协议简介58 4.4.2 OpenFlow协议架构59 4.4.3 OpenFlow交换机组成60 4.5 网络功能虚拟化61 4.5.1 网络功能虚拟化简介61 4.5.2 NFV架构62 4.5.3 NFV管理和编排62 4.6 Overlay技术63 4.6.1 Overlay简介63 4.6.2 Overlay构建65 4.6.3 Overlay主要技术标准67 第5章 云服务产品管理工具69 5.1 云服务产品IaaS云方案69 5.1.1 IaaS云需求69 5.1.2 IaaS云方案的设计70 5.1.3 IaaS云方案的实施部署70 5.2 云计算组件73 5.2.1 VMware73 5.2.2 Citrix73 5.2.3 微软74 5.3 云计算管理工具75 5.3.1 SaaS云计算管理工具75 5.3.2 PaaS云计算管理工具77 5.3.3 IaaS云计算管理工具79 5.4 OpenStack架构与组件80 5.4.1 OpenStack逻辑架构81 5.4.2 OpenStack物理架构82 5.4.3 OpenStack组件86 第二部分 大数据应用开发实践技术 第6章 大数据概述90 6.1 认知大数据90 6.1.1 大数据的定义90 6.1.2 大数据的特点90 6.1.3 大数据系统架构91 6.1.4 大数据的应用92 6.2 大数据关键技术93 6.3 大数据与云计算96 6.3.1 大数据与云计算的关系96 6.3.2 云服务平台上的大数据服务96 6.4 大数据与人工智能97 6.4.1 大数据与人工智能的关系97 6.4.2 云服务平台上的人工智能服务98 6.5 大数据与物联网100 6.5.1 物联网100 6.5.2 大数据与物联网和云计算的关系100 6.5.3 云服务平台上的物联网服务101 第7章 大数据分析平台与技术栈103 7.1 大数据分析平台103 7.2 大数据分析平台的选择104 7.3 开源大数据分析平台的搭建106 7.3.1 底层操作系统106 7.3.2 分布式计算平台106 7.3.3 数据接入和预处理工具107 7.3.4 数据存储工具108 7.3.5 数据分析和挖掘工具108 7.3.6 数据分析结果可视化及输出109 7.4 大数据分析平台搭建可选择的工具109 第8章 数据采集工具与消息队列111 8.1 数据采集概述111 8.1.1 大数据来源111 8.1.2 数据采集途径111 8.2 日志采集工具Flume114 8.2.1 Flume简介114 8.2.2 Flume NG的基本架构114 8.3 数据迁移工具Sqoop115 8.3.1 Sqoop简介115 8.3.2 Sqoop架构115 8.4 流数据采集框架Kafka116 8.4.1 Kafka简介116 8.4.2 Kafka架构117 8.5 消息队列118 8.5.1 消息队列简介118 8.5.2 消息队列的作用119 8.5.3 常见的消息队列121 第9章 Hadoop分布式系统基础架构125 9.1 Hadoop系统简介125 9.2 Hadoop生态圈125 9.2.1 Hadoop生态系统125 9.2.2 Hadoop版本126 9.3 HDFS概述129 9.3.1 分布式文件系统129 9.3.2 HDFS简介130 9.3.3 HDFS架构130 9.3.4 HDFS读写文件流程131 9.3.5 HDFS的Block副本放置策略和可靠性策略133 9.4 MapReduce计算框架134 9.4.1 MapReduce架构134 9.4.2 MapReduce的执行流程135 9.4.3 MapReduce的Shuffle机制137 9.5 YARN概述138 9.5.1 YARN简介138 9.5.2 YARN的特点138 9.5.3 YARN的基本框架139 9.5.4 YARN的工作流程140 9.6 Hadoop的部署与实践141 9.6.1 配置SSH免密码登录142 9.6.2 安装Hadoop143 9.6.3 修改配置文件144 9.6.4 Hadoop的启动和关闭146 第10章 Spark计算平台148 10.1 Spark概述148 10.1.1 Spark简介148 10.1.2 Spark的特点148 10.1.3 Spark计算平台的生态149 10.1.4 Spark的应用场景150 10.2 Spark架构150 10.3 Spark的部署模式152 10.4 Spark的运行流程152 10.4.1 Spark的Job提交流程153 10.4.2 Spark任务调度154 10.5 Spark数据处理模型RDD154 10.5.1 RDD的概念与特点154 10.5.2 RDD分区的基本知识155 10.5.3 RDD基本操作157 10.5.4 RDD基本操作范例159 10.5.5 RDD运行过程161 10.5.6 WordCount词频统计案例162 10.6 Spark与Scala163 第11章 Spark平台的安装部署与实践164 11.1 Scala编程语言164 11.1.1 Scala简介164 11.1.2 Scala下载与安装164 11.1.3 Scala环境变量设置167 11.1.4 启动Scala169 11.1.5 在IDEA中配置Scala170 11.1.6 Scala语言编程基础175 11.2 Spark的安装与部署184 11.2.1 Spark的安装环境184 11.2.2 Spark Linux版本下载184 11.2.3 Scala Linux版本下载187 11.2.4 上传Scala和Spark安装包187 11.2.5 安装与配置Scala和Spark189 11.2.6 启动Spark服务191 11.2.7 Spark Web UI192 11.3 Spark编程实践194 11.3.1 基于HDFS文件进行数据统计194 11.3.2 Spark SQL操作外部数据源195 第12章 Flink计算平台与实践196 12.1 Flink简介196 12.1.1 Flink及其特点196 12.1.2 Spark和Flink的比较196 12.1.3 Flink的分层抽象API197 12.1.4 Flink应用场景198 12.2 Flink软件栈200 12.3 Flink程序201 12.3.1 Flink程序的执行流程201 12.3.2 Flink程序和数据流202 12.3.3 Flink程序流理解204 12.4 Flink运行时架构205 12.4.1 Flink运行时架构简介205 12.4.2 Flink任务提交流程206 12.5 Flink时间处理机制207 12.5.1 Flink的3种时间207 12.5.2 Flink时间窗口208 12.5.3 Watermark211 12.6 Flink状态和容错机制215 12.6.1 Flink状态215 12.6.2 Flink容错机制217 12.6.3 Exactly-Once语义221 12.7 Flink的安装、配置和启动222 12.7.1 Flink的安装和部署模式222 12.7.2 Flink安装包的下载和上传224 12.7.3 Flink的配置225 12.7.4 Flink的启动227 第13章 NoSQL数据库231 13.1 NoSQL数据库简介231 13.1.1 NoSQL数据库的产生背景231 13.1.2 NoSQL数据库的特点231 13.1.3 常见的NoSQL数据库232 13.2 NoSQL数据库的分类232 13.2.1 键值数据库232 13.2.2 列式数据库234 13.2.3 文档数据库236 13.2.4 图数据库238 第14章 Hive数据仓库与实践241 14.1 Hive数据仓库241 14.1.1 Hive简介241 14.1.2 Hive的工作流程241 14.1.3 Hive的数据模型243 14.2 Hive的安装和部署246 14.2.1 Hive的安装环境246 14.2.2 Hive安装包的上传与安装247 14.2.3 配置环境变量248 14.2.4 在MySQL中创建hive数据库248 14.2.5 配置Hive249 14.2.6 Jar包处理252 14.2.7 基于HDFS创建元数据目录254 14.2.8 初始化Hive元数据255 14.3 Hive客户端连接256 14.3.1 启动Hadoop服务256 14.3.2 Hive CLI256 14.3.3 启动HiveServer2257 14.3.4 使用beeline客户端测试HiveServer2258 14.3.5 启动Metastore服务259 14.4 Hive操作260 14.4.1 数据库操作260 14.4.2 数据表操作261 第15章 数据可视化265
|
|