新書推薦:
《
河流之齿
》
售價:HK$
59.8
《
新经济史革命:计量学派与新制度学派
》
售價:HK$
89.7
《
盗墓笔记之秦岭神树4
》
售價:HK$
57.3
《
战胜人格障碍
》
售價:HK$
66.7
《
逃不开的科技创新战争
》
售價:HK$
103.3
《
漫画三国一百年
》
售價:HK$
55.2
《
希腊文明3000年(古希腊的科学精神,成就了现代科学之源)
》
售價:HK$
82.8
《
粤行丛录(岭南史料笔记丛刊)
》
售價:HK$
80.2
|
內容簡介: |
本书从初学者的角度详细介绍大数据的核心技术。全书共11章,包括绪论、Linux的基础操作、Hadoop大数据处理架构、HDFS分布式文件系统、MapReduce分布式计算框架、ZooKeeper分布式协调服务、YARN资源管理器、HBase分布式数据库、Hive数据仓储、PySpark数据处理与分析及综合案例。此外,本书还提供了相应的示例代码,以帮助读者进一步理解相关方案的实现过程。
|
關於作者: |
吴慧欣,男,博士、教授,主要从事系统建模与仿真、机器学习、虚拟现实技术研究,担任河南省大数据专家委员会委员,河南省研究生教育指导委员会委员,河南省一流本科专业软件工程负责人,主持完成省部级以上科研、教改项目9项,获省部级科技奖励2项,国家发明专利7项,发表学术论文32篇,SCI/EI收录15篇。
|
目錄:
|
目 录第1章 绪论11.1 大数据的形成和发展11.2 大数据的基本概念31.2.1 什么是大数据31.2.2 大数据的特征31.3 大数据关键技术51.3.1 大数据采集技术51.3.2 大数据预处理技术61.3.3 大数据存储与管理技术71.3.4 大数据分析与挖掘技术81.3.5 大数据展现与应用技术101.4 大数据的行业应用111.4.1 水利领域111.4.2 生物医学领域131.4.3 智慧城市领域141.4.4 商业领域151.4.5 信息安全领域151.5 大数据领域的主要职位及其能力要求161.5.1 首席数据官161.5.2 数据科学家171.5.3 大数据开发工程师171.5.4 大数据运维工程师181.6 本章小结181.7 习题18第2章 Linux的基础操作192.1 Linux概述192.1.1 Linux系统的发行版本及特点192.1.2 Linux与Windows系统对比192.2 Linux命令202.2.1 命令行技巧202.2.2 Linux帮助命令222.2.3 Linux文件类型及查看操作242.2.4 文件与目录操作272.2.5 文本编辑342.2.6 文本过滤器与处理392.2.7 用户与用户组管理432.2.8 文件权限管理492.2.9 归档与压缩532.2.10 进程管理562.3 本章小结572.4 习题57第3章 Hadoop大数据处理架构593.1 Hadoop简介593.1.1 Hadoop的概念593.1.2 Hadoop的发展史593.1.3 Hadoop版本介绍613.2 Hadoop的特性613.3 Hadoop生态系统623.3.1 Hadoop集群的架构623.3.2 Hadoop生态系统的组件623.4 部署Hadoop集群643.4.1 Hadoop集群的部署方式643.4.2 虚拟机的创建和配置643.4.3 安装JDK913.4.4 安装Hadoop923.4.5 验证983.5 本章小节1043.6 习题104第4章 HDFS分布式文件系统1054.1 HDFS简介1054.1.1 分布式文件系统的发展1054.1.2 HDFS的基本概念1074.1.3 HDFS的特点1084.2 HDFS的存储架构和工作原理1094.2.1 HDFS的存储架构1094.2.2 HDFS文件的读取原理1104.2.3 HDFS文件的写入原理1114.3 HDFS的Shell操作1124.4 HDFS的Java API介绍1144.4.1 HDFS Java API概述1144.4.2 使用Java API操作HDFS1144.5 本章小结1234.6 习题123第5章 MapReduce分布式计算框架1245.1 MapReduce简介1245.1.1 分布式并行编程1245.1.2 MapReduce模型简介1255.1.3 MapReduce的优/缺点1255.1.4 Map和Reduce函数1265.2 MapReduce的工作原理1275.2.1 工作原理概述1275.2.2 MapReduce的工作过程1275.2.3 Map任务的工作原理1295.2.4 Shuffle的工作原理1305.2.5 Reduce任务的工作原理1335.3 MapReduce编程组件1345.3.1 InputFormat组件1355.3.2 Mapper组件1395.3.3 Reducer组件1405.3.4 Partitioner组件1405.3.5 Combiner组件1415.3.6 OutputFormat组件1425.4 MapReduce案例1425.4.1 本地测试环境配置1435.4.2 WordCount1445.4.3 倒排索引1465.4.4 数据去重1545.4.5 Top-N1575.5 MapReduce实验1605.5.1 任务要求1615.5.2 环境准备1615.5.3 程序编写1625.5.4 本地测试1655.5.5 集群测试1665.6 本章小结1675.7 习题168第6章 ZooKeeper分布式协调服务1706.1 ZooKeeper概述1706.1.1 ZooKeeper的设计目标1706.1.2 ZooKeeper的特性1716.1.3 ZooKeeper集群角色1726.1.4 ZooKeeper实现1736.2 ZooKeeper数据模型1746.2.1 数据存储结构1746.2.2 节点类型1756.2.3 znode属性1766.2.4 znode数据访问1766.2.5 其他节点1766.2.6 ZooKeeper中的时间1776.3 watch机制1786.3.1 watch机制的定义1786.3.2 watch机制的语义1786.3.3 watch机制的实现1796.3.4 watch机制的特点1796.3.5 watch机制的通知状态和事件类型1806.3.6 ZooKeeper对watch的支持1806.4 ZooKeeper的选举机制1806.4.1 选举机制相关概念1806.4.2 选举机制类型1816.5 ZooKeeper会话1826.6 ZooKeeper使用ACL进行访问控制1856.6.1 ACL权限与内置方案1856.6.2 ZooKeeper C API1866.7 可插拔ZooKeeper身份验证1876.8 ZooKeeper绑定1896.8.1 Java绑定1896.8.2 C绑定1916.9 ZooKeeper部署及操作1916.9.1 ZooKeeper的下载与安装1926.9.2 配置修改1926.9.3 ZooKeeper操作1946.9.4 ZooKeeper集群部署1956.9.5 ZooKeeper的Java API操作2036.10 ZooKeeper典型应用2096.10.1 数据发布与订阅2096.10.2 负载均衡2096.10.3 命名服务2106.10.4 分布式锁2106.11 本章小结2116.12 习题211第7章 YARN资源管理器2137.1 YARN介绍2137.1.1 YARN的概念2137.1.2 YARN的应用场景2137.2 YARN的基本组成2147.2.1 ResourceManager2157.2.2 NodeManager2157.2.3 ApplicationMaster2167.3 YARN的工作流程2167.4 YARN的调度器2177.4.1 先进先出调度器2187.4.2 容量调度器2187.4.3 公平调度器2217.5 YARN的常用命令2277.5.1 查看任务2277.5.2 查看日志2287.5.3 查看尝试运行任务2287.5.4 查看容器2297.5.5 查看节点状态2297.5.6 更新配置2297.5.7 查看队列2307.6 本章小结2307.7 习题230第8章 HBase分布式数据库2328.1 HBase简介2328.2 HBase的基本组成结构2328.2.1 表2338.2.2 行2338.2.3 列簇2338.2.4 列限定符2338.2.5 单元格2338.3 HBase数据模型2348.4 HBase的系统架构2358.5 HBase的安装部署2378.6 HBase的Shell操作2418.6.1 基本命令2418.6.2 命名空间操作2428.6.3 常用DDL操作2438.6.4 常用DML操作2478.7 HBase的Java API介绍2518.7.1 环境配置2518.7.2 Java API操作2528.8 本章小结2558.9 习题255第9章 Hive数据仓储2569.1 Hive简介2569.1.1 Hive的体系结构2569.1.2 Hive的工作流程2579.2 Hive的安装与配置2589.2.1 Hive的安装2589.2.2 Hive的配置2609.3 Hive数据操作2619.3.1 Hive的数据类型2619.3.2 DDL操作2639.3.3 DML操作2679.3.4 Hive SQL操作2709.4 实验2749.4.1 例1:MovieLens用户评分2749.4.2 例2:Apache网络日志数据2769.5 本章小结2769.6 习题277第10章 PySpark数据处理与分析27810.1 Spark概述27810.1.1 基本概念27910.1.2 Spark的基本组成与架构28010.1.3 Spark编程模型28210.1.4 Spark集群架构28310.2 PySpark简介28510.3 PySpark的部署和操作28510.3.1 PySpark部署28510.3.2 快速启动DataFrame28710.4 Spark Pandas API29910.4.1 快速入门29910.4.2 常用的操作运算30510.4.3 PySpark使用方法的详细讲解30710.5 实验33210.5.1 DataFrame数据操作33310.5.2 Spark Pandas API的操作33410.6 本章小结33510.7 习题335第11章 综合案例33711.1 实验准备33711.2 实验环境33711.3 实验目的33711.4 数据预处理33811.5 数据入库33911.5.1 启动Hadoop环境33911.5.2 数据导入HBase34011.6 构建索引表34111.6.1 创建Jingdong工程34211.6.2 导入相关jar包34311.6.3 创建ItemsInfo实体类34611.6.4 编写创建HBase索引表的代码34811.6.5 将程序打包成jar包35611.6.6 运行环境配置36111.6.7 运行程序36311.7 构建搜索引擎36311.7.1 创建Java Web工程36411.7.2 导入相关jar包36611.7.3 部署Tomcat到IntelliJ IDEA中36711.7.4 创建相关类37011.7.5 创建前端页面DataSearch.jsp37811.7.6 加载hbase-site.xml配置文件38211.8 页面访问38511.9 本章小结386参考文献387
|
|