新書推薦:
《
拍电影的热知识:126部影片里的创作技巧(全彩插图版)
》
售價:HK$
109.8
《
大唐名城:长安风华冠天下
》
售價:HK$
87.4
《
情绪传染(当代西方社会心理学名著译丛)
》
售價:HK$
88.5
《
中国年画 1950-1990 THE NEW CHINA: NEW YEAR PICTURE 英文版
》
售價:HK$
236.0
《
革命与反革命:社会文化视野下的民国政治(近世中国丛书)
》
售價:HK$
93.2
《
画楼:《北洋画报》忆旧(年轮丛书)
》
售價:HK$
337.5
《
大国脊梁:漫画版
》
售價:HK$
80.2
《
跟着渤海小吏读历史:大唐气象(全三册)
》
售價:HK$
189.0
|
內容簡介: |
本书为高等职业教育计算机类新形态——工作手册式教材,内容包括基础环境的搭建与配置,Hadoop完全分布式集群的搭建与运行,Hadoop 核心组件的应用案例,Hive 组件的安装、配置与应用,ZooKeeper的安装、配置与应用,HBase 的安装、配置与应用,Sqoop 组件的安装、配置与应用,Flume 组件的安装、配置与应用,Kafka 的安装、配置与应用,Spark 的安装、配置与应用,广电大数据用户画像。本书采用项目式设计,以项目学习目标、任务描述、任务分析和任务实施作为立体化工作指南。本书由校企联合开发,融合了大数据平台运维的“1+X”技能考证、大数据运维工程师岗位证书考试等内容,从实用出发,通俗易懂,难度适宜,便于开展理论实践一体化、岗课赛证融通教学。本书配有电子教学课件、微课视频、项目素材(代码和数据等)和考试题库等数字资源。
|
關於作者: |
时东晓,男,1967年3月出生,中共党员,1987年7月毕业于西安电子科技大学计算机工程专业,获工学学士学位,武汉大学软件工程硕士。1998年6月评聘为高级工程师,工信部认证CIO,信息安全工程师(高级),具有丰富的行业企业实践经验和职业教育教学经验。
|
目錄:
|
项目1 基础环境的搭建与配置1任务1.1 搭建虚拟机21.1.1 安装虚拟机软件21.1.2 安装master节点虚拟机41.1.3 配置master节点的网络71.1.4 克隆slave节点10任务1.2 配置连接工具131.2.1 测试Windows操作系统连接虚拟机141.2.2 使用Xshell工具151.2.3 使用Xftp工具18任务1.3 配置Hadoop平台基础环境201.3.1 设置服务器的主机名201.3.2 关闭并禁用防火墙211.3.3 修改主机IP地址映射文件231.3.4 配置SSH免密登录241.3.5 设置集群时间同步291.3.6 安装Java环境32项目总结35项目2 Hadoop完全分布式的搭建与运行36任务2.1 搭建Hadoop完全分布式集群37任务2.2 运行Hadoop集群462.2.1 格式化NameNode462.2.2 启动和关闭Hadoop集群472.2.3 使用浏览器查看节点状态49项目总结50项目3 Hadoop核心组件的应用案例51任务3.1 Hadoop Java API读取序列化日志文件513.1.1 配置开发环境523.1.2 创建Maven工程553.1.3 读取序列化文件57任务3.2 预测M电影网站用户性别603.2.1 获取数据613.2.2 数据变换623.2.3 数据清洗773.2.4 划分数据集793.2.5 实现用户性别聚类83项目总结91项目4 Hive组件的安装、配置与应用92任务4.1 安装与配置MySQL数据库934.1.1 安装MySQL数据库934.1.2 配置MySQL数据库96任务4.2 安装与配置Hive组件994.2.1 安装Hive组件994.2.2 配置Hive环境1014.2.3 初始化Hive数据库103任务4.3 Hive Shell的基本操作1044.3.1 启动Hive1054.3.2 操作Hive数据库1054.3.3 操作Hive内部表106任务4.4 统计分析餐饮数据1104.4.1 数据说明1104.4.2 创建表并导入数据1114.4.3 统计分析任务实现112项目总结117项目5 ZooKeeper的安装、配置与应用118任务5.1 分布式搭建部署与管理ZooKeeper1195.1.1 在master节点上安装ZooKeeper组件1195.1.2 在master节点上配置ZooKeeper组件1215.1.3 在slave节点上安装与配置ZooKeeper组件1225.1.4 管理ZooKeeper服务123任务5.2 监控服务器上下线动态1245.2.1 创建Maven工程并连接ZooKeeper集群1255.2.2 任务实现125项目总结128项目6 HBase的安装、配置与应用129任务6.1 安装与配置HBase1306.1.1 在master节点上安装HBase组件1306.1.2 在master节点上修改配置文件1326.1.3 在slave节点上安装HBase组件1346.1.4 启动HBase集群134任务6.2 HBase Shell的基本操作1366.2.1 应用HBase Shell1366.2.2 操作HBase表1386.2.3 操作HBase数据139任务6.3 设计手游信息的数据存储1416.3.1 设计表结构1426.3.2 创建表结构1426.3.3 设计业务逻辑147项目总结156项目7 Sqoop组件的安装、配置与应用157任务7.1 安装与配置Sqoop组件1587.1.1 安装Sqoop组件1587.1.2 修改Sqoop组件配置文件1607.1.3 测试Sqoop组件的安装情况161任务7.2 Sqoop组件的导入与导出应用操作1627.2.1 准备MySQL数据库数据1627.2.2 在Hive中准备表1637.2.3 将MySQL数据库中的数据导入Hive1647.2.4 将MySQL数据库中的数据导入HDFS1657.2.5 从Hive中导出数据至MySQL数据库168任务7.3 查询与传输用户日志数据1707.3.1 查询MySQL数据库的用户日志数据表中的记录数1707.3.2 增量导入MySQL数据库中的用户日志数据至Hive1717.3.3 导出Hive中的浏览信息筛选结果至MySQL数据库172项目总结173项目8 Flume组件的安装、配置与应用174任务8.1 安装与配置Flume组件1758.1.1 安装Flume组件1758.1.2 配置Flume组件1778.1.3 创建代理配置文件1788.1.4 启动Flume并传输数据1798.1.5 查看Flume传输的文件数据179任务8.2 广告日志数据采集系统1808.2.1 采集系统日志数据1828.2.2 采集广告曝光日志数据183项目总结186项目9 Kafka的安装、配置与应用187任务9.1 安装与配置Kafka1889.1.1 在master节点上安装与配置Kafka组件1889.1.2 在slave节点上安装Kafka组件1909.1.3 管理Kafka服务1919.1.4 演示Kafka分布式发布订阅消息192任务9.2 实时传输广告日志数据1949.2.1 创建脚本文件1949.2.2 创建Kafka主题1969.2.3 Flume采集日志196项目总结198项目10 Spark的安装、配置与应用199任务10.1 安装与配置Scala20010.1.1 在master节点上安装Scala20010.1.2 在slave节点上安装Scala20210.1.3 测试Scala的安装情况202任务10.2 安装与配置Spark组件20310.2.1 在master节点上安装Spark组件20310.2.2 修改Spark配置文件20510.2.3 在slave节点上安装Spark组件20610.2.4 运行Spark集群206任务10.3 应用举例spark-shell20810.3.1 上传数据文件20810.3.2 运行spark-shell单词统计程序209任务10.4 聚类分析超市客户21210.4.1 安装Scala插件21210.4.2 配置Spark运行环境21410.4.3 探索数据与构建特征21710.4.4 保存数据至Hive22110.4.5 构建K-means聚类模型221项目总结224项目11 广电大数据用户画像225任务11.1 说明与存储数据225任务11.2 数据探索与数据预处理23111.2.1 总体概述23211.2.2 探索异常数据23411.2.3 探索主要业务数据23611.2.4 探索标签阈值23911.2.5 数据预处理245任务11.3 构建SVM预测模型与用户画像25011.3.1 构建特征列和标签列数据25011.3.2 构建SVM模型、评价模型效果并预测用户是否挽留25311.3.3 构建用户画像255项目总结261附录A 选用组件版本列表262
|
|