新書推薦:
《
罗马政治观念中的自由
》
售價:HK$
51.8
《
中国王朝内争实录:宠位厮杀
》
售價:HK$
63.3
《
凡事发生皆有利于我(这是一本读了之后会让人运气变好的书”治愈无数读者的心理自助经典)
》
售價:HK$
45.8
《
未来特工局
》
售價:HK$
57.3
《
高术莫用(十周年纪念版 逝去的武林续篇 薛颠传世之作 武学尊师李仲轩家世 凸显京津地区一支世家的百年沉浮)
》
售價:HK$
56.4
《
英国简史(刘金源教授作品)
》
售價:HK$
101.2
《
便宜货:廉价商品与美国消费社会的形成
》
售價:HK$
77.3
《
读书是一辈子的事(2024年新版)
》
售價:HK$
79.4
|
內容簡介: |
本书分为5篇,包括11章和3个附录。大数据基础篇包括第1章(绪论);大数据存储篇包括第2~3章(HDFS分布式文件系统、NoSQL及其HBase分布式数据库系统);大数据计算篇包括第4~7章(MapReduce分布式计算、大数据的Spark内存计算、大数据的流计算、大数据的图计算);大数据管理、查询分析及可视篇包括第8~10章(Hadoop的数据整合、集群管理与维护,大数据的查询分析技术,R语言与可视化技术);大数据发展及应用篇包括第11章(大数据应用——人工智能深度学习)。本书体现了校际联盟、校企合作的建设成果,将理论与实践相结合,突出实践应用。本书配套的教学资源丰富,包括PPT、教学大纲、实验指导书、习题、模拟考试试卷等,读者在可以登录华信教育资源网(www.hxedu.com.cn)注册后免费下载。本书可以作为应用型本科院校、高等职业院校计算机专业、大数据专业、人工智能专业的教材,也可以作为相关培训机构的教材,还可以作为软件开发和应用从业人员的参考书。
|
關於作者: |
刘甫迎,教授,硕士研究生导师,2006年获的教学名师奖、成为当时全国高职高专首位获得该殊荣的教师。2006~2010年,担任高职高专计算机类专业教学指导委委员,曾获四川省有突出贡献的优秀专家称号,四川省优秀教师称号。1982年1月毕业于电子科技大学计算机工程专业。1975年至1995年在中国科学院成都计算机应用研究所,历任软件研究室副主任、副研究员。1985年在加拿大McMaster大学作中科院公派访问学者。作为负责人获国家精品课程一项,四川省精品课程二项,获四川省教学成果一、二等奖各一项。作为主编2002年获全国普通高等学校优秀教材二等奖。1981年获四川省重大科技成果奖。发表论文40余篇,主编出版教材、著作21部。获选普通高等教育“十一五”规划教材两部。获选“十三五”职业教育国家规划教材一部。
|
目錄:
|
目录篇 大数据基础篇第1章 绪 论21.1 大数据概述21.1.1 三次信息化浪潮、大数据的兴起与影响21.1.2 大数据的概念及特征51.1.3 大数据的计算模式91.1.4 大数据的关键技术111.2 大数据的Hadoop解决方案131.2.1 Hadoop的由来与发展131.2.2 Hadoop的特性、运行原理和生态环境141.2.3 Hadoop的企业级开发架构、技术与落地应用181.3 大数据各时期的热点与数据使用发展趋势211.3.1 数据架构各时期的演变221.3.2 Hadoop的YARN计算框架241.3.3 大数据的实时交互式分析251.3.4 数据使用发展趋势25习题29第二篇 大数据存储篇第2章 HDFS分布式文件系统322.1 HDFS及其设计思路和架构322.1.1 HDFS及其设计思路322.1.2 HDFS的架构与基本存储单元332.1.3 HDFS的存/取流程342.2 HDFS Shell的基本操作382.3 HDFS的命令行操作412.3.1 HDFS文件访问权限412.3.2 通过Web浏览HDFS文件422.3.3 HDFS的接口(API)使用44习题46第3章 NoSQL及其HBase分布式数据库系统483.1 大数据环境中的NoSQL483.1.1 NoSQL应运而生483.1.2 NoSQL的类型493.1.3 NoSQL的三大基石513.2 HBase的设计思路与架构543.2.1 HBase的系统架构与组件543.2.2 HBase的数据模型、物理存储与查找563.2.3 HBase的数据读/写流程603.3 HBase的操作与数据管理613.3.1 HBase的Shell操作613.3.2 Java API 与非Java访问643.3.3 HBase的编程实例653.4 从RDBMS到HBase673.5 为应用程序选择合适的Hadoop数据存储机制69习题70第三篇 大数据计算篇第4章 MapReduce分布式计算744.1 MapReduce的架构与源码分析744.1.1 MapReduce的架构与执行过程744.1.2 MapReduce的输入与输出754.1.3 MapReduce的Job类784.2 MapReduce任务的异常处理与失败处理794.2.1 MapReduce任务的异常处理方式794.2.2 MapReduce任务的失败处理方式804.3 在HBase上运行MapReduce804.4 MapReduce程序开发实例824.5 基于MapReduce的数据挖掘应用884.5.1 数据挖掘与高级分析库Mahout884.5.2 矩阵乘法904.5.3 相似度计算93习题96第5章 大数据的Spark内存计算995.1 Spark概述995.1.1 Spark及其架构995.1.2 Spark的特点及性能1005.1.3 Spark的基本原理及计算方法1015.1.4 Spark与MapReduce、Hive对比1025.1.5 Spark在国内的现状以及未来的展望1035.2 Spark的RDD1035.2.1 Spark的核心概念——RDD1035.2.2 RDD基本操作1045.2.3 Spark提供的Transformation实现与Action实现1045.3 Spark的运行模式1055.3.1 Spark的程序框架1055.3.2 独立(Standalone)模式1075.3.3 Spark YARN的模式1085.4 Spark应用程序1095.4.1 Scala语言简介1095.4.2 Spark程序设计1115.5 Spark SQL1165.5.1 Spark SQL简介1165.5.2 DataFrame1175.5.3 Datasets1225.5.4 使用数据源124习题127第6章 大数据的流计算1296.1 流计算概述1296.1.1 无界数据及流数据1296.1.2 流计算概念1316.1.3 流计算框架1326.1.4 流计算的价值与应用1376.2 流计算处理流程1386.2.1 概述1386.2.2 数据实时采集1386.2.3 数据实时计算1396.2.4 实时查询服务1406.3 开源流计算框架Flink1416.3.1 Flink简介1416.3.2 Flink的基本架构1426.3.3 Flink编程144习题148第7章 大数据的图计算1497.1 大数据的图计算概述1497.2 Spark GraphX1507.2.1 Spark GraphX简介1507.2.2 Spark GraphX的实现分析1517.2.3 Spark GraphX实例1527.3 Pregel1557.3.1 Pregel简介1557.3.2 Pregel图计算模型1567.3.3 Pregel的体系结构1597.3.4 PageRank算法及其实现161习题165第四篇 大数据管理、查询分析及可视篇第8章 Hadoop的数据整合、集群管理与维护1688.1 Hadoop数据整合1688.1.1 Hadoop计算环境中的数据整合问题1688.1.2 数据库整合工具Sqoop(导入、导出数据)1688.1.3 Hadoop平台内部数据整合工具——HCatalog1728.2 Hadoop集群管理与维护1758.2.1 云计算平台的管理体系1758.2.2 集群中的配置管理与协调者——ZooKeeper1778.2.3 Hadoop集群部署与监控集成工具——Ambari1798.2.4 基于Kerberos的Hadoop安全管理1818.2.5 Hadoop集群管理工具分析183习题184第9章 大数据的查询分析技术1859.1 大数据对传统分析处理的挑战1859.2 查询(SQL on Hadoop)1859.3 使用Hive和Pig处理数据1889.3.1 Hive与HiveQL命令1889.3.2 Pig与Pig Latin1929.3.3 实例1939.3.4 Hive与Pig对比1959.4 实时互动的SQL:Impala和Drill1959.4.1 Cloudera Impala1959.4.2 Apache Drill196习题205第10章 R语言与可视化技术20610.1 开源可视化统计绘图工具——R语言20610.1.1 R语言概述20610.1.2 R软件资源20710.1.3 函数、运算符、数据表和数据框20810.1.4 数据存/取及脚本语言20910.1.5 绘图及实例21010.2 可视化技术21310.2.1 可视化技术及分类21310.2.2 入门级工具21410.2.3 互动图形用户界面控制21510.2.4 地图工具21610.2.5 可视化设计工具21610.2.6 专家级可视化分析工具217习题218第五篇 大数据发展及应用篇第11章 大数据应用——人工智能深度学习22011.1 理解大数据深度学习22011.1.1 机器学习、感知器与大数据深度学习22011.1.2 人工神经网络与深度学习22111.2 深度学习的编程基础22211.2.1 环境配置22211.2.2 Python入门22711.2.3 NumPy22911.2.4 机器学习实践23211.3 大数据深度学习实践24011.3.1 卷积神经网络24011.3.2 深度学习在图像中的应用240习题245附录A 《大数据原理与技术》教学大纲246附录B 实验指导书247B.1 实验一:Hadoop平台安装环境配置(Ambari)247B.2 实验二:Hadoop集群配置及HDFS的使用252B.3 实验三:HBase的安装与实例运行257B.4 实验四:MapReduce计算263B.5 实验五:基于MapReduce的大数据挖掘实例264B.6 实验六:认识Spark265B.7 实验七:Spark编程268B.8 实验八:初步体验大数据流计算框架Flink270B.9 实验九:数据库整合工具Sqoop与查询分析(Hive、Pig)273B.10 实验十:R语言与可视化技术278B.11 实验十一:认识深度学习(PyCharm、Python、NumPy、 Keras)280B.12 实验十二:深度学习实例284附录C 模拟考试288C.1 模拟考试试卷(一)288C.2 模拟考试试卷(二)290参考文献293
|
|