新書推薦:
《
地下(村上春树沙林毒气事件的长篇纪实)
》
售價:HK$
76.7
《
偿还:债务与财富的阴暗面
》
售價:HK$
80.2
《
清华大学藏战国竹简校释(壹):《命训》诸篇
》
售價:HK$
94.4
《
封建社会农民战争问题导论(光启文库)
》
售價:HK$
68.4
《
虚弱的反攻:开禧北伐
》
售價:HK$
92.0
《
中华内丹学典籍丛书:古书隐楼藏书汇校(上下)
》
售價:HK$
257.2
《
辞源.修订本(建国60周年纪念版)(全二册)
》
售價:HK$
1477.6
《
泰山:一种中国信仰专论(法国汉学经典译丛)
》
售價:HK$
81.4
|
編輯推薦: |
简明扼要。内容简明,将大量的概念、技术内容以问答的形式给出,便于读者能够非常快速地找到自己感兴趣的内容同时获得精简的答案。
通俗易懂。考虑到读者对技术掌握程度深浅不同,相应的技术内容介绍均使用通俗的语言,以使得非技术领域的读者能够了解大数据技术的核心理念。
自成体系。内容覆盖大数据价值、技术、应用,尤其是技术部分覆盖了目前主流的大数据平台,是较为全面的大数据“技术辞典”。
|
內容簡介: |
《解惑大数据》是一本系统介绍大数据的技术普及读物,可帮助读者迅速了解大数据的概况。全书分为4章,共120个问题,内容涵盖大数据概念、大数据技术、大数据应用等各个方面。第1章为大数据概述篇,介绍了大数据的概念、技术特点及应用方向等;第2章为分布式平台篇,介绍了大数据的核心计算平台;第3章为分布式数据库篇,介绍大数据中广泛使用的分布式数据库;第4章为大数据与数据挖掘篇,介绍经典的数据挖掘算法以及大数据如何实现规模化和并行化处理。
《解惑大数据》可作为对大数据技术感兴趣的读者以及工程技术人员、行业管理人员、大数据系统的设计开发人员的技术参考资料,也可以作为大学本科高年级学生和研究生相关课程的参考书。
|
目錄:
|
目 录
第1章 大数据概述 1
Q1. 什么是大数据? 1
Q2. 大数据的规模如何? 1
Q3. 什么是大数据的多样化? 1
Q4. 什么是大数据的快速化? 2
Q5. 什么是大数据的价值化? 2
Q6. 大数据的起源是什么? 2
Q7. 大数据带来了哪些机遇? 3
Q8. 大数据带来了哪些挑战? 4
Q9. 什么是结构化数据? 5
Q10. 什么是非结构化数据? 5
Q11. 大数据的技术特点是什么? 5
Q12. 大数据有哪些处理模式? 5
Q13. 大数据的硬件架构有什么特点? 6
Q14. 大数据的软件架构有什么特点? 6
Q15. 大数据与云计算有什么关系? 7
Q16. 大数据适合哪些应用? 7
Q17. 零售行业如何应用大数据? 7
Q18. 金融行业如何应用大数据? 8
Q19. 交通行业如何应用大数据? 9
Q20. 互联网行业如何应用大数据? 10
Q21. 电信行业如何应用大数据? 11
第2章 分布式平台 13
2.1 分布式平台的基本概念 13
Q22. 什么是分布式平台? 13
Q23. 分布式平台的基本原理是什么? 14
Q24. 什么是分布式文件系统? 14
Q25. 什么是分布式计算? 15
2.2 开源项目 16
2.2.1 Hadoop 16
Q26. 什么是Hadoop? 16
Q27. Hadoop有哪些应用领域? 16
Q28. Hadoop的历史是什么? 17
Q29. Hadoop的优点是什么? 17
Q30. Hadoop和RDBMS的区别是什么? 18
Q31. Hadoop和高效能计算、网格计算的区别是什么? 17
Q32. Hadoop的发展现状如何? 20
Q33. Hadoop系统架构如何? 21
Q34. 什么是HDFS? 24
Q35. 什么是MapReduce? 31
2.2.2 GraphLab 40
Q36. 什么是GraphLab? 40
Q37. GraphLab出现的背景是什么? 40
Q38. GraphLab和MapReduce的区别是什么? 41
Q39. GraphLab的优点是什么? 42
Q40. GraphLab的软件栈结构是怎样的? 42
Q41. GraphLab并行化的基本思想是什么? 43
Q42. GraphLab的数据模型是什么? 45
Q43. GraphLab程序的执行模型是什么? 46
Q44. GraphLab和Mahout的区别是什么? 47
Q45. GraphLab有哪些相关子项目? 47
2.2.3 DPark 47
Q46. DPark是什么? 47
Q47. Spark是什么? 48
Q48. Spark和MapReduce的区别是什么? 48
Q49. DPark中有哪些基本概念? 49
Q50. DPark的计算模型是怎样的? 51
Q51. RDD的工作原理是什么? 52
Q52. RDD的容错机制是什么? 53
Q53. RDD内部的设计机制是什么? 54
Q54. DPark的任务调度机制是什么? 55
Q55. DPark共享变量的实现机制是怎样的? 56
Q56. DPark和Spark的性能比较如何? 57
Q57. DPark和Spark的区别是什么? 58
2.2.4 Storm 59
Q58. Storm是什么? 59
Q59. Storm出现的背景是什么? 59
Q60. Storm有哪些应用领域? 60
Q61. Storm的设计特征是什么? 61
Q62. Storm中有哪些关键概念? 61
Q63. Storm集群中有哪些组件? 65
Q64. Storm如何高效地实现消息的可靠性? 66
Q65. Storm是如何实现容错的? 69
Q66. Storm有哪些缺点? 69
第3章 分布式数据库 71
3.1 分布式数据库的基本概念 71
Q67. 什么是分布式数据库? 71
Q68. 什么是关系型数据库? 71
Q69. 什么是NoSQL数据库? 72
Q70. 为什么需要分布式数据库? 72
Q71. 大数据时代分布式数据库的特征是什么? 73
Q72. 分布式数据库相对传统集中式数据库的优点有哪些? 73
Q73. 什么是CAP定理? 73
3.2 开源项目 74
3.2.1 HBase 74
Q74. HBase是什么? 74
Q75. HBase的定位是什么? 74
Q76. HBase的设计特征是什么? 75
Q77. HBase和传统数据库的区别是什么? 75
Q78. HBase的数据模型是什么? 76
Q79. 运行中的HBase有什么特点? 79
Q80. HBase的集群架构是怎样的? 80
Q81. HBase的存储架构是怎样的? 81
Q82. HBase和HDFS的关系是什么? 84
Q83. 如何在HBase上运行MapReduce? 84
Q84. HBase能否支持SQL? 85
Q85. HBase有哪些常用场景? 85
3.2.2 Hive 86
Q86. 什么是Hive? 86
Q87. Hive的适用场景有哪些? 86
Q88. Hive的设计特征是什么? 87
Q89. Hive和RDBMS的区别是什么? 87
Q90. Hive的体系结构是怎样的? 89
Q91. Hive的元数据存储方案有哪些? 90
Q92. Hive的数据存储模型有哪些? 92
Q93. Hive和SQL的区别是什么? 94
Q94. 常见的HiveQL操作有哪些? 95
Q95. 什么是Hive的用户定义函数? 101
3.2.3 MongoDB 101
Q96. 什么是MongoDB? 101
Q97. MongoDB的设计特征是什么? 102
Q98. MongoDB的设计哲学是什么? 103
Q99. MongoDB中有哪些基本概念? 104
Q100. MongoDB数据模型是怎样的? 105
Q101. MongoDB和SQL的区别是什么? 105
Q102. 如何进行MongoDB的CRUD操作? 107
Q103. MongoDB支持哪些数据库驱动? 109
Q104. MongoDB如何实现高可用? 110
Q105. MongoDB的分片机制是怎样的? 111
Q106. MongoDB有哪些适用场景? 113
第4章 大数据与数据挖掘 115
Q107. 什么是数据挖掘? 115
Q108. 什么是机器学习? 115
Q109. 数据挖掘主要解决的问题有哪些? 115
Q110. 传统数据挖掘有哪些算法? 118
Q111. 什么是有监督学习? 118
Q112. 什么是无监督学习? 118
Q113. 什么是C4.5算法? 119
Q114. 什么是SVM? 119
Q115. 什么是贝叶斯算法? 120
Q116. 什么是K-Means算法? 120
Q117. 什么是EM算法? 121
Q118. 什么是Apriori算法? 121
Q119. 数据挖掘算法在电信行业如何应用? 121
Q120. 大数据时代如何进行数据挖掘? 122
|
|