登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書

『簡體書』数据科学理论与实践

書城自編碼: 3809837
分類:簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 朝乐门
國際書號(ISBN): 9787302616351
出版社: 清华大学出版社
出版日期: 2022-12-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 98.8

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
巴比伦怪物:魏玛共和国犯罪鉴证实录(“火与风”丛书)
《 巴比伦怪物:魏玛共和国犯罪鉴证实录(“火与风”丛书) 》

售價:HK$ 101.2
启功谈国画(启功著,中华书局出版)
《 启功谈国画(启功著,中华书局出版) 》

售價:HK$ 64.4
中国书法的历程
《 中国书法的历程 》

售價:HK$ 89.7
汉语修辞学(第四版)(中华当代学术著作辑要)
《 汉语修辞学(第四版)(中华当代学术著作辑要) 》

售價:HK$ 158.7
中国近代画报大系·中国近代画报史稿
《 中国近代画报大系·中国近代画报史稿 》

售價:HK$ 181.7
思想地震:柄谷行人演讲集1995-2015(艺文志·日本思想)
《 思想地震:柄谷行人演讲集1995-2015(艺文志·日本思想) 》

售價:HK$ 66.7
大国人口
《 大国人口 》

售價:HK$ 90.9
何以中国·君臣:宋代士大夫政治下的权力场
《 何以中国·君臣:宋代士大夫政治下的权力场 》

售價:HK$ 112.7

 

建議一齊購買:

+

HK$ 95.7
《兽医药理学》
+

HK$ 123.9
《中国文学理论批评史教程(修订本)》
+

HK$ 30.3
《工程数学 线性代数 第六版》
+

HK$ 112.2
《药理学(第9版/本科临床/配增值)》
+

HK$ 49.6
《有机农业概论(第2版)》
+

HK$ 62.3
《植物学》
編輯推薦:
北京市优质本科教材;国家级一流本科课程、国家精品开放在线课程“数据科学导论”的配套教材;一本系统讲解全球范围内的数据科学的新理论与代表性实践的好书。
內容簡介:
《数据科学理论与实践》(第3版)重点讲解数据科学的核心理论与代表性实践,在编写过程中充分借鉴了国外著名大学设立的相关课程以及全球畅销的外文专著,同时考虑了国内相关课程定位与专业人才的培养需求。内容包括数据科学的基础理论、理论基础、流程与方法、技术与工具、数据产品及开发、典型案例及实践和附录等。 《数据科学理论与实践》(第3版)的读者范围很广,可以满足数据科学与大数据技术、计算机科学与技术、管理工程、工商管理、数据统计、数据分析、信息管理与信息系统等专业的教师和学生(含硕士生和博士生)的教学与自学需要。
目錄
第1章基础理论

1.1术语定义
1.2研究目的
1.3研究视角
1.4发展简史
1.5理论体系
1.6基本原则
1.7相关理论
1.8人才类型

习题
参考文献
第2章理论基础

2.1数据科学的学科地位
2.2统计学
2.3机器学习
2.4数据可视化

习题
参考文献
第3章流程与方法

3.1基本流程
3.2数据加工
3.3数据审计
3.4数据分析
3.5数据可视化
3.6数据故事化
3.7数据科学项目管理

习题
参考文献
第4章技术与工具

4.1数据科学的技术体系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL与NewSQL
4.6R与Python
4.7数据湖与湖仓一体化
4.8发展趋势

习题
参考文献
第5章数据产品及开发

5.1定义
5.2主要特征
5.3关键活动
5.4数据柔术
5.5数据能力
5.6数据战略
5.7数据治理
5.8数据安全、隐私、道德与伦理

习题
参考文献
第6章典型案例及实践

6.1统计分析
6.2机器学习
6.3数据可视化
6.4Spark编程
6.52012年美国总统大选

习题
参考文献
附录A本书案例的R语言版代码
附录B数据科学的重要资源
附录C大数据与数据科学领域的名人名言
附录D术语索引






图目录
图11传统统计学中的总体与样本的关系3
图12DIKW 金字塔模型3
图13数据与数值的区别5
图14数字信号与模拟信号5
图152010—2025年全球数据规模估计和预测数据(单位: ZB)6
图16大数据的特征7
图17大数据的本质8
图18人工智能、机器学习和深度学习的区别与联系10
图19数据洞见11
图110业务数据化与数据业务化11
图111常用驱动方式12
图112数据的层次性12
图113大数据生态系统示意图13
图114数据科学的新研究视角14
图115Gartner技术成熟度曲线16
图116数据科学的萌芽期(1974—2009年)16
图117数据科学的快速发展期(2010—2013年)17
图118数据科学的逐渐成熟期(2014年至今)18
图119数据科学的理论体系20
图120数据科学的主要内容20
图121数据科学的“三世界原则”22
图122科学研究范式23
图123数据科学的“三个要素”及“3C精神”24
图124计算密集型应用与数据密集型应用的区别25
图125算法的性能与可解释的矛盾25
图126数据范式与知识范式的区别26
图127数据管理范式的变化27
图128数据的“资产”属性27
图129常用驱动方式29
图130CAPTCHA方法的应用30
图131ReCAPTCHA项目31
图132数据与算法之间的关系31
图133BellKors Pragmatic Chaos团队获得Netflix大奖32
图134Netflix大奖公测结果33
图135数据科学与商务智能的区别与联系34
图136数据科学与数据工程在企业应用中的区别与联系35
图137数据科学的DevOps35
图138DevOps的流程及常用工具36
图139DevOps生命期流程36
图140数据科学人才类型及其收入37
图141RStudio中编辑Markdown的窗口39
图142数据科学家团队42
图143大数据人才应具备的不同知识结构44
图144学习数据科学的四则运算原则48
图21数据科学的理论基础55
图22Jeffrey D.Ullman对Conway的数据科学维恩图的评价57
图23Jeffrey D.Ullman提出的数据科学维恩图57
图24统计方法的分类(行为目的与思路方式视角)58
图25统计学中的数据推断59
图26数据统计方法的类型(方法论视角)59
图27数据统计基本方法60
图28元分析与基本分析60
图29GFT预测与美国疾病控制中心数据的对比62
图210GFT估计与实际数据的误差(2013年1月)63
图211大数据时代的思维模式的转变64
图212西洋双陆棋65
图213机器人驾驶65
图214机器学习的示意图66
图215机器学习的三要素68
图216机器学习的类型69
图217KNN算法的基本步骤70
图218决策树示例——识别鸟类73
图219MP神经元的结构74
图220前向神经网络75
图221归纳学习与分析学习77
图222增强学习77
图223深度学习与传统机器学习的区别78
图224机器学习的类型79
图225IBM Watson80
图226Pepper机器人81
图227可解释性人工智能系统82
图228机器学习中的数据83
图229Anscombe四组数据的可视化88
图230John Snow所绘的地图88
图231在Tableau中加利福尼亚州政府收入来源数据的可视化89
图31数据科学的基本流程93
图32量化自我94
图33干净数据与规整数据的区别95
图34规整数据示意图96
图35残差99
图36数据分析的类型100
图37Analytics 1.0~3.0101
图38数据加工方法102
图39数据审计与数据清洗104
图310缺失数据处理的步骤104
图311冗余数据处理的方法104
图312数据分箱处理的步骤与类型106
图313均值平滑与边界值平滑106
图314内容集成109
图315结构集成109
图316数据脱敏111
图317数据连续性的定义及重要性115
图318可视化审计示例116
图319Gartner分析学价值扶梯模型117
图320数据分析的类型及方法对应关系118
图321冰激凌的销售量与谋杀案的发生数量119
图322数据分析的类型121
图323拿破仑进军俄国惨败而归的历史事件的可视化123
图324可视分析学的相关学科124
图325可视分析学模型124
图326数据可视化的方法体系125
图327视觉图形元素与视觉通道126
图328雷达图示例126
图329齐美尔连带126
图330视觉隐喻的示例——全球变暖127
图331地铁路线图的创始人Henry Beck128
图332Henry Beck的伦敦地铁线路图128
图333视觉突出的示例129
图334完图法则的示例129
图335黄金比例示意图131
图336黄金比例示意图1131
图337黄金比例示意图2132
图338视觉通道的精确度对比132
图339视觉通道的可辨认性133
图340上下文导致视觉假象1133
图341上下文导致视觉假象2133
图342对亮度和颜色的相对判断容易造成视觉假象的示例134
图343文学故事与数据故事的对比138
图344数据的可视化和数据的故事化的区别和联系138
图345数据故事的金字塔模型141
图346数据故事化的作用143
图347数据故事认知的PCA模型143
图348KISS原则144
图349项目管理的主要内容145
图412017大数据产业全景图152
图42大数据参考架构154
图43MapReduce执行过程156
图44MapReduce对中间数据的处理160
图45以MapReduce为核心和以YARN为核心的软件栈对比162
图46下一代MapReduce框架163
图47Apache的Hadoop项目163
图48Hadoop生态系统164
图49Hadoop MapReduce数据处理过程165
图410Apache Hive官方网站167
图411Apache Pig官方网站168
图412Apache Mahout官方网站169
图413Apache HBase官方网站169
图414HBase与Hadoop项目170
图415HBase的逻辑模型171
图416Apache ZooKeeper官方网站172
图417Apache Flume官方网站173
图418Apache Sqoop官方网站174
图419Spark技术架构175
图420Spark的基本流程176
图421Spark的执行步骤181
图422Lambda 架构的主要组成部分183
图423传统关系数据库的优点与缺点184
图424关系数据库技术与NoSQL技术之间的关系186
图425NoSQL数据分布的两个基本途径187
图426分片处理188
图427主从复制189
图428对等复制190
图429数据不一致性191
图430CAP理论192
图431CAP理论的应用策略192
图432Memcached官方网站195
图433一致性散列的分配方式196
图434服务器增加时的变化197
图435Databricks的Delta Lake数据管理架构201
图436云计算的演变过程202
图437数据管理的新变化204
图4382021年数据科学及机器学习平台的魔术象限207
图439基于Databricks的统一分析平台的架构209
图51数据产品开发中的数据与数据柔术216
图52知识范式与数据范式218
图53数据产品的多样性219
图54数据产品的层次性220
图55Google全球商机洞察221
图56数据产品链222
图57传统产品开发与数据产品开发的区别223
图58D.J.Patil223
图59UI(User Interface)设计方案与设计思维225
图510Google搜索的用户体验226
图511人与计算机图像内容识别能力的不同226
图512Amazon Mechanical Turk平台228
图513一个HIT的生命周期228
图514基于人与计算机的数据处理成本曲线229
图515亚马逊的数据产品——其他商家(Other Sellers)230
图516LinkedIn的数据产品——你可能认识的人们231
图517LinkedIn的数据产品——你的观众是谁231
图518逆向交互定律232
图519LinkedIn的数据产品——岗位推荐234
图520LinkedIn的数据产品——帮助你的朋友找到工作235
图521Facebook的良好用户体验235
图522DMM模型基本思路238
图523CMM基本思想239
图524CMM成熟度等级240
图525DMM关键过程域241
图526DMM层级划分及描述243
图527IDEAL模型245
图528组织机构数据管理能力成熟度评估结果的可视化246
图529DoD数据战略框架247
图530数据战略与数据管理目标的区别248
图531数据战略的目标248
图532数据战略的侧重点249
图533数据战略的范畴249
图534数据管理与数据治理的区别250
图535IBM提出的企业数据管理的范畴251
图536数据治理的PDCA模型252
图537DGI数据治理框架253
图538P2DR模型255
图539从欧洲大陆的空战中返回的轰炸机256
图61KMeans算法的基本步骤287
图62奥巴马2012年总统竞选芝加哥总部307
图63George Clooney308
图64Sarah Jessica Parker308
图65奥巴马及“快速捐赠计划”310
图66奥巴马通过Reddit与选民互动311
图672012年美国总统竞选财务数据官方网站312
图A1女性体重与身高的线性回归分析334
图A2工资数据的可视化347
图A3起飞延误时间359
图A4到达延误时间359
图A5捐助人职业、党派及捐助额度分析372
图A6分箱处理后的捐款数据可视化373
图A7捐款日期与金额的可视化374
图A8捐款月份与金额变化分析375
图A9投票结果的可视化377







表目录
表11结构化数据、非结构化数据与半结构化数据的区别与联系5
表12数据量及大小6
表13某位数据科学家的画像40
表21参数估计与假设检验的主要区别59
表22统计学与机器学习的术语对照64
表23机器学习的相关学科69
表24已知6部电影的类型及其中出现的接吻次数和打斗次数71
表25已知电影与未知电影的距离71
表26分析学习和归纳学习的比较77
表27深度学习与传统机器学习的应用场景比较79
表28Anscombe的四组数据87
表31测试数据A96
表32测试数据B96
表33测试数据C96
表34Pew论坛部分人员信仰与收入数据统计(规整化处理之前)97
表35Pew论坛部分人员信仰与收入数据统计(规整化处理之后)97
表36探索性统计中常用的集中趋势统计量99
表37探索性统计中常用的离散程度统计量99
表38探索性统计中常用的数据分布统计量99
表39常见的数据变换策略107
表310过滤式方法与包裹式方法的区别107
表311十进制第一数字的使用概率114
表312数据分析中常见错误121
表313数据类型及所支持的操作类型130
表314数据类型与视觉通道的对应关系130
表315数据故事与文学故事的区别139
表316数据故事化的相关概念及其区别142
表317数据科学项目中的主要角色及其任务145
表41Transformation常用函数178
表42Action常用函数178
表43RDD的存储级别179
表44Spark数据类型和R数据类型之间的映射关系182
表45较有代表性的云数据库产品186
表46NoSQL数据库中常用的数据模型187
表47R与Python对比198
表48数据湖与数据仓库的对比200
表49云计算的基本类型203
表410数据科学平台的分类206
表411数据科学及机器学习平台的魔术象限208
表51数据转换与数据加工的区别217
表52Google公司的十大产品和服务217
表53数据管理原则237
表54数据管理成熟度模型的过程域分类242
表55信息系统安全等级及保护基本要求254
表56肾结石治疗数据分析——两种治疗方案的分别统计258
表57两种治疗方案的汇总统计258
表61数据集women268
表62Protein数据集286
表63工资信息294
表64各字段的名称及含义312
表A1Spark版本差异性351
表A2Spark与R的数据类型对比352
表A3SparkR与sparklyr比较360
內容試閱
本书为作者负责建设的国家级一流本科课程“数据科学导论”的配套教材。自第2版出版以来,已成为我国数据科学领域出版最早、影响力很大的经典教材之一,于2020年荣获“北京市高等学校优质本科教材”称号。本书第3版主要从以下5方面进行修订:
(1) 实时更新知识内容。数据科学仍处于快速发展和迭代期,新理论和新实践不断涌现,而且有些理念与工具已经过时。为此,本版根据数据科学领域的理论与实践进展,更新、删减和补充知识点,力争教材具备更高的实用价值。例如,更新了Gartner数据科学及机器学习平台魔力象限、全球数据规模估计和预测数据、数据科学的发展史、非专业级数据科学家(Citizen Data Scientist)、数据科学项目中常见错误等内容; 新增了数据湖及湖仓一体化、统一分析(Unified Analytics)、数据管理原则、《中华人民共和国个人信息保护法》目录、《中华人民共和国数据安全法》目录、数据攻击和谷歌炸弹以及机器学习的可解释性等内容。
(2) 更加符合学习者的需要。根据相关高校教师的教材使用反馈,进一步优化教材结构与内容,使其更加符合课堂教学和自学的需要。同时,结合作者在中国人民大学开设的“数据科学导论”(本科)、“数据科学理论与实践”(硕士)、“信息分析前沿研究”(博士)三门课程,建设国家精品开放在线课程“数据科学导论”的教学经验以及在企事业单位担任首席数据科学家和参与部分高校数据科学专业建设的经验,并结合自己在数据科学与大数据技术领域的学术研究,对本书内容进行了调整与优化。例如,重写了机器学习部分的解读,补充了深度学习的知识,增减了部分章节。
(3) 对标世界一流大学的数据科学教材。自2012年以来,作者每年坚持调研世界一流大学的数据科学教材和课程建设现状,确保本书内容与世界一流大学数据科学课程的教材无缝对接,为我国相关专业的人才培养提供较为权威的参考方案。例如,补充了Drew Conway的数据科学维恩图的讨论及Jeffrey D.Ullman的改进; 重写了数据故事化部分; 重写了数据可视化的知识; 调整了CAP理论的解读; 补充了美国国防部数据战略框架的介绍; 新增了伯克森悖论(Burkson Paradox)以及机器学习中的性能与可解释性之间的矛盾的解读。
(4) 聚焦社会对数据科学人才的能力要求。从2015年开始,作者每年坚持跟踪调研数据科学领域的岗位面试题、用人单位招聘信息中的能力要求及岗位职责,并将调研结果及时吸收至本书内容之中。例如,加强了对数据驱动、特征工程、DevOps、数据误用、数据分析的能力和经验解读; 新增了Ghavami的八个分析法则、数据湖及湖仓一体化、非专业级数据科学家的能力要求以及大数据与数据科学领域的名人名言等实用性较强的内容。
(5) 同步更新本书配套资源。按照作者首次提出的“开源课程倡议”,在GitHub上建立配套社区,与同行老师共同维护课程资源,并重画了部分重要图表,更新了所有教学资源,使本书内容更加符合我国大数据人才培养的需求。
本书旨在系统讲解数据科学领域的经典理论与最佳实践,满足不同层次读者的需求。因此,建议读者结合自己的教学或学习需要,对本书进行定制使用,参考方案如表1所示。

表1本书的教学与学习建议

内容
导论类课程非导论类课程
非大数据类
专业大数据类
专业本科
低年级本科高年级
或硕士
第1章基础理论




第2章理论基础


第3章流程与方法



第4章技术与工具


第5章数据产品及开发



第6章典型案例及实践




注: 与数据科学相关的导论类课程有“数据科学导论”“大数据导论”“数据科学与大数据技术导论”等; 非导论类课程有“数据科学”“数据科学理论与实践”“数据科学原理与实践”“数据科学方法与技术”等; 常见的大数据类专业有数据科学与大数据技术、大数据管理与应用、大数据技术与应用和大数据分析等。
朝乐门
2022年8月18日

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.