新書推薦:
《
万有引力书系 纳粹亿万富翁 德国财富家族的黑暗历史
》
售價:HK$
109.8
《
中国常见植物野外识别手册:青海册
》
售價:HK$
76.2
《
三星堆对话古遗址(从三星堆出发,横跨黄河流域,长江流域,对话11处古遗址,探源多元一体的中华文明)
》
售價:HK$
87.4
《
迷人的化学(迷人的科学丛书)
》
售價:HK$
143.4
《
宋代冠服图志(详尽展示宋代各类冠服 精美插图 考据严谨 细节丰富)
》
售價:HK$
87.4
《
形似神异:什么是中日传统政治文化的结构性差异
》
售價:HK$
55.8
《
养育不好惹的小孩
》
售價:HK$
77.3
《
加加美高浩的手部绘画技法 II
》
售價:HK$
89.4
|
編輯推薦: |
采用科学的自学模式:引例→结论→案例分析→习题,结合业界学界真实案例,详解大数据分析技术中的数学知识。
|
內容簡介: |
本书分为10章,其中第1~9章探讨了排序、推荐系统、聚类、线性回归等内容,每章都以一个具体的实际问题开始,其主要目的是激发对某一特定大数据分析技术的研究。接下来探讨其背后的数学原理——包括重要的定义、辅助陈述和得出的结论。案例研究有助于将所学知识应用于跨学科的环境中,包括对逐步任务的描述和有用的提示。每章之后都配有习题,作为自学中不可缺少的一部分,有助于提高对基础理论的理解。第10章提供了前9章的习题答案,以及Python代码中的算法描述作为补充材料。本书适合作为大数据分析、应用数学及相关专业的研究生和高年级本科生。
|
目錄:
|
第1章 排序 1
1.1 研究动因:谷歌问题 1
1.2 研究结果 4
1.2.1 Perron-Frobenius定理 4
1.2.2 PageRank 8
1.3 案例研究:品牌忠诚度 14
1.4 练习 17
第2章 在线学习 19
2.1 研究动因:投资组合选择 19
2.2 研究结果 22
2.2.1 在线镜像下降 22
2.2.2 熵设定 29
2.3 案例分析:专家建议 33
2.4 练习 34
第3章 推荐系统 37
3.1 研究动因:Netflix大赛 37
3.2 研究结果 38
3.2.1 基于近邻的方法 38
3.2.2 基于模型的方法 41
3.3 案例分析:潜在语义分析 52
3.4 练习 54
第4章 分类 56
4.1 研究动因:信用调查 56
4.2 研究结果 57
4.2.1 Fisher判别规则 57
4.2.2 支持向量机 64
4.3 案例分析:质量控制 72
4.4 练习 74
第5章 聚类 77
5.1 研究动因:DNA测序 77
5.2 研究结果 79
5.2.1 k-均值算法 79
5.2.2 谱聚类 82
5.3 案例分析:主题抽取 88
5.4 练习 91
第6章 线性回归 93
6.1 研究动因:计量经济学分析 93
6.2 研究结果 95
6.2.1 最小二乘法 95
6.2.2 岭回归 102
6.3 案例分析:资本资产定价 107
6.4 练习 109
第7章 稀疏恢复 112
7.1 研究动因:变量选择 112
7.2 研究结果 114
7.2.1 Lasso回归 114
7.2.2 迭代阈值收缩算法 119
7.3 案例分析:压缩感知 124
7.4 练习 126
第8章 神经网络 127
8.1 研究动因:神经细胞 127
8.2 研究结果 129
8.2.1 逻辑回归 129
8.2.2 感知机 135
8.3 案例分析:垃圾邮件过滤 140
8.4 练习 143
第9章 决策树 145
9.1 研究动因:泰坦尼克号幸存率 145
9.2 研究结果 148
9.2.1 NP完全性 148
9.2.2 自上而下的和自下而上的启发式算法 154
9.3 案例研究:国际象棋引擎 157
9.4 练习 160
第10章 练习题解 163
10.1 排序 163
10.2 在线学习 169
10.3 推荐系统 174
10.4 分类 182
10.5 聚类 189
10.6 线性回归 198
10.7 稀疏恢复 205
10.8 神经网络 210
10.9 决策树 216
参考文献 228
索引 231
英文索引 236
|
內容試閱:
|
本书主题
大数据分析(big data analytics)是一个相对现代的数据科学领域,这一领域专注探索如何分解和分析可用的数据集,以便更加系统地收集信息和结论。大数据分析的特点是待处理的数据量太大、太复杂、变化太快、收集成本太高、数据间的关联太弱,因此无法通过传统的人工处理方法进行评估。这也就是我们常说的大数据5V(Five Vs)的概念:
* 数据量(Volume)是指公司、研究机构和家庭产生和存储的大量数据;
* 多样性(Variety)反映了数据类型和数据源的多样性,包括消费者档案、社会联系、文本、图像、视频、语音等;
* 速度(Velocity)意味着数据以很高的速度不断生成、分析和再处理,以支持底层决策;
* 有效性(Validity)是数据质量的保证,或者说代表了数据的真实性和可信度,大数据中的数据元素往往遇到测量不准确等情况;
* 价值(Value)来自成本效益分析,它表示了系统地收集和使用业务活动中的数据为公司产生的积极影响。
总体来说,大数据现在的5V挑战是提出足够的概念和算法,旨在有效地捕获、存储、处理或利用数据。
本书宗旨
本书介绍了大数据分析中使用的基本数学模型,并对相关实际问题进行了应用参考。本书使用了必要的数学工具,并将它们应用于当前的数据分析问题,进一步跨学科应用于生物学、语言学、社会学、电气工程、计算机科学和人工智能等领域,本书给出的例子包括DNA测序、主题提取、社区检测、压缩感知、垃圾邮件过滤和国际象棋引擎等。对于模型,我们使用了大量的数学知识和方法------从基本的数值线性代数、统计学和优化到更专业的游戏、图甚至复杂性理论。本书涵盖了大数据分析中所有常用的相关技术,在本书中体现为排序、在线学习、推荐系统、分类、聚类、线性回归、稀疏恢复、神经网络和决策树等章节。本书章节的结构和篇幅都是标准化的,以方便学生和教师使用。
本书的每一章都从一个具体的实际问题(研究动因)开始,其主要目的是激发对特定大数据分析技术的研究。接下来用数学方法阐述研究结果,包括重要的定义、辅助语句和由此产生的结论。案例分析则通过在跨学科背景下应用它来加深所获得的知识。案例分析包括对逐步完成的任务的描述,并伴随着有用的提示。练习部分作为读者自学不可或缺的一部分,有助于提高读者对基础理论的理解。本书最后一章附有完整的习题解答,可供有兴趣的读者参考和查阅。对于一些算法,我们也提供了Python代码作为补充材料。
目标读者
本书的目标读者群体包括学习大数据分析课程的高年级本科生及研究方向为大数据分析(包括其数学基础和相关应用)的研究生。在过去的几年里,与大数据分析相关的硕士学位项目,如数据工程与分析、计算与数据科学、大数据与商业分析、管理与数据科学、社会与经济数据科学、数据分析与决策科学、大数据管理、商业与经济数据科学、机器学习等,在世界最好的大学中数量激增。通常,这些学位项目是由经济学家、数学家、计算机科学家或工程师组织的,这意味着学生的背景和技能会有一定的多样性。本书通过仔细阐述大数据分析的数学基础,并且提供几乎所有重要研究领域的应用,来迎合这种跨学科性。学习本书所需的前置数学知识水平与本科高等数学、线性代数、概率论与数理统计等课程的难度相当,适合各专业的学生学习。从事数据领域的专业人士都将从熟悉大数据分析中获益,因为这个领域在各行各业中扮演着越来越重要的角色。此外,本书的研究生读者可以更深入地了解数据科学领域,意识到这一领域已经对我们的社会产生了重大影响和改变,并有望在未来为其进一步的发展做出贡献。
致谢
首先,感谢弗雷德里希·希森(Friedrich Thie{\\ss}en)和彼得·格鲁乔斯基(Peter Gluchowski),他们于2017年在德国开姆尼茨理工大学开始了“大数据分析的数学基础”课程的开发。作为金融学项目硕士和商务智能与分析硕士项目的负责人,希森和格鲁乔斯基要求我们设计一门跨学科的数据分析课程作为相应课程的一部分。希森在审阅与数据科学相关的实际问题与经济利益问题方面,对本书的撰写帮助很大。格鲁乔斯基与我们进行了大量关于课程结构和材料选择的讨论,回过头看,这些讨论是至关重要的。
其次,感谢开姆尼茨理工大学数学系的同事Oliver Ernst, Roland Herzog, Alois Pichler和Martin Stoll。早在2018年,我们就开始合作数据科学硕士项目,对“大数据分析的数学基础”这门课程的教学进行不断的尝试和完善。通过与这些同事就数据科学的教学进行有趣的对话,我们对这门课的体悟也得到了提升,从而形成了现在这样一本书。
再次,感谢施普林格出版社(Springer)的Iris Ruhmann在稿件准备过程中给予我们的建议和支持。她对于我们“将数学知识引入跨学科环境”的创新观点非常支持。我们也要感谢Greta Marino和Rory Sarkissian仔细检查了手稿的部分内容。
最后,我们的学生指出了本书的部分错别字和不准确的表述,在此一并表示感谢。
作者
2020年8月于德国开姆尼茨
|
|