新書推薦:
《
不在场证明谜案(超绝CP陷入冤案!日本文坛超新星推理作家——辻堂梦代表作首次引进!)
》
售價:HK$
58.2
《
明式家具三十年经眼录
》
售價:HK$
524.2
《
敦煌写本文献学(增订本)
》
售價:HK$
221.8
《
耕读史
》
售價:HK$
109.8
《
地理计算与R语言 [英] 罗宾·洛夫莱斯 [德]雅纳·蒙乔 [波兰] 雅库布·诺沃萨德
》
售價:HK$
121.0
《
沈括的知识世界:一种闻见主义的实践(中华学术译丛)
》
售價:HK$
87.4
《
大思维:哥伦比亚商学院六步创新思维模型
》
售價:HK$
72.8
《
宏观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
》
售價:HK$
155.7
內容簡介:
本书着重介绍分布式计算的思想其及在统计学以及机器学习中的应用,将传统统计学与机器学习中的经典方法和现代分布式算法相结合,强化学生的分布式统计计算的编程能力和对相关方法的理解,努力在统计计算和分布式计算之间搭建起一座桥梁。本书亦围绕统计学中的不同问题提供了丰富的实际案例以及详细的实现代码,从而帮助使用者快速理解相关分布式的核心思想,提升编程能力,进而可以熟练地进行大数据的统计分析和研究。
本书可作为统计学与数据科学等相关专业高年级本科生与研究生教材,也可用作相关大数据分析方向从业者与研究者的参考书。
關於作者:
冯兴东 上海财经大学统计与管理学院院长、统计学教授、博士生导师。研究领域为数据降维、稳健回归、分位数回归以及在经济问题中的应用、大数据统计计算、强化学习等,在国际统计学期刊Journal of the American Statistical Association、Annals of Statistics、Journal of the Royal Statistical Society Series B、Biometrika以及人工智能会议NeurIPS上发表论文多篇。2018年入选国际统计学会推选会员,2019年担任全国青年统计学家协会副会长以及全国统计教材编审委员会第七届委员会专业委员(数据科学与大数据应用组),2020年成为第八届国务院学位委员会学科评议组(统计学)成员,2022年担任全国应用统计专业学位研究生教育指导委委员,2023年担任全国工业统计学教学研究会副会长以及中国数学会概率统计分会常务理事,2022年起兼任国际统计学权威期刊Annals of Applied Statistics编委以及国内统计学权威期刊《统计研究》编委。
贺 莘 上海财经大学统计与管理学院副教授、博士生导师。主要研究领域为统计机器学习及其在经济金融、医学健康中的应用,研究成果发表在Journal of Machine Learning Research、Journal of the American Statistical Association、Journal of Computational and Graphical Statistics、Electronic Journal of Statistics、Statistica Sinica、Thyroid等国际权威期刊上。主持国家自然科学基金青年项目一项以及上海市浦江人才计划项目一项。
目錄 :
第 1 章 Apache Spark 简介
1.1 Apache Spark 的历史与现状
1.2 安装和运行 Apache Spark
1.3 Apache Spark 编程简介
1.4 Scala 语言简介
1.4.1 Scala 开发环境配置及 IntelliJ IDEA
1.4.2 Scala 编程简介
1.4.3 PySpark 编程简介
1.5 Spark 编程
1.5.1 Spark 系统简介
1.5.2 弹性分布式数据集
1.5.3 RDD 文件上的操作
1.5.4 Spark 中两个抽象概念
1.6 公共数据集
第 2 章 Breeze 程序包
2.1 创建向量、矩阵及其简单计算
2.2 整行或整列的运算
2.3 常用数学计算
2.4 常用分布
2.5 基于 Breeze 包的分布式计算
第 3 章 随机模拟和统计推断
3.1 随机数的产生
3.1.1 逆累积分布函数法
3.1.2 拒绝法
3.1.3 示例:从回归模型中模拟数据
3.2 EM 优化
3.2.1 EM 算法
3.2.2 收敛性分析
3.2.3 分布式 EM 算法
3.2.4 示例:高斯混合模型
第 4 章 马尔科夫链蒙特卡洛方法
4.1 Metropolis-Hastings 算法
4.2 Slice 取样法
4.3 Gibbs 取样法
第 5 章 优化算法
5.1 数值计算方法
5.1.1 (随机) 梯度下降算法
5.1.2 示例:分布式的线性回归估计
5.2 近端梯度算法
5.2.1 算法介绍
5.2.2 示例:基于近端梯度算法的分布式 Lasso 回归参数估计
5.3 交替方向乘子法
5.3.1 算法介绍
5.3.2 示例:分位数回归分布式参数估计
5.4 有限内存 BFGS 算法
第 6 章 自举法
6.1 自由自举法
6.2 子集合自举法
第 7 章 常用统计机器学习方法
7.1 聚类分析
7.1.1 K 组中心法
7.1.2 隐狄利克雷分配法
7.1.3 功效迭代聚类法
7.2 分类分析
7.2.1 逻辑回归
7.2.2 线性支持向量机
7.2.3 线性判别分析
7.2.4 决策树
7.3 数据降维
7.3.1 基于正则化的稀疏性方法
7.3.2 示例:SCAD、MCP 等正则化项的 Scala 代码实现
7.3.3 主成分分析
7.3.4 奇异值分解
7.3.5 示例:基于分布式计算的主成分分析
7.4 集成学习方法
7.4.1 基于 Bagging 算法?D?D以随机森林为例
7.4.2 基于 Boosting 算法?D?D以 AdaBoost 为例
7.4.3 基于树的集成学习算法
7.4.4 示例:航班延误预测分类
第 8 章 主流分布式算法简介
8.1 分治法
8.1.1 算法思想介绍
8.1.2 分治法在统计学习中的应用
8.1.3 示例:线性支持向量机
8.2 基于梯度更新的分布式算法
8.2.1 算法介绍
8.2.2 示例:基于近端梯度算法的 Lasso 问题求解
8.2.3 示例:非参数岭回归
8.3 联邦学习算法简介
8.3.1 算法分类
8.3.2 联邦平均算法介绍
8.3.3 安全联邦线性回归
第 9 章 案例集
9.1 案例一:基于 MM 算法和 EM 算法的负二项分布参数估计
9.1.1 负二项分布
9.1.2 MM 算法的负二项分布参数估计求解
9.1.3 EM 算法的负二项分布参数估计求解
9.1.4 数值模拟
9.1.5 实证分析
9.1.6 结论
9.1.7 源码附录
9.2 案例二:基于 EM 算法的混合指数分布参数估计
9.2.1 混合指数分布简介
9.2.2 EM 算法
9.2.3 Spark 实现
9.2.4 效果评估
9.2.5 源码附录
9.3 案例三:基于 EM 算法的有限混合泊松分布的参数估计
9.3.1 有限混合泊松分布简介
9.3.2 参数估计的 EM 算法
9.3.3 E
內容試閱 :
对于数据分析,有几个事实必须明确,并严肃对待:,绝大多数成功的数据分析案例需要可靠的数据预处理。尤其对于大规模的数据,合格的预处理必不可少。第二,迭代重复可能是数据科学的基础步骤。也就是说,我们需要不断迭代使用数据集进行建模分析。第三,即使一个成功的建模过程已经结束,数据分析任务仍未完成。面对非专业客户,我们不能只是满足于提供一个模型系数之类的东西。在真实的应用场景中,数据科学家需要提供真实的决策依据,需要追踪模型的运行情况并想方设法提高其执行效率或者预测精度。